6.29 Thu.

15:00~15:50

バックエンド

大規模な分散機械学習を支える NVIDIA H100 Kubernetes クラスタとそのエコシステム

CyberAgent group Infrastructure Unit(CIU)では、機械学習を用いた開発における課題を解決するためにML Platformという社内向け機械学習基盤を開発しています。この基盤では日々様々なタスクが実行されており、その中でも画像生成・自然言語処理モデルのサイズは年々大きくなっています。また、モデルのパラメーター数も指数関数的に増加しており、それに伴い大規模な計算リソースが不可欠になっています。本セッションでは大規模なGPUクラスタを実現するためのアーキテクチャや、分散学習をKubernetesで実行するためのエコシステムについて紹介いたします。

登壇者

  • 漆田 瑞樹

    ソフトウェアエンジニア

    Githubを開くTwitterを開く

    2018 年新卒入社。グループ IT 推進本部 CIU 所属。入社当初はプライベートクラウドの開発・運用を経験。現在はそのクラウドを生かした社内サービスとして Kubernetes + Kubeflow を用いた機械学習基盤、Kubernetes のマネージドサービスの開発に従事。また、2021 年から開発と並行して機械学習基盤のプロダクトマネージャーも務める。

関連セッション

関連リンク