6.29 Thu.
15:00~15:50
バックエンド
大規模な分散機械学習を支える NVIDIA H100 Kubernetes クラスタとそのエコシステム
CyberAgent group Infrastructure Unit(CIU)では、機械学習を用いた開発における課題を解決するためにML Platformという社内向け機械学習基盤を開発しています。この基盤では日々様々なタスクが実行されており、その中でも画像生成・自然言語処理モデルのサイズは年々大きくなっています。また、モデルのパラメーター数も指数関数的に増加しており、それに伴い大規模な計算リソースが不可欠になっています。本セッションでは大規模なGPUクラスタを実現するためのアーキテクチャや、分散学習をKubernetesで実行するためのエコシステムについて紹介いたします。