NTTコミュニケーションズは、次世代情報通信インフラ「IOWN構想」のキーテクノロジーである「オールフォトニクスネットワーク」で接続された3つのデータセンターにGPUサーバ「NVIDIA H100」を分散配置した環境を構築。この環境において、「NVIDIA NeMo」を用いた大規模言語モデル「tsuzumi」の学習に成功。これは世界初。3月19日に発表。2024年10月7日、NTT Comが三鷹と秋葉原の2DC間でAPNを利用したGPUクラスタの検証を行い、有効性を確認(参考記事)。DCの分散配置を進めることで、余剰GPUサーバの再利用など、GPUリソースの最適配分がより現実的になります。
また、各地域のDCを活用し、複数拠点でコンピューティングを分散することで、電力コストの削減と持続可能な運用を実現します。今回の実証実験では、ポイント・トゥ・ポイントで接続される分散DCを、従来の2拠点から川崎を含む3拠点に拡大。これにより、コンピューティング・インフラの運用に新たな柔軟性が生まれます。NTTコムによると、A、B拠点に加え、C拠点を活用することで、地域の電力供給量や価格に応じて、顧客のニーズに応じた複数の運用パターンを選択することが可能になるとのこと。また、ネットワークの観点からは、近い拠点間ではより低遅延なワークロードを、遠い拠点間では電力効率を考慮したワークロードを、といった利用者の特性に応じた分散学習・推論のスケジューリングの可能性も実現できます。
具体的には、川崎、三鷹、秋葉原のそれぞれ25~50kmほど離れた3つのDCにNVIDIAアクセラレーションサーバを分散配置し、IOWNのAPNで100Gbpsの回線で接続。3拠点のGPUサーバーの連携にはNVIDIA NeMoを使用し、tsuzumiの軽量モデル「7B」の分散学習を実施。1拠点での学習に比べ、インターネットを想定した帯域制限のあるTCP通信を用いた分散DCでは9.187倍の時間を要しました。しかし、IOWN APNによる分散DCでは1.105倍となり、単一DCとほぼ同等の性能を発揮できることが確認できました。NTT Comでは、今後も分散DCの拠点数の増加や距離の延長、分散DCにおける通信方式やGPUリソースの最適化などを検証する実証実験を実施。また、全国70拠点以上のDCとお客様ビルを接続できる「APN専用線プラン powered by IOWN」と、液冷サーバに対応した超省エネDCサービス「Green Nexcenter」を組み合わせたGPUクラウドソリューションの提供を目指します。NTTコミュニケーションズ(NTT Com)は、次世代情報通信インフラ「IOWN構想」のキーテクノロジーであるAPN(All Photonics Network)で接続された3つのデータセンター(DC)に、GPUサーバ "NVIDIA H100″を分散配置した環境を構築しました。この環境において、「NVIDIA NeMo」を用いた大規模言語モデル(LLM)「tsuzumi」の学習に成功しました。これは世界初。3月19日に発表されました。2024年10月7日、NTT Comは、三鷹と秋葉原の2つのDC間でAPNを利用したGPUクラスタの検証を行い、その有効性を確認(参考記事)。DCの分散配置を進めることで、余剰GPUサーバの再利用など、GPUリソースの最適配分がより現実的になります。
こちらもお読みください: ASUS、NVIDIA GB10 Grace Blackwell Superchipを搭載したAIスーパーコンピュータ「ASUS Ascent GX10」を発表
また、各地域のDCを活用し、複数拠点でコンピューティングを分散することで、電力コストの削減と持続可能な運用を実現します。今回の実証実験では、ポイント・トゥ・ポイントで接続される分散DCを、従来の2拠点から川崎を含む3拠点に拡大。これにより、コンピューティング・インフラの運用に新たな柔軟性が生まれます。NTTコムによると、A、B拠点に加え、C拠点を活用することで、地域の電力供給量や価格に応じて、顧客のニーズに応じた複数の運用パターンを選択することが可能になるとのこと。また、ネットワークの観点からは、近い拠点間ではより低遅延なワークロードを、遠い拠点間では電力効率を考慮したワークロードを、といった利用者の特性に応じた分散学習・推論のスケジューリングの可能性も実現できます。
具体的には、川崎、三鷹、秋葉原のそれぞれ25~50kmほど離れた3つのDCにNVIDIAアクセラレーションサーバを分散配置し、IOWNのAPNで100Gbpsの回線で接続。3拠点のGPUサーバーの連携にはNVIDIA NeMoを使用し、tsuzumiの軽量モデル「7B」の分散学習を実施。1拠点での学習に比べ、インターネットを想定した帯域制限のあるTCP通信を用いた分散DCでは9.187倍の時間を要しました。しかし、IOWN APN経由の分散DCでは1.105倍となり、単一DCとほぼ同等の性能を発揮できることが確認できました。 NTTコム は、分散型DCの拠点数の増加や距離の延伸を検証するとともに、分散型DCにおける通信方式やGPUリソースの最適化を検証する実証実験を継続的に実施します。また、全国70拠点以上のDCとお客様ビルを接続できる「APN専用線プラン powered by IOWN」と、液冷サーバーに対応した超省エネDCサービス「Green Nexcenter」を組み合わせたGPUクラウドソリューションの提供を目指します。
ソース ヤフー