株式会社NTTドコモ・ビジネス(旧NTTコミュニケーションズ)は、800G-ZRの長距離接続とRDMA技術を活用した独自ツール(以下、RDMA転送ツール)を組み合わせることで、異なるデータセンターにサーバが分散する環境において、世界初の高速データ転送を実現したと発表しました。
今回実証した技術は、分散型データセンターにおけるネットワーク構成を簡素化し、消費電力や運用コストを抑えながら高速データ転送を実現するものです。これにより、離れたデータセンターを1つのデータセンターとして利用することが可能となり、柔軟なデータセンター活用を実現します。800G-ZRは、800Gbpsの大容量・高速伝送だけでなく、急増するデータセンター間のトラフィックに対応できる効率的なネットワーク接続技術として注目されています。サーバインターフェイスが100G、400Gと進化する中、800G-ZRはこの集約されたトラフィックを低遅延で長距離伝送することが可能です。さらに、この技術はルーターやスイッチに直接挿入できるコンパクトなモジュールに実装されているため、ネットワーク構成が簡素化され、消費電力と運用コストが削減されます。RDMA(Remote Direct Memory Access)とは、転送先サーバーのメモリに直接アクセスしてデータを転送する仕組み。CPUを介さずにNICから直接データを書き込むことで、高速なデータ転送を実現します。
RDMAは長距離での転送処理品質に課題がありますが、当社独自のRDMA転送ツールは、CPUリソースの消費を最小限に抑えながら、長距離でも高速なデータ転送を実現します。今回の実証実験では、IOWN APNの技術要素の一つである800G-ZRと当社独自のRDMA転送ツールを組み合わせることで、800Gbpsクラスの広帯域接続を実現し、データセンター内の複数サーバ間での高速データ転送に世界で初めて成功しました。従来技術との比較では、1600GBのデータ転送に要する時間を約389秒から約68秒へと最大6分の1に短縮。また、CPU使用率も約20%から約5%へと最大5分の1に削減されることを確認しました。これにより、AI時代に求められる高速・低負荷なデータ処理基盤の構築に向けて大きく前進しました。また、800Gbpsのデータセンター間接続を実現したことで、データセンターの処理効率がさらに向上し、柔軟なリソース活用や拠点間連携の強化に貢献します。
こちらもお読みください: AIPキャピタルとビヨーク・キャピタルが提携を発表
3,000km離れた2拠点環境でのシミュレーションでは、シングルデータセンターとほぼ同等のパフォーマンスを確認。IOWNのコンピューティング技術評価・検証を担当するNTTドコモビジネスエバンジェリストの張暁静氏は、データセンターにおける最近のトレンドとして、AIに対する需要の高まりを指摘。「数年前のGPT-3でも、NVIDIA H100のGPUは512基が標準でした。一方、一般的なサーバーでは、1台あたり約8個のGPUを搭載しており、複数のGPUサーバーを並べて使用するケースが増えています。"同氏は、AI GPUインフラに不可欠な特性として、高い計算能力と並列処理能力、高い消費電力と発熱、高速インターコネクトと大容量ストレージ、柔軟な拡張性、運用管理を挙げています。こうした課題を踏まえ、ラックあたりの電力密度や冷却能力、床荷重の制限などの制約から、データセンターの分散化が「必要」とされる一方で、事業継続や災害復旧の目的でデータセンターを分散させる「選択」も出てきています。総務省のAIインフラに関する見解でも、ワットビット連携を実現するためのデータセンターの分散化が挙げられています。NTTドコモビジネスは2025年6月に「AI中心ICTプラットフォーム」を発表し、IOWN APNを活用したデータセンターの分散化に取り組んでいます。NTTドコモ ビジネスイノベーションセンター IOWN推進室の野山英哲課長は、分散データセンターでIOWNを活用する「GPU over APN」のアップデートについて説明。IOWN APNを活用した分散データセンターの実現に向け、NTTドコモビジネスでは2024年10月に分散データセンターで世界初となる生成型AI学習の実証実験に成功し、2025年3月には3拠点分散GPUデータセンターの構築に成功。
本実験では、3,000kmという超長距離を想定し、2地点間のAIモデル学習に要する時間を計測しました。実験では、2つのノードに4つのNVIDIA H100 Tensor Core GPUを搭載し、LLM(tsuzumi 7B)の事前学習を実施しました。単一データセンターでの学習時間に比べ、APNを介した分散データセンターでの学習時間は約1.07倍となり、ほぼ同等の性能を達成しました。一方、インターネット経由の分散データセンターでの所要時間は約5.10倍となり、APN経由の分散データセンターの有効性が確認されました。NTTドコモ ビジネスイノベーションセンター IOWN推進室 室長の木村康博氏は、今回のデモで使用した800G-ZRとRDMAの転送ツールについて説明。2021年頃から400Gbpsのネットワークが普及し始めたが、ジェネレーティブAIなどに必要な大容量高速通信のニーズがネットワーク機器の進化を促し、現在は800Gbpsが注目されていると説明。800G-ZRは、800Gbpsの長距離・大容量・高速光通信を実現する伝送規格。従来に比べて小型のモジュールで実現できるため、ルータやスイッチに直接モジュールを挿入することが可能。また、RDMA技術により、転送先サーバのメモリに直接アクセスすることで高速データ転送を実現。CPUを介さないダイレクトメモリアクセスにより高速通信を実現。
NTTドコモ・ビジネスでは、「接続の並列化」と「1回あたりのデータ転送量の増加」という2つの特徴を備えたツールを開発。RDMA転送ツールを使った実験では、転送時間を最大6分の1に短縮し、トラフィック量は約8倍の帯域を実現。さらに、CPU使用率も最大5分の1に削減されました。800G-ZRとRDMA転送ツールのそれぞれの特長を生かし、GPUクラスタ環境の効率化、ネットワーク運用の簡素化、柔軟なリソース利用を実現することで、分散データセンターでの有用性を確認しました。 NTTドコモ事業 今回の実証結果を踏まえ、IOWN APNで接続されたデータセンターにおけるGPUクラスタの可能性をさらに広げ、2026年度にはGPU over APNの検証環境をお客様に提供開始する予定であると説明。
ソース ヤフー

