NTTコミュニケーションズ(NTT Com:NTTコム)は、超高速かつ超低消費電力を実現するIOWN構想の主要技術であるオールフォトニクス・ネットワーク(APN)で接続した3拠点のデータセンターにNVIDIA H100 GPUサーバーを分散配置した環境で、NVIDIA AI Enterpriseソフトウェア プラットフォームの一部であるNVIDIA NeMoを用いたNTT版大規模言語モデルtsuzumiの学習実証実験に世界で初めて成功した。
生成AIやデータ利活用の進展に伴い、GPUクラスタの重要性が増している。しかし、単一のデータセンターでは、生成AIのモデルサイズ増大による処理量の変動やリソース確保の制約、データセンターごとのキャパシティや電力供給の制限に応じた運用が求められるなど、さまざまな課題が存在する。
NTT Comではこの課題に対して、三鷹と秋葉原の2拠点のデータセンター間でAPNによるGPUクラスタの実効性を検証し、その効果性を確認してきた。
2拠点から3拠点、さらには多数のデータセンターへと分散を進めることで、余ったGPUサーバーを再利用するような最適なGPUリソースの配置がより実用的になる。
また各地域のデータセンターを活用し、複数の拠点でコンピューティングを分散することで、電力コスト削減と持続可能な運用を実現する。
同実証では、Point-to-Pointで接続された分散データセンターの数を2拠点から、川崎を加えた3拠点へと拡張した。これにより、計算基盤の運用に新たな柔軟性が生まれる。
例えば、A拠点・B拠点に加え、C拠点を活用することで、その土地の電力供給量や値段に応じ、ユーザーの要望に合わせた複数の運用パターンを選択できるようになる。
またネットワークの観点からも、距離の近い拠点同士でのより低遅延なワークロードや、遠距離の拠点同士での電力効率を意識したワークロードなど、ユーザーの特性に応じた分散学習や推論などのスケジューリングの可能性を実感できる構成となる。
同実証では、NVIDIAアクセラレーテッドサーバーをそれぞれ約25~50km離れた川崎と三鷹と秋葉原の3拠点のデータセンターに分散配置し、データセンター間を100Gbps回線のIOWN APNで接続した。
NVIDIA NeMoを使用して、3拠点のGPUサーバーを連携させ、tsuzumiモデル 7Bの分散学習を実施した。
今後は、同実証に引き続き、社会産業を支えるデジタルインフラをめざし、以下2つの観点から実証を進める。
(1)日本全国での分散データセンターの配置を見越した、拠点数の増加と距離延伸の実証(2)APNで接続された分散データセンターにおける通信方法やGPUリソースの最適化検証(特許出願中)。
生成AIやデータ利活用の進展に伴い、GPUクラスタの重要性が増している。しかし、単一のデータセンターでは、生成AIのモデルサイズ増大による処理量の変動やリソース確保の制約、データセンターごとのキャパシティや電力供給の制限に応じた運用が求められるなど、さまざまな課題が存在する。
NTT Comではこの課題に対して、三鷹と秋葉原の2拠点のデータセンター間でAPNによるGPUクラスタの実効性を検証し、その効果性を確認してきた。
2拠点から3拠点、さらには多数のデータセンターへと分散を進めることで、余ったGPUサーバーを再利用するような最適なGPUリソースの配置がより実用的になる。
また各地域のデータセンターを活用し、複数の拠点でコンピューティングを分散することで、電力コスト削減と持続可能な運用を実現する。
同実証では、Point-to-Pointで接続された分散データセンターの数を2拠点から、川崎を加えた3拠点へと拡張した。これにより、計算基盤の運用に新たな柔軟性が生まれる。
例えば、A拠点・B拠点に加え、C拠点を活用することで、その土地の電力供給量や値段に応じ、ユーザーの要望に合わせた複数の運用パターンを選択できるようになる。
またネットワークの観点からも、距離の近い拠点同士でのより低遅延なワークロードや、遠距離の拠点同士での電力効率を意識したワークロードなど、ユーザーの特性に応じた分散学習や推論などのスケジューリングの可能性を実感できる構成となる。
同実証では、NVIDIAアクセラレーテッドサーバーをそれぞれ約25~50km離れた川崎と三鷹と秋葉原の3拠点のデータセンターに分散配置し、データセンター間を100Gbps回線のIOWN APNで接続した。
NVIDIA NeMoを使用して、3拠点のGPUサーバーを連携させ、tsuzumiモデル 7Bの分散学習を実施した。
今後は、同実証に引き続き、社会産業を支えるデジタルインフラをめざし、以下2つの観点から実証を進める。
(1)日本全国での分散データセンターの配置を見越した、拠点数の増加と距離延伸の実証(2)APNで接続された分散データセンターにおける通信方法やGPUリソースの最適化検証(特許出願中)。
また、同実証の成果をもとに、IOWN APNで接続された分散データセンターにおけるGPUクラスタの可能性をさらに広げ、国内70拠点以上のデータセンター間やユーザービルなどを接続可能な「APN専用線プラン powered by IOWN」や、液冷方式サーバーに対応した超省エネ型データセンターサービス「Green Nexcenter」などを組み合せたGPUクラウドソリューションとしてユーザーへ提供を目指す。<NTTコミュニケーションズ(NTT Com)>







