東京工業大学 学術国際情報センターの横田理央教授の研究チームと東北大学 大学院情報科学研究科の坂口慶祐准教授、富士通 人工知能研究所の白幡晃一シニアプロジェクトディレクター、理化学研究所 のMohamed Wahib(モハメド・ワヒブ)チームリーダー、名古屋大学 大学院工学研究科の西口浩司准教授、サイバーエージェント AI事業本部AI Labの佐々木翔大リサーチサイエンティスト、Kotoba Technologies Inc. の小島熙之CEOは、理化学研究所のスーパーコンピュータ「富岳」を用いて学習した日本語能力に優れた大規模言語モデル「Fugaku-LLM」を公開した。
今回、深層学習フレームワークを「富岳」に移植してTransformerの性能を「富岳」上で最適化するとともに、並列分散学習手法を開発し適用することで、「富岳」を用いて大規模言語モデルの学習を行う際の演算速度を6倍に高速化した。
さらに、「富岳」向けにTofuインターコネクトD上での集団通信の最適化を行うことにより、通信速度を3倍高速化することに成功した。
これにより「富岳」のCPUを用いて、現実的な時間内で大規模言語モデルを学習することが可能になった。
Fugaku-LLMは、国内で多く開発されている70億パラメータより一般に高性能、かつ現在の計算機環境下で扱いやすい130億パラメータのモデルとなっている。
今回の学習では、サイバーエージェントが収集した独自の日本語学習データと英語のデータなどを用いているため、透明性と安全性を確保しつつ日本語性能にも優れている。
国産かつ独自のデータで学習を行っているオープンなモデルの中では日本語ベンチマークJapanese MT-Benchで最高性能を達成し、特に人文社会系のタスクでは高いベンチマーク性能を発揮する。
Fugaku-LLMは、GitHubやHugging Faceを通じ公開しており、ライセンスに従う限りにおいては、研究および商業目的での利用が可能である。
今後、多くの研究者や技術者が基盤モデルの改善や新たな応用研究に参画することで、さらに効率的な学習方法が創出され、科学シミュレーションと生成AIの連携や、数千のAIによるバーチャルコミュニティの社会シミュレーションなど、次世代の革新的な研究やビジネスでの応用につながることが期待される。<富士通>
今回、深層学習フレームワークを「富岳」に移植してTransformerの性能を「富岳」上で最適化するとともに、並列分散学習手法を開発し適用することで、「富岳」を用いて大規模言語モデルの学習を行う際の演算速度を6倍に高速化した。
さらに、「富岳」向けにTofuインターコネクトD上での集団通信の最適化を行うことにより、通信速度を3倍高速化することに成功した。
これにより「富岳」のCPUを用いて、現実的な時間内で大規模言語モデルを学習することが可能になった。
Fugaku-LLMは、国内で多く開発されている70億パラメータより一般に高性能、かつ現在の計算機環境下で扱いやすい130億パラメータのモデルとなっている。
今回の学習では、サイバーエージェントが収集した独自の日本語学習データと英語のデータなどを用いているため、透明性と安全性を確保しつつ日本語性能にも優れている。
国産かつ独自のデータで学習を行っているオープンなモデルの中では日本語ベンチマークJapanese MT-Benchで最高性能を達成し、特に人文社会系のタスクでは高いベンチマーク性能を発揮する。
Fugaku-LLMは、GitHubやHugging Faceを通じ公開しており、ライセンスに従う限りにおいては、研究および商業目的での利用が可能である。
今後、多くの研究者や技術者が基盤モデルの改善や新たな応用研究に参画することで、さらに効率的な学習方法が創出され、科学シミュレーションと生成AIの連携や、数千のAIによるバーチャルコミュニティの社会シミュレーションなど、次世代の革新的な研究やビジネスでの応用につながることが期待される。<富士通>