最適化問題に対する超高速&安定計算

大規模最適化問題、グラフ探索、機械学習やデジタルツインなどの研究のお話が中心

NTT版大規模言語モデル「tsuzumi」

2023年11月04日 21時08分18秒 | Weblog

NTT版大規模言語モデル「tsuzumi」

近年、ChatGPTを始めとする大規模言語モデル*1に大きな注目が集まっておりますが、これらは膨大な知識をモデル内に有することで高い言語処理性能を示す一方、学習に要するエネルギーは、原発1基1時間分の電力量が必要*2とも言われており、また、運用には大規模なGPUクラスタを必要とし様々な業界に特化するためのチューニングや推論にかかるコストが膨大であることから、サステナビリティおよび企業が学習環境を準備するための経済的負担面で課題があります。
NTTでは、これらの課題を解決する研究開発を進め、今回、軽量でありながら世界トップレベルの日本語処理性能を持つ大規模言語モデル「tsuzumi*2」を開発しました。「tsuzumi」のパラメタサイズは6~70億と軽量であるため、市中のクラウド提供型LLMの課題である学習やチューニングに必要となるコストを低減します。「tsuzumi」は英語と日本語に対応し、1GPUやCPUでの推論動作を実現します。更に、「tsuzumi」は視覚や聴覚といったモーダルに対応し、特定の業界や企業組織に特化したチューニングが可能です。
NTTグループでは、「tsuzumi」を用いた商用サービスを2024年3月に開始し、また今後の「tsuzumi」の研究開発については、さらなるマルチモーダル機能*3を追加することで新しい価値を創出する研究開発を推進しています。本稿では「tsuzumi」の4つの特長を紹介いたします。

 

コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする