最適化問題に対する超高速&安定計算

大規模最適化問題、グラフ探索、機械学習やデジタルツインなどの研究のお話が中心

サイバーエージェント、日本語に強い“視覚言語モデル”公開 パラメータ75億、商用利用もOK

2024年08月01日 23時58分49秒 | Weblog

サイバーエージェント、日本語に強い“視覚言語モデル”公開 パラメータ75億、商用利用もOK

サイバーエージェントは6月13日、75億パラメータの日本語大規模視覚言語モデル(Vision Language Model、VLM)を一般公開した。Hugging Faceで商用利用可能なAIモデルや、研究用途でのみ使えるデモを公開中だ。

 VLMとは、画像とテキストを複合して扱えるマルチモーダルなAIモデル。画像とテキストを理解できることで「この写真に写っているものは何ですか?」のような質問にも対応できる。米OpenAIの「GPT-4o」などが代表的なモデルで、近年では画像を扱えるAIモデルの進化が急速に進んでいる。

コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする