2024年8月1日のブログ記事一覧-最適化問題に対する超高速＆安定計算

サイバーエージェントは6月13日、75億パラメータの日本語大規模視覚言語モデル（Vision Language Model、VLM）を一般公開した。Hugging Faceで商用利用可能なAIモデルや、研究用途でのみ使えるデモを公開中だ。

　VLMとは、画像とテキストを複合して扱えるマルチモーダルなAIモデル。画像とテキストを理解できることで「この写真に写っているものは何ですか？」のような質問にも対応できる。米OpenAIの「GPT-4o」などが代表的なモデルで、近年では画像を扱えるAIモデルの進化が急速に進んでいる。