JSP_Blog

ジェイエスピー社員が綴る日替わりブログ

LLMに触れてみる

2024-07-18 09:00:00 | 日記
先日、社内でLLM(大規模言語モデル)の勉強会が開かれました。基本的な仕組みの解説とハンズオン形式で進み、入力したテキストがどのように解釈され、どんな回答を返すのか、デモプログラムを動かしながら体験しました。
Geminiと話しながら振り返ってみます。

■LLMが入力されたテキストを解釈する仕組み
---
Gemini:
LLM(Large Language Model)は、膨大な量のテキストデータを使って学習した、高度な言語処理モデルです。入力されたテキストを解釈するには、主に以下の3つのステップを経ます。

1. 単語の分割と表現の抽出
まず、入力されたテキストを単語に分割し、それぞれの単語をベクトルと呼ばれる数値表現に変換します。このベクトルは、単語の意味や文脈などを表すもので、**単語埋め込み(Word Embedding)**と呼ばれます。

2. 文法構造の解析
次に、単語の並び方から文法構造を解析します。具体的には、主語、述語、動詞、形容詞などの品詞を特定し、文全体の構造を分析します。

3. 意味の解釈
単語埋め込みと文法構造の情報に基づいて、入力されたテキストの意味を解釈します。LLMは、学習データの中で類似した単語や文脈と比較することで、入力されたテキストの意味を推測することができます。
---

デモプログラムをトレースすると、1~3の処理が行われていることがなんとなくわかりました。今回使われていたのはサイバーエージェント社が公開しているCalm2-7bというLLMで、日本語処理に強い特徴があります。


■LLMの課題・注意点
---
Gemini:
LLMの解釈を信頼する際には、以下の点に注意する必要があります。
・学習データに基づいて解釈を行うため、学習データに偏りがある場合は、解釈も偏ったものになる可能性があります。
・完璧なモデルではないため、誤解や誤解釈の可能性があります。
・LLMは人間と同じように世界を理解しているわけではなく、人間の常識や推論能力とは異なる場合があります。
---

"きのこたけのこ論争"に関するプロンプトを試した参加者がいました。この方は強硬なたけのこ派で、「きのこ派をたけのこ派に変えるには?」ということを聞くと、「きのこの山の良さもあるよね」といった感じで諭されていました。もし学習データが"たけのこ派"に偏っていたら、また違う結果だったかもしれません。ちなみにわたしはきのこ派、穏やかな回答に安堵しました。


■LLMの語彙力
何で決まるのか?気になったので聞いてみました。
---
Gemini:
LLMにおける語彙とは、モデルが学習に使用したデータの中で出現する単語の種類と、その出現頻度を指します。具体的には、以下の2つの要素が反映されています。

1. 単語の種類
LLMは、学習に使用したデータの中で出現するすべての単語を学習します。つまり、学習データの語彙量が多ければ多いほど、LLMが扱える単語の種類も多くなります。

2. 単語の出現頻度
LLMは、学習に使用したデータの中で各単語が出現する頻度も学習します。つまり、ある単語が学習データの中で頻繁に出現するほど、LLMはその単語を重要と認識し、より正確に処理できるようになります。

LLMのパフォーマンスは、語彙量だけでなく、モデルのアーキテクチャ、学習データの質、計算量などの様々な要素によって影響を受けます。しかし、一般的に、語彙量が多いLLMは、より多くの単語を理解し、より複雑な文章を生成することができます。
---

日常の中で、この人の言葉はなんだかいい!と感じる場面があります。同じことを伝えるにも、温かみを感じる・嫌味に感じる言い回しがある中、自然と人の心を動かす表現を選べる人は素敵ですよね。語彙量以外の要素もありそう。「状況に適切な」「親しみのある」など、素敵な人が言葉を選ぶ思考?が反映されたモデルがあったら、あらゆるコミュニケーションを明るく穏やかにしてくれそうに思います。プロンプト次第でもあるのでしょうか。仕組みをより理解すると期待する出力を得やすいのだと思うので、今後の勉強会で試してみたいと思います。(よ)

moni-meter
  脱・手書き!点検データをデジタル化、誤検針を削減
  AI自動読み取りで検針が楽になる設備点検支援システム

PLMソリューション
  製品ライフサイクルの各データを活用しビジネスを改革
  PLMシステム導入支援、最適なカスタマイズを提案します

EV用充電制御ソリューション
  EV充電インフラ整備を促進するソリューションを提供
  OCPP・ECHONET Liteなど設備の通信規格に柔軟に対応

株式会社ジェイエスピー
  横浜に拠点を置くソフトウェア・システム開発、
  製品開発(moniシリーズ)、それに農業も手がけるIT企業
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする