パソコン悪戦苦闘記録

ChatGPTの大ブレークは人間のフィードバックからの強化学習の成果

 今日は土曜日なので会社は休みです。ですが、歯の治療の続きのため、今日も列車で、会社近くの歯科医院まで行ってきました。
 歯の治療の帰り、図書館に立ち寄り、ある雑誌をパラパラっと眺めてきました。

 雑誌には、ChatGPTを取り上げている記事があり、ササっと流し読みしました。
 その記事の中で、特に、
ChatGPTは「攻撃的な回答、間違った情報を回避するための訓練を受けている。」
という部分が目を引きました。
 
 というのは、GPT-3までの従来のGPTは、ユーザーの意図に沿うという点では、以下のような限界があったというのです。
1 ユーザの明示的な指示に従わないことがある。
2 存在しない、あるいは誤った事実を基にした誤った出力をすることがある。
3 有害、不快または攻撃的なコンテンツが含まれている。
 

 ChatGPTにおいては、その課題を克服し、信頼性を高めるために、人間の判断を盛り込んだ追加的な学習を施しているのが特徴のようです。
 開発元のOpenAIは、これを
 「人間のフィードバックからの強化学習
  (その頭文字をとって「RLHF」)
と呼んでいます。





 その強化学習、RLHFは、
【1】 様々なパターンによる問いかけに的確に答える
【2】 差別、偏見を含む不用意な発言をしないよう、出力にフィルターをかける
ようにするのが目的です。
 
 そのための学習データは、アウトソーシングによって、人手をかけて集めたようです。

 ChatGPTが今のように大ブレークしたのは、上記の訓練
(人間のフィードバックからの強化学習)の成果、たまものでしょう。

 人間様であっても、不用意な発言をしてしまい、大きな問題となることがたまにあります。
 (某氏の「女性がたくさん入っている会議は時間がかかる」発言など)
 
 なお、ChatGPTの回答にウソ情報が含まれることについては、まだ発展途上のようで、こらからの進化に期待したいものです。




それでは、また次の記事で
goosyun
名前:
コメント:

※文字化け等の原因になりますので顔文字の投稿はお控えください。

コメント利用規約に同意の上コメント投稿を行ってください。

 

  • Xでシェアする
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

最近の「自宅PC」カテゴリーもっと見る

最近の記事
バックナンバー
人気記事