#NLP2024 にエア参加してみた

2024年03月16日 | Weblog
Qiitaに移しました 

言語処理学会第30回年次大会(NLP2024)
https://www.anlp.jp/nlp2024/


日程

     
3月 11日(月) 13:00- チュートリアル,本会議 第1日,スポンサーイブニング
3月 12日(火) 09:30- 本会議 第2日
3月 13日(水) 09:30- 本会議 第3日,懇親会
3月 14日(木) 09:30- 本会議 第4日
3月 15日(金)   ワークショップ

チュートリアル

面白いこと間違いないので、Amazonで岡崎さんの本を買って読みましょう。これ、すごいいい本です https://amzn.to/3IEqhzF

岡崎さんが中心になって東工大のLLM(Swallow)を作っていて、日本語トークナイザも作っていてモデルは優秀です。使いこなすにはプロンプトチューニングが必要そうだけど、技術が裏付けされたモデルと、岡崎研の発表を聞くことによって工夫とかも聞けて良さそう。

 

『チュートリアル2:デジタル・ヒューマニティーズ入門』

北本さんの話、これも聞きたかったな。。。データセットの話とか。

 

松田さんのこれもすごい聞きたかったのだが、Twitterで毎日隙を見てはSFTしてて苦労話が流れてきて勉強になります。たぶん今の私のやっていることに一番近いと思う。

本当にかゆいところまで技術紹介してくれているので、SFT入門編として一通りやってみたいですね。

 

ceekzさんのは本の紹介もされてるのでそちらを。

SNSなどのデータ分析などを長年研究されてきたし、Twitterとかの情報拡散など、ただ単にNLPをLLMの生成AIとしてしか知らない人達には、計算社会学のアプローチは面白いんじゃないでしょうか?


ワークショップ

※資料が交際されてた3者をピックアップ

 

speakerdeckで資料が公開されてて感謝。山田さんの「大規模言語モデル入門」の本は買いました https://amzn.to/43nsfOC

言語間の転移させる時の話ですが、本当はもっと詳しく聞いてみたい。対訳でSFTさせるのが有効そうなのは理解しているが、[MASK]させるのは対訳タスク以外にもやはり効いてくるのだろうか?漠然とLlama2 が英語のドキュメントとして持っている知識を日本語として理解して答えて欲しい時って、対訳がどこまで有効なんだろうか?というのとか、色々と気になる。(本当はワクワク氏とかたぬき氏と転移学習でそういうのもやりたいんだけど、まぁ私が一番役に立たないからな。。。)

ElyzaやSwallow とか日本語語彙追加のトークナイザ使っているんだけど、日本語と中国語って似ている反面、日本語に特化させる場合は逆に中国語を抜いたほうがいいのだろうか?とかElyzaの人に聞いてみたい。

 

LLMがAmazonのBedrock でお手軽にSFTできるんだけど、日本で詳しく聞くなら piqcyさんなんだよね。OpenAIもんなんだけど、70BサイズのSFTとかも速くてお手軽なんだけど、Aamazon は独自のプロセッサ使っているんでしたっけ?(とはいえ、私もBedrock の情報は追い切れていない)

最近Amazon さんが色んな会社にSFTノウハウレクチャーして色んな会社が「日本語スコアでGPT-4並みの性能のLLM開発しました!」ってプレスリリース出しちゃうのでウォッチ大変なんですよ。けどタスク特化の性能向上ノウハウは勉強になります。

 

岡野原さんの資料。

最初の5ページぐらいが一般講演用的な資料だけど、後半は研究者としての岡野原さんの資料なので、お勉強になる。

 


本会議

※『予稿集(zipファイル,428MB)はこちら(3月8日更新)からダウンロードできます.』と書かれているので、大会HPへどうぞ> https://www.anlp.jp/proceedings/annual_meeting/2024/

※気なるやつから見て随時更新します(っていうか、めっちゃ多い。。。。)

 

  • P1-6 トークナイザーの圧縮率を用いた有害コンテンツの判定法
    • なるほど面白いしトークナイザそんなに分かっていなかったので勉強になる。
    • ブロックリストじゃなくて圧縮率の高さから判定する。むかし西田氏がZIP圧縮率で文書の類似度を測っていたのを思い出すが、確かにトークナイザでの圧縮率できそうなんだけどBERTやSentenceBERTとかでドキュメントベクトル取ってクラスタリングや類似度判定みたいなものとの比較ってやっているのだろうか?気になる。
  • A2-1 大規模言語モデルは自身の Hallucination を検知できるか?
    • 検知する方法ではなくて、「自身で検知できるか?」っていう問題でこれの評価むずしいと思うんだよね。単純で面白そうだけど何気に難しいテーマな気がする。
    • 「フレーズを書き換えた」場合には自分が間違えているのか、書き換えを検知するのか、指示文に「これはあなたが生成した文です。再度自分が正しいか評価しなさい」とか書いた場合で判断が変わるだろうと思うし、色々気になる。
    • 「実験の結果,GPT-3.5 Turbo は自身の hallucination を 58.2% 検知することができ」というのが、「地理や企業に関する分野の hallucination 検知率は 80% 以上である(図の緑の部分) が,人物やエンタメに関する分野のhallucination 検知率は 40% 以下である」だそうで、ドメイン知識量によるという。
  • A2-6 大規模言語モデルに対する語彙置換継続事前学習の有効性の検証
    • 勉強になりそうなので後でちゃんと読む
  • B2-4 対訳データを用いた継続事前訓練による大規模言語モデルの翻訳精度評価
  • A3-4 LLM による合成文脈データを用いた表のエンティティリンキング
    • 論文の参考文献の参照化。
    • なるほどあんまりこれを自動化させる感覚無かったけど、よく思うのはWordで書かされた時に引用するのが面倒でなんだよな、とは思っていた。
    • エンティティ変換・選択が具体的に分かっていないけど、こういうのが現地で質問してみたい。
  • A3-5 固有表現抽出における大規模言語モデルのLoRAファインチューニングの学習設定の調査
    • Attenntion 層だけじゃなくて全結合層もLoRA使った評価。
    • rank数増やしても性能はそんなに上がらないものだと思っていたけどFFN側もTuningさせると少し効果があるんですね、ふむふむ。
    • ただ、FFNの方がパラメータ数が基本的に多いので、省メモリしたいのにあんまり省メモリにならなくなってしまう可能性もあるのでGPUメモリとのトレードオフですね。
  • C3-4 InstructDoc: 自然言語指示に基づく視覚的文書理解
  • C3-5 JDocQA: 図表を含む日本語文書質問応答データセットによる大規模言語モデルチューニング
    • これ、公開されて使えるのだろうか?ライセンス的に商用的な問題があるように見えないし。11600件のデータセットよさげ。
  • P3-18 JEMHopQA:日本語マルチホップQAデータセットの改良
  • A4-1 日本語論理推論ベンチマークJFLD の提案
  • A4-3 LLMの出力結果に対する人間による評価分析とGPT-4による自動評価との比較分析
  • A4-4 制約が異なる指示で生成された文章に対するLLM生成検出の頑健性
  • B4-2 Large-scale Vision Language Modelによる芸術作品に対する説明の生成
  • B4-3 Vision Language Modelが持つ画像批評能力の評価手法の提案
  • P4-6 多言語評価極性判定における文法・語彙知識と生成モデルの統合
  • E5-1 民事第一審判決書のXMLデータ化
  • P5-5 RAGにおけるLLMの学習と評価:FAQタスクへの応用
    • 「RAG」「LoRA」「LoRA+RAG」での比較。
    • BERT Score とかではRAGでSFTしない方が性能良さそうに見える。GPT-4 を評価者としたランキング評価(MRR(Mean Reciprocal Rank)) で測ったものは「LoRA+RAG」で性能がかなり良くなっている結果にはなっている。(その評価にGPT-4も入れて欲しかった)
    • 付録にパラメータも載ってて助かる。Rank=256 ってでかいように思えるけどそんなものなのだろうか?
  • A6-1 Swallowコーパス: 日本語大規模ウェブコーパス
  • A6-2 大規模言語モデルの日本語理解能力検証のための「本音と建前」データセットの構築
  • A6-3 ichikara-instruction LLMのための日本語インストラクションデータの作成
  • A6-4 大規模言語モデルの日本語能力の効率的な強化: 継続事前学習における語彙拡張と対訳コーパスの活用
  • A6-5 Aug AnaloGPT: 大規模言語モデルを用いたアナロジー生成によるデータ拡張
  • B6-4 人工画像を用いたText-to-Imageモデルの事前学習
  • A7-3 LLM の生成・翻訳による指示・応答データセット構築
  • C7-4 日本語社会的バイアスQAデータセットの提案
  • A8-2 llm-jp-eval: 日本語大規模言語モデルの自動評価ツール
  • A8-5 継続事前学習による日本語に強い大規模言語モデルの構築
  • P8-8 日本語タスクにおける LLM を用いた疑似学習データ生成の検討
  • P8-19 言い換え文を用いた機械翻訳の学習データの増加
  • A9-5 特許請求の範囲の自動書き換え生成モデルのための大規模データセットの構築
  • D9-5 大規模言語モデルにより生成した疑似データを用いた自由記述アンケートの自動集約
  • P9-1 大規模言語モデルを用いた病名予測の検討
  • P9-4 JMedLoRA:Instruction-tuningによる日本語大規模モデルの医療ドメイン適用
  • P9-5 ビジネスのドメインに対応した日本語大規模言語モデルの開発
  • P9-7 大規模言語モデル houou (鳳凰): 理研 ichikara-instruction データセットを用いた学習と評価
  • P9-11 RAGの連結方式および自動評価指標の定量評価
  • P9-13 Minimal-pair Paradigmデータセットにおけるトークン長バイアスの分析と改善
  • P9-18 Constitutional AIにおけるセーフティアラインメントの改善
  • P9-22 英語中心の大規模言語モデルの言語横断汎化能力
  • A10-2 自己注意機構のアテンション重みが特定の種類のトークンに集中する現象と外れ値次元の関係
  • A10-6 部分空間法に着想を得たTransformerのアテンションヘッドにおける特徴抽出
  • D10-3 Beyond ROUGE: Applying an ELO algorithm to rank model performances in summarization
  • D10-6 Polos: 画像キャプション生成における教師あり自動評価尺度
  • P10-2 LDA を使った専門用語の教師なしクラスタリング
  • P10-4 知識グラフ構築に向けた物語文の構造分析
  • P10-7 大規模言語モデルを用いたマイソクPDFからの情報抽出
    • GPT4VもGeminiVisonProも試している。
    • OCRでpdftotextやるときに座標値も与えてやるのを逆瀬川さんがpudlleocr + functioncalling でやっていたよね。
    • 今回の場合は物件の画像情報も使えるから、GPT4Vにコンテキスト与える「OCR+GPT4V」が王道かと思っていたんだけどそれはやらないのだろうか?
  • P10-9 LLMは日本語追加学習により言語間知識転移を起こすのか?
  • P10-16 一部のエンティティに紐づくテキスト情報を知識グラフ埋め込みに活用するための手法
  • P10-21 ChatGPTを用いた複数文章からの表生成
  • P10-26 Sentence-BERTと語義定義文を利用した語義間の類義判定手法
  • A11-2 大規模言語モデル事前学習の安定化
    • 事前学習の安定化で勾配爆発を抑える話。なかなか事前学習から取り組む人は少ないとは思うけど、基本的に勾配計算は softening parameter とか入れて勾配計算の発散を抑えるのはあるし、因子分解行列でもAxBの片方が発散しないように正規化をかましたりして片方の分散をある程度小さくなり過ぎないようにするとかに近いかもしれない。
  • A11-4 大規模言語モデルにおける評価バイアスの尤度に基づく緩和
  • A11-5 事前学習済みLlama2モデルを活用した言語間転移日英モデルの作成
    • 普段から気になっていたんだけど、シャッフルよりも順々にタスクこなさせた方が良い結果になっているのか。。学習率のスケジュールとかもあるし、汎用性考えたら普通は③がいいんだと思っていたので、この平均値スコアの結果だけ見ても分からないのでタスクごとのスコアを見たかった。こういうのは現地で聞かないとね。
    • アダプタ学習ではなくてFull finetuning だと思うんだけど、LoRA Adapter使った場合とかも知りたかった。
  • A11-6 言語モデルの思考連鎖的推論における探索戦略の動的変化
  • C11-6 知識志向 Mixture of LoRA Experts の構築
  • P11-8 RAGにおける小説データベースのChunk SizeとOverlap SizeとEmbeddingモデルの効果
  • P11-10 文を入力とした俳句の自動生成
    • GPT-2 をFinetuning。API使ってGPT-3.5 turbo をFTした方が良いんじゃないか?というのは気になるところ。
    • なんなら評価もGPT-4 にもやらせてみるべきだよね、とは思う。
    • 去年のNetEcoでも俳句生成の話が上がって、「これからはChatGPTに駆逐されるのでは?」という話が上がったのだが、個人的には結局俳句の評価の研究はまだまだ残ると思ったので気にはなる分野。
    • あと、俳句系の研究見るといつも思うんだけど、伊藤園の“伊藤園お~いお茶新俳句大賞”のデータって研究目的ならクロールして使っていいのだろうか? https://itoen-shinhaiku.jp/
  • P11-13 Large Language Models as Generalizable Text-to-Table Systems
  • P11-15 大規模言語モデルへの定量的推論機能の組み込み
  • P11-17 LLMを利用した文書分類のためのData Augmentation
  • P11-26 RLHFを用いた「面白い」短歌の自動生成の試み
  •  

去年のNLP2023 OKINAWA で初めて言語処理学会に参加してみたんですが、ChatGPTの流れと今の仕事の関係でNLP関連が全く無視できなくなってしまったので情報を追ってみた。

ちなみに元々2005~2010年ぐらいやっていた研究がNLPの人達と一緒にやっていたから、純粋なNLPerって分けじゃないけど研究は聞いていたし多分普通の人からしたらNLP側の人間ぐらいには詳しい方だと思うけど、深いところでNLP全然分かっていないので素人です。

あと、この数年ComputerVision やってて、純粋に画像認識の物体検出とかじゃなくて動画認識の文脈でCLIPとかBLIPとかコンテキスト理解させる特徴空間ベクトル使った方が諸々精度が良くて、単純な画像のシフト特徴量とか物体認識とかじゃダメだと思ったのが2023年にNLPに参加したきっかけです。 現にこの1年でLlaVa1.5とかGPT4Vとかが出てきてしまっているし、なんならsoraは「3次元認識まで早すぎワロタ」という点でちょっと驚きました。

 

で、
近況の自分の仕事の話はここでやめておくとして、純粋にSNSで流れてくるNLPの情報をもとに、気持ちだけNLPに参加してみました(エア参加)

コメント    この記事についてブログを書く
  • Twitterでシェアする
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする
« WSL環境でsudo権限を付与する話 | トップ |   
最新の画像もっと見る

Weblog」カテゴリの最新記事