#NLP2024 にエア参加してみた

2024年03月16日 | Weblog

言語処理学会第30回年次大会(NLP2024)
https://www.anlp.jp/nlp2024/

日程


3月 11日（月）	13:00-	チュートリアル，本会議第1日，スポンサーイブニング
3月 12日（火）	09:30-	本会議第2日
3月 13日（水）	09:30-	本会議第3日，懇親会
3月 14日（木）	09:30-	本会議第4日
3月 15日（金）		ワークショップ

チュートリアル

言語処理学会第30回年次大会 #NLP2024 で『チュートリアル１：自然言語処理の基礎』(3/11 13:00-14:30) を担当します。自然言語処理研究の歴史、大規模言語モデル、Transformerアーキテクチャ、今後の自然言語処理研究について解説します。 pic.twitter.com/FjBQG0wOPY
— Naoaki Okazaki (@chokkanorg) March 11, 2024

面白いこと間違いないので、Amazonで岡崎さんの本を買って読みましょう。これ、すごいいい本です　https://amzn.to/3IEqhzF

岡崎さんが中心になって東工大のLLM（Swallow）を作っていて、日本語トークナイザも作っていてモデルは優秀です。使いこなすにはプロンプトチューニングが必要そうだけど、技術が裏付けされたモデルと、岡崎研の発表を聞くことによって工夫とかも聞けて良さそう。

『チュートリアル２：デジタル・ヒューマニティーズ入門』

北本さんの話、これも聞きたかったな。。。データセットの話とか。

本日13:00にスタートする #NLP2024 で「チュートリアル３：作って学ぶ日本語大規模言語モデル」の講師を私が担当します。日本語LLMの成り立ちについて、学習・推論の実行方法を含めて解説します。https://t.co/P9fLvUbdsk pic.twitter.com/VbYZLEdVX8
— hiroshi matsuda (@hmtd223) March 11, 2024

松田さんのこれもすごい聞きたかったのだが、Twitterで毎日隙を見てはSFTしてて苦労話が流れてきて勉強になります。たぶん今の私のやっていることに一番近いと思う。

本当にかゆいところまで技術紹介してくれているので、SFT入門編として一通りやってみたいですね。

本日（11日）のチュートリアルT4「計算社会科学入門」を担当します。学際的研究を進めるきっかけになればいいなと思っています。同タイトルの図書もあります。その他、参考図書等については大会Slackに上がっている資料の付録をご覧下さい。 #NLP2024 https://t.co/2jdu6Mb3H3 https://t.co/luR0WwcUCH pic.twitter.com/KSBJc5VfoW
— MITsuo Yoshida | 広告, PR (@ceekz) March 11, 2024

ceekzさんのは本の紹介もされてるのでそちらを。

SNSなどのデータ分析などを長年研究されてきたし、Twitterとかの情報拡散など、ただ単にNLPをLLMの生成ＡＩとしてしか知らない人達には、計算社会学のアプローチは面白いんじゃないでしょうか？

ワークショップ

※資料が交際されてた３者をピックアップ

本日の #NLP2024 ワークショップでの招待講演「言語間転移学習で大規模言語モデルを賢くする」のスライドです。
英語で学んだ知識を日本語を含む他の言語から使えるようにすることで性能改善した新しいLLM「LEIA」を紹介しました。
LEIAはモデル・コードを近日公開予定です。https://t.co/iepIcR2qOx
— Ikuya Yamada (@ikuyamada) March 15, 2024

speakerdeckで資料が公開されてて感謝。山田さんの「大規模言語モデル入門」の本は買いました　https://amzn.to/43nsfOC

言語間の転移させる時の話ですが、本当はもっと詳しく聞いてみたい。対訳でSFTさせるのが有効そうなのは理解しているが、[MASK]させるのは対訳タスク以外にもやはり効いてくるのだろうか？漠然とLlama2 が英語のドキュメントとして持っている知識を日本語として理解して答えて欲しい時って、対訳がどこまで有効なんだろうか？というのとか、色々と気になる。（本当はワクワク氏とかたぬき氏と転移学習でそういうのもやりたいんだけど、まぁ私が一番役に立たないからな。。。）

ElyzaやSwallow とか日本語語彙追加のトークナイザ使っているんだけど、日本語と中国語って似ている反面、日本語に特化させる場合は逆に中国語を抜いたほうがいいのだろうか？とかElyzaの人に聞いてみたい。

本日 NLP2024 のワークショップで発表した資料の最新版を Speaker Deck で公開しました。 ChatGPT や Claude のようなモデルに対し公開されている日本語言語モデルの利用は精度・コスト共に割に合わないと感じている方にとってパンチある内容かと思います！https://t.co/K3BMKY9CSQ #NLP2024
— piqcy (@icoxfog417) March 15, 2024

LLMがAmazonのBedrock でお手軽にSFTできるんだけど、日本で詳しく聞くなら piqcyさんなんだよね。OpenAIもんなんだけど、70BサイズのSFTとかも速くてお手軽なんだけど、Aamazon は独自のプロセッサ使っているんでしたっけ？（とはいえ、私もBedrock の情報は追い切れていない）

最近Amazon さんが色んな会社にSFTノウハウレクチャーして色んな会社が「日本語スコアでGPT-4並みの性能のLLM開発しました！」ってプレスリリース出しちゃうのでウォッチ大変なんですよ。けどタスク特化の性能向上ノウハウは勉強になります。

NLP2024ワークショップで話した「大規模言語モデル開発の展望と今後の課題」の講演資料を公開します。PFN/PFEのLLM開発予定、LLM開発における様々なトピック（学習データ整備、MoE、Mamba、LongContext、推論効率化）などを紹介しています。https://t.co/zxJYwWrfph
— Daisuke Okanohara / 岡野原大輔 (@hillbig) March 15, 2024

岡野原さんの資料。

最初の５ページぐらいが一般講演用的な資料だけど、後半は研究者としての岡野原さんの資料なので、お勉強になる。

本会議

※『予稿集（zipファイル，428MB）はこちら（3月8日更新）からダウンロードできます．』と書かれているので、大会HPへどうぞ＞　https://www.anlp.jp/proceedings/annual_meeting/2024/

※気なるやつから見て随時更新します（っていうか、めっちゃ多い。。。。）

P1-6 トークナイザーの圧縮率を用いた有害コンテンツの判定法
- なるほど面白いしトークナイザそんなに分かっていなかったので勉強になる。
- ブロックリストじゃなくて圧縮率の高さから判定する。むかし西田氏がZIP圧縮率で文書の類似度を測っていたのを思い出すが、確かにトークナイザでの圧縮率できそうなんだけどBERTやSentenceBERTとかでドキュメントベクトル取ってクラスタリングや類似度判定みたいなものとの比較ってやっているのだろうか？気になる。
A2-1 大規模言語モデルは自身の Hallucination を検知できるか?
- 検知する方法ではなくて、「自身で検知できるか？」っていう問題でこれの評価むずしいと思うんだよね。単純で面白そうだけど何気に難しいテーマな気がする。
- 「フレーズを書き換えた」場合には自分が間違えているのか、書き換えを検知するのか、指示文に「これはあなたが生成した文です。再度自分が正しいか評価しなさい」とか書いた場合で判断が変わるだろうと思うし、色々気になる。
- 「実験の結果，GPT-3.5 Turbo は自身の hallucination を 58.2% 検知することができ」というのが、「地理や企業に関する分野の hallucination 検知率は 80% 以上である(図の緑の部分) が，人物やエンタメに関する分野のhallucination 検知率は 40% 以下である」だそうで、ドメイン知識量によるという。
A2-6 大規模言語モデルに対する語彙置換継続事前学習の有効性の検証
- 勉強になりそうなので後でちゃんと読む
B2-4 対訳データを用いた継続事前訓練による大規模言語モデルの翻訳精度評価
A3-4 LLM による合成文脈データを用いた表のエンティティリンキング
- 論文の参考文献の参照化。
- なるほどあんまりこれを自動化させる感覚無かったけど、よく思うのはWordで書かされた時に引用するのが面倒でなんだよな、とは思っていた。
- エンティティ変換・選択が具体的に分かっていないけど、こういうのが現地で質問してみたい。
A3-5 固有表現抽出における大規模言語モデルのLoRAファインチューニングの学習設定の調査
- Attenntion 層だけじゃなくて全結合層もLoRA使った評価。
- rank数増やしても性能はそんなに上がらないものだと思っていたけどFFN側もTuningさせると少し効果があるんですね、ふむふむ。
- ただ、FFNの方がパラメータ数が基本的に多いので、省メモリしたいのにあんまり省メモリにならなくなってしまう可能性もあるのでGPUメモリとのトレードオフですね。
C3-4 InstructDoc: 自然言語指示に基づく視覚的文書理解
C3-5 JDocQA: 図表を含む日本語文書質問応答データセットによる大規模言語モデルチューニング
- これ、公開されて使えるのだろうか？ライセンス的に商用的な問題があるように見えないし。11600件のデータセットよさげ。
P3-18 JEMHopQA:日本語マルチホップQAデータセットの改良
A4-1 日本語論理推論ベンチマークJFLD の提案
A4-3 LLMの出力結果に対する人間による評価分析とGPT-4による自動評価との比較分析
A4-4 制約が異なる指示で生成された文章に対するLLM生成検出の頑健性
B4-2 Large-scale Vision Language Modelによる芸術作品に対する説明の生成
B4-3 Vision Language Modelが持つ画像批評能力の評価手法の提案
P4-6 多言語評価極性判定における文法・語彙知識と生成モデルの統合
E5-1 民事第一審判決書のXMLデータ化
P5-5 RAGにおけるLLMの学習と評価：FAQタスクへの応用
- 「RAG」「LoRA」「LoRA＋RAG」での比較。
- BERT Score とかではRAGでSFTしない方が性能良さそうに見える。GPT-4 を評価者としたランキング評価（MRR(Mean Reciprocal Rank)）で測ったものは「LoRA＋RAG」で性能がかなり良くなっている結果にはなっている。（その評価にGPT-4も入れて欲しかった）
- 付録にパラメータも載ってて助かる。Rank=256 ってでかいように思えるけどそんなものなのだろうか？
A6-1 Swallowコーパス: 日本語大規模ウェブコーパス
A6-2 大規模言語モデルの日本語理解能力検証のための「本音と建前」データセットの構築
A6-3 ichikara-instruction LLMのための日本語インストラクションデータの作成
A6-4 大規模言語モデルの日本語能力の効率的な強化: 継続事前学習における語彙拡張と対訳コーパスの活用
A6-5 Aug AnaloGPT: 大規模言語モデルを用いたアナロジー生成によるデータ拡張
B6-4 人工画像を用いたText-to-Imageモデルの事前学習
A7-3 LLM の生成・翻訳による指示・応答データセット構築
C7-4 日本語社会的バイアスQAデータセットの提案
A8-2 llm-jp-eval: 日本語大規模言語モデルの自動評価ツール
A8-5 継続事前学習による日本語に強い大規模言語モデルの構築
P8-8 日本語タスクにおける LLM を用いた疑似学習データ生成の検討
P8-19 言い換え文を用いた機械翻訳の学習データの増加
A9-5 特許請求の範囲の自動書き換え生成モデルのための大規模データセットの構築
D9-5 大規模言語モデルにより生成した疑似データを用いた自由記述アンケートの自動集約
P9-1 大規模言語モデルを用いた病名予測の検討
P9-4 JMedLoRA：Instruction-tuningによる日本語大規模モデルの医療ドメイン適用
P9-5 ビジネスのドメインに対応した日本語大規模言語モデルの開発
P9-7 大規模言語モデル houou (鳳凰): 理研 ichikara-instruction データセットを用いた学習と評価
P9-11 RAGの連結方式および自動評価指標の定量評価
P9-13 Minimal-pair Paradigmデータセットにおけるトークン長バイアスの分析と改善
P9-18 Constitutional AIにおけるセーフティアラインメントの改善
P9-22 英語中心の大規模言語モデルの言語横断汎化能力
A10-2 自己注意機構のアテンション重みが特定の種類のトークンに集中する現象と外れ値次元の関係
A10-6 部分空間法に着想を得たTransformerのアテンションヘッドにおける特徴抽出
D10-3 Beyond ROUGE: Applying an ELO algorithm to rank model performances in summarization
D10-6 Polos: 画像キャプション生成における教師あり自動評価尺度
P10-2 LDA を使った専門用語の教師なしクラスタリング
P10-4 知識グラフ構築に向けた物語文の構造分析
P10-7 大規模言語モデルを用いたマイソクPDFからの情報抽出
- GPT4VもGeminiVisonProも試している。
- OCRでpdftotextやるときに座標値も与えてやるのを逆瀬川さんがpudlleocr + functioncalling でやっていたよね。
- 今回の場合は物件の画像情報も使えるから、GPT4Vにコンテキスト与える「OCR＋GPT4V」が王道かと思っていたんだけどそれはやらないのだろうか？
P10-9 LLMは日本語追加学習により言語間知識転移を起こすのか？
P10-16 一部のエンティティに紐づくテキスト情報を知識グラフ埋め込みに活用するための手法
P10-21 ChatGPTを用いた複数文章からの表生成
P10-26 Sentence-BERTと語義定義文を利用した語義間の類義判定手法
A11-2 大規模言語モデル事前学習の安定化

事前学習の安定化で勾配爆発を抑える話。なかなか事前学習から取り組む人は少ないとは思うけど、基本的に勾配計算は softening parameter とか入れて勾配計算の発散を抑えるのはあるし、因子分解行列でもAxBの片方が発散しないように正規化をかましたりして片方の分散をある程度小さくなり過ぎないようにするとかに近いかもしれない。

A11-4 大規模言語モデルにおける評価バイアスの尤度に基づく緩和
A11-5 事前学習済みLlama2モデルを活用した言語間転移日英モデルの作成
- 普段から気になっていたんだけど、シャッフルよりも順々にタスクこなさせた方が良い結果になっているのか。。学習率のスケジュールとかもあるし、汎用性考えたら普通は③がいいんだと思っていたので、この平均値スコアの結果だけ見ても分からないのでタスクごとのスコアを見たかった。こういうのは現地で聞かないとね。
- アダプタ学習ではなくてFull finetuning だと思うんだけど、LoRA Adapter使った場合とかも知りたかった。
A11-6 言語モデルの思考連鎖的推論における探索戦略の動的変化
C11-6 知識志向 Mixture of LoRA Experts の構築
P11-8 RAGにおける小説データベースのChunk SizeとOverlap SizeとEmbeddingモデルの効果
P11-10 文を入力とした俳句の自動生成
- GPT-2 をFinetuning。API使ってGPT-3.5 turbo をFTした方が良いんじゃないか？というのは気になるところ。
- なんなら評価もGPT-4 にもやらせてみるべきだよね、とは思う。
- 去年のNetEcoでも俳句生成の話が上がって、「これからはChatGPTに駆逐されるのでは？」という話が上がったのだが、個人的には結局俳句の評価の研究はまだまだ残ると思ったので気にはなる分野。
- あと、俳句系の研究見るといつも思うんだけど、伊藤園の“伊藤園お～いお茶新俳句大賞”のデータって研究目的ならクロールして使っていいのだろうか？　https://itoen-shinhaiku.jp/
P11-13 Large Language Models as Generalizable Text-to-Table Systems
P11-15 大規模言語モデルへの定量的推論機能の組み込み
P11-17 LLMを利用した文書分類のためのData Augmentation
P11-26 RLHFを用いた「面白い」短歌の自動生成の試み

去年のNLP2023 OKINAWA で初めて言語処理学会に参加してみたんですが、ChatGPTの流れと今の仕事の関係でNLP関連が全く無視できなくなってしまったので情報を追ってみた。

ちなみに元々2005~2010年ぐらいやっていた研究がNLPの人達と一緒にやっていたから、純粋なNLPerって分けじゃないけど研究は聞いていたし多分普通の人からしたらNLP側の人間ぐらいには詳しい方だと思うけど、深いところでNLP全然分かっていないので素人です。

あと、この数年ComputerVision やってて、純粋に画像認識の物体検出とかじゃなくて動画認識の文脈でCLIPとかBLIPとかコンテキスト理解させる特徴空間ベクトル使った方が諸々精度が良くて、単純な画像のシフト特徴量とか物体認識とかじゃダメだと思ったのが2023年にNLPに参加したきっかけです。　現にこの1年でLlaVa1.5とかGPT4Vとかが出てきてしまっているし、なんならsoraは「3次元認識まで早すぎワロタ」という点でちょっと驚きました。

で、
近況の自分の仕事の話はここでやめておくとして、純粋にSNSで流れてくるNLPの情報をもとに、気持ちだけNLPに参加してみました（エア参加）

« WSL環境でsudo権限を付与する話 | トップ |

このブログの人気記事

最新の画像［もっと見る］

「Weblog」カテゴリの最新記事

プロフィール

自己紹介: 研究生活の
ストレスを
日記で発散

アクセス状況

アクセス
閲覧	14	PV
訪問者	9	IP
トータル
閲覧	1,227,454	PV
訪問者	540,028	IP
ランキング
日別	73,430	位
週別	36,509	位

カレンダー

2024年5月
日	月	火	水	木	金	土
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

前月

次月

goo blog おすすめ

おすすめブログ

@goo_blog

お客さまのご利用端末からの情報の外部送信について

goo blog お知らせ

	goo blogは20周年を迎えました！
	訪問者数に応じてdポイント最大1,000pt当たる！
	皆さんにおすすめしたい人気ブログをご紹介
	今週のお題「#GW」をチェック

やる記