読売新聞 2021/05/07 08:44
人工知能(AI)を使い、アイヌ語と日本語が入り交じった音声データからアイヌ語を抽出し、90%を超える精度で文字化するシステムを、京都大情報学研究科の河原達也教授らが開発した。文化庁は、極めて深刻な消滅の危機があるとされるアイヌ語の音声記録を北海道で収集し、デジタル音源化して整理・保存する事業を進めている。現在は専門家が音声を聞きながら行っている事業の音源整理の能率が、AIシステムを使うことで飛躍的に向上すると期待されている。(増田弘治)
アイヌ語は、国連教育・科学・文化機関(ユネスコ)が認定する「消滅の危機にある言語」のうちでも、極めて深刻な危機があるとされる。河原教授らの研究は、文化庁の保存事業の一環として行われた。
アイヌ民族は古来、民話や叙事詩を口伝えで継承してきた。アイヌの文化復興拠点として北海道白老町に整備された国立施設「ウポポイ(民族共生象徴空間)」にある国立アイヌ民族博物館は、1975年以降に研究目的で録音された民話「ウエペケレ」や古老へのインタビューを計670時間分、収蔵している。
河原教授らはこのうち10人が語った40時間の民話の音声データを基に、AIに母音、子音の配列にある独特な規則性を学習させた。その結果、アイヌ語の認識とローマ字変換が94%の精度でできるようになった。
AIシステムに日本語認識機能を組み込み、アイヌ語と日本語が入り交じった音声データを分析させると、アイヌ語はローマ字、日本語は漢字や平仮名で書き出せるようになった。
◇
文化庁国語課は2015年から、北海道でカセットテープやビデオテープに記録された音源を収集し、デジタル化して整理・保存する事業を進めている。これまでに3000時間分のデジタル化を終え、カセットテープなど3000本分について作業を進めている。
国語課の鈴木仁也まさなり調査官によると、音源を整理するなかで一つの音源を複製したものが多数見つかり、音源を一つに絞り込む作業を、専門家がすべてを聞きながら膨大な時間をかけて行っているという。
河原教授らが開発したAIシステムを使えば、1時間の音声データを数分で解析し終えることができる。鈴木調査官は「AIを使えば整理の能率は格段に上がる。ただ、現在のAIはアイヌ語の一部の方言だけで学習しているので、ほかの方言で録音された音源を正確に聞き取れない可能性がある」と話す。河原教授らは今後、ほかの方言を使い学習を深めさせる計画だ。
国立アイヌ民族博物館の安田益穂学芸員によると、博物館ではデジタル音源や動画を集めたホームページ「アイヌ語アーカイブ」で河原教授らが開発したAIを活用し、アイヌ語の単語を検索すると音源を再生できるシステムを作った。
安田さんは「アイヌ語を学ぶ若い世代が増えており、AIは研究資料の整理を加速させるだけでなく、アイヌ語学習にも貢献するはずだ」と話している。
https://www.yomiuri.co.jp/national/20210507-OYT1T50070/
人工知能(AI)を使い、アイヌ語と日本語が入り交じった音声データからアイヌ語を抽出し、90%を超える精度で文字化するシステムを、京都大情報学研究科の河原達也教授らが開発した。文化庁は、極めて深刻な消滅の危機があるとされるアイヌ語の音声記録を北海道で収集し、デジタル音源化して整理・保存する事業を進めている。現在は専門家が音声を聞きながら行っている事業の音源整理の能率が、AIシステムを使うことで飛躍的に向上すると期待されている。(増田弘治)
アイヌ語は、国連教育・科学・文化機関(ユネスコ)が認定する「消滅の危機にある言語」のうちでも、極めて深刻な危機があるとされる。河原教授らの研究は、文化庁の保存事業の一環として行われた。
アイヌ民族は古来、民話や叙事詩を口伝えで継承してきた。アイヌの文化復興拠点として北海道白老町に整備された国立施設「ウポポイ(民族共生象徴空間)」にある国立アイヌ民族博物館は、1975年以降に研究目的で録音された民話「ウエペケレ」や古老へのインタビューを計670時間分、収蔵している。
河原教授らはこのうち10人が語った40時間の民話の音声データを基に、AIに母音、子音の配列にある独特な規則性を学習させた。その結果、アイヌ語の認識とローマ字変換が94%の精度でできるようになった。
AIシステムに日本語認識機能を組み込み、アイヌ語と日本語が入り交じった音声データを分析させると、アイヌ語はローマ字、日本語は漢字や平仮名で書き出せるようになった。
◇
文化庁国語課は2015年から、北海道でカセットテープやビデオテープに記録された音源を収集し、デジタル化して整理・保存する事業を進めている。これまでに3000時間分のデジタル化を終え、カセットテープなど3000本分について作業を進めている。
国語課の鈴木仁也まさなり調査官によると、音源を整理するなかで一つの音源を複製したものが多数見つかり、音源を一つに絞り込む作業を、専門家がすべてを聞きながら膨大な時間をかけて行っているという。
河原教授らが開発したAIシステムを使えば、1時間の音声データを数分で解析し終えることができる。鈴木調査官は「AIを使えば整理の能率は格段に上がる。ただ、現在のAIはアイヌ語の一部の方言だけで学習しているので、ほかの方言で録音された音源を正確に聞き取れない可能性がある」と話す。河原教授らは今後、ほかの方言を使い学習を深めさせる計画だ。
国立アイヌ民族博物館の安田益穂学芸員によると、博物館ではデジタル音源や動画を集めたホームページ「アイヌ語アーカイブ」で河原教授らが開発したAIを活用し、アイヌ語の単語を検索すると音源を再生できるシステムを作った。
安田さんは「アイヌ語を学ぶ若い世代が増えており、AIは研究資料の整理を加速させるだけでなく、アイヌ語学習にも貢献するはずだ」と話している。
https://www.yomiuri.co.jp/national/20210507-OYT1T50070/