【ただいま読書中】

おかだ 外郎という乱読家です。mixiに書いている読書日記を、こちらにも出しています。

無能な上司

2018-09-01 07:02:45 | Weblog

 って、出来の悪いスマートスピーカーに似ていません? こちらの音声に取りあえず反応はするけれど、すぐに勘違いをします。何を勘違いしているかはこちらにはノーヒントだし、勘違いの訂正はきわめて困難です。
 もしかして「人型の、音声インターフェースを搭載した、人工無能」だったりして。

【ただいま読書中】『音声に未来はあるか?』河野道成 著、 日系BP社、2018年、1800円(税別)

 2017年に音声インターフェースを搭載した「スマートスピーカー」が日本で発売されましたが、「音声認識」の研究は実は半世紀くらい前に始まっていました。コンピューターの性能が上がった1990年代に音声対話システムの研究開発が始まりましたが、このときには「単語」の認識がせいぜいでした。2000年ころから「話(単語の連続発話)」の認識ができるようになり、2003年に京都で市バスの運行情報案内を音声で提供するようになりました。2011年に米アップルが「Siri」を発表。最初は英語・ドイツ語・フランス語でしたが、12年には日本語にも対応しました(もっともこの頃の日本語認識はお粗末でしたっけ。今はすごいですけど)。12年にサムスン電子がテレビに、シャープはアクオスブルーレイレコーダーに音声UIを搭載して、音声による機器コントロールを可能にしました。同じ頃AIで「ディープ・ラーニング」が始められ、音声インターフェースはどんどん進化することになりました。「AmazonEcho」「Pepper」「GoogleHome」などが次々発売されていますが、私たちから見えにくいところでも音声インターフェースが採用されています。たとえば、カスタマーサポートやコールセンターのオペレーター支援あるいはオペレーターそのもののかわりとして、すでにシステムが動いているのです。気づいてました?
 音声入力の強みは「スピード」と「ショートカット」です。話す速度で指を動かして文字を入力できる人はあまりいません。これが「スピード」の強み。「ショートカット」は、たとえば「横浜市の明日の天気は?」を従来の文字入力ですると、「天気予報」「横浜市」「明日」など数ステップの入力(クリックやタップ、文字入力)が必要です。しかし音声だったら一発。「山本さんに遅刻するとメッセージをして」でもステップ数が少ないのは明らかです。音楽や写真など、大量にストックがある場合、その中から特定のものだけ探し出すのも、音声だと楽ちんです。
 音声インターフェースの基本機能は「検索」「予定管理」「連絡」「メディアプレイヤー」「機器連携」「雑談」の6つです。実にさまざまな製品が具体的に紹介されていて、「私は何も知らないなあ」とつくづく思いましたが、ルンバ(自動掃除機)もこの中に登場するのには笑ってしまいました。
 著者はソニーに勤務しているときにPS4の音声インターフェース開発に関わっていたそうで、ですから話はきわめて具体的です。たとえば入力のところでまず必要なのは「集音信号処理」(雑音なしのきれいな入力)だそうです。言われてみたら当たり前ですけど、門外漢には新鮮な知識です。そして「音声認識」そして「意図の理解」。ここまでできたら「発話者の発話内容」が理解できたことになります。そこで「対話応答/対話生成」がおこなわれ、その内容を「音声合成」で発することになります。
 これを人は自然にやっているんですよね。すごいなあ(できていない人もいますが)。
 音声インターフェースに話しかけるとき、理解してもらいやすいように人は「書き言葉で話す」必要があります。しかしこれはけっこう難しい。だって人は「話し言葉で話している」のですから。このへんをソシュールだったらどう処理するかな?
 最近では「人と会話ができる」ではなくて「面白い会話ができる」が技術者の目標になっているそうです。ところがこれが難しい。人間だって「話し上手な人」はそれほどいませんよね。ここで突然「交流分析」が登場します。心理療法的なコミュニケーション理論ですが、これをAIに学ばせたら、人との会話が円滑に進むのではないか、というのです。これが上手くいったら、心理カウンセラーの一部は機械に代替可能になるかな?(『ゲイトウェイ』でそんな「分析医」がいましたね)
 音声インターフェースはこれからどんどん普及するでしょう。問題は「私」がそれに適応できるかどうか、でしょうね。取りあえずSiriに「音声インターフェースの未来はどうなる?」と尋ねてみたら「私にはそのお手伝いはできません」と返されてしまいました。


人気ブログランキングに参加中です。応援クリックをお願いします。