「日本文学の革命」の日々

「日本文学の革命」というホームページを出してます。「日本文学の革命」で検索すれば出てきますので、見てください

電子同人雑誌の可能性 173 「コンピュータの本質―音声の「01化」」

2018-11-25 14:22:16 | 日本文学の革命
人間にとって視覚に次いで重要な感覚は聴覚「音」である。これがどれほど大切なものかは、聴覚を失った人の不自由で困難な生活を知れば十分分かるであろう。『朝ドラ』でもあったように、半分耳が聞こえないだけでもたいへんな違和感を持って生活しなければならないのである。この重要な感覚もコンピュータに統合したい所である。

現実世界をどのように「音」として聴き分けるか、これも様々な動物によって様々に異なっている。象などは額から出る赤外線のようなもので象同士のコミュニケーションをしているそうである。まるでテレパシーような感知の仕方である。鯨がその大音声を発すれば海底を通ってなんと数百キロ先の相手に思いを伝えることができるのだそうだ(インターネット並みにすごい!)。鹿やガゼルのような草食動物の耳は、耳というよりもレーダーのような働きをしていて、これによって自分を襲おうと抜き足さし足で近づいてくる肉食動物の気配を鋭敏に感知してしまうのである。

音もまたそれを感知する生物の生存様式の違いによって、様々な聴かれ方がするのであるが、ここでちょっと気になるのがわれわれ人間の蚊の音に対する異常なほどの鋭敏さである。われわれが安らかに寝ている時でも、蚊の羽音を耳にするやビックリして飛び上がってしまい、急いで蚊取りマットのスイッチを入れるのであるが、なぜこれほどの聴こえ方がするのだろう。蚊の方ではもちろん出していない筈である。蚊にとってみれば忍びやかに近づいて血を吸い、また忍びやかに立ち去ってゆくのが一番いいに決まっている。これはやはり蚊が人間を襲ってくるある意味一番危険な生物だからであろう。百獣の王・人間を襲おうとする動物など滅多にいない。虎や熊でさえ人間が近づいて来る音を聞くと「ヤバい。人間が来た」とすごすごと逃げてゆくほどである。狼なども犬として人間に飼い馴らされてしまった。そんな中常時人間を襲って来るのが蚊なのである。人間の血を狙って襲ってくるのであるが、ただ吸うだけであればほんの一滴か二滴だけだし人間にとってたいしたことではないのだが、蚊はそれだけではなくかゆみや、そして決定的に恐ろしいことには伝染病まで人間にもたらしてくるのだ。悪性の伝染病が蔓延すると人類の大量死まで引き起こされてしまう。人間にとって実に恐ろしい相手が蚊なのである。われわれに蚊の羽音がやけに大きく聞こえるのは、鹿やガゼルのように襲って来る危険な存在を鋭敏に感知する、そのために発達した音感だからだろう。

この「音」は波形として捉えることができる。音の高低も、音の強弱も、音の長さも、楽器音の違いのような音の音色まで、一つの波形図形として把握することができるのである。昔数学の授業で習ったようなサイン・コサインカーブみたいな形で描き出せるのだ。音がそのような形で表現できるのなら、もう数値化のまな板の上に乗ったも同然である。図形やサイン・コサインカーブを数値化することなど、数学の得意技であるから、すべての音を数値化「01化」して、それをコンピュータの中に取り入れることが可能なのである。
しかし一つの音の波形は複雑な形をしているし、しかも常に連続音として表れるために(映像でいえば常に動画再生しているようなものである)、膨大な処理能力が必要とされ、そのため昔のコンピュータでは単純でいかにも機械が作ったという音しか出せなかった。だがここでもコンピュータの計算処理能力の向上とともに複雑で滑らかで豊かな音も出せるようになり、今ではフルオーケストラの演奏でも問題なく聴けるようになっている。

われわれが外界の世界から聴き取っている音のうち、最も重要な音が実は「声」である。同じ人間の「声」がわれわれには最も重要で、かつ最も心に響く音なのである。われわれの生活の中で人々との会話や電話や様々なメディアを通しての言葉のやり取りは、実に大きな比重を占めている。心の中で飛び交っている「声」も入れたら、われわれは音声に包まれて生きていると言ってもいいほどである。またときには「声」は死活にかかわるほどの重要さを帯びる時もある。商談交渉の際の相手との「声」のやり取り(ビジネス上の決闘といってもいい)、就職面接時の面接官との受け答え(人生の未来がかかっている)、口説こうとしている女性との心を込めた会話(遊びではなく結婚に持ち込もうとしている時には特に)などの時は、この「声」という音声が必死の重要性を帯び、この「声」を聴き分けそれにうまく対応して発話することに、これからの人生すべてがかかってくるほどの重大事となってしまうのだ。

「声」という音声はわれわれの生活で実に重要な比重を占めている音なのだが、しかしこれをコンピュータに認識させるには今でも大きな壁がある。それは人間の音声が十人十色でいちいち異なっているからである。
たとえば「つらい」というたったひとつの単語でも、話す人間によって十人十色、様々な音声の波形となってしまう。性別によって異なる波形になるし、年齢によっても異なる波形になる。関西の人間なら関西のイントネーションで「つらい」と喋るだろうし、昔の江戸っ子に喋らせたら「つれえ」と字形まで変わってしまう。看護婦さんから「つらいんですか」とやさしくされたら癒される心地になるのに、同じセリフを男性看護師に言われても別に何も感じない。女性の場合は男性医師から「つらいんだね」とやさしく語りかけられたら、同様の癒される心地になるのだろう。このように音声というものはひとりひとりによって、さらには話すシチュエーションによっても、大きく異なる波形となってしまうのである。

この千差万別、個性と雑音といい加減さに満ちた音声というものを、コンピュータはこれまでうまく認識できなかったのだが、最近ではここでもコンピュータは目覚ましい発達を見せている。膨大な人々から音声データを収集し、それをサンプリングしてゆき、どんな音声がやって来ようともそこから正しい言葉を見い出せるようになろうとしている(最近ケータイを使っていると用もないのに「音声検索を試してみませんか」としつこく要求してくるが、どうも声のサンプルが欲しいからやっているらしい)。コンピュータは音声認識でも日進月歩で進化している。コンピュータがわれわれとまるで人間同士と同じような複雑な会話を行い、われわれの音声世界に深く介入してくる時代が、そう遠くないうちにやって来るのだろう。

最新の画像もっと見る

コメントを投稿