昨夜に引き続き音声認識ソフト AmiVoice SP2の認識変換です。今日は、何冊かの本を読み、それがどのくらい正確に認識されるのか調べてみました。
認識率という時、修正を全くしないでどのくらい正確に認識し適切にかな漢字変換するのかという考え方もあるだろう。しかし今回は、本を読み上げてそれを認識する企画なので、やや音声認識ソフトに甘くしていく。キーボードを使わないで簡単に修正できるのであれば、合格という見方でいきたい。
例えば、「コセイブツガク」と発音して「小生物学」と認識されたとしよう。しかし、「小」の部分をクリックすれば簡単に「古」が出るのであれば、そのことについては明示しないでおく。
というのは、ユーザー(発話者)にとってあまり馴染みのない文章を読み上げるときには、どうしても簡単には正しい変換が出にくいからである。音声認識ソフトに対してあまりに過剰な期待をかけるわけにはいかない。
最初に選んだ本は、ウォード『恐竜はなぜ鳥に進化したのか。―絶滅も進化も酸素濃度が決めた』(文春文庫)
92ページ
動物の起源がこの物語の出発点である。動物の門が最初に多様化した時期、つまりいずれかの最初の祖先動物が数多くの種類の動物[+へと]分岐していった時期のことだ。その時期について非常にかしましい論争があり、二つのはっきり異なる系列の食[←証拠]は、全く異なった見方を示している。一つの系列は、各地層から出現する化石のパターンから出てくるものであり、もう一つの系列は、県政[←現世]動物の分首都圏[←分子時計]の研究に依頼[←由来]するものである。本書では、古生物学的なられる[←あらゆる]など[←謎]の中でも最大の謎の一つ、すなわちカンブ嫌気[←リア期]大爆発において動物の体制の急激な体様化[+を]引き起こしたもの[←は]何かという疑問を解く[+て]がかりとして、それらの証拠を検討してみることにする。
最高の音声認識結果だったとは言わないが、音声認識ソフトの認識能力はかなかなレベルだったと思う。うまく認識できていない箇所というのは、音声認識ソフトの責任というよりは、発話者(私)が正確に発音できなかったように見えるからだ。
次に取り上げるのは、村上春樹×小澤征爾『小澤征爾さんと、音楽について話をする』(新潮社)の318ページである。
そのようにして、受講する生徒だ[←た]ちは、みんな朝から晩までほとんど休みなく、みっちりと鍛えられる。文字どおり音楽漬けの日々だ。でもみんな何しろ20代の若い男女(女性の方がすこしばかりを言っ[←多い])だから、忙しい中でも何とか今[←暇]を見つけてせっせと斉唱[←青春を]楽しんでいる。食事もみんなでワイワイ騒ぎながらたべる。練習が終わってから町のバーに繰り出し、盛り上がったり、リラックスしたりする。当然のことながら、いか[←いくつか]のロマンスカー[←が]生まれたりもするみたいだ。
これは速くで読んだからだろうか、ちょっと誤認率が高いような気がする。そこで別のページを読んでみる。今度は小澤征爾と村上春樹の対談の部分、192ページである。
小沢「ドライバ[←クライバー]を[←は]よく勉強する人だったし、よく曲を知っていました。でもね、トラブルを起こす人で、ベルリンでベートーベンの4番を踏んだ[←振った]時でも、やるやらない、やるやらないで毎日の[+よう]にもめていました。僕は彼としたしかったんで、その時の次第を近くで見ていたんだけど、比べ[+クライバー]はね、何とかして自分が指揮するのやめる効率[←口実]を探してるみたいに、僕の目には見えた」
村上 「小沢さんは指揮をキャンセルした事ってあります?」
小沢「今回のように病気でキャンセルした事はある。でもすこしくらい熱があっても、だいたいは我慢してエッチ予報[←やっちゃう方]です」
小澤征爾の名前は一括変換でできたが、かつてのカリスマ指揮者クライバーの名前は出てきませんでした。これは止むを得ない。単語を登録させておけばこれから問題なくなるはずです。
今度は富士ゼロックスの無料雑誌『グラフィッケーション』(2009年、165号)から赤木昭夫「南北戦争の怨念」という歴史エッセイの一部を読み上げてみる。
南北戦争当時、すでに南北の工業力の差は明らかであり、短期戦はともかく長期戦になれば南軍[+に]勝[+ち]観[←目]は無かった。南北にどれほどの工業力の差があったかは、森の郊外に残る当時の製鉄炉[+を]見れば分かる。バージニアでは、近辺の山に小さな鉄鉱石の6等[←露頭]があり、石炭も石灰責務[←石]もたくさん取れたので、それらで血[←鉄]を作り、当時の南部の首都立地問答[←リッチモンド]に船で送って逮捕[←大砲を]つくっていた。しかし、北と南値方[←の大砲]の数の差は4対1くらいと、圧倒的に来た[←北]が勝っていた。
今度はちょっと認識率が低いんじゃないかなという気がした。大砲とリッチモンドが出ないのは仕方ないとは思うが。
本や雑誌の一部を読み、それをテキスト化するというのには、まだまだハードルが高いのかもしれません。もっとも、 iPhone で簡単にスキャナできる時代ですから、本をメモ書きするのに音声認識ソフトを利用する必要性はあまり高くはないのですが。
以上。
認識率という時、修正を全くしないでどのくらい正確に認識し適切にかな漢字変換するのかという考え方もあるだろう。しかし今回は、本を読み上げてそれを認識する企画なので、やや音声認識ソフトに甘くしていく。キーボードを使わないで簡単に修正できるのであれば、合格という見方でいきたい。
例えば、「コセイブツガク」と発音して「小生物学」と認識されたとしよう。しかし、「小」の部分をクリックすれば簡単に「古」が出るのであれば、そのことについては明示しないでおく。
というのは、ユーザー(発話者)にとってあまり馴染みのない文章を読み上げるときには、どうしても簡単には正しい変換が出にくいからである。音声認識ソフトに対してあまりに過剰な期待をかけるわけにはいかない。
最初に選んだ本は、ウォード『恐竜はなぜ鳥に進化したのか。―絶滅も進化も酸素濃度が決めた』(文春文庫)
92ページ
動物の起源がこの物語の出発点である。動物の門が最初に多様化した時期、つまりいずれかの最初の祖先動物が数多くの種類の動物[+へと]分岐していった時期のことだ。その時期について非常にかしましい論争があり、二つのはっきり異なる系列の食[←証拠]は、全く異なった見方を示している。一つの系列は、各地層から出現する化石のパターンから出てくるものであり、もう一つの系列は、県政[←現世]動物の分首都圏[←分子時計]の研究に依頼[←由来]するものである。本書では、古生物学的なられる[←あらゆる]など[←謎]の中でも最大の謎の一つ、すなわちカンブ嫌気[←リア期]大爆発において動物の体制の急激な体様化[+を]引き起こしたもの[←は]何かという疑問を解く[+て]がかりとして、それらの証拠を検討してみることにする。
最高の音声認識結果だったとは言わないが、音声認識ソフトの認識能力はかなかなレベルだったと思う。うまく認識できていない箇所というのは、音声認識ソフトの責任というよりは、発話者(私)が正確に発音できなかったように見えるからだ。
次に取り上げるのは、村上春樹×小澤征爾『小澤征爾さんと、音楽について話をする』(新潮社)の318ページである。
そのようにして、受講する生徒だ[←た]ちは、みんな朝から晩までほとんど休みなく、みっちりと鍛えられる。文字どおり音楽漬けの日々だ。でもみんな何しろ20代の若い男女(女性の方がすこしばかりを言っ[←多い])だから、忙しい中でも何とか今[←暇]を見つけてせっせと斉唱[←青春を]楽しんでいる。食事もみんなでワイワイ騒ぎながらたべる。練習が終わってから町のバーに繰り出し、盛り上がったり、リラックスしたりする。当然のことながら、いか[←いくつか]のロマンスカー[←が]生まれたりもするみたいだ。
これは速くで読んだからだろうか、ちょっと誤認率が高いような気がする。そこで別のページを読んでみる。今度は小澤征爾と村上春樹の対談の部分、192ページである。
小沢「ドライバ[←クライバー]を[←は]よく勉強する人だったし、よく曲を知っていました。でもね、トラブルを起こす人で、ベルリンでベートーベンの4番を踏んだ[←振った]時でも、やるやらない、やるやらないで毎日の[+よう]にもめていました。僕は彼としたしかったんで、その時の次第を近くで見ていたんだけど、比べ[+クライバー]はね、何とかして自分が指揮するのやめる効率[←口実]を探してるみたいに、僕の目には見えた」
村上 「小沢さんは指揮をキャンセルした事ってあります?」
小沢「今回のように病気でキャンセルした事はある。でもすこしくらい熱があっても、だいたいは我慢してエッチ予報[←やっちゃう方]です」
小澤征爾の名前は一括変換でできたが、かつてのカリスマ指揮者クライバーの名前は出てきませんでした。これは止むを得ない。単語を登録させておけばこれから問題なくなるはずです。
今度は富士ゼロックスの無料雑誌『グラフィッケーション』(2009年、165号)から赤木昭夫「南北戦争の怨念」という歴史エッセイの一部を読み上げてみる。
南北戦争当時、すでに南北の工業力の差は明らかであり、短期戦はともかく長期戦になれば南軍[+に]勝[+ち]観[←目]は無かった。南北にどれほどの工業力の差があったかは、森の郊外に残る当時の製鉄炉[+を]見れば分かる。バージニアでは、近辺の山に小さな鉄鉱石の6等[←露頭]があり、石炭も石灰責務[←石]もたくさん取れたので、それらで血[←鉄]を作り、当時の南部の首都立地問答[←リッチモンド]に船で送って逮捕[←大砲を]つくっていた。しかし、北と南値方[←の大砲]の数の差は4対1くらいと、圧倒的に来た[←北]が勝っていた。
今度はちょっと認識率が低いんじゃないかなという気がした。大砲とリッチモンドが出ないのは仕方ないとは思うが。
本や雑誌の一部を読み、それをテキスト化するというのには、まだまだハードルが高いのかもしれません。もっとも、 iPhone で簡単にスキャナできる時代ですから、本をメモ書きするのに音声認識ソフトを利用する必要性はあまり高くはないのですが。
以上。