サロンde渕研

音声と言語

スペクトルの主成分分析(3)ケプストラム

2006-04-23 17:36:37 | 音声
ケプストラムを、スペクトルの(逆)フーリエ変換と定義すれば、
対数スペクトルの逆フーリエ変換=(いわゆる)ケプストラム
振幅スペクトルの逆フーリエ変換=振幅ケプストラム
二乗スペクトルの逆フーリエ変換=パワーケプストラム=自己相関係数
ベキ乗根スペクトルの逆フーリエ変換=一般化ケプストラム
ここで、ベキ乗根変換はBox/Cox変換(一般化対数)といわれるものに対応する。

主成分分析をするのに、スペクトル/ケプストラムのどちらの空間を使ってもよい。
計算量、精度等計算上の微妙な差はあるが、理論的には等価である。
フーリエ変換は直交変換であり、距離(内積、直交関係)を保存する変換だからである。

ケプストラム(の方)に特別の魔法があるわけではないようだ。
微細構造を含んだままのスペクトルデータを直接主成分分析しても、
あらかじめ微細構造を分離した概形スペクトルを主成分分析したものと、
同様の結果が得られる。
主成分は、もともと、元データの概略的特徴を検出するものだからである。

セミナー開催

2006-04-22 21:33:51 | 音声
音声セミナーが開かれた。

主題:スペクトル主成分ボコーダの可能性
日時:2006年4月21日 午後2時~
場所:産総研 秋葉原ダイビル10階

メーリングリスト開設

2006-04-20 08:29:45 | ウェブ
旧ETL音声研関連をメンバーとしてMLを開設した。

スペクトルの主成分分析(2) Eigenvoice

2006-04-03 13:53:18 | 音声
音声認識のための「話者適応」に主成分分析を用いる方式があり、得られた主成分を「固有声」 Eigenvoice と呼んでいる。(この名前もらいたいなぁ)
確率モデルによる音声認識のための話者適応化技術  篠田浩一
の解説によれば、
『固有声の名前はもともと顔画像認識で用いられている主成分分析手法、固有顔(EigenFace)に由来する[]。話者と音韻の直積空間(話者特徴量空間)における主成分分析をおこない、より低次元の部分空間に射影する方法である。』
『学習段階では、事前に多数の話者の特定話者モデルが用意され、分布ごとの平均ベクトルを並べた話者ベクトルが作成される。1人の話者の話者ベクトルは話者特徴量空間の1点として表される。次に多数話者の話者ベクトルをサンプルとして、話者特徴量空間の主成分分析を行い、話者特徴量の次元を削減する。その結果作成された低次元の部分空間を張る固有ベクトル群をEigenvoiceと呼ぶ。』
『Kuhnらは、この手法をアルファベット認識のタスクで評価している[]。モデル数は26、1モデルの状態数は6、各状態の出力分布は単一ガウス分布、特徴量次元は18次元であり、話者ベクトルは26×6×18=2808次元となっている。アルファベット発声を適応データとして、適応データとは別のアルファベットの発声を認識し、固有ベクトル5個でMLEDを行った。その結果、4単語の発声で25%程度の誤り削減率を得ている。』
なお、上記特徴量としては、perceptual linear predictive(PLP) cepstral features を用いている。

スペクトルの主成分分析(1) OPCA

2006-04-03 12:39:33 | 音声
Speaker-Independent Feature Extraction by Oriented Principal Component Analysis
N.Malayath,H.Hermansky,A.Kain and R.Carlson
この論文で主成分分析の対象としている音声データベースは、
1.VOICE database
●男声4名、女声4名の16文
●文の読み上げはメトロノームに同期
●10次のLPCから求めたケプストラム係数15項
2.TIMIT database
●100話者、10音韻バランス文

処理手順
1.特徴量(LPCケプストラム)を抽出
2.差分ベクトルにより、同一話者の音素分布である言語情報(LI)と
  同一音素に対する話者分布である話者情報(SI)を表現
3.差分ベクトルから、LI,SIそれぞれの共分散行列を求め、主成分分析により、
  それらから最適基礎ベクトル集合を推定
4.重み付SNR最大化することにより使用する基礎ベクトルの個数を推定
5.基礎ベクトルの張る空間に射影することにより元の特徴量を変換

4主成分で音韻性が表されるという結論のようだが、
これを音声認識やボコーダのパラメータに使うという提案はない。

ブログ事始

2006-04-01 17:33:34 | ウェブ
「知的生産の道具」、「バーチャル研究室」というキーワードを、梅田望夫著「ウェブ進化論」ちくま新書 で見つけた。
ぼくが久しぶりに感心した本で「目からウロコ」の箇所が多い。その中で、

p.165『「知的生産の道具」と聞けば大抵のものは試してみるということを続けて、...それぞれ何十種類を試した結果、自分の好みを定め、現在に至っている。
そんな試行錯誤の末、最近はブログこそが自分にとっての究極の「知的生産の道具」かもしれないと感じ始めている。』
p.167『私の学生時代の夢は、学問研究をずっと続けて大学に残ることだった。...
「自分の研究室(ゼミ)を持って、学生たちと一緒に知的生活を送る」という「日々の在り様」に強く惹かれていた。...あれは叶わぬ夢だったのだなぁ...
凄いことに私は今、ネット上に「バーチャル研究室」ともいうべきエンティティ(存在)を持ち、...極めて充実した知的生活を送るに至っている。...
「バーチャル研究室」ができるに至ったのは三年前にブログと出会い、始めてみようと思ったのがきっかけだった。』

そんなブログには、p.166『
(1)時系列的にカジュアルに記載でき容量に事実上限界がないこと。
(2)カテゴリー分類とキーワード検索ができること。
(3)手ぶらで動いていても(自分のPCを持ち歩かなくとも)インターネットへのアクセスさえあれば情報にたどりつけること。
(4)他者とその内容をシェアするのが容易であること。
(5)他者との間で知的生産の創発的発展が期待できること。
』という特徴がある。

であれば、退職後、音声や言語、推論などをテーマにする「バーチャル研」を作るのが夢であったぼくはブログを始めざるをえない。
(これまでブログを軽視していた言い訳については今は書かない)

というわけで、この談話室に興味をもった皆さん、自由に「コメント」(それがブログの特長)をお寄せください。


セミナー

2006-03-31 08:59:37 | 音声
「スペクトル主成分ボコーダの可能性」についてセミナーを開きます。
時間、場所等詳細は追って掲載します。

スペクトル主成分ボコーダとは

2006-03-16 13:45:14 | 音声
「スペクトル主成分ボコーダ」の解説はここ→音声を見てください。