口唇動作による非発声を特徴とするインタフェースの研究

近年、音声認識技術の発達はめざましく、諸種様々な場面で適用され、活用されています。携帯電話のアプリケーションとして組み込まれている音声入力式ナビゲーションシステム、カーナビで用いられている音声入力インタフェースインタフェースが代表的な例です。しかしながら、音声認識技術はそもそも音声がコンピュータによって、受け取られなければその機能が十全に働かないという欠点を有します。たとえば、周囲の雑音が一定以上に高い場所であれば、入力音声は周囲の環境雑音によって、干渉・減衰され、結果としてコマンドを識別できなくなってしまいます。また、同時に2人以上の人が発声すると、それぞれの声を分離するのが困難になります。
 そこで、当研究室では、音声認識を用いず、発声内容を分析するため、発声時の口唇の画像を用いて、発声内容を読唇術のように読み取る技術の開発をめざして研究を行っています。

研究の目的
視力と見え方のシミュレーション

発声中の口唇部分の検出するために、パソコンに接続されたUSBカメラで発声者の顔を撮影し、得られた動画像から口唇部分を画像処理により自動的に抽出するアプリケーションの開発を行っています。右図の例では、両目を抽出し、そのデータから口唇の位置を検出しています。
 特定された口唇の位置から発声中の口唇動作を検出します。日本語の母音列「あいうえお」を発声するときの口唇動作パターンはそれぞれ固有の動作を行うため、いずれの母音が発声されたかを口唇部と下顎部の動作から分析して区別します。このとき、口唇部の動きが最も特徴的に動く5点(口唇の上下左右端、下顎端)を指標として抽出し、その動作軌跡を時系列で取得します。

実現イメージ

上述した5点の動作履歴を周波数解析して、各母音の区別ができることが分かりました。発声者にかかわらず、より安定して母音認識ができるようなアルゴリズムの開発をめざして研究を進めています。

参考文献
柳朋宏、坂本篤史、山田光穗:口唇動作を用いた発話認識法の提案、ヒューマンインタフェースシンポジウム2007
,2520
柳朋宏、山田光穗:音声を伴わない発話認識インタフェース構築における口唇動作モデルの提案と検証ヒューマンインタフェースシンポジウム2008,2422