BackGround

研究の学術的背景

情報通信技術の進展・普及により、コンピュータが人々の生活と切りはなすことができないものとなってきている。ユビキタスコンピューティングという言葉に代表されるように、「どこでもコンピュータ」の時代が到来しつつある。このような時代においては、人とコンピュータとの間のより親密なコミュニケーションが実現できるインタフェースの確立が必要となってくる。

現在、人とコンピュータとのより高度なインタフェースの実現をめざし、HCI分野を中心に研究開発が進められている。しかし、まだ基盤となる技術は開発されておらず、多くの研究開発が様々な視点から研究開発が進められている。

このような視点の一つとしては、感情を考えることがあげられる。人は他者と対話する際にその言葉（言語情報）のみでなく、声の抑揚や表情、ジェスチャに表れる感情も考慮して、相手の意図を読み取ろうとしている。コンピュータにおいてこれを実現するためには、表情、ジェスチャ、音声を解析するとともに、そこから得た情報を統合して処理する枠組みが必要となる。

現在、表情、ジェスチャ、音声の解析に関する研究は個々に進められている。

表情やジェスチャについては、その動作の認識や変化を捉える研究が進められ、いくつかの代表的な手法が提案されている。表情に関しては、エクマンらの FACSが代表的な手法としてあげられる。これは表情をAUと呼ぶ動作が独立で視覚的に識別可能な動作単位の組合せとして定性記述するものである。しかし、キラーアプリケーションとなる手法はまだ提案されていない。また制約が多く精度も低い。

音声については、音声認識の研究はかなり進められており、高い精度で発話を認識するシステムを構築されており、商用システムも開発されている。感情とのマッピングについては、音声に対し周波数分析し、その特徴から感情を捉えようとしているものが主流である。しかしその結果は各研究開発事例における実験や評価に依存するところが大きく、研究開発は初期段階のものが多いといえる。また認識または合成の一方に特化しているものや範囲を限定しているものが多い。

またこのような音声や表情からの感情の抽出、感情の音声や表情での表現においては、経験的値、実験から得られた値を利用することが主流である。心理学の理論を利用しているものものあるが、明確な理論が確立していないのが実情である。

さらに全体を融合する研究事例は少ない。表情と音声などのマルチモーダルな情報を統合して利用した研究開発事例としては、人との共生を目指したロボット、擬人化エージェントの研究が挙げられる。代表的な研究例として、MIT Media LabのKismet、および早稲田大学のROBISUKEがある。Kismetは、人間社会の中で発達することを目指した頭部だけのロボットである。 Kismetは人の感情認識、簡単な喜怒哀楽の表現、相手からの刺激による自己の感情表現を行える。感情を認識し、表情を生成するという点では、本研究と類似している。相違点としては、本研究では認識した感情を基に相手の思考に合わせた翻訳を行おうとしている点、ジェスチャも処理対象としている点が挙げられる。またROBISUKEでは、パラ言語として頭部ジェスチャを認識するとともに韻律にも着目し、人の発話内容の理解に取り組んでいる。このように研究開発は続けられているが、まだ発展段階である。

Back