富士通、画面を見ずに音声だけで情報をスマホから取得できるUI技術を開発

　富士通研究所は13日、スマートフォンの画面を見ることなしに、音声だけでさまざまな情報を取得できる音声インターフェイス技術を発表した。

　音声合成で読み上げられた最新のニュースの情報などに対し、ユーザーが言葉を発声することで、さらに詳しい情報や関連情報を読み上げられるというもの。システムがニュースなどのコンテンツを正しく読み上げること、ユーザーが発した言葉を正確に認識すること、時事用語や同音異義語を正しく把握することなどといった課題に対応した。たとえば、システムが読み上げたニュースのヘッドラインから気になった言葉を発すると、さらにそれに関する詳細記事をシステムが読み上げる、というユーザビリティが提供できる。これにより、運転中や作業中などのアイズフリー・ハンズフリーが求められるシーンにおいて、画面を見たりタッチすることなくさまざまな情報サービスを受けることが可能となる見込み。

　具体的には、インターネット上から最新の用語に関して「表記（かな）」のパターン（例：亘理町（わたりちょう））を自動抽出し、単語辞書に自動登録する技術を開発した。これにより、常に読み間違いや誤認識が少ない音声インターフェイスが可能になった。また過去にシステムが提示した情報の履歴を解析し、話題にフォーカスした単語を抽出し、音声認識辞書を動的に作成する技術を開発した。これにより、同音異義語など、曖昧性のある単語も正しくシステムが認識するため、ユーザーの意図に沿った応答をすることが可能になる。

　音声認識・音声合成を行うときは、大量の語彙を保管・更新するセンターにネットワークを介して接続するが、その際に発生する処理や通信による遅延を、提示する音声データの分割や先読みで吸収し、さらに無音状態のタイミングを制御することで体感品質を向上させる技術も開発した。

　今後は、2012年度中の実用化を目指し、本年度中に実証実験を行う。

富士通、画面を見ずに音声だけで情報をスマホから取得できるUI技術を開発

特集

この記事の写真

関連リンク

関連ニュース

【CES 2011】GM、音声認識機能を持つAndroidアプリ開発へ

リアルつぶやきでTwitter投稿も…音声認識iPhoneアプリ「Dragon Dictation」「Dragon Search」無料配布開始

NEC、顧客との会話をリアルタイムにテキスト化する「CSVIEW/VisualVoice」を機能強化

NEC、SaaS型「会議録作成支援サービス」で、株主総会向けサービスをあらたに発売