ターミネーターの声まね機能もこれで実現? OKI、音声合成ソフトウェア「Polluxstar」
ブロードバンド
その他
注目記事
-
【デスクツアー】真似したい自宅デスク環境一挙公開!
-
東芝、車載向け高性能Bluetoothチップセットを製品化〜EDR規格と高度音声機能に対応
-
動画投稿サイト「zoome」、初音ミクなどを使った動画作品投稿番組〜声優によるコメントも

「Polluxstar」を契約すると、まずは現在の自分の声を収録する作業を行う。OKIが用意した例文を声を出して読み、録音する。録音は概ね3時間程度かかる。また、録音は静かな場所で、リラックスした状態が望ましい。自宅が静かな場所であればスタッフが録音機材を持って訪問するが、自宅周辺の雑音をマイクが拾ってしまう場合はスタジオ収録となる。この場合、スタジオ利用にかかる料金が別途必要だ。
収録された音声データはOKI側で分析と加工が行われる。母音、と子音を分解し、同じ文字の発音でも前後のつながりやアクセントごとに複数の発音データが用意される。これらをデータベース化した上でチャット用クライアントソフトウェアをベースにした会話用ソフトに組み込み、ユーザーのPCにインストールする。ここまでの過程はOKIが長年にわたって培った高度な技術を投入しているが、操作はとても簡単で、テキストによるチャットとまったく変わらない。よく使う言葉を登録できるほか、テキストファイルとして用意した長文も朗読できる。
音声合成ソフトはこれまでにもいくつか存在し、電話応答やアナウンスなどでも使われている。しかし「Polluxstar」の特長は、あくまでも録音したユーザーの会話を再現しようとするところ。正しい発音よりも、本人の発音を再現する仕組みになっている。また、口癖など本人特有のフレーズを事前に録音しておくことで、さらに本人の発音に近づける機能が用意されている。記者発表会では60代男性、50代女性、40代男性、30代女性のサンプルが披露され、実際の会話と合成音声を聞き比べられた。どれもまるで本人が話しているようだったが、女性よりは男性、若い声よりは年寄りの声の方が再現性が高いようだった。
OKIとしては、咽頭癌や筋肉の病気など、将来的に自分の声で話せなくなる人に向けてシステムを提供する予定だ。咽頭癌の場合、発見から手術までは時間があるため、その間に音声の収録を行える。本技術の実証実験には、実際に声帯手術を受けた大阪芸術大学教授の牧 泉 氏が協力した。牧氏は声帯切除後、さっそく自分の合成音声で医師や家族と会話し、日常生活で活用した。さらに2008年4月からは教壇に復帰。7月までの前期課程の講義を「Polluxstar」で完遂させたという。記者発表会では奥様との食事をしながらの会話の模様がビデオで紹介された。牧氏のテーブルにキーボードがある以外は、ほとんど他の一般的な夫婦の会話が続けられていた。「夫婦げんかも今まで通り」という奥様の言葉が印象的で、語る側だけではなく、聴く側も自然に会話できるようだ。
個々の音声をサンプリングし、本人の発音を忠実に再現するというシステムは、上記のような医療補助以外にも、イベントや館内アナウンス、メールの読み上げなど幅広い用途に活用できる。ただし朗読によるサンプリングとなるため、喜び、笑い、怒り、悲しみなどの感情を込めた発言は難しい。これらについては肉声に近いエフェクト技術を開発する必要があるという。表現力が豊かになれば、エンターテイメント分野においても用途が広がりそうだ。例えばアニメ「ルパン三世」の台詞をすべてサンプリングすれば、最新作でもルパン役が山田康雄氏の声になる、という利用法もできそうである。将来が楽しみな技術だ。
これに似たようなソリューションに、ソニーが開発した「モーションポートレート」がある。こちらは本人の顔写真から様々な表情や会話の口元を合成するソフトだ。これと「Polluxstar」を組み合わせると、本人の顔と声を使ってあらゆる言葉を合成し、表情込みで会話できる。このコラボレーションは実現したらとてもおもしろそうだ。
その一方で、本人そっくりの声で別人が喋らせるという部分にはセキュリティ上の危惧も感じた。悪用されると本人の声を使って振り込め詐欺ができてしまう。モーションポートレートではテレビ電話の会話も本人に擬装できる。考えすぎかも知れないが、どちらも夢のある技術だけに、セキュリティの部分にも気を配り、安心して使えるように発展して頂きたい。
《杉山淳一》
特集
この記事の写真
/
関連ニュース
-
東芝、車載向け高性能Bluetoothチップセットを製品化〜EDR規格と高度音声機能に対応
エンタープライズ -
動画投稿サイト「zoome」、初音ミクなどを使った動画作品投稿番組〜声優によるコメントも
ブロードバンド -
富士通、PCサイトの9割が閲覧可能な携帯電話用ブラウザ「Inspirium HTMLブラウザ V3.7」発売
ブロードバンド -
あなたのブログもみっくみく!ブログパーツ「踊る初音ミク」〜ロケットスタート
ブロードバンド -
NEC、さまざまな機器へ搭載可能な小型音声対話モジュールを開発
エンタープライズ -
シャープ、手書きパッドと読み上げ機能を備えた高校生向け電子辞書「Papyrus」2モデル
IT・デジタル -
gooラボ、携帯の音声入力でグルメ検索ができる実験を開始
エンタープライズ -
au、EZアプリでメールを読み上げるサービス「EZメール読み上げ」を開始
ブロードバンド -
BIGLOBE、電話で録音した自分の音声をブログで再生できる「生声シール」を提供開始
エンタメ -
日立、音声読み上げ機能搭載のノートPC「Prius M」シリーズ5モデル
IT・デジタル