6.29 Thu.

18:00~18:50

AI

音声合成の発音正確性と自然性

音声合成は元々、入力と出力の対応が一対多になりやすい問題設定だが、そこには入出力の好ましい対応とそうでないものがある。従来は、技術的な問題で好ましくない対応が混入することにより、指定した文字と異なる発音をする場合がごくまれにあった。例えば「が」が「か」になったり、「と」が「た」になったりしていた。こういったことがあると特定の日付だけうまく言えない等の事故が起きうるので、特に予約タスクなどの自動対話では問題となる。音響モデルの性質の違いとアラインメントの観点で、こうした発音違いを抑制する手法について紹介する。

登壇者

  • 吉本 暁文

    リサーチサイエンティスト

    Twitterを開く

    2017年新卒入社。AI Lab にて音声合成・音声認識を始めとする音声関連技術の研究開発に従事。これまでにデジタルツインレーベル、極AI、AI Shift を始めとするプロダクトと連携し、最先端の技術を導入している。

関連セッション

関連リンク