IDEA AND CREATIVITY
クリエイティブの専門メディア

           

AI TOPICS

生成AI時代のテクニカルディレクション

岡田太一

生成AIを広告制作の現場で導入する際に押さえておくべきこととは。生成AIやxR領域でのテクニカルディレクションに携わる岡田太一さんが解説する。

初音ミクでもおなじみ 音声生成技術とAIの関係

これまでは主にテキスト生成、画像生成を中心に取り上げてきましたが、今回は音声生成(合成)について取り上げます。

昔からWindows(※1)には、Text to speech(TTS)というアプリが搭載されていました。これは元々スクリーンリーダーと呼ばれるジャンルのソフトウエアで、視覚障害者など、テキストを視認することが難しいユーザーに向けた機能でした。初期のTTSは波形接続型合成方式と呼ばれる音声合成技術を使用しており、これは音声の断片を連結して単語やフレーズを合成する方式でした。シンセサイザー的に言えばPCM音源の発想ですね。

※1 TTSのAPIとしてSpeechAP(ISAPI)が搭載されたのはWindows95からですが、ユーザーが使用可能なアプリケーションとして標準搭載されたのはWindowsXPからになります。

波形接続型合成はシンプルで効果的な方式ですが、生成される音声は時として不自然に聞こえることがあります。自然なイントネーションやリズムを生成するのが難しく、特に文脈によって変わる発音を正確に再現するのは難しいものでした(※2)。

※2 余談ですが、TTS の独特のイントネーションはネットミームとして一部のファンを獲得しており、YouTube動画のナレーションなどで現在でも聴くことができます。

音声合成が大きく発展したタイミングとして...

あと65%

この記事は有料会員限定です。購読お申込みで続きをお読みいただけます。

おすすめの連載

特集・連載一覧をみる
ブレーンTopへ戻る