生成AIを広告制作の現場で導入する際に押さえておくべきこととは。生成AIやxR領域でのテクニカルディレクションに携わる岡田太一さんが解説する。
初音ミクでもおなじみ 音声生成技術とAIの関係
これまでは主にテキスト生成、画像生成を中心に取り上げてきましたが、今回は音声生成(合成)について取り上げます。
昔からWindows(※1)には、Text to speech(TTS)というアプリが搭載されていました。これは元々スクリーンリーダーと呼ばれるジャンルのソフトウエアで、視覚障害者など、テキストを視認することが難しいユーザーに向けた機能でした。初期のTTSは波形接続型合成方式と呼ばれる音声合成技術を使用しており、これは音声の断片を連結して単語やフレーズを合成する方式でした。シンセサイザー的に言えばPCM音源の発想ですね。
波形接続型合成はシンプルで効果的な方式ですが、生成される音声は時として不自然に聞こえることがあります。自然なイントネーションやリズムを生成するのが難しく、特に文脈によって変わる発音を正確に再現するのは難しいものでした(※2)。
音声合成が大きく発展したタイミングとして...