デザインとは関係ないちょっと変わった仕事のご依頼がありました。
スライドショーで使用するナレーションを生成AIで制作するものです。
VoicePeakなどのナレーション作成ソフトであれば、
作成した後に微調整をかけられたり、
事前にワードを登録しておくことができ便利なのですが、
今回はアニメっぽい声は嫌だということで、
GoogleのText-to-Speachを使用しました。
言語を設定して30種類のVoiceの中から、最も落ち着いた感じで、
比較的正確に発音するものを選択。
あとで編集するので、詳細設定で音声エンコードは「Linear16」に。
文字数制限があるのと、一文が長いとエラーになるので、
所々改行を入れて、最初は長めに生成します。
あまり文章を細かく生成すると、
生成するたびにスピードやイントネーションが変わり、
繋げた後に不自然になるので、
ある程度長めに生成するのが自然な音声にするコツです。
確認しながら数回生成します。
いいかなと思うところでダウンロードして、
単語や人名など気になるところ、は「てにをは」をつけてその部分だけ、別途生成します。
このとき、先に生成したものと違和感がないものができるまで生成を繰り返すのですが、
何度も聞いてると音声がゲシュタルト崩壊するのでご注意を(笑
できたものは、Adobe Auditionで間を開けたり、
追加生成した単語の部分を差し替えたりして、編集します。
完成したものは比較的クオリティが高く、結構楽しい作業でした。
インターネット黎明期、まだWebデザイナーは存在しない頃、
見たこともないホームページの制作依頼を受けた時のことを思い出します。
まだ生成AIを専門にやってるところはあまりなく、
元々技術系で未知?のテクノロジーにも強いので、
こういったお仕事が時折舞い込んできます。
また時代が変りますね。
