
――松尾さんは生成AIをフル活用して制作活動を行っているとのことですが、いま一番注目している分野はどれですか?
動画関連の生成AIです。どのAIもかなり速いテンポで機能を強化していますね。テキストで命令を与えたら5~10秒程度の動画ができるもの、画像をインプットして動画生成するものなど、「○○ to ××」の組み合わせがどんどん増えています。
無料で使えるAIもありますが、課金して使ってみないと分からない部分は大きいですね。例えば、2024年にOpenAIの「Sora(ソラ)」が話題になりましたが、使ってみると他のサービスと決定的というほどの差まではありませんでした。現在は、トータルで月に10万円以上は生成AIにかけています。
僕が本当にやりたいのは妻と共作のミュージックビデオを作ることなので、妻の写真をもとにした「リップシンク」が必要です。「リップシンク」とは、登場人物の唇の動きと歌声がピッタリ連動している状態のこと。動画制作では、歌詞や世界観に合わせた短いクリップをつなぎ合わせるなど、どう使えば手間がかからずクオリティーの高いものができるか試しているところです。

一方で、ストーリー性のある動画やキャラクターが複数出てくる映画を作ろうとすると、それなりに大変です。でも今やっておかないと、すぐレッドオーシャンになるでしょう。3DCGの大部分は生成AIに置き換えられるんじゃないか、という気がします。
――松尾さんは音声合成やボーカロイドが登場した頃から音楽制作をされていますよね。生成AIに出会ったとき、どのように感じましたか?
振り返ってみると、僕が最初に触れたテクノロジーはシンセサイザーでした。その後、パーソナルコンピューターが登場し、コンピューターで音楽や映像を作れる時代になりました。
黎明期から数えるとすでに50年経っているわけで、さすがにもっと自動で作れてもいいのではないか、と。つまり、生成AIはデジタルが進化してきた延長線上にあるテクノロジーであり、僕としては「約束されていた未来がようやく来たな」という感覚なんです。
僕はできるだけ自分で歌ったり演奏したりしますが、演奏はすごく上手いというわけではありません。1人で演奏したものをマルチトラックで重ねていくやり方は、時間もかかります。せっかくテクノロジーがあるんだから、最終的なアウトプットまでなるべく楽をして、かつ完成度が高いものを作りたい。生成AIによって、そういう欲求に応えてもらえるようになったのかな、と思います。
世の中には「すごくいい歌詞を書けるけど、メロディーは作れない」「自分で歌いたいけど、声に自信がない」という人もいるでしょう。生成AIが出てきたことで、そういう人たちにも道が開かれた。かなりいい世界になったんじゃないか、という気がしています。
――音楽業界にも大きな影響を与えそうですね。
とあるバンドから、「ボーカリストが亡くなったので、生成AIで声を代替できないか」という相談を受けて、お手伝いしたことがあります。他にも、ベテランの歌手から「もう声が出なくなったので、AIでなんとかできないか」という相談もありました。
音楽を作っている人たちにとって、生成AIの技術はシンセサイザーや音楽制作ソフトと同じようなものである、と確信しています。その感覚が徐々に共有されていくのではないでしょうか。
