AI

動画生成AI「Veo 2」のプロンプトを、生成AIと対話して作成してみた

こんにちは、AMBLの広報の小野です。

AMBLでは、さまざまな部署のエンジニアが集まって、最新情報やナレッジの共有を行うslackチャンネルを運営しています。

日々のTipsの備忘や技術系トピック、qiitaやzennといった外部メディアのアウトプットの共有、業務や技術的に分からないことの質疑応答なども行っています。

本連載では、チャンネルに投稿された技術系トピックを外部向けに編集して、投稿していきます!

今回は、データサイエンス事業部第3データソリューション部のメンバーが投稿した記事を共有させていただきます。


目次

少し前に、Googleの最新動画生成AI「Veo 2」がGeminiで利用可能になりました。早速、この新しいツールを使って動画作成を試してみました!

動画生成AIのクオリティを左右する重要な要素が「プロンプト」です。しかし、自分の頭の中にある漠然としたイメージを、AIが理解できる具体的な指示に落とし込むのは意外と難しいですよね…

そこで今回は、Gemini(2.5 Flashモデル)にアシスタントになってもらい、プロンプトを作成するプロセスを試してみました。この記事では、その際の実際のやり取りを共有します。AIとの対話がいかにしてクリエイティブな作業をサポートしてくれるか、その一例としてご覧ください。

漠然としたイメージからスタート

まず、私がGeminiに入力したプロンプトがこちらです。

# 実際打ったプロンプト

ユーザーは動画を作成するためのプロンプトを作成することを、あなたに求めています。

テーマとしては、「東京駅風の洗練された街並みを一人称視点で探検する」です。

適宜質問を入れつつ、プロンプトを完成させて下さい。

このプロンプトのポイントは、「適宜質問を入れつつ、プロンプトを完成させて下さい」です。これにより、高確率で後の出力されたプロンプトのように、質問をし、具体的な部分まで落とし込んでくれます。

Geminiでイメージを深掘り

私のリクエストに対し、Geminiはすぐにプロンプトを作るのではなく、まずイメージの解像度を上げるための質問を返してきました。これが非常に的確でした。

Geminiからの回答①(要約): 素敵なテーマですね!よりイメージにぴったりのプロンプトを作成するために、いくつか質問させてください。

1.動画の雰囲気やトーンは? (例: ノスタルジック、モダン、幻想的)

2.街並みの時間帯は? (例: 昼間、夕方、夜景)

3.天候の希望は? (例: 晴天、曇り、雨)

4.特に映したい要素は? (例: 赤レンガの建物、カフェ、人々、トラム)

5.動画のおおよその長さは?

6.使用を想定している動画生成AIは?

これらの質問に答えていくだけで、自分の中のフワッとしたアイデアが、具体的な映像シーンとして固まっていくのを感じました。この「AIによる思考の壁打ち」こそが、対話型AIをクリエイティブ作業に使う大きなメリットだと感じます。

イメージを固めて、言語化する

Geminiの質問を受けて、私の頭の中にあったイメージを具体的に伝えます。

私: 

モダンで洗練された雰囲気で、

街並みの時間帯は夕日が美しい5月、天候は晴れ、

特に映したいものは、お洒落なカフェとそこで楽しそうに会話する人々、

動画は8秒しか生成出来ないので、8秒。

動画生成AIは、Veo 2。

ポイントは、Veo 2の生成時間に制限があることを伝え、具体的な要素(お洒落なカフェ、人々)を盛り込んでもらった点です。

ついに完成!Veo 2のための最終プロンプト&動画

私の回答を受けて、Geminiはこれらの要素をすべて盛り込み、Veo 2での動画生成に最適化された英語のプロンプトを提案してくれました。

Geminiからの最終提案: 詳細な情報をありがとうございます。イメージがより明確になりました。これらの要素を盛り込み、Veoでの生成に適したプロンプトを作成します。動画生成AIは英語のプロンプトの方が一般的に高い精度で生成できるため、英語で作成します。

そして、提案されたプロンプトがこちらです。

Plaintext

A first-person view (POV) walking through a sophisticated and modern cityscape, reminiscent of the Tokyo Station area. It is a sunny evening in May during the golden hour, bathed in warm sunset light. Pass by a stylish outdoor cafe filled with people happily chatting and laughing. The architecture is elegant, with detailed textures. The camera movement is smooth, capturing the vibrant yet refined atmosphere. Cinematic lighting, warm and inviting color palette.

さらに驚いたのは、Geminiがプロンプトの各部分がどのような意図で記述されているかを丁寧に解説してくれたことです。

A first-person view (POV) walking through…: 一人称視点での「歩く」動きを指定

a sophisticated and modern cityscape…: 「東京駅風のモダンな街並み」という場所と雰囲気を設定

It is a sunny evening in May during the golden hour…: 「5月の晴れた夕方、ゴールデンアワー」という時間帯と光を指定

Pass by a stylish outdoor cafe filled with people…: 「お洒落なカフェと人々」という具体的な要素を指定

The architecture is elegant, with detailed textures: 建築のスタイルと質感を追加

The camera movement is smooth…: 滑らかなカメラワークを指示

Cinematic lighting, warm and inviting color palette: 映像的なライティングと色調を加えて完成度を高める

このように、なぜこの単語やフレーズが使われているのかを理解することで、今後自分でプロンプトを調整する際の大きな助けになります。

そして、実際に作成された動画がこちらになります!

まとめ:AIとの対話がクリエイティブを加速させる

今回の試みを通じて、対話型AIは、単に指示をこなすツールではなく、アイデアを具体化し、質を高めるための優れたパートナーになることを実感しました。

専門的なプロンプトエンジニアリングの知識がなくても、AIに質問してもらうことで、自分の思考が整理され、より的確な指示を生み出すことができます。

動画生成AI「Veo 2」のようなパワフルなツールと、Geminiのような優秀なアシスタントを組み合わせることで、誰もが簡単に質の高いクリエイティブを生み出せる時代の到来を感じました。

皆さんもぜひ、AIとの対話を楽しみながら、自分だけの作品作りに挑戦してみてはいかがでしょうか。



AMBLでは一緒に働くメンバーを募集しています。

この記事を読んで、AMBLに興味を持った方は下記採用ページをぜひご覧ください。

●AMBL採用ページ
-メンバーインタビュー (1日の仕事の流れ/やりがい/仕事内容)
-プロジェクトストーリー (プロジェクトでの実績/苦労エピソード)

●募集ページ
エンジニア/ クリエイターデータサイエンティスト

ABOUT ME
小野雄介
広報の小野です。2023年4月から内外にAMBLで働く人々や事業、イベントを発信しています。最新のレコードが好き。最近、お気に入りのミュージシャンはmabanuaとぷにぷに電機です。よろしくお願いします!