- ブログ
- Veo 3.1 Frames to Video:最初と最後の画像から滑らかなAIクリップを作る方法(2026)
Veo 3.1 Frames to Video:最初と最後の画像から滑らかなAIクリップを作る方法(2026)
Veo 3.1 Frames to Videoは最初と最後の画像を滑らかなAIクリップに繋ぎます。ワークフロー、プロンプト例、活用例を2026年向けに解説。
Emma Chen · 3 min read · Jun 25, 2026

Veo 3.1 Frames to Video は、AIによるトランジションをついに「運任せ」から「意図的」へと変える機能です。モデルに開始画像と終了画像を渡し、その間の動きを説明する短いプロンプトを書くと、Veo 3.1 が最初のフレームから最後のフレームへと移動する一本のシームレスなクリップを生成します。ショットがどこに着地するかを当てずっぽうで探る必要も、ストーリーボードに合うものが出るまで10通りも生成する必要もありません。両端をあなたが定義し、その間の橋渡しはモデルに任せるのです。
このガイドは、Veo 3.1 で frames to video を使う方法を最初から最後まで実践的にたどります。この機能が実際に何をするのか、「Ingredients to Video」や「Extend」とどう違うのか、Google Flow・Gemini アプリ・veo3ai.io のいずれかで今日すぐ始められる再現可能なワークフロー、最も一般的なトランジション種別ごとのコピーしてすぐ使えるプロンプトテンプレート、ベストな活用例、そしてきれいなモーフィングと不具合だらけの混乱を分ける品質チェックまでを扱います。
短い答え:Frames to Video が Veo 3.1 で行うこと
Frames to Video は、2枚の静止画 —— 開始フレーム と 終了フレーム —— を取り込み、その2枚を滑らかに橋渡しする8秒の動画を生成します。Veo 3.1 は、画像Aから画像Bへ到達するために必要な動き、ライティング、カメラの移動を補間し、2025年10月のアップデートからは、その橋に ネイティブの同期オーディオ まで加わるようになりました。
ショットがどう始まりどう終わるかをすでに把握していて、中間をモデルに埋めてほしいときに使います。たとえば、製品が前面から背面へ回転する、人物が横顔から正面へ向き直る、風景が夜明けから夕暮れへ移り変わる、あるいは無関係な2つのシーンが様式化されたカットのために互いに溶け合う、といった具合です。両端を固定するため、Frames to Video は当てずっぽうの text-to-video 生成よりもはるかに高い物語的・連続性のコントロールをもたらします。トランジション、リビール、ストーリーボード駆動のシーケンスにおける定番ツールとなったのは、まさにこのためです。
クリップを1枚の画像から 開始 させたいだけなら、それは通常の image-to-video です。Frames to Video は、開始と終了という2枚の画像を使うワークフローを特に指します。
Veo 3.1 Frames to Video の正体
Veo 3.1 は Google DeepMind の最新動画生成モデルで、「Frames to Video」は、モデルのアップデートと同時に Google が Flow へ持ち込んだ3つのクリエイティブ機能のひとつです。考え方はシンプルで、最初と最後の画像を渡すと、モデルが Google 自身の発表で言う「芸術的で壮大なトランジション」のためにそれらを橋渡しする動画を生成します。
仕組みとしては、モデルはガイド付きの補間を行っています。純粋な補間(古いツールがスローモーションに使っていた種類)は、2フレーム間のピクセルを混ぜるだけで、クロスフェードのように見えます。一方 Veo 3.1 は、両方の画像をシーンとして 理解 し —— 被写体、奥行き、ライティング、暗黙の物理を読み取り —— もっともらしい中間の動きを生成します。つまり、開始フレームの人物が終了フレームへ向かう途中で、ディゾルブで「幽霊のように透ける」のではなく、実際に首を回し、一歩踏み出し、表情を変えられるのです。
始める前に知っておきたい具体的な点をいくつか挙げます。
- クリップの長さ: Veo 3.1 は8秒のクリップを生成します。それ以上の長さには、クリップを連結するか Extend を使います(後述)。
- 解像度: アクセス層とプラットフォームに応じて、720p、1080p、4K で出力できます。
- オーディオ: 2025〜2026年のアップデートで、Frames to Video、Ingredients to Video、Extend に初めてネイティブオーディオが導入されました。橋渡しのクリップが、同一パスで生成された環境音、フォーリー、効果音とともに届くようになりました。
- 電子透かし: Veo 3.1 のすべての出力には、AI生成であることを示す目に見えない SynthID 透かしが入ります。これは避けられず、すべての機能に適用されます。
- 動作する場所: Frames to Video は Google Flow(映像制作専用ツール)に存在し、Veo 3.1 自体は Gemini アプリ、開発者向けの Gemini API、企業向けの Vertex AI から利用できます。veo3ai.io のようなサービスは、APIキーを管理せずに Veo 3 の出力へたどり着く、より手間の少ない経路を提供します。
これがクリエイターにとって重要な理由は、連続性です。AIクリップをつなぎ合わせるうえで最も難しかったのは、生成のたびに着地がわずかに異なること —— フレーミングが違う、ライティングが違う、登場人物のジャケットの色が変わっている —— でした。両端を固定できることで、Frames to Video はそのドリフトの大半を方程式から取り除きます。
Frames to Video と Ingredients to Video と Extend の違い
この3つの Veo 3.1 機能は、Google が同時に出したために絶えず混同されます。それぞれ別の問題を解きます。
| 機能 | 渡すもの | 生成されるもの | 用途 |
|---|---|---|---|
| Frames to Video | 開始画像+終了画像 | 2枚を橋渡しする8秒クリップ | トランジション、リビール、モーフ、両端が決まったストーリーボードのビート |
| Ingredients to Video | 複数の参照画像(人物・物体・スタイル) | それらの要素を組み合わせた新しいシーン | ショット間の人物/製品の一貫性、アートディレクションされたシーン |
| Extend | 既存のクリップ | そのクリップのより長い続き | 8秒の上限を超える、気に入ったショットを延長する |
覚え方は簡単で、Frames は ショットがどこで始まりどこで終わるか を、Ingredients は ショットに何が映るか を、Extend は ショットがどれだけ続くか を制御します。これらはうまく組み合わさります。Ingredients でシーンを組んで人物を固定し、Frames でトランジションを生成し、その結果を Extend で引き伸ばす、ということができます。他の2つを深く知りたい場合は、一貫性のテクニックについて Veo 3 画像参照ワークフロー を、Veo 3 の動画を8秒より長く延長する ガイドをご覧ください。
Veo 3.1 Frames to Video の使い方、ステップ・バイ・ステップ
再現可能なワークフローを紹介します。初回は15分ほどかかりますが、習慣になればトランジションを数分で生成できます。
ステップ1 —— 2枚のフレームを準備する
出力は両端の品質を超えられないので、ここに本気で手をかけてください。開始画像と終了画像は、一貫した世界を共有すべきです。光の向きが近い、レンズの質感が近い、そしてモデルが状態間をもっともらしく移動できる被写体であること。フレームの入手方法は3通りあります。
- すでに手元にある2枚の写真や静止画 —— 製品ショット、実在のロケーション、ブランドアセットに最適。
- AIで生成した2枚の静止画 —— 先に生成しておけば(text-to-image か、以前の Veo クリップから切り出し)、最初からスタイルが共有されます。
- 実写フレーム+生成フレーム —— 「この実在の製品をスタイライズ版に変える」リビールに便利。
両フレームのアスペクト比をそろえてください。16:9 の開始と 9:16 の終了では、モデルがトリミングやパディングを強いられ、たいてい橋渡しが濁ります。
ステップ2 —— 開始画像と終了画像をアップロードする
Flow では Frames to Video 機能を選び、最初の画像を開始スロットに、2枚目を終了スロットにアップロードします。順序は重要です。モデルは常に開始から終了へ移動するので、トランジションが逆向きに進む場合は入れ替えてください。Gemini アプリでは、プロンプトバーのツールアイコンの下に動画ツールがあります。veo3ai.io では、フレーム/画像入力を選んで両方を添付します。
ステップ3 —— 橋渡しのプロンプトを書く
ここで多くの人が物足りない結果に終わります。2枚の画像は両端を定義しますが、プロンプトはその間の 旅 —— カメラの動き、速度、動きの種類、ムード —— を定義します。「これらの画像の間のトランジション」のような曖昧なプロンプトは、経路をモデルに発明させます。具体的なプロンプトは、どう移動すべきかを正確に伝えます。次を記述してください。
- 動き —— カメラは寄るのか、周回するのか、引くのか、それとも被写体が動く間は固定なのか。
- テンポ —— ゆっくり映画的か、それとも素早いスナップか。
- 変化のロジック —— 物理的な移動か、時間の飛躍か、モーフか、マッチカットか。
- オーディオ(必要なら)—— 環境音のベッド、トランジションでのウーッという音、特定の効果音。
コピーしてすぐ使える表現は、Veo 3 プロンプト例 と ネイティブオーディオのプロンプトガイド をご覧ください。次のセクションのテンプレートは、フレーム間の橋渡しに特化して調整してあります。
ステップ4 —— 生成して確認する
クリップを生成したら、まず通常速度で再生し、次に補間アーティファクトが潜む中間点でフレームごとに確認します。3点をチェックしてください。被写体の同一性は保たれているか(同じ顔、同じ製品、同じ色)。動きは物理的にもっともらしいか、それとも何かが歪む/二重になるか。クリップは本当に終了フレームに着地するか、それともずれていくか。いずれかが失敗したら、再生成の前にプロンプトを調整します。たいていの修正は、別の画像ではなく、より明確な動きの記述です。
ステップ5 —— オーディオを足す、延長する、書き出す
ネイティブオーディオ付きで生成した場合は、メインのサウンドトラックの上にではなく下にミックスします。8秒では足りないなら、結果を Extend に通します。橋渡しがきれいになったら、1080p(可能なら 4K)で書き出し、編集に取り込みます。マルチショットのシーケンスでは、各トランジションを独立した Frames to Video クリップとして生成し、タイムライン上で組み立てます。これが、連続性を失わずに長い物語を構築する方法です。
Frames to Video のプロンプト例とテンプレート
2枚の画像が 内容 を担い、これらのプロンプトが 動き を担います。コピーして調整してください。
製品リビール(前面から背面へ):
最初のフレームから2枚目へ、製品の周りを180度ゆっくり周回。スタジオ照明は一定を保ち、表面を微かな反射が滑り、浅い被写界深度、上質で清潔。柔らかい室内のルームトーン、回転が完了する瞬間にやさしいウーッという音。
時間帯の移り変わり(夜明けから夕暮れ):
固定の風景ワイドショット。光は最初のフレームの冷たい夜明けから2枚目の暖かい夕暮れへ滑らかに移り、雲はゆっくり流れ、長い影がシーン全体に伸びる。穏やかな環境の風と遠くの鳥。
人物の向き直り(横顔から正面へ):
被写体は最初のフレームの横顔のポーズから2枚目の正面のポーズへ自然に向き直り、髪型・服装・照明を同一に保つ。カメラは固定、最後にアイコンタクト、映画的な浅い被写界深度。静かな室内の環境音。
マッチカット/シーンのモーフ:
マッチカットのトランジション:カメラが寄るにつれ、最初のフレームの円形の物体が2枚目の円形の物体へシームレスにモーフし、中間点でモーションブラー、エネルギッシュなテンポ。立ち上がるウーッという音がカットでピークに達する。
ロゴ/ブランドの組み立て:
最初のフレームの散らばった要素が収束し、2枚目の完成したロゴへ組み上がる。滑らかな動き、完成時に鋭いフォーカススナップ、暗く上質な背景。ロゴが所定の位置に収まる瞬間に控えめなチャイム。
ビフォー/アフターの変身:
最初のフレームの色あせて鈍い状態から、2枚目の修復された鮮やかな状態へ滑らかに変身。カメラはゆっくり寄り、クリップ全体で色が濃くなりディテールが鋭くなる。穏やかで高揚する環境音。
プロンプトが言うことを聞かないときは、画像を単純化するより先に動きを単純化してください。モデルは「劇的でダイナミックな多軸のカメラ振付」より「ゆっくりした周回」のほうがはるかに確実に処理します。
Frames to Video のベストな活用例
Frames to Video は、ショットの両端をすでに知っているあらゆる場面で真価を発揮します。
- 広告・製品トランジション —— 前面から背面へのリビール、パッケージの開封、ビフォー/アフターの実演。製品ショットは両端がきれいで制御しやすいため、最もROIの高い用途です。
- ソーシャルのトランジションとフック —— 2つのシーン間の「スナップ」カット。多くの TikTok や Reels の編集を支えるこの手法が、手作業のキーフレームではなく生成で得られます。
- ストーリーボードからアニマティックへ —— 2枚のキーストーリーボードフレームを動くビートに変え、実撮影の前に監督がテンポをプレビューできます。
- 不動産と旅行 —— 外観のエスタブリッシングショットから室内へ、あるいは部屋から部屋へ、連続した感覚で移動します。
- ブランド・ロゴのスティング —— 散らばった要素からロゴを組み上げたり、マスコットをポーズ間でモーフさせたりします。
- 教育シーケンス —— 状態が変化する過程を見せます。種から植物へ、スケッチから完成レンダーへ、国から通りへズームする地図など。
共通項は 両端が分かっていること です。ショットがどこで始まり止まるかを記述または描けるなら、Frames to Video はたいていその間の動きへの最もきれいな道です。完成済みクリップ間の純粋なカット系の編集には、生成された橋渡しとよく合う編集側の手法を扱う 動画のシームレストランジション ガイドをご覧ください。
制限と品質チェックリスト
Frames to Video は強力ですが魔法ではありません。限界を知ることで、無駄な生成を減らせます。
- クリップあたり8秒の上限。 長いトランジションは連結または延長が必要で、30秒の旅を一度のパスで橋渡しすることはできません。
- もっともらしさが重要。 2枚のフレームが内容的に離れているほど、モデルが発明せねばならず、歪みや柔らかいディゾルブ調の中間が出やすくなります。被写体・世界・照明を共有する両端は、ランダムな2枚よりはるかにきれいに橋渡しされます。
- 同一性のドリフト。 顔・ロゴ・テキストは橋渡しの途中でずれることがあります。必ず中間点のフレームを重点的に確認してください。
- アスペクト比の不一致 はフレーム間で結果を劣化させます。先にそろえてください。
- SynthID 透かし はすべての出力に存在し、除去できません。来歴が重要な用途では織り込んでおいてください。
- オーディオは生成物であり、ライセンス音楽ではありません。 ネイティブオーディオは環境音や効果音には最適ですが、ブランドのトラックには引き続き自分の音楽を下に敷きます。
使う前に、各クリップで次の素早い品質チェックを実行してください。
- 被写体の同一性(顔・製品・色)は最初から最後まで保たれているか。
- 動きは物理的にもっともらしく、中間点で二重像や歪みがないか。
- クリップは実際に終了フレームに着地するか。
- テンポは適切か、急ぎすぎ/間延びしていないか。
- オーディオがオンなら、メインミックスと争わずに支えているか。
- 解像度は配信先プラットフォームに合っているか。
もっともらしさで失敗するなら、修正はほぼ常に、より近い両端、またはより明確な動きのプロンプトです。同じ構成の再生成を増やすことではありません。
よくある質問
Frames to Video は image-to-video と同じですか? いいえ。image-to-video は終了が定義されていない1枚の開始画像を動かします。Frames to Video は2枚の画像 —— 開始と終了 —— を使い、その間を橋渡しして、ショットがどこに着地するかを制御できます。
Google Flow が必要ですか、それとも Gemini アプリで使えますか? 名前の付いた機能としての Frames to Video は Flow に存在しますが、Veo 3.1 自体は Gemini アプリ、Gemini API、Vertex AI でも利用できます。Google の開発者向け環境を直接管理したくない場合、veo3ai.io のようなサービスが Veo 3 出力へのより簡単な経路を提供します。
Veo 3.1 Frames to Video は無料ですか? アクセスは層によります。Google は下位プランで Veo 3.1 への限定的なアクセスを、Pro・Ultra 層でより高い生成上限を提供します。veo3ai.io には無料の開始枠が含まれ、支払い前にワークフローを試せます。どの無料アクセスでも、何らかの利用上限があると考えてください。
クリップの長さは? 各生成は8秒です。気に入ったクリップを延ばすには Extend を、より長いシーケンスにはタイムライン上で複数の Frames to Video クリップを連結してください。
音は足せますか? はい。最近のアップデートで Frames to Video にネイティブの同期オーディオが加わったので、同一パスで環境音や効果音をプロンプトできます。ブランド音楽は編集で自分のトラックを足してください。
トランジションがぼやけたクロスフェードに見えるのはなぜ? たいていは、2枚のフレームが内容的に離れすぎているか、プロンプトが動きを記述していないためです。両端を近づけ(被写体・世界・照明を共有)、カメラの動きとテンポを明示してください。
まとめ
Veo 3.1 Frames to Video は、AI動画編集における最大の空白 —— ショットがどう始まりどう終わるかの制御 —— を埋めます。当てずっぽうに生成してストーリーボードに合うのを願う代わりに、両端を固定し、その間にもっともらしくオーディオ対応の橋をモデルに架けさせます。製品リビール、ソーシャルのトランジション、ストーリーボードのビート、ブランドスティングに最適です。一貫した2枚のフレームを用意し、単なる画像ではなく動きを記述するプロンプトを書き、中間点を確認すれば、かつては手作業のキーフレームを要したきれいで意図的なトランジションが得られます。
その感覚を最も早くつかむには、自分でいくつかトランジションを走らせてみることです。すでに手元にある開始画像と終了画像を選び、上のテンプレートのひとつを書いて、veo3ai.io で Veo 3.1 frames to video による最初の橋渡しを生成し、そこから組み立てていきましょう。
Related Articles
Continue with more blog posts in the same locale.

Veo 3 対話:1つのシーンで2人のキャラクターを会話させる方法(2026)
Veo 3で2人のキャラクターのリアルな会話を演出:プロンプト構造、別々の声、発話交代、リップシンク、完全な実例。
Read article
Veo 3 動画から字幕を消す方法:文字化けキャプションのバグを直す(2026年版)
Veo 3 はセリフのクリップに文字化けした字幕を焼き込みます。生成時に防ぎ後処理で消す、2026年版の完全マニュアル。
Read article
一括AI動画ジェネレーター:Veo 3 動画をバッチで大量生成する方法(2026年)
一括AI動画ジェネレーターのワークフローで、一貫した Veo 3 動画を数十本バッチ生成する方法——マスタープロンプト、変数シート、シード制御、制作プレイブック、コスト管理、QA。
Read article