גוגל מרחיבה את Veo 3.1: יצירת וידאו מתמונות נכנסת לעידן האנכי והחד יותר
גוגל DeepMind הכריזה על שדרוג ל-Veo 3.1, ובמרכזו הרחבה של יכולת בשם "Ingredients to Video", שמאפשרת להפוך תמונות ייחוס לסרטוני וידאו קצרים. לפי החברה, הדגש בעדכון החדש הוא לא רק על תנועה “חיה” יותר, אלא על סט כלים שמכוון במובהק לעולם המובייל: יצוא וידאו אנכי ביחס 9:16, אפשרויות שדרוג איכות ל-1080p וגם ל-4K, ושיפורים שנועדו לשמור על עקביות של דמויות, רקעים וחפצים לאורך סצנות שונות.
המהלך מגיע בזמן שבו יוצרי תוכן, מותגים וגם משתמשים פרטיים מנסים לייצר וידאו במהירות ולשמור בו זמנית על מראה אחיד, תסריט בסיסי והיתכנות לעריכה מאוחרת. גוגל מציגה את השדרוג כעוד צעד בהפיכת יצירת וידאו גנרטיבית לפעולה יומיומית, כזו שאפשר לבצע “ישירות מהטלפון”, ולא רק בתוך צינורות עבודה מקצועיים.
רקע קצר: מה זה בכלל "Ingredients to Video" ולמה זה מעניין
Veo הוא מודל הווידאו של Google DeepMind, ו-"Ingredients to Video" היא יכולת שמתחילה מתמונות ייחוס, אותן “מרכיבים” שמגדירים את הסצנה או האלמנטים המרכזיים. בפועל, המשתמש מזין תמונות ומתאר מה צריך לקרות, והמערכת מייצרת קליפ שנשען על אותן תמונות כעוגנים חזותיים. זה נשמע פשוט, אבל מי שהתנסה בכלי וידאו גנרטיביים יודע שהפער בין רעיון לקטע וידאו שנראה רציף ואחיד עדיין גדול: דמויות מחליפות פנים, פרטים נעלמים בין פריימים, והתחושה הכללית לפעמים מלאכותית.
כאן בדיוק גוגל טוענת שהיא משפרת את היציבות והשליטה. לא מדובר רק ב"איכות תמונה", אלא בעיקר ביכולת לשמור על המשכיות של זהות, תפאורה וחפצים, מה שמקרב את הכלי למשהו שאפשר לבנות איתו נרטיב ארוך יותר מכמה שניות בודדות.
יותר הבעה וסיפור, גם עם פרומפטים קצרים
לפי הפרטים שפורסמו, השדרוג ל-Veo 3.1 Ingredients to Video נועד להפוך את התוצאה ל"אקספרסיבית" יותר: תנועה דינמית, קליפים שמרגישים טבעיים ומעוררי עניין, וגם יכולת לייצר "דיאלוג עשיר יותר" וסיפוריות טובה יותר. במילים אחרות, גם מי שלא יושב לנסח הוראות מורכבות אמור לקבל תוצאה שקרובה יותר לסצנה ולא רק לאנימציה מקרטעת סביב תמונת ייחוס.
המשמעות המעשית היא הקטנת התלות בניסוח ארוך ומדויק, נקודה שכמעט כל משתמש בכלי גנרטיבי מכיר: לפעמים אתה משקיע יותר זמן בלשכנע את המודל מה אתה רוצה מאשר ביצירה עצמה. גוגל לא מציעה כאן קסם שמבטל את הצורך בכיוון ובבחירה, אבל כן מציבה יעד ברור, להפוך את ההפקה למהירה וזורמת יותר.
עקביות דמויות, רקעים וחפצים: ההבטחה הגדולה של הווידאו הגנרטיבי
אחד החידושים המרכזיים בעדכון הוא שיפור "Identity consistency", כלומר שמירה על זהות דמות לאורך סצנות שונות גם כשהסביבה משתנה. גוגל מתארת מצב שבו אותו גיבור יכול להופיע במקומות שונים ועדיין להיראות אותו אדם, דבר שמאפשר לספר סיפור ולא רק לייצר קטעי וידאו נפרדים שאינם מתחברים.
במקביל, החברה מדברת על "Background and object consistency", יכולת לשמור על שלמות הרקע והחפצים בתוך הסצנה, ואף למחזר אובייקטים, רקעים או טקסטורות בין סצנות שונות. זה נשמע טכני, אבל עבור מי שמנסה לייצר סדרת קליפים לרשתות, או אפילו פרויקט ארוך יותר, מדובר באבן יסוד: בלי עקביות, כל שינוי קטן נראה כמו טעות.
לצד זה יש גם דגש על חיבור חלק בין אלמנטים שונים: דמויות, חפצים, טקסטורות ורקעים בסגנונות שונים, לכדי קליפ “קוהרנטי”. בעולם שבו היוצרים מערבבים צילום ריאליסטי עם סגנון מאויר או תפאורה פנטסטית, היכולת לייצר מראה אחיד היא לא בונוס, אלא תנאי בסיס.
וידאו אנכי אמיתי וחדות גבוהה יותר: 9:16, 1080p וגם 4K
גוגל מכניסה לראשונה תמיכה ביצוא אנכי טבעי ביחס 9:16 בתוך Ingredients to Video, מה שמכוון ישירות לפורמטים של YouTube Shorts ופלטפורמות נוספות של וידאו קצר. המשמעות היא יצירת קליפ שמראש נבנה למסך מלא במובייל, בלי לחתוך פריימים או לוותר על איכות בגלל התאמות מאוחרות. בעולם שבו רוב הווידאו נצרך במאונך, זו הצהרה ברורה לגבי היעד של Veo בשלב הזה: לא רק קולנוענים, גם מי שחי על פיד.
בנושא האיכות, גוגל מוסיפה אפשרויות שדרוג ל-1080p ול-4K באמצעות upscaling. כאן יש גם סייג חשוב: לפי ההערה שצורפה, האפשרות ל-1080p ו-4K זמינה רק ב-Flow, ב-Gemini API וב-Vertex AI. כלומר, לא בכל מקום שבו Veo מופיע תהיה בהכרח אפשרות להוציא תוצר חד במיוחד, והחלוקה הזו עשויה לעניין בעיקר יוצרים מקצועיים או ארגונים שכבר עובדים בתוך תשתיות הענן והכלים המתקדמים של גוגל.
איפה זה זמין ומה משתנה ביומיום של יוצרים
העדכון מושק במגוון נקודות גישה: Gemini app, YouTube, Flow, Google Vids, Gemini API ו-Vertex AI. עבור קהל הצרכנים והיוצרים, גוגל מציינת ש-Veo 3.1 Ingredients to Video מגיע "לראשונה" אל YouTube Shorts ואל YouTube Create app, ובמקביל ניתן להתנסות בגרסה המשופרת ובמצב פורטרט גם בתוך אפליקציית Gemini כבר מהיום.
למי שעובד באופן מקצועי יותר, היכולות מתגלגלות גם אל Flow, ה-API, Vertex AI ו-Google Vids, כאשר אפשרויות הרזולוציה הגבוהה זמינות כאמור ב-Flow, ב-API וב-Vertex AI. החלוקה הזו מסמנת שתי שכבות שימוש: שכבת מובייל נגישה ליוצרים, ושכבת “צינור עבודה” לארגונים, מפתחים ומערכי הפקה.
סימון ותיקוף: SynthID נכנס לתמונה גם בווידאו
לצד היצירה, גוגל מדגישה גם את צד הזיהוי: סרטונים שנוצרים בכלים של החברה מוטמעים עם SynthID, סימן מים דיגיטלי "בלתי מורגש" שנועד לעזור בזיהוי תוכן שנוצר על ידי AI. מעבר לכך, החברה מזכירה כי בדצמבר הרחיבה בתוך Gemini app כלי אימות שמאפשר להעלות וידאו ולשאול האם נוצר באמצעות Google AI. זה מצטרף לכלי אימות קיים לתמונות, ומאותת שגוגל מבינה את הבעיה המרכזית של השוק הזה: לא רק איך ליצור בקלות, אלא איך לדעת מה אמיתי, ומה נוצר בלחיצת כפתור.
בסופו של דבר, השדרוג ל-Veo 3.1 מציב על השולחן שילוב מעניין של נוחות, פורמט מובייל, עקביות סיפורית ואפשרויות איכות גבוהות, ובמקביל מנגנוני שקיפות שמנסים להדביק את הקצב. השאלה הפתוחה היא לא אם הכלים ייכנסו לשימוש, אלא האם הסטנדרטים החדשים של “וידאו מספיק טוב” יהפכו את היכולת לספר סיפור למיומנות נפוצה, או דווקא יטשטשו עוד יותר את הגבול בין יצירה לבין אוטומציה.



