Článek
Úplně první rozhodnutí, co musíte udělat je, jestli budete generovat na vlastním zařízení nebo v cloudu. Abyste mohli fotky nebo videa generovat na svém počítači potřebujete high-endové zařízení s grafickou kartou za desítky tisíc s desítkami gigabajtů grafické paměti, jinak musíte zůstat u cloudových služeb.
Základní pravidlo: Všechny návody na generativní umělou inteligenci velmi rychle zastarávají. Co funguje dnes, za měsíc může fungovat úplně jinak. Druhé pravidlo: předtím, než někam nahrajete své fotky, piďte se potom, co s nimi daná společnost spravující cloudový generátor dělá. Třetí pravidlo: Berte s rezervou bombastická produktová videa od startupů, jež si nemůžete zdarma ani vyzkoušet v trial verzi. Realita bývá o poznání méně bombastická.
Jakými způsoby se generují videa?
Ty si vypůjčíme z modelu Veo3. Pro základní představu to bude bohatě stačit:
- Podle promptu - čili podle textového zadání.
- Generování podle úvodní, případně i závěrečné fotky a textového promptu, v kterém popíšete, co se má dál s fotkou dít.
- Generování podle ingrediencí - čili modelu dodáte fotky, z kterých má vycházet, on sám si je spojí dohromady a vytvoří video obsahující jednotlivé elementy z fotek podle vašeho promptu, v kterém popisujete, co má vytvořit.

Rozhraní ve Flow
Co je to prompt a jak ho psát?
Prompt říká modelu, jaké video má pro vás vytvořit, co v něm má být, co se má dít, jaké zvuky ozývat (pokud umí generovat i zvuk). V zásadě platí, že čím jednoznačnější a úplnější prompt, tím dostanete lepší výsledky.
Většina modelů přijímá prompty primárně v angličtině. Některé ho přijmou i v češtině (Veo3 nebo Grok), ale většinou si ho pro sebe do angličtiny stejně překládají.
Každý model/generátor má svůj specifický formát a strukturu promptu, co preferuje, a s každým jeho novým updatem nebo novou verzí, se to více či méně mění. Naštěstí na internetu najdete pro velké a významné modely dopodrobna vypracované příručky, jak správně psát prompt.
- průvodce promptováním pro model Veo3 (nástroj Flow): https://github.com/snubroot/Veo-3-Prompting-Guide
- průvodce promptováním pro Sora2: https://cookbook.openai.com/examples/sora/sora2_prompting_guide
Nejlépe se mi osvědčilo otevřít chatbota, zapnout myslící mód (reasoning) a napsat si prompt ve stylu:
Pomůžeš mi s přípravou promptu pro generování videa v modelu Veo3. Budeš vycházet z guidu, jak psát prompty na https://github.com/snubroot/Veo-3-Prompting-Guide. Chci vytvořit fotorealistické video o … Model bude vycházet ze startovní fotografie. Délka videa je přesně 8 vteřin. Nevymýšlej si. Pokud potřebuješ další informace, ptej se.
Se zvukem nebo bez?
Starší a jednodušší generátory neumí generovat videa se zvukem. Pokročilejší modely to zvládnou se zvukem, a to i včetně mluvené češtiny nebo zpívání.
Pokud potřebujete jen mluvený komentář a nikoliv mluvící postavy, můžete si zvuk vygenerovat zvlášť v Eleven Labs. Umí udržovat konzistentní hlas postav a zvládá i češtinu. Pokud půjdete touto cestou, bez dodatečného sestříhání videa se neobejdete.
Způsoby využití generátorů videa
- Rozpohybování fotky
- Tvorba krátké animace z obrázku
- Tvorba fotorealistického obsahu/instagramového reelu/Youtube videa
Rozpohybování fotky nebo obrázku bravurně zvládá Grok. Ani mu nemusíte psát prompt, ale jen stisknete tlačítko Vytvořit video. Pokud chcete něco speciálnějšího, budete muset připsat i prompt. Instrukce zvládá i v češtině. Také generuje zvuk, ale většinou velmi špatný. Na druhou stranu si to tady můžete snadno natrénovat, protože denně pustí generaci cca 30-50 videí zdarma.
Meta.ai je vhodná na experimentování s generováním fotek, jejich úpravami a promptováním videí. Má velmi štědré limity (já žádný nezaznamenal) a dá se na ní hezky učit a zkoušet bez trápení své peněženky. Videa ale dělá bez zvuku.
Špičkou jsou Veo3 od Googlu a Sora2 od OpenAI stojící za ChatGPT
Model Veo3 vám dá měsíčně do základu 100 kreditů a vygenerujete s nimi 5 videí v nastavení Veo3 Fast. Můžete v něm používat i Scene Builder, kam vložíte vygenerované video, můžete ho oříznout na časové ose nebo na něj navázat prodloužením včetně promptu.
Velmi otravnou vlastností googlích modelů Nano Banana pro fotky i Veo3 pro videa je, že opakovaně spuštěný stejný prompt dává prakticky identické výsledky. Této slabiny se ale dá i využít ve váš prospěch při generování mluvící postavy napříč několika videy.
V rámci scene builderu prodloužíme videa, zachováme prompt, jen změníme text, co postava říká. Díky tomu zachováme barvu hlasu i jeho styl.
{ "version": „veo-3.1“, "duration": 8, "character_references": [ { "id": „PHOTO_OF_BLONDE_WOMAN“, "role": „main_subject“, "consistency": „high“ } ], "constraints": { "character_lock": „maintain exact facial features from PHOTO_OF_BLONDE_WOMAN reference - no morphing, no redesign, no drift in face structure, nose shape, lip fullness, or eye spacing“ } "scene": { "setting": „busy Japanese market street in Tokyo“, "time_of_day": „daytime“, "description": „Crowded market with Japanese shoppers, colorful stalls (fruit, vegetables, spices, fresh fish), Japanese price tags.“ }, "subject": { "role": „female travel vlogger“, "look": „blonde woman with specific facial features: oval face shape, medium-width nose with defined bridge, fuller lips (especially lower lip), soft jawline, light blue-green eyes, natural arched eyebrows, high cheekbones, European features matching reference photo exactly“ }, "action": „walking through market while holding camera in front of her at arm’s length, talking to audience“, "props": „small vlogging camera or smartphone visible in her hand in lower part of frame“ }, "camera": { "type": „selfie/vlog camera held by subject“, "movement": „camera position stays attached to subject’s hand; ONLY small natural handheld sway; DO NOT dolly or pull back“, "framing": „tight-medium selfie shot (head and shoulders), background market visible behind her“, "style": „travel vlog, natural handheld“ }, "audio_prompt": { "speech": { "language": „cs-CZ“, "text": „Čau, právě jsem v Tokiu na tradičním trhu, je tu neskutečný výběr – ryby, koření, čerstvé ovoce!“, "voice_style": „young female, energetic, cheerful, vlogger tone“, "lipsync": „tight“, "start_delay_seconds": 0.6 }, "ambience": „busy Japanese market ambience, Japanese voices, vendor calls, rustling bags“ }, "beats": [ { "time": „0.0-0.6s“, "description": „Selfie angle. Vlogger holds camera in front of her, arm slightly bent. Mouth CLOSED, friendly expression. Background shows moving market behind her as she walks forward.“ }, { "time": „0.6-3.5s“, "description": „She starts speaking: „Čau, právě jsem v Tokiu na tradičním trhu…“ Lipsync must match Czech speech. Camera stays fixed to her hand, only small handheld sway. Market passes behind her.“ }, { "time": „3.5-6.0s“, "description": „Continues: „…je tu neskutečný výběr – ryby, koření, čerstvé ovoce!“ Background briefly reveals fish stall / colorful produce. Still selfie angle, NO zooming out, NO pulling back.“ }, { "time": „6.0-8.0s“, "description": „She finishes speaking, smiles at camera, maybe quick small gesture with free hand. Keep camera at SAME distance and angle, still selfie style, only subtle handheld motion. Background continues to move as she walks.“ } ], "output": { "aspect_ratio": „16:9“, "quality": „cinematic“, "fps": 24 }, "constraints": { "start_with_closed_mouth": true, "face_consistency": „match PHOTO_OF_BLONDE_WOMAN“, "camera_distance": „constant, arm’s length selfie; do not dolly or pull back at any time“, "location_consistency": „same Tokyo market street“ } }
Sora2 je oficiálně stále dostupná jen v USA a potřebujete pozvánku. Pozvánku si můžete sehnat na oficiálním Discordu. Stačí otevřít příslušný topic a chvíli čekat a velmi rychle kód použít. Následně pro přístup k Sora2 musíte být připojení k americké VPN. Bohatě na to stačí bezplatná VPNka integrovaná přímo do Opery.
Sora2 dělá vizuálně velmi hezké videa, jen mi občas vytrvale ignoruje některé části promptu. Sora2 do videa přidává velký vodoznak, co průběžně rotuje po celém videu včetně vaší přezdívky. Navíc mi přijde, že videa jsou opravdu velmi komprimovaná. Ale tou největší její nevýhodou je, že vám nikdy neudělá video fotorealistické osoby z úvodního snímku. Generování selže s tím, že to odmítá udělat kvůli ochraně soukromí. S jinými úvodními snímky problém nemá.
Create a 15-second realistic cinematic video in 16:9. Two-scene structure. No subtitles or on-screen text of any kind. Overall setting: - Stylish European café in Prague’s Karlín district. - Warm late-afternoon light, wooden tables, modern interior, slightly blurred background with a few other guests. - Two women sit at a small café table facing each other at a slight angle. - Brunette on the left, redhead on the right. - Brunette drinks cappuccino from a ceramic cup. Redhead drinks café latté from a tall glass. - Both women are around 35, attractive, well-dressed in stylish but different outfits and color palettes. - Natural café ambience: quiet background chatter and clinking dishes, but no intelligible background speech. CHARACTER RULES: - Only the brunette speaks full lines. - The redhead does NOT speak any full words; she only reacts with subtle facial expressions and a small nod. - No one laughs during the entire video. CAMERA STYLE: - Slightly dynamic throughout: gentle forward drift and subtle shoulder-level motion, like a natural handheld camera. - Depth of field: faces in clear focus, background softly blurred. SCENE 1 — FIRST SENTENCE + NOD REACTION (about 7 seconds) Framing: - Medium shot of both women at the table, slightly closer to the brunette, but both are clearly visible. - Camera slowly, gently moves closer to them. Actions: 1. At the beginning, both women briefly take a sip of their drinks. - The brunette takes a sip of her cappuccino and lowers the cup back to the saucer. - The redhead takes a sip of her latté and sets the glass down. 2. After putting her cup down, the brunette turns her head and looks directly at her friend (the redhead). - While maintaining eye contact with the redhead, the brunette clearly says in Czech, with accurate lip-sync: „Můj manžel zestárl!“ - Her facial expression is dry, slightly resigned, not amused. 3. Right after this first sentence: - The redhead reacts with a small, subtle nod, as if silently agreeing or saying “hm, fakt” - The redhead does not say any word out loud; this is a purely non-verbal reaction. Behavior constraints: - During this scene, only the brunette’s lips move in a way that looks like clear speech. - The redhead’s reaction is limited to a small nod and slight change in facial expression, with no articulated words. SCENE 2 — FULL PUNCHLINE + FINAL REACTION (about 8 seconds) Framing: - New shot from a slightly closer angle, still a medium shot focused more on the brunette’s upper body and face, but the redhead remains partially visible. - The camera continues a gentle inward movement, emphasizing the intimacy of the conversation. Actions: 1. At the start of this scene: - The redhead briefly glances at the brunette, then looks back at her own drink. - The brunette gently touches or adjusts her cappuccino cup, then raises her eyes to look at the redhead again. 2. While maintaining eye contact with the redhead, the brunette delivers the second part of the joke in Czech, with accurate lip-sync: „Nejdřív si prohlíží jídelní lístky a až potom servírku.“ - Tone: dry, slightly ironic, not exaggerated, no smile. - medium shot of the speaking woman 3. Immediately after she finishes speaking: - The redhead looks down into her latté glass, as if processing the joke with a slightly tired or resigned expression. - She can make a very subtle reaction, like a tiny exhale through the nose, a slight raise of one eyebrow, or a faint tightening of the lips, but she does NOT smile or laugh. - She does not respond verbally; no additional lines of dialogue. Behavior constraints: - Only the brunette moves her lips in a clearly speaking way for both Czech sentences. - The redhead never delivers any spoken line; she communicates only with nods, changes in gaze, and subtle facial expressions. - Neither woman laughs or breaks into a big smile; keep the mood dry and slightly cynical. GLOBAL CONSTRAINTS: - No subtitles, no captions, no on-screen text at all. - Maintain the same character appearances, outfits, hair, and café environment in both scenes for perfect continuity. - Keep the audio mix natural: Czech dialogue clearly audible, café ambience quiet and unobtrusive underneath.
Co čekat, když se pustíte do generování videa?
Rozhodně nelze čekat, že hned na první pokus dostanete hezké a použitelné video, i kdybyste měli naprosto dokonalý prompt. Většinou to bývá plno zkoušení, dlouhého čekání na výsledky (čeká se cca 20-60 vteřin na 1 video) a nakonec improvizace a prohlížení předchozích výsledků a rozhodování, co by se jakž takž dalo použít.
Kolik to stojí?
Generování kvalitních videí není levné. Většina cloudových služeb převzala model kreditů na základě měsíčního předplatného. Hezky se to vysvětluje na příkladu modelu Veo od Googlu. Zdarma dostane každý měsíc 100 AI kreditů. Vygenerované video má pevnou délku 8 vteřin. V nastavení Veo3 Fast stojí jeho generace 20 kreditů.
Pokud vám kredity zdarma nestačí, můžete si předplatit tarif Google AI Pro za 549,99 Kč měsíčně, který vám dodá 1000 AI kreditů. Na měsíc, nikoliv na den. Když se budete trochu snažit, spotřebujete je i za hodinu.
Kam dál?
- Pro inspiraci nebo diskutování problémů - česká skupina o umělé inteligenci s více jak 100.000 členy
- Instagram mé virtuální influencerky Cestomissky, kam dávám svá experimentálně vytvořená videa s dodržením character referency
- Instagramový účet Vision Dream Labs, kam dávám tvorbu, co se nehodí pro cestomissku
- Facebooková stránka Učím se AI, kam dávám poznatky ze svého seznamování s AI nástroji
Tento článek vyšel na základě původního obsáhlejšího více technicky zaměřeného článku na mém blogu. Proto se nejedná o plagiát, ale jen jinak zaměřenou verzi.



