
Courts métrages pilotés par personnage
Étiquetez le protagoniste une fois avec un plan de référence et Seedance maintient visage, cheveux et garde-robe identiques à chaque coupe de la séquence.
Le modèle vidéo multimodal phare de ByteDance — entrées texte, image, audio et vidéo de référence en un seul passage.
Payez une fois pour les crédits - utilisez-les sur tous les modèles de ZOOOP. · Rechargez quand vous en avez besoin, pas de brûlure mensuelle.
Powered by ByteDance's API on ZOOOP
Une architecture unique génère audio et vidéo synchronisés en un seul passage — dialogue, son ambiant, musique sensible au rythme, sans étape de post-synchronisation. Supporte jusqu'à 3 clips vidéo, 9 images et 3 clips audio comme entrées de référence combinées.
Étiquetez chaque image de référence comme un personnage, accessoire ou lieu spécifique. Seedance maintient la cohérence visuelle de chaque sujet entre les coupes, le même acteur apparaît dans chaque plan avec la même garde-robe.
Fournissez un clip vidéo comme référence de mouvement et Seedance transfère sa chorégraphie sur votre image de personnage — utile pour la danse, l'action sportive et les mouvements de caméra stylisés.
Sortie native jusqu'en 1080p en 16:9, 9:16, 4:3, 3:4, 21:9 et 1:1. Le format cinéma 21:9 et le vertical 9:16 sortent du même prompt, sans recadrage.

Étiquetez le protagoniste une fois avec un plan de référence et Seedance maintient visage, cheveux et garde-robe identiques à chaque coupe de la séquence.

Déposez des photos produit + un clip audio de script et le modèle génère une vidéo où l'éclairage, le mouvement et la voix off cadrent ensemble.

La synchronisation sensible au rythme signifie que les visuels cadrent sur le temps fort. Fournissez un clip audio de 15 secondes et le modèle ajuste le mouvement de caméra pour correspondre.

Animez des panneaux de storyboard statiques avec une vidéo de référence de mouvement pour le blocage — plus rapide que de commander une passe de préviz.

Séquencez les plans en un seul prompt avec des étiquettes de rôle. Économise le coudage manuel que d'autres modèles vous imposent.

Fournissez une vidéo de référence de danse plus un lit audio ; l'image de personnage exécute un mouvement chorégraphié sur le rythme.
Seedance 2.0 est le meilleur couteau suisse pour l'audio natif + les références multimodales — mais chaque modèle a un point fort. Vos crédits fonctionnent sur tous sur ZOOOP.
Ouvrez Seedance 2.0 depuis cette page ou sélectionnez-le dans le Générateur de vidéos.
Déposez vos images de référence et étiquetez chacune (personnage / accessoire / scène).
Écrivez le prompt de scène — Seedance lit les mouvements de caméra, les repères d'éclairage et les répliques.
Choisissez la durée (4–15s), le format et la résolution, puis lancez la génération.
Seedance 2.0 est le modèle que vous atteignez quand la scène a besoin de plus qu'un prompt texte — quand un directeur donnerait au cadreur une pile de planches de tendance, une fiche costumes, un brouillon audio et une référence de cascade, et s'attendrait à ce que tout atterrisse dans le même plan. L'ancien Seedance 1.5 Pro pouvait prendre certaines de ces entrées séparément. Seedance 2.0 les prend ensemble : jusqu'à 9 images de référence, 3 clips vidéo et 3 clips audio dans une architecture multimodale unifiée, et le modèle décide comment les pondérer par plan.
La capacité qui vend le modèle est l'étiquetage d'assets par rôle. Déposez une image de référence de votre protagoniste et étiquetez-la character_a ; déposez un packshot et étiquetez-le product_x ; référencez une vidéo de doublure et étiquetez-la motion_ref. Seedance garde le personnage étiqueté visuellement cohérent — même visage, même cheveux, même garde-robe — à chaque coupe du clip généré, tandis que la référence de mouvement dicte comment ils bougent. C'est la chose sur laquelle les autres modèles peinent encore : vous générez un clip de 5 secondes et la couleur des cheveux du protagoniste dérive à mi-parcours. Seedance 2.0 verrouille le rôle.
La deuxième chose qu'il fait bien est la synchronisation audio sensible au rythme. Fournissez un lit musical de 15 secondes et le modèle ajuste les mouvements de caméra, le mouvement des personnages et les coupes visuelles pour atterrir sur le temps fort. C'est natif — pas un post-traitement. Le même modèle génère aussi du dialogue synchronisé aux lèvres et du son ambient (bruits de pas, ambiance de pièce, météo) sans passe TTS séparée. En mars 2026, Seedance 2.0 est à Elo 1 269 pour le texte-vers-vidéo et Elo 1 351 pour l'image-vers-vidéo sur les classements publics — premier dans les deux catégories devant Kling 3.0, Veo 3 et Runway Gen-4.5.
Points faibles : honnêtement, presque nulle part en capacité. Seedance 2.0 est le meilleur couteau suisse des phares actuels — en tête des classements Elo publics, 1080p complet, audio natif, l'ensemble de références multimodales le plus profond, et du multi-plans style Kling V3 quand vous le scriptez. C'est un modèle de finition — atteignez-le quand la qualité doit gagner, pas pour exécuter vingt variations de brouillon rapide. Utilisez Grok Imagine quand vous devez itérer sur la direction rapidement, puis graduatez le prompt gagnant vers Seedance pour la finition.
Un modèle mental raisonnable : par défaut avec Seedance 2.0 quand la qualité doit gagner — plans riches en références, coupes finies, livrables premium. Pour l'itération rapide pour trouver la direction, Grok Imagine. Pour le chemin d'upscale 4K dédié de Veo 3.1, passez à la finition. Pour le storyboarding multi-plans avec coupes franches en un prompt, Kling V3.
Une architecture multimodale unifiée — Seedance 2.0 prend texte, image, audio et vidéo comme entrée combinée, tandis que 1.5 Pro les traitait séparément. Les gains pratiques les plus importants sont les images de référence étiquetées par rôle pour la cohérence des personnages, la synchronisation audio sensible au rythme, et l'audio natif qui ne nécessite pas de passe TTS séparée.
Oui. Le dialogue, le son ambient et la bande sonore sont produits alongside la vidéo dans la même passe de génération, synchronisés aux lèvres avec les visuels. Vous pouvez aussi passer une référence audio et les visuels cadreront sur le rythme.
4 à 15 secondes, jusqu'en 1080p natif. Les formats incluent 16:9, 9:16, 4:3, 3:4, 21:9 et 1:1, pour sortir un master cinéma et un cut social vertical du même prompt sans re-rendu.
Seedance 2.0 mène les classements Elo publics pour le texte-vers-vidéo et l'image-vers-vidéo, avec Kling 3.0, Veo 3 et Runway Gen-4.5 derrière. Il égale aussi Veo 3.1 à 1080p. Le dernier différenciateur de Veo est son upscaleur 4K dédié ; Kling V3 a un storyboarding multi-plans explicite plus fort. Seedance n'a aucun maillon faible — c'est le meilleur couteau suisse des phares actuels.
Oui — il est en tête des classements Elo publics pour le texte-vers-vidéo et l'image-vers-vidéo. Semez avec une image de référence et il transporte votre sujet, cadrage et style en mouvement, avec des références étiquetées maintenant les personnages cohérents entre les plans.
Images
Videos
Audios
Prompt*
Rapport hauteur / largeur*
Résolution*
Durée*