Supported & tested models

This is the list of all genAi models supported in Lyric Video Studio, either locally or via API. List was updated 9th of May 2026 last time. New models are integrated monthly! For local genAI (images & LLM) check https://github.com/leejet/stable-diffusion.cpp and https://github.com/ggml-org/llama.cpp

LLM view has following models tested and offering one click download: “Ministral-3-14B”,
“Ministral-3-8B”, “Ministral-3-3B”, “Mistral-Small-24B”, “Gemma 4 26B-A4B”, “Qwen 3.5 9B”, “Qwen 3.5 4B”, “phi-4-Q4”, “deepseek-r1-distill-llama-8b-q8_0”

Built-in 3rd party GenAI Providers

Automatic1111 TxtToImg
Models: dynamically loaded from the connected Automatic1111 server via /sdapi/v1/sd-models.
Automatic1111 Img2Img / Vid2Vid / Upscale
Models: dynamically loaded from the connected Automatic1111 server via /sdapi/v1/sd-models.
Black Forest Labs
Models: FLUX.2 PRO (+ edit + outpainting)
ElevenLabs (TTS + Music)
Models/voices: dynamic voice list fetched from the connected ElevenLabs account. No fixed model selector is exposed in this plugin.
fal.ai
Video models: veo3.1, veo3.1/fast, veo3.1/image-to-video, veo3.1/fast/image-to-video, veo3.1/reference-to-video, veo3.1/first-last-frame-to-video, minimax/hailuo-2.3-fast/standard/image-to-video, minimax/hailuo-2.3-fast/pro/image-to-video, wan/v2.7/text-to-video, wan/v2.7/image-to-video, wan/v2.7/reference-to-video, wan/v2.7/edit-video, wan/v2.6/text-to-video, wan/v2.6/image-to-video, wan-25-preview/text-to-video, wan-25-preview/image-to-video, wan-alpha, kling-video/o3/pro/text-to-video, kling-video/o3/pro/image-to-video, kling-video/v3/pro/motion-control, kling-video/ai-avatar/v2/pro, kling-video/v2.6/pro/text-to-video, kling-video/v2.6/pro/image-to-video, kling-video/o1/image-to-video, kling-video/v2.6/pro/motion-control, kling-video/v2.6/standard/motion-control, kling-video/v2.5-turbo/pro/image-to-video, kling-video/v2.5-turbo/pro/text-to-video, ltxv-2/text-to-video/fast, ltxv-2/text-to-video, ltxv-2/image-to-video/fast, ltxv-2/image-to-video, pixverse/v6/text-to-video, pixverse/v6/image-to-video, pixverse/v5.6/text-to-video, pixverse/v5.6/image-to-video, bytedance/dreamactor/v2, bytedance/seedance/v1.5/pro/text-to-video, bytedance/seedance/v1.5/pro/image-to-video, bytedance/omnihuman/v1.5, seedvr/upscale/video, lucy-edit/pro, decart/lucy-restyle, editto, one-to-all-animation/1.3b, one-to-all-animation/14b, creatify/aurora.
Image models: z-image/turbo, ovis-image, hidream-i1-full, glm-image, imagineart-1.5-pro-preview/text-to-image, qwen-image-2512, qwen-image-edit-2511, imagen4/preview, wan/v2.2-a14b/text-to-image, wan-25-preview/text-to-image, wan-25-preview/image-to-image, bytedance/seedream/v5/lite/text-to-image, bytedance/seedream/v5/lite/edit, bytedance/seedream/v4.5/text-to-image, bytedance/seedream/v4/text-to-image, bytedance/seedream/v4/edit, gpt-image-2, gpt-image-2/edit, gpt-image-1.5, gpt-image-1.5/edit, gpt-image-1-mini, gpt-image-1-mini/edit.
Audio models: vibevoice/7b, vibevoice.
Google
Image models: gemini-3.1-flash-image-preview, gemini-3-pro-image-preview, gemini-2.5-flash-image, models/imagen-4.0-generate-001.
Video models: veo-3.1-fast-generate-preview, veo-3.1-generate-preview, veo-3.1-lite-generate-preview.
Audio/music models: gemini-3.1-flash-tts-preview, lyria-3-clip-preview, lyria-3-pro-preview.
LTX
Models: ltx-2-3-pro, ltx-2-3-fast, ltx-2-fast, ltx-2-pro.
Luma AI Dream Machine
Image models: photon-1, photon-flash-1.
Video models: ray-2, ray-flash-2, ray-1-6.
Extras: Add Audio and Generation Upscale are included as separate Dream Machine workflows.
MiniMax
Video models: MiniMax-Hailuo-2.3, MiniMax-Hailuo-02, S2V-01, T2V-01, T2V-01-Director, I2V-01, I2V-01-Director, I2V-01-live.
TTS & Music 2.6 (includiing free tier + vocer)
MuApi
Image models: gpt-image-2-text-to-image, gpt-image-2-image-to-image, midjourney-v8.
Video models: seedance-v2.0-t2v, seedance-v2.0-i2v, seedance-2.0-omni-reference, seedance-2.0-t2v-480p, seedance-2.0-i2v-480p, happy-horse-1-text-to-video-1080p, happy-horse-1-image-to-video-1080p, happy-horse-1-text-to-video-720p, happy-horse-1-image-to-video-720p, vidu-q2-turbo-text-to-video, vidu-q2-turbo-image-to-video, vidu-q2-turbo-start-end-video.
MusicGPT
Models/voices: dynamic voice list fetched from the connected account. No fixed model selector is exposed in this plugin.
OpenAI
Models: gpt-image-1
Runway ML
Models: gen4.5, act_two, upscale_v1, gen4_aleph, gen4_turbo, gen3a_turbo.
Stability AI ImgToVid
Models: Stability image-to-video endpoint integration.
WAN API (Alibaba Cloud / Model Studio)
Models: wan2.2-t2v-plus, wan2.2-i2v-plus.

Integrated Local GenAI Plugins

Stable Diffusion (local)
Models: discovered from your local model folder at runtime. The plugin loads local .gguf, .safetensors, and .ckpt files. Curated list of tested and supported models available for one-click model download (aka presets):
- Image models
  - sd 1.5
  - sdxl
  - Flux dev Q4
  - Flux2 dev
  - Flux Kontext Q2
  - Flux Klein 4B
  - Flux Klein 9B
  - z-image
  - qwen
  - qwen-edit-2511
  - Chroma radiance
  - Chroma
  - Ovis
  - HiDream o1
- Video models
  - LTX 2.3 dev low VRAM
  - LTX 2.3 dev med VRAM
  - LTX 2.3 dev hi VRAM
  - Wan 2.2 TI2V 5B low VRAM
  - Wan 2.2 TI2V 5B med VRAM
  - Wan 2.2 TI2V 5B hi VRAM
  - Wan 2.2 T2V 14B low VRAM
  - Wan 2.2 T2V 14B med VRAM
  - Wan 2.2 T2V 14B hi VRAM
  - Wan 2.2 I2V 14B low VRAM
  - Wan 2.2 I2V 14B med VRAM
  - Wan 2.2 I2V 14B hi VRAM
FramePack
Models: FramePack local workflow. No separate model selector is exposed in the current plugin.
VibeVoice
Models: microsoft/VibeVoice-Realtime-0.5B, vibevoice/VibeVoice-1.5B, vibevoice/VibeVoice-7B.
ChatterBox / Resemble AI
Recommended modes/models exposed by the plugin: Regular, Turbo, MultiLingual.
WAN 2.2 (local)
Video models: T2V-A14B, I2V-A14B, TI2V-5B.
LTX2.3
ACE-STEP 1.5 Local

Not included above: non-GenAI utility/infrastructure folders such as Cropped Image, Color Transfer, and helper code that is not exposed as a user-facing GenAI provider plugin.