image-to-image

全能图片V2-图生图-低价渠道版

基于高能效视觉引擎的图生图与图像编辑接口。允许开发者通过输入“参考图像+文本指令”的组合，实现极速的风格迁移、局部重绘或背景替换。全能图片V2强大的特征提取能力确保了在大幅度修改画面的同时，依然能精准保留原图的核心结构与参考物特征，是打造动态交互式设计工具的理想选择。低价渠道版，价格远低于官方稳定版，不稳定。

¥0.19

image-to-image

全能图片PRO-图生图-低价渠道版

全能图片PRO编辑版，支持专业级图像编辑并实现 4K 超清画质输出，视觉效果极致出色。提供开箱即用的 REST 推理接口，达成行业领先性能，全程无冷启动延迟，全场景定价亲民且高性价比。低价渠道版，价格远低于官方稳定版，不稳定。

¥0.4

image-to-image

全能图片G-2.0-图生图-低价渠道版

为专业开发者与设计师提供了前所未有的图像控制力。依托底层强大的语义一致性算法，该接口不仅支持无缝的局部重绘（Inpainting）与平滑的画面扩展（Outpainting），更能精准锁定参考原图的材质纹理、人物特征及全局光影。无论是 IP 角色的动作延展、线稿精细上色，还是商业产品图的背景替换，都能在极低的“抽卡”成本下，实现完美融合、浑然一体的高阶视觉重构。低价渠道版，价格远低于官方稳定版，不稳定。可选择 1k/2k/4k，因接口稳定性限制，暂不保证精准输出 2k/4k 分辨率，多数情况下仍会输出 1k 图像，介意请使用官方接口。

text-to-image

reference-to-video

Vidu-参考生视频-q3

生数科技最新发布Vidu Q3系列的参考生视频模型，面向专业视频生成场景。支持上传1-7张图片作为主题参考，支持3-16秒音视频直出，在智能切镜与多机位一致性方面表现突出，可保持复杂场景下多个机位画面的连贯性。支持540p至1080p多档分辨率，兼容主体库调用与临时主体参考，适用于需要精细镜头控制的影视级内容生产。

¥0.22/秒

video-extend

万相2.7-视频续写

万相2.7-视频续写（Wan 2.7 Video Extend）是一款强大的AI视频生成工具，能基于已有首段视频片段无缝生成后续内容。用户只需上传原始视频并输入自然语言提示词描述后续情节，模型即可生成动作连贯、风格一致的续写画面。它提供720P和1080P两种高清分辨率档位，最高支持输出15秒的MP4视频。此外，该接口还支持传入音频以驱动视频节奏实现声画同步，并可通过负向提示词精准规避不良画面，全面满足高质量的影视创作与拓展需求。

¥0.51/秒

text-to-video

全能视频V3.1-pro-文生视频-低价渠道版

最新顶级人工智能文生视频模型，全能视频V3.1 高质量模式，原生文生视频 + 全维度同步音画，支持对话唇形同步、主体跨帧一致、视频帧插值，还原电影级光影与运镜，叙事连贯，画质极致、功能全量拉满，适配专业创作场景，仅定价偏高，按需选用即可。低价渠道版，价格远低于官方稳定版，不稳定。

¥0.9

text-to-image

qwen-image/text-to-image-2512

Qwen Image 2512 是阿里巴巴通义千问家族最新推出的图文生成大模型。它拥有卓越的自然语言理解力，能够精准解析复杂的空间布局与主体关系。其最核心的优势在于突破性的文本渲染能力，能在图像中准确、清晰地生成多语言与多字体的可读文本，是海报设计、Logo 制作等强排版需求的理想工具。此外，它支持灵活自定义图像尺寸，并在写实、插画等多种艺术风格中均能保持极高且稳定的输出质量。

¥0.12

reference-to-video

可灵参考生视频o3-4k

可灵 O3 4K 参考生视频通过多角度参考图像（最多 7 张，搭配参考视频时最多 4 张）和可选参考视频引导生成 4K 影院级视频，跨帧保持人物身份与场景一致性。支持参考视频原声保留、AI 同步音频生成两种模式，可灵活调整画幅与时长，适合角色驱动叙事、产品广告与剧情视频。

¥2.7/秒

image-to-image

千问2.0Pro-图像编辑

阿里巴巴通义千问团队开发的专业级图像编辑模型，在2.0编辑系列中提供最高处理品质。该版本在理解复杂编辑指令和输出质量上较标准版进一步提升，支持高至2K分辨率的精细调整，适合需要精确控制修改效果的专业图像处理与商业视觉生产工作流。

¥0.33/张

motion-control

即梦/动作模仿2.0

作为字节跳动最新一代视频动作捕捉与迁移模型，它彻底颠覆了静态图像的边界。只需提供一张任意风格的图像与一段参考视频，即可让图片中的角色完美复刻视频中的肢体运动、面部微表情与精准口型。模型不仅支持全画幅真人驱动，更首次突破性地兼容多人同框、二次元动漫及宠物动作迁移。它具备极致的特征锁定能力，在生成流畅自然、高度同步的复杂动作时，能完美保持原图的画幅、姿态及背景细节，实现零门槛的电影级动画演绎。

¥0.32/秒

video-to-audio

分离音频-Vocals

通过 AI 音频分离技术，提取视频或音频文件中的纯人声（Vocal），并过滤掉背景音效与伴奏。

¥0.1

image-to-video

Vidu-首尾帧生视频-q2-pro

核心主打“首尾帧双向锚定”技术。通过输入起始帧与结束帧，模型能智能推导并补全两者间的自然运动轨迹，完美解决了视觉叙事中镜头衔接与状态转换的难题。它具备极强的人物与物体感知力，能精准保护面部、手部及微小细节，并遵循深度与透视规律进行空间插值。无论是模拟复杂的电影级推拉镜头，还是捕捉衣物发丝的自然摆动，该模型都能在保持光影一致性的同时，呈现出细腻、无闪烁且极具质感的动态画面。

¥0.18

reference-to-video

可灵参考生视频o1

快手推出的突破性统一多模态视频大模型。该模式的核心在于强大的“身份锁定”技术，能够从角色、道具或场景的多角度参考中提取核心特征，确保在全新的创意场景中完美保持主体的一致性。它赋予了创作者极高的自由度，支持在更换背景、调整视角或赋予主体全新动作的同时，精确还原人物面部、服装及配饰细节。无论是多视角主体构建还是复杂剧情的延续，该模型都能提供工业级的主体稳定性，是角色驱动型视频创作的理想引擎。

¥3.15

video-edit

kling-video-o3-pro/video-edit

快手视频编辑技术的巅峰之作，专为追求极致精度与电影级质感的专业后制而生。它彻底颠覆了传统的剪辑逻辑，无需遮罩或关键帧，仅通过自然语言即可实现物体替换、场景重构与风格迁移。作为 Pro 级别型号，它支持多达 4 张参考图输入，为目标元素提供精准的视觉引导。凭借深层的场景语义理解与工业级的时空一致性，该模型能确保编辑后的内容完美融入原视频的运动轨迹与结构，实现稳定、无频闪的视觉重塑。

¥1.08/秒

text-to-image

全能图片X-文生图片-官方稳定版

全能图片X 的文生图模型。只需输入自然语言描述，模型便能精准解析语意，生成具备极高清晰度、丰富细节和完美光影的图像。支持11种预设宽高比，适合角色设计、概念图、社交媒体素材等场景。官方稳定版，稳定高效，价格低于直接模型官方。

¥0.14

video-edit

可灵视频编辑o1

快手科技推出的颠覆性视频编辑模型，实现了通过自然语言进行像素级语义重构的跨越。基于强大的 MVL（多模态视觉语言）系统，该模型能够精准理解创作者的修改意图，无论是移除背景路人、更换角色服装，还是将白昼切换为黄昏、为场景添加降雪，都能在保持画面连贯性的前提下完成内容、风格及环境的深度修改。它打破了传统视频编辑的繁琐流程，支持局部元素替换与全局氛围重塑，是视频二次创作与后期修正的智能化生产力工具。

¥6.3

text-to-video

seedance-v1.5-pro-text-to-video

生产力级文生视频模型，专为追求电影感写实与商业质感的创作流设计。该模型具备极强的指令遵循力，能精准捕捉复杂的镜头调度与细腻的情感基调。其核心突破在于对微表情与肢体动律的深度刻画，使其在短剧创作与高端广告领域表现尤为出色。支持 4-12 秒灵活时长切换及多种专业画幅，凭借其稳定的美学表现与原生的视觉特效处理，无需繁琐后期即可产出具备实拍质感的顶级影像。

¥0.07/秒

text-to-image

即梦图片 4.6 文生图

即梦图片 4.6 文生图是火山引擎即梦 AI 的高质量图片生成模型，支持根据文本提示词生成高清图片。模型基于 Seedream 4.0 能力升级，适用于人像写真、平面设计、创意海报、商品视觉和图片风格化等场景；支持通过 size 或 width/height 控制输出规格，覆盖约 1K 到 4K 的图片生成需求。

¥0.17

reference-to-video

全能视频X-多图参考生视频-官方稳定版

全能视频X-多图参考生视频是一款面向角色一致性和多素材融合场景的视频模型。它支持1到7张参考图共同引导生成，能够在保持人物身份、画面风格与场景构图一致性的同时，输出自然流畅的动态镜头，适合角色短片、产品展示、社媒创意和多角度视觉叙事。官方稳定版，稳定高效，价格低于直接模型官方。

¥1.89

video-tools

PixVerse V6 视频续写

PixVerse V6 视频续写可无缝延续已有视频片段，分析原片结尾并生成运动连贯、风格一致的新画面。描述接下来的场景，即可获得自然流畅的续写内容，支持风格控制、反向提示词和同步音频生成。

¥0.16/秒

image-to-video

seedance2.0-Mini/图生视频

seedance 2.0 Mini 图生视频，适合低成本批量将静态图片转为动态视频。原生仅支持 480p/720p 生成；1080p/2k/4k 会先以 720p 生成，再通过超分补帧输出。支持首帧/首尾帧模式、4-15 秒有声视频，面向高频内容生产而非电影级画质。

¥0.3/秒

motion-control

可灵动作控制V3.0-std

快手可灵V3.0系列的动作控制基础版本，专为需要将参考视频中的动作迁移到静态图片的用户设计。通过上传角色图片与驱动视频，即可让图片中的角色精准复现视频中的舞蹈、手势或运动轨迹。采用3D时空联合注意力机制，在保持角色身份特征的同时实现物理真实的动作转移。支持"图片模式"（最长10秒，保持原图视角）与"视频模式"（最长30秒，跟随驱动视频视角）双模式，为社交媒体内容、虚拟主播和创意短视频提供高性价比的动作生成方案。

¥0.81/秒

image-to-video

ltx-2.3/image-to-video-lora

为需要个性化视觉风格的图生视频用户打造的LoRA推理版本。在LTX-2.3基础能力之上，支持同时加载最多三个自定义LoRA适配器，将品牌特定美学、角色形象或镜头语言直接注入生成流程。无论是固定产品视觉风格、保持角色跨镜头一致性，还是实现特定的电影级运镜，均可通过轻量级LoRA模块精准控制，无需重新训练整个模型。适合品牌内容规模化生产、IP角色动画和风格化商业视频制作。

¥0.07/秒

text-to-video

happyhorse-1.0/text-to-video

HappyHorse 1.0 文生视频是阿里云百炼推出的 AI 视频生成模型，仅凭一段文本提示词即可输出富有戏剧性与电影质感的高动态视频。模型擅长理解复杂场景描写、情绪氛围与镜头语言，原生支持 720P/1080P、16:9~3:4 多种画幅，3~15 秒灵活时长，是创意短视频、广告分镜、社媒内容生产的高质量选择。

¥0.67/秒

text-to-video

Vidu-文生视频-q3-turbo

“为剧而生”的高效叙事模型。它打破了 AI 视频仅能生成短片段的限制，率先实现 16 秒超长视频直出，足以支撑一个完整的叙事闭环。该模型具备独特的“导演思维”，能根据提示词自动切换镜头，并同步生成对白、环境音与情绪呼吸点，实现端到端的声画对齐。q3-turbo 版本在保持电影级质感的同时，极大优化了生成速度，是短剧、广告及高时效性内容生产的工业化利器。

¥0.18/秒

reference-to-video

Vidu-参考生视频-q3-mix

生数科技Vidu Q3系列的参考生视频模型的均衡优化版本，在画面质感与动态效果上表现优异，支持智能切镜与音画同步生成。支持1-16秒视频生成，支持720p、1080p分辨率，当前版本暂不支持主体库调用。适合追求画面质量与动态表现平衡、无需主体库功能的创作场景。

¥0.55/秒

text-to-image

千问2.0-文生图

阿里巴巴通义千问团队推出的高效文生图模型加速版，在保证图像生成质量的同时大幅提升响应速度。支持复杂中英文文字渲染和多种艺术风格，输出分辨率高达2K（2048×2048），支持1-6张批量输出。兼顾效果与性能的最佳平衡，适合需要快速迭代出图的创意设计和内容生产场景。

¥0.13/张

text-to-video

Vidu-文生视频-q3-pro

Vidu Q3 文生视频模型实现了从“纯视觉生成”到“音视频一体化叙事”的跨越。它支持音画同出，用户可在提示词中直接定义角色对白与环境音效，彻底解决影音异步的痛点。该模型具备卓越的“智能切镜”能力，可根据语义自动规划专业摄影级别的镜头语言。支持最高 2K 高清分辨率及 16 秒超长时长的自由配置，配合原生字幕渲染功能，Vidu Q3 正在重塑从创意剧本到电影级成品短片的工业流程。

¥0.31/秒

image-to-video

海螺-2.3-图生视频-标准

MiniMax 推出的最新一代图生视频大模型，旨在将静态图像转化为流畅且具电影感的动态影像。该模型将自然运动合成技术与高度真实的物理模拟相结合，能够赋予静止画面生动的视觉生命力。它支持包括平移、追踪及缩放等专业摄像机运镜，并能精确模拟风动、光影反射及运动模糊等物理动态。核心优势在于其极强的结构稳定性，在生成过程中能完美保留原图的构图、光照与角色细节。无论是 6 秒还是 10 秒的片段，均能展现出适用于叙事、广告或产品演示的专业级电影质感。

¥1.5

text-to-image

千问2.0Pro-文生图

阿里巴巴通义千问团队开发的专业级文生图模型，支持根据文字描述生成高质量图像。在文字渲染、真实质感和语义遵循能力方面表现卓越，擅长复杂中英文文本渲染、多行布局和段落级文本生成，可直出专业PPT、海报和信息图。输出分辨率高达2K（2048×2048），支持1-6张批量输出，适合海报设计、商业视觉素材创作和高品质内容制作。

¥0.33/张

image-to-video

海螺-2.3-图生视频-pro

Hailuo 2.3 Pro 是 MiniMax 视频生成技术的旗舰之作，专为追求极致视觉品质的创作者与专业工作室打造。该模型能将静态图像转化为原生 1080p 全高清电影级视频，无需后期放大即可在大型屏幕上呈现惊人的清晰度与细节。其核心突破在于将新一代运动渲染与精确的物理模拟相结合，无论是光影的细微偏移、织物的有机流动，还是复杂的空间深度过渡，都能表现得自然且真实。仅需 5 秒即可产出具有高度色彩一致性与构图稳定性的专业影像，是数字叙事与高端广告创作的终极工具。

¥2.63

video-to-audio

分离音频

¥0.1

image-to-video

万相2.2-首尾帧生视频

Wan 2.2 是一款专为打造电影级画质而生的图生视频大模型。它能够输出极其清晰、可直接用于最终交付的专业级视频。除了基础的图生视频，它还具备强大的“首尾帧插值”功能，让画面过渡平滑自然，完美契合科幻场景与精细的影视制作。搭配极简的参数工作流与负向提示词支持，创作者可以轻松剔除多余元素，实现对视频内容的高效、精准控制。

¥0.07/秒

image-to-video

全能视频S-图生视频-pro-官方稳定版

它能够将单张静态图像精准转化为具备原生音画同步的高保真视频。该模型核心优势在于极致的“身份锁定”与“物理感知”，能完美保留原图的人物特征、光影布局与材质纹理。通过对 3D 结构的智能推理，它能实现真实的视差深度与平滑的背景扩展，彻底解决传统模型在运镜时的扭曲问题。作为专业版，它支持最高 1080p 级别的超清分辨率及长达 20 秒的输出，配合强大的提示词可控性，让创作者能以导演视角精准定义每一个物理动效与声效，是目前最接近真实电影工业水准的图生视频工具。本接口采用官方原生 API 协议，该协议目前未开放对 Web/App 端个人角色库（Cameo）的访问，暂不支持通过 @ 语法引用角色。官方稳定版，稳定高效，价格低于直接模型官方。

¥2.1/秒

text-to-audio

minimax/speech-2.6-turbo

一款专为极速响应与高性价比设计的“性能级”语音模型。它在 Speech 02 的基础上实现了多语种能力的跨越式升级，支持包括保加利亚语、马来语在内的 40 多种全球语言，且发音韵律更加精准。作为针对语音聊天和数字人场景深度优化的极速版本，它不仅能提供清晰自然的吐字，更具备领先的实时流式输出能力。无论是跨语种口音的复刻，还是特定年龄段音色的拟真，2.6 Turbo 都能以极低延迟为全球化业务提供丝滑的互动体验。

¥0.37/1000字符

audio-to-video

可灵对口型-人脸识别

可灵推出的专为人脸特征提取与身份一致性保持设计的底层模型。可对视频进行人脸检测，返回视频中的人脸数据（人脸ID、人脸截图URL、可对口型时间区间），以及会话ID，用于后续对口型视频生成中的身份锁定。

image-to-video

海螺-02-图生视频-标准

海螺 AI 推出的一款卓越图生视频模型，依托于 MiniMax 持续进化的技术架构。该模型专注于将静态图像转化为原生 768p 的高清动态影像，无需二次放大即可呈现锐利画质。其核心优势在于对复杂动作与混乱物理场景的强大掌控力，无论是细碎的残骸飞溅、织物的自然摆动，还是极具冲击力的撞击与手持摄影的随机抖动，都能展现出极高的真实感。凭借出色的提示词响应能力和流畅的镜头连续性，它能够精准执行复杂的构图指令，同时大幅减少画面伪影，是动作影像创作的理想选择。

¥1.5

image-to-video

全能视频V3.1-pro-图生视频-低价渠道版

专为极致的高画质与叙事控制而设计。该模型支持生成最高 4K 分辨率的精美视频。其核心优势在于强大的主体一致性与原生音效生成能力，能够精准复刻原图的材质与光影，并同步合成逼真的环境音。此外，它还引入了首尾帧引导与视频扩展功能，让长达 8 秒的镜头呈现出导演级的转场与空间稳定性。低价渠道版，价格远低于官方稳定版，不稳定。

¥0.8

text-to-image

万相2.7-文生图Pro

万相2.7文生图Pro是阿里巴巴推出的专业级文生图模型，支持最高4K超高分辨率输出，配合内置思考模式深度理解创意意图，为印刷品、大幅面展示、时尚画册等高端制作场景提供极致细节和画质表现。

¥0.47

image-to-video

海螺-2.3-fast-图生视频

MiniMax 推出的最新一代高效率视频生成模型。作为该系列的极速版本，它在保持画面稳定、细节清晰及光影平衡的基础上，将生成速度提升了 30% 至 50%，最高可达标准版模型速度的两倍。该模型专为快节奏内容创作而设计，能以更低的成本实现大规模内容产出、预览及方案迭代。它内置了安全检测与提示词自动增强功能，并支持 768p 分辨率下的 6 秒或 10 秒灵活时长输出。对于在保障电影级质感的同时，对创作周转率有极高要求的专业创作者而言，Hailuo 2.3 Fast 是理想的效能工具。

¥1.01

video-tools

火山字幕擦除-视频字幕擦除（精细化版）

自动将视频上传至火山视频点播后执行精细化字幕擦除，输出擦除字幕后的视频。

¥0.013/秒

image-to-video

海螺-02-图生视频-pro

Hailuo 02 (I2V Pro) 是 AI 视频生成领域的突破性之作，专为追求电影级写实感与物理精确性的创作者打造。该模型支持原生 1080P 全高清输出，无需后期放大即可确保每一帧画面的纯净质感与细腻纹理。通过大幅提升的运动与物理仿真技术，它能精准捕捉从微观粒子飞舞到宏大光影过渡的每一个动态细节。依托 5 秒时长的灵活创作机制与智能镜头转场技术，Hailuo 02 实现了极高的生成一致性与指令遵循力，能够将静态图像完美转化为极具沉浸感的专业影像片段。

¥2.63

text-to-image

万相2.5 Preview 文生图

万相2.5 Preview 文生图是阿里通义万相系列的文本生成图像模型。支持通过自然语言描述生成高质量图像，提供5种标准画幅比例（1:1/3:4/4:3/9:16/16:9），支持批量生成最多4张图片、智能提示词改写和反向提示词控制，适用于创意设计、内容配图、社交媒体素材等场景。

¥0.13/张

motion-control

可灵动作控制V3.0-pro

可灵V3.0系列的动作控制专业版本，在Std基础上实现画质与动作精度的全面跃升。通过上传角色图片与驱动视频，即可让图片中的角色精准复现视频中的舞蹈、手势或运动轨迹，并在角色细节保持、动作流畅度和物理真实感方面显著增强。支持1080p高分辨率输出，精确还原服装纹理、面部表情和复杂手势。双模式支持（图片模式10秒/视频模式30秒）配合音频保留功能，可直接生成声画同步的完整视频。适合需要电影级质感的专业制作、高端商业广告和IP角色动画。

¥1.08/秒

video-edit

kling-video-o3-std/video-edit

基于自然语言指令的专业级视频编辑工具。它专注于实现 3-15 秒视频的局部化转换，能够精准执行移除或替换物体、更换背景、重塑场景风格以及动态调整天气与光影等复杂任务。依托强大的强时空一致性算法，该模型确保了编辑后的画面在动态序列中依然自然流畅。

¥0.81/秒

image-to-video

万相2.6-图生视频

通义万相2.6图生视频模型是一款先进的图像到视频生成工具，用户只需提供一张静态图像和一段文本提示，即可生成5至15秒的电影感短视频。模型以输入图像为视觉锚点，智能解析提示内容，在保留人物身份、服装及场景风格一致性的基础上，实现自然流畅的动态演绎。支持多镜头叙事功能——开启后可自动将单一创意拆解为多个连贯镜头，并确保关键元素跨镜头统一。输出分辨率最高达1080p，提供720p/1080p等多档画质选择，适配社交媒体、广告预演、创意短片等多样化应用场景。

¥2.25

text-to-image

全能图片V1-文生图-官方稳定版

一款轻量级且功能强大的 AI 图像生成模型。它专为寻求快速、高质量视觉效果的创作者设计，只需简单的文字提示，即可在数秒内将创意转化为富有表现力、清晰逼真的图像。该模型具备卓越的构图能力和广泛的风格适应性（写实、插画、动漫及绘画等），能精准理解文本语境中的主体与背景关系，呈现自然平衡的光影效果。其快速高效的特性非常适合快速原型制作和社交媒体内容创作。官方稳定版，稳定高效，价格低于直接模型官方。

¥0.2

image-to-video

海螺-2.3-fast-pro-图生视频

MiniMax 视频生成家族中的高性能旗舰，专为追求极致效率与 1080p 全高清画质的创作者设计。作为极速专业版，它在保持画面高度稳定、细节锐利及光影均衡的同时，生成速度较标准模型提升了 30% 至 50%，最高可实现两倍速产出。该模型特别适用于高强度的批量内容创作与快速方案迭代，大幅降低了创作成本。凭借内置的提示词自动增强与安全检测机制，Fast Pro 能够在保障合规性的前提下，稳定输出 6 秒时长的电影级影像，完美平衡了“快”与“精”的双重需求。

¥1.73

image-to-video

万相2.6-参考生视频

万相2.6-参考生视频是阿里通义万相2.6系列的参考生视频模型，支持多模态输入（文本/图像/视频）。支持720P/1080P分辨率。模型可基于参考图像或视频还原角色形象，支持单人表演或多角色互动，同时具备多镜头智能调度能力。

¥0.45/秒

text-to-image

全能图片PRO-文生图Ultra-官方稳定版

原生 4K/8K 级工业素材。它不仅能理解复杂的艺术风格，更支持通过自然语言对画面进行深度语境编辑。最引人注目的是其多语言文字渲染能力，能够自动翻译并完美排版图片内的文字。配合专业的摄影机视角、焦距及景深控制，它能确保在不同画幅下维持角色与品牌风格的高度一致，是社交媒体、广告创意及专业排版领域的全能型解决方案。官方稳定版，稳定高效，价格低于直接模型官方。

¥0.98

image-to-video

悠船图生视频

悠船的视频能力专注于捕捉静止艺术中的“灵魂瞬间”。它支持以单张图片作为起点，或通过“首尾双帧”设定精确的运动轨迹，在 5 秒的黄金时间内输出极具质感的动态序列。该功能提供 480p 与 720p 两种画质选择，确保了从微观的光影流转到宏大的镜头位移都能保持原图的顶级审美。无论是追求细腻的氛围渲染，还是富有冲击力的视觉转换，它都能在极短的时间内实现美学与动效的完美融合。

¥0.54

video-tools

PixVerse V6 转场

PixVerse V6 转场可在起始图片与终止图片之间生成流畅的 AI 视频过渡。描述变换过程，模型将生成自然连贯的转场片段，支持风格控制、多机位切换和同步音频，适合社交媒体、广告创意与影视制作。

¥0.16/秒

text-to-video

可灵文生视频3.0-pro

快手视频生成技术的顶峰之作，专为追求极致视觉艺术与工业级精度的专业创作而设计。作为 Pro 级别型号，它在 Standard 版本的基础上实现了画质保真度与运动平滑度的跨越式质变，能够精准捕捉复杂的物理动态与微小的光影变幻，呈现出真正的电影级大片质感。该模型深度集成了声画一体化能力，支持同步音效生成与双角色自定义配音。配合负向提示词精准规避与 CFG 引导系数的深度控制，V3.0 Pro 赋予了创作者前所未有的掌控力，让文字瞬间转化为具备生产力价值的高端视觉杰作。

¥0.69/秒

image-to-video

海螺-02-标准

MiniMax 技术框架下的全能型视频生成模型，支持纯文本生成（T2V）与图像引导生成（I2V）双模式切换。该模型提供原生 768p 的高清画质，确保每一帧画面都清晰锐利而非后期放大。其核心优势在于强大的物理仿真能力，能够自然地模拟碎屑飞溅、织物摆动及水流动态，并配合逼真的手持摄像机抖动增强代入感。凭借极高的指令遵循度与出色的时间轴稳定性，它可输出 6 秒或 10 秒的连贯片段，是快速迭代创意与打造高一致性影像的理想选择。

¥1.5

reference-to-video

Vidu-参考生视频-q2-pro

在“参考生视频”领域实现了跨越式进化，不仅支持 1-7 张图像参考，更突破性地支持 1-2 个视频片段作为参考源。该模型主打“AI 演技”，能在保持角色细节、服饰和场景高度一致的同时，精准捕捉细腻的微表情。它支持 1080P 高清输出，并具备强大的视频编辑与替换能力，是专业视频创作者追求“素材可控性”的终极利器。

¥0.44

audio-to-video

可灵对口型-视频生成

可灵AI对口型视频生成模型，基于输入的人物识别结果视频与音频，实现人物口型与声音内容的帧级同步。支持真实人物、3D及2D动画角色，可处理本地音频上传或在线合成配音。采用音频对齐插帧策略，确保发音难度较高的音节也能准确还原口型状态，生成时长支持延伸至分钟级。

¥0.35/5秒

text-to-video

ltx-2.3/text-to-video

Lightricks 2026年3月发布的开源文生视频基础模型。全新4倍大文本连接器显著提升复杂提示词的理解精度，多主体、空间关系和风格指令的还原准确度大幅改善。重制的VAE带来更锐利的细节表现，升级的声码器实现更清晰的同步音效生成。支持1080p原生竖屏与横屏双画幅，24/48fps多帧率可选，5-20秒时长内一次性输出完整音画内容，无需后期配音即可直接交付。

¥0.07/秒

image-to-video

可灵图生视频v3-4k

Kling V3.0 4K 是快手推出的4K图生视频模型，用户上传参考图像并描述动作，可生成具有卓越细节的电影级视频。支持首尾帧控制来定义运动轨迹，具备物理感知运动（流体、布料、毛发等自然行为）。提供3至15秒时长及同步音效选项。

¥2.7/秒

text-to-video

seedance-v1.5-pro-text-to-video-fast

专为工业级生产设计的极速文生视频模型。它致力于将自然语言指令快速转化为具备电影质感的短片，特别强调对主体、动作、环境及光影的高保真还原。该模型在保持稳定美学表现的同时，能够呈现极具感染力的动态效果，并支持原生音频合成与精确的随机种子控制。无论是社交媒体短视频还是广告创意初稿，它都能提供多比例适配的高效迭代方案，是追求“即时创意”的专业首选。

¥0.16/秒

image-to-video

全能视频V3.1-pro-图生视频-官方稳定版

最新的图生视频模型，致力于将静态图像转化为充满电影感的动态序列。该模型支持从单张图片生成视频，或通过起始帧与结束帧进行流畅的插值过渡（Morphing）。它不仅能精准还原图像的风格与构图，还能生成逼真的运镜、自然的光影变化以及同步的原生音频。支持从 720p 到 4K 的高分辨率输出及多种画幅，是故事板制作、概念动画和场景开发的理想工具。官方稳定版，稳定高效，价格低于直接模型官方。

¥4.7

image-to-video

Vidu-首尾帧生视频-q3-turbo

主打高效生产的轨迹受控生成模型。它支持 16 秒声画同步直出，通过定义起始与结束帧，赋予了创作者“手术刀级”的剪辑能力。该型号在保持 Vidu Q3 系列电影级质感的同时，极大优化了生成速度，能够流畅补全两点间的动作演变路径。无论是快速的场景流转还是连贯的人物动作，它都能以工业级的响应效率实现逻辑严密的叙事闭环，并确保毫秒级的口型与音效对齐。

¥0.18/秒

text-to-image

悠船文生图-v61

V6.1 是对 V6 架构的精细化重构，主要提升了图像的清晰度和处理速度。它在保持 V6 强大语义理解能力的基础上，显著减少了画面中的噪点，尤其在渲染微距摄影和极简主义设计时，表现出极高的纯净度和锐利感。

¥0.54

image-to-video

Vidu-首尾帧生视频-q2-pro-fast

一款专为时空过渡设计的智能视频生成模型。它能够精准识别起始帧与结束帧的关键元素，在保持人物主体、光影布局及场景构图高度一致的前提下，自动补全流畅的动态过程。凭借 Q2 Pro 的高质感基因与显著提升的生成效率，该模型能有效消除画面闪烁，完美呈现细腻的肢体动作与电影感运镜，是转场设计与叙事补全的效率利器。

¥0.18

text-to-image

全能图片X-高质量文生图-官方稳定版

全能图片X-高质量文生图是一款面向专业创意生产的 AI 图片生成模型。它可以根据自然语言提示词生成高质量视觉作品，支持多种画幅比例、1k/2k 输出档位和一次最多 4 张候选图。模型适合概念设计、营销素材、产品视觉、社媒内容和商业创意探索，兼顾画面质感、生成效率与交付灵活性。官方稳定版，稳定高效，价格低于直接模型官方。

¥0.38/张

video-tools

全能视频S-角色上传-低价渠道版

根据视频创建对应的形象。低价渠道版，价格远低于官方稳定版，不稳定。

¥0.05

text-to-image

悠船文生图-v6

V6 是迈向“精准指令”的重要里程碑。它摒弃了冗余的提示词技巧，支持自然语言输入。V6 首次实现了在图像中准确嵌入长句短语，并建立了更为严肃、真实的写实风格审美基调，是商业摄影和写实创作的基石。

¥0.54

text-to-image

f-dev

120亿参数文本生成图像模型，采用修正流 Transformer 架构。通过引导蒸馏技术从FLUX.1-pro提炼而来，在保持接近旗舰模型质量的同时实现更高效率。支持文生图、图生图和局部重绘等多种生成模式，可输出最高 1536×1536 分辨率图像。模型具备出色的文本渲染能力和人体解剖结构准确性。

¥0.04

image-to-image

qwen-image/edit-2511

阿里巴巴通义千问团队发布的200亿参数图像编辑模型，基于MMDiT架构。相比2509版本，2511在人物一致性、多主体场景稳定性和编辑可控性方面实现显著提升。支持语义编辑与外观编辑双模式，内置社区热门LoRA能力，可执行换背景、风格转换、服饰修改等操作，同时保持面部结构与身份特征不变。

¥0.12

image-to-video

可灵图生视频o3-4k

可灵 O3 4K 图生视频将静态图像转化为充满动感的 4K 影院级视频。具备主体一致性保持、自然运动生成、物理动力学模拟与场景动态过渡能力。支持起止帧精确控制、可选同步音频，适合产品动画、品牌视频、社交媒体内容创作等高端图像驱动场景。

¥2.7/秒

text-to-video

万相2.7-文生视频

万相2.7-文生视频（Wan 2.7 Text-to-Video）是先进的文本生成视频模型，能够将自然语言提示词转化为细节丰富、动态稳定且具电影质感的高质量视频。它具备强大的指令遵循能力，非常适合制作广告、解说视频和社交媒体内容。该接口支持720P与1080P分辨率以及多种灵活的宽高比，以适配不同的播放平台。此外，它支持引入音频驱动视频节奏，并提供负向提示词控制与可选的智能提示词扩展功能，为您提供精准且专业的视频创作体验。

¥0.51/秒

text-to-image

f-2-dev/text-to-image

Black Forest Labs 最新推出的 320 亿参数开源文本生成图像模型。flux-2-dev是基于 FLUX.2 base模型的 32B 开源权重版本，是目前最强的开源图像生成与编辑模型，可在单一checkpoint 下同时完成文本生成图像和多输入图片编辑任务。该模型能够根据文本指令生成、编辑和组合图像，并且具有性价比优势。

¥0.2

text-to-video

全能视频X-文生视频-官方稳定版

纯文本到视频生成模型，能够仅凭文字描述从零构建动态世界。用户只需输入所需的场景、动作与视觉风格，模型即可生成具备逼真物理运动与细腻氛围感的电影级画面。该模型支持高度自定义，包括灵活的视频时长、16:9 或 9:16 等多种常见画幅，以及 480p 和 720p 的分辨率选项，全面赋能创作者将想象力转化为高质量的视频内容。官方稳定版，稳定高效，价格低于直接模型官方。

¥1.89

video-to-audio

分离音频-Other

通过 AI 音频分离技术，提取视频中的场景音、环境音或伴奏（Background / Instrumental），彻底消除人声。

¥0.1

text-to-video

可灵文生视频2.6-pro

快手推出的划时代视听大模型，首次实现了视频与音频的原生同步生成。不同于后期配音，该模型在生成画面时同步构建声场，确保镜头运动、人物动作与环境音效、对白完美契合。其具备“角色感知”技术，能根据画面主体匹配相应的音色与语调，并让环境音随镜头深度动态变化。无论是社交广告、短片预演还是产品演示，创作者只需一段脚本，即可一步到位产出包含配音、环境音与配乐的电影级片段，极大地提升了创作效率与沉浸感。

¥1.75

reference-to-video

seedance-v1-lite-reference-to-video

支持同时上传最多 4 张参考图。该模型能够精准提取不同人物、动物或物体的特征，并让它们在同一视频场景中根据指令产生自然的交互。凭借卓越的身份保持技术，生成内容能高度忠于原图的外观细节。配合内置的 AI 提示词增强器和精准的相机锁定功能，用户可以轻松创作出构图稳定、逻辑连贯的多角色叙事片段。无论是复杂的创意广告还是多主体动态演示，它都提供了一个高效且可复现的专业级方案。

¥0.07/秒

text-to-video

可灵文生视频3.0-std

快手最新发布的顶尖文本生成视频模型，代表了 AI 视频创作的又一里程碑。相比前代 V2.6，V3.0 在运动质量与视觉保真度上实现了显著跃升，能够生成极具质感的电影级画面。其最具竞争力的创新在于支持同步音效生成以及多达两个席位的自定义角色配音，彻底解决了 AI 视频“无声”的痛点。配合负向提示词精准规避、CFG 引导系数微调以及多比例画幅支持，它为创作者提供了前所未有的自由度，让每一个创意都能以声画合一的完美姿态呈现。

¥0.52/秒

text-to-audio

minimax/speech-2.6-hd

一款主打高自然度与超低延时的专业级语音模型。通过深度“归一化升级”，该模型实现了极其丝滑的发音韵律与清晰吐字，能够精准复刻不同年龄段的音色与地域口音。它在 40 多种全球语种（如马来语、希伯来语等）的相似度与准确性上较前代有显著飞跃，完美适配跨国会议与本地化营销。凭借其强大的实时流式输出能力，它能为交互式应用提供近乎零延迟的听觉体验，让 AI 沟通如同真人般流畅。

¥0.62/1000字符

text-to-video

seedance2.0-Mini/文生视频

seedance 2.0 Mini 是 Seedance 2.0 系列中的高性价比档位，面向高频批量生产、低成本视频生成与大规模内容产出。原生仅支持 480p/720p 生成；1080p/2k/4k 会先以 720p 生成，再通过超分补帧输出。支持 4-15 秒有声视频、多画幅比例，能力与 Standard 一致但画质与稳定性低于 Standard。

¥0.3/秒

text-to-video

万相2.6-文生视频

通义万相 2.6 是阿里巴巴通义实验室推出的专业级 AI 视频生成模型，核心定位为 “支持角色扮演 + 多镜头叙事的电影级视频生成工具”，赋能全场景创作。升级点：对比前代 Wan 2.5，时长从 10 秒增至 15 秒，新增智能分镜，支持全景、特写等电影级运镜。画质性能：输出 1080P/24fps 高清视频，写实人像质感提升，大幅削弱 “AI 感”，光影具专业审美。适用场景：覆盖影视短剧、商业广告、虚拟角色互动，输入文本即可生成连贯叙事视频。

¥2.25

text-to-image

qwen-image/text-to-image-2512-lora

Qwen-Image-2512的LoRA定制版本，支持加载自定义适配器实现个性化风格。在保持基础模型真实感和文字能力的同时，可通过轻量级LoRA模块注入特定艺术风格、品牌视觉或角色形象。适合需要跨项目保持视觉一致性的品牌团队、IP内容开发者和风格探索者，让高质量生成与个性化需求完美结合。

¥0.1

video-edit

全能视频X-编辑视频-官方稳定版

一款创新的视频编辑模型，允许用户通过自然语言指令轻松改造现有视频。只需上传源视频并输入期望的风格或修改建议，模型即可在全视频范围内进行无缝的 AI 编辑。无论是将真实画面转换为动漫、卡通，还是赋予其电影般的质感，该模型都能在所有帧之间保持卓越的时空一致性，确保生成平滑、无闪烁的高质量画面，并提供 480p 与 720p 分辨率选项，让视频重塑变得直观且高效。官方稳定版，稳定高效，价格低于直接模型官方。

¥0.41/秒

text-to-video

可灵文生视频o1

快手科技推出的统一多模态视频生成引擎，旨在为专业生产环境提供高稳定性与高性价比的创作解决方案。该模型依托先进的多模态视觉语言（MVL）技术，能够精准理解自然语言指令、视觉上下文及主体身份，确保生成的视频在运动连贯性、语义准确度及视觉一致性上达到工业级标准。它不仅支持文生视频，还集成了图生视频、视频编辑、镜头扩展等全流程创作能力，是平衡画质、速度与成本的理想生产力工具。

¥2.1

image-to-video

Vidu-首尾帧生视频-q3-pro

生数科技推出的旗舰级受控生成模型，代表了目前 AI 视频物理仿真与视觉保真度的巅峰。它支持 16 秒超长叙事直出，在处理首尾帧间极其复杂的演变逻辑（如光影剧变、物质形态转化）时表现出卓越的控制力。该模型深度集成了“导演级镜头思维”，能根据补全路径自动生成细腻的环境音与对白，实现端到端的专业视听盛宴。Pro 版本专注于极致的画质还原，是打造专业级广告和影视样片的理想之选。

¥0.31/秒

text-to-image

f-2-klein-9b/text-to-image-lora

FLUX.2 Klein 9B的文生图LoRA定制版本，在90亿参数高质量生成基础上开放深度个性化能力。支持通过LoRA适配器注入特定艺术风格、品牌视觉语言或专属角色形象，实现创意意图与视觉美学的精准统一。亚秒级生成速度配合多参考图输入，为需要保持跨项目风格一致性的专业团队、IP内容开发者和高端商业品牌提供灵活的定制化解决方案。

¥0.06

text-to-audio

MiniMax Music 2.6

MiniMax Music 2.6 是一款专业的 AI 音乐生成模型，支持通过文本描述和歌词创作完整歌曲。模型理解风格、情绪、场景等多维描述，能够生成旋律流畅、人声自然的高质量音乐作品。支持多种结构标签（Verse、Chorus、Bridge 等）精确控制歌曲结构，适合内容创作者和音乐爱好者快速制作原创音乐。

¥0.8

text-to-video

ltx-2.3/text-to-video-lora

面向专业创作者和品牌的文生视频LoRA定制版本，在LTX-2.3强大文本理解基础上开放深度个性化能力。支持最多三个LoRA适配器同时工作，可将特定视觉风格、标志性角色或专属运镜手法固化到生成流程中。通过"文本描述+LoRA风格"的双驱动模式，实现创意意图与品牌视觉的精准统一。适合需要保持视觉一致性的系列内容生产、跨项目角色运营和风格化广告战役，让文本驱动的视频生成真正服务于品牌资产积累。

¥0.07/秒

text-to-video

PixVerse V6 文生视频

PixVerse V6 文生视频是 PixVerse 最新一代文生视频模型，支持 360p 至 1080p 四档分辨率、1-15 秒灵活时长与八种画幅比例。内置 Thinking 推理模式可优化复杂场景描述，可选同步音频生成，输出高保真、运动自然、光影精准的电影级视频。

¥0.16/秒

text-to-image

悠船文生图-niji6

专为二次元审美定制的大规模模型，深度融合了日式动漫画风与插画技巧。它对光影的二次元处理（如丁达尔效应、赛璐璐风格）具有极强的表现力，不仅能处理简单的立绘，更能构建宏大的动漫叙事场景。

¥0.54

image-to-image

qwen-image/edit-2511-lora

Qwen-Image-Edit-2511的LoRA推理版本，支持加载自定义LoRA适配器进行个性化编辑。在继承基础模型200亿参数架构与人物一致性的基础上，可通过自定义LoRA注入特定风格、角色或视觉概念。支持最多三模块叠加，实现风格组合与精细控制，同时保持双语文字渲染能力。

¥0.07

text-to-video

Vidu-文生视频-q2

Vidu 是一款专为创作者打造的顶尖 AI 文生视频工具。它能够将简单的文字指令转化为 720p 高清电影级画面，具备极佳的动态光影效果与自然摄像机运镜。Vidu 的核心优势在于极高的“时空一致性”，有效解决了视频生成中的闪烁与变形问题。无论是细腻的人物神态还是复杂的动作序列，它都能精准捕捉语义，呈现出富有表现力的视觉叙事。它不仅是一个生成器，更是将创意灵感瞬间转化为专业影像的数字导演。

¥0.22

image-to-3D

混元图生3D模型v3.1

目前业界领先的工业级图像转三维模型工具。该版本最大的突破在于支持 8 视图同步输入，通过覆盖顶视、底视及多角度侧视，彻底消除了生成过程中的视觉盲区，实现了对复杂、非对称物体近乎完美的几何还原。配合 1536³ 的超高清分辨率，它能够精准复刻原图中的纹理细节与材质光泽。无论是为电商打造高精度商品模型，还是为游戏开发快速构建 3D 资产，其卓越的多视角一致性算法都能确保模型在任何角度下都经得起专业审视。

¥4.2

image-to-video

全能视频V3.1-pro-参考生视频-官方稳定版

专为高保真视觉转换设计。它能将最多三张静态参考图转化为生动的 8 秒电影级视频，支持 720p/1080p/4k 分辨率。该模型的核心优势在于卓越的视觉一致性，能精准保持角色、物体及光影在运动中的统一，并自动生成同步的原生音频，实现从静态图像到动态叙事的完美跃迁。官方稳定版，稳定高效，价格低于直接模型官方。

¥9.4

text-to-lyrics

suno-歌词生成

用户输入主题提示词描述想要的歌词主题，模型自动生成符合歌曲结构的纯文本歌词（含 Verse/Chorus 标签）、歌名以及风格标签。适合歌词草稿快速生成、创作灵感激发等场景。配合自定义模式使用可快速进行二次创作，生成音频。

¥0.014

video-tools

RH视频帧率增强

AI 视频帧率增强模型，通过智能帧间插值技术将视频帧率倍增，有效消除画面卡顿和抖动，生成流畅自然的运动过渡。适用于慢动作特效、低帧率修复、动画平滑等多种场景，仅需上传视频即可一键处理。

¥0.07/秒

text-to-video

可灵文生视频o3-std

快手 O3 家族的高阶成员，代表了文生视频技术的又一次跨越。它在视觉精细度与动态真实感上全面超越了之前的 V3.0 系列，能够生成具有呼吸感的电影级画面。模型支持 3 至 15 秒的跨度，允许创作者精准把控叙事节奏。结合可选的同步音效与多画幅适配（16:9, 9:16, 1:1），它在保证顶级品质的同时，实现了极高的性价比，是构建高品质视觉叙事的专业利器。

¥0.52/秒

text-to-video

可灵文生视频o3-pro

快手旗下最强悍的文生视频模型，核心搭载了革命性的 MVL（多模态视觉语言）技术。它将 AI 视频从单纯的像素堆砌提升到了电影级叙事的高度，不仅能实现极具生命力的自然物理模拟，更在长达 15 秒的镜头中保持极高的人物与环境主体一致性。该模型具备极其精准的语义理解力，支持从 16:9 到 9:16 的全比例画幅控制。配合可选的同步音效生成，O3 Pro 为专业创作者提供了目前 Kling 家族中视觉保真度与运动真实感的巅峰体验。

¥0.69/秒

motion-control

kling-v2.6-pro-动作控制

快手推出的顶尖动作迁移（Motion Transfer）模型，专为将动态灵魂注入静态图像而设计。该模型能够精准提取 3 至 30 秒参考视频中的复杂位移、姿态及肢体轨迹，并将其丝滑地应用到目标角色上，同时确保角色身份（Identity）与时空逻辑的高度一致。它支持灵活的构图控制（图像比例优先或视频构图优先），并允许保留原视频音效。配合提示词引导功能，创作者可以在维持动作核心的同时，对场景光影、材质及氛围进行深度重塑，实现从“静态立绘”到“高精度动态表演”的质变。

¥0.56/秒

image-to-image

f-2-klein-4b/edit-lora

基于FLUX.2 Klein 4B的图像编辑LoRA版本，专为需要保持原图结构同时进行风格改造的用户设计。支持单参考图与多参考图编辑工作流，通过LoRA适配器注入特定艺术风格或品牌视觉，在亚秒级速度内完成精准编辑。适合电商产品图批量风格化、品牌素材快速迭代和创意概念探索，实现"原图结构+定制风格"的灵活组合。

¥0.05

text-to-video

全能视频V3.1-Lite首尾帧生视频-官方稳定版

全能视频V3.1-Lite首尾帧生视频通过在起始帧和结束帧之间生成自然过渡，创建流畅的电影级视频。支持季节变换、场景切换和时间流逝等创意效果，输出720p或1080p高清视频并原生生成音频，适用于社交媒体、营销广告和创意叙事等场景。

¥2.52

text-to-image

f-dev-lora

在 FLUX.1-dev基础上集成 LoRA 支持的版本，允许用户通过预训练适配器实现个性化生成而无需重新训练全部 120 亿参数。支持多 LoRA 权重叠加使用，可快速切换不同风格、角色或品牌视觉。

¥0.03

reference-to-video

happyhorse-1.1/reference-to-video

HappyHorse 1.1 多参考图生视频（R2V）：基于多张参考图与文本提示词，生成与参考风格一致、运动连贯的短视频。支持 720P/1080P、多种画幅与 3–15 秒时长，适合「多图叙事」、分镜级创意与角色/场景一致的动态内容。

¥0.69/秒

text-to-video

海螺-2.3-文生视频-标准

MiniMax 推出的新一代 AI 视频生成模型，代表了当前文生视频领域的顶尖水准。该模型以先进的物理渲染技术为核心，能够精准模拟水流、碎屑及摄像机抖动等复杂动态，确保画面符合物理规律。其独特的电影级转场技术，实现了镜头间如行云流水般的自然过渡，消除了视觉上的突兀感。凭借极高的生成一致性与可重复性，它为专业创作者提供了精准的创意掌控力。在保障 6 至 10 秒高清输出质感的同时，Hailuo 2.3 以极具竞争力的成本优势，打破了高端影像创作的门槛，是影视预演与品牌广告的理想工具。

¥1.5

image-to-image

f-kontext-dev-lora

专为开发者、研究人员和高级用户打造的开源图像编辑模型，支持 LoRA 适配器。Kontext 能够同时处理文本和图像输入，可通过自然语言指令对现有图像进行精确编辑，无需微调即可保持角色和物体在多轮修改中的一致性。支持风格迁移、背景替换、局部重绘等操作。

¥0.09

text-to-video

全能视频V3.1-pro-文生视频-官方稳定版

旗舰级文生视频模型，旨在通过文本重新定义电影级叙事。该模型能生成高达 4k 的高保真视频，并具备行业领先的原生音频同步能力，支持环境音效、配乐及角色对话（含精准口型）。结合角色一致性与视频插帧技术，Veo 3.1 能够精准控制光影、运镜与物体动态，提供 4s/6s/8s 多种时长及横竖屏选择，是目前最通用的生成式视频系统之一。官方稳定版，稳定高效，价格低于直接模型官方。

¥4.7

text-to-video

海螺-2.3-文生视频-pro

Hailuo 2.3 Pro 是 MiniMax 旗下的顶级文生视频模型，专为对电影感纪实、动态表现及视觉连贯性有极致要求的专业创作者打造。该模型能将文本指令直接转化为 1080p 超高清的 5 秒影像，将专业级的画面质感与尖端的物理模拟技术深度融合。其核心优势在于能够精准模拟物体动态、光影反射及复杂的镜头语言，并具备卓越的语义理解力，确保生成的画面高度遵循提示词描述。凭借对角色身份的一致性维护与电影级的调色深度，它已成为追求高保真数字叙事的首选工具。

¥2.63

text-to-music

suno-single-v5

用户输入一句话描述歌曲内容，模型自动生成两首完整歌曲。v5版本核心升级在于录音棚级别的音质——人声逼真度大幅提升，混音声场和乐器分离度达到专业水准，基本消除“电子机械味”。适用于高质量背景音乐制作、内容创作者配乐、快速Demo生成。

¥0.72

image-to-image

f-2-dev/edit-lora

FLUX.2 Dev编辑版本的LoRA定制模型，结合320亿参数高精度编辑能力与轻量级适配器灵活性。支持通过LoRA模块注入特定风格或品牌视觉，在保持多参考图一致性和4MP高分辨率的同时实现个性化编辑。适合需要批量处理产品图风格化、维护角色跨项目一致性、进行季节性营销活动素材更新的专业团队，提供"高精度+高效率+个性化"三位一体的编辑解决方案。

¥0.25

image-to-video

全能视频S-文生视频-pro-官方稳定版

它不仅是一个视觉生成器，更是一个深度集成了音频同步的“时空物理模拟器”。该模型基于初代架构实现质变，能够精准模拟动量、惯性和碰撞等物理法则，彻底消除视觉伪影。其独有的音画同步技术可实现完美的口型对齐与环境音渲染。通过对高频细节的精细保留和复杂场景推理，能在 20 秒的长镜头中维持极高的主体一致性。支持 720p/1080p 级横竖屏输出及多档时长选择，赋予专业创作者前所未有的导演级操控力。本接口采用官方原生 API 协议，该协议目前未开放对 Web/App 端个人角色库（Cameo）的访问，暂不支持通过 @ 语法引用角色。官方稳定版，稳定高效，价格低于直接模型官方。

¥2.1/秒

image-to-image

wan-2.2/image-to-image

Wan-2.2系列中的图像到图像转换模型，基于140亿参数MoE架构实现高质量图像重绘与风格迁移。支持通过文本提示词精确控制生成结果，在保持输入图像结构信息的同时，实现画质增强、风格转换、元素替换等多种创意效果。采用双专家协同机制，确保输出图像在细节丰富度与语义一致性之间达到最佳平衡，为设计师提供高效的视觉迭代工具。

¥0.08

image-to-video

万相2.5 Preview 图生视频

万相2.5 Preview 图生视频是阿里通义万相系列的图像驱动视频生成模型。通过输入一张图片，结合可选的文本提示词和音频，生成最高1080P的流畅动态视频。支持5或10秒可控时长与多种分辨率，视频画幅比自动匹配输入图片，适用于图像动画化、创意短视频等场景。

¥0.2/秒

text-to-music

suno-custom-v4.5

用户输入自定义歌曲标题、歌词和风格标签，模型按指令生成两首备选歌曲音频。v4.5的核心升级是将最大歌曲时长延长至8分钟，适用长篇叙事音乐、影视配乐、需要较长时长的创作项目，性价比高。

¥0.72

text-to-video

全能视频V3.1-fast-视频扩展-官方稳定版

专为高效迭代设计的视频续写模型。它在保持标准版核心能力的基础上，重点优化了生成速度与低延迟性能。该模型能基于现有的 Veo 视频无缝追加 7 秒的新内容，并自动合并为单一文件。它同样支持高达 20 次的连续扩展（最长 148 秒），非常适合快速验证剧情走向、制作多版本广告创意或在紧迫的制作周期中快速响应修改需求。官方稳定版，稳定高效，价格低于直接模型官方。

¥6.56

image-to-image

f-2-dev/edit

FLUX.2 Dev的图像编辑专用版本，基于320亿参数架构实现高精度的提示词驱动编辑。支持单参考图和多参考图编辑工作流，可在保持角色核心身份、产品几何结构和材质纹理的同时，精准执行服装更换、色彩调整、姿态微调和元素替换。4MP分辨率输出配合专业级控制能力，为游戏、电商产品变体和营销素材迭代提供生产级解决方案。

¥0.24

text-to-video

全能视频V3.1-fast-文生视频-官方稳定版

专为高效创作打造的高速、低成本视频生成模型。它能在保持 4k 电影级画质、自然动态和逼真光影的前提下，以比标准版快 30% 的速度将文本转化为视频。该模型的一大突破是原生音频同步生成，不仅包含环境音效，还支持角色对话与口型同步（Lip-Sync），确保视觉与听觉的完美统一。这使其成为短视频营销、快速叙事和高频内容生产的首选工具。官方稳定版，稳定高效，价格低于直接模型官方。

¥2.35

video-to-video

万相 2.2 角色动作迁移

基于 Wan2_2-Animate-14B 模型，提供视频角色动作迁移能力。上传单张人物图片与目标动作视频，即可将视频中人物替换为图片人物形象，完整保留原视频动作、场景与时长。视频最长支持 30 秒，适用于单人角色的动作复刻与角色替换场景。

¥0.24/秒

text-to-video

全能视频V3.1-Lite文生视频-官方稳定版

全能视频V3.1-Lite文生视频是新推出的高效文生视频模型轻量版，能够从文本描述生成高质量720p或1080p视频，支持原生音频生成与唇形同步。具备多种画幅比例、反向提示词控制和可调时长，以极具竞争力的价格适用于创意内容制作、社交媒体和营销广告等场景。

¥0.32/秒

text-to-image

wan-2.2/text-to-image-lora

Wan-2.2生态中的文生图LoRA定制版本，支持通过自定义适配器实现个性化图像生成。在保持MoE架构高效推理的基础上，允许用户注入特定艺术风格、品牌视觉语言或专属角色形象，实现文本描述与个性化美学的精准结合。支持多LoRA模块叠加使用，为需要快速迭代视觉概念、保持跨项目风格一致性的创意团队提供灵活的定制化解决方案。

¥0.06

text-to-video

万相2.2-文生视频

基于Wan-2.2架构的图生视频模型，支持上传首尾帧图片生成5秒或8秒动态视频，支持多种分辨率输出。采用MoE双专家系统（高噪声专家处理结构布局、低噪声专家优化细节），在保持输入图像主体特征、光影和构图的同时，生成自然流畅的摄像机运动与物体动态。特别适合人像照片动态化、产品展示动画和创意概念可视化，单张图片即可启动专业级视频叙事。

¥0.07/秒

reference-to-video

全能视频V3.1-fast-参考生视频-官方稳定版

全能视频V3.1-Fast 参考生视频是一款面向高效创意生产的参考图驱动视频模型。它支持使用 1-3 张参考图锁定主体、商品或视觉风格，并结合提示词生成固定8秒MP4 视频。模型适合产品动效、角色一致性短片、品牌视觉素材和社媒广告创意，兼顾生成速度、画面稳定性与商业化落地效率。官方稳定版，稳定高效，价格低于直接模型官方。

¥4.03

text-to-video

可灵文生视频2.5-turbo-std

Kling 2.5 Turbo std 是一款高性能文生视频模型，能从文本提示生成流畅、电影感十足的动态视频。模型在高速运动下仍保持高稳定性，显著减少抖动、撕裂或掉帧等伪影。通过优化推理流程，生成速度更快，同时不牺牲画质。增强的风格控制机制能精准保留色彩、光影、笔触与氛围，在激烈动态中也确保画面风格高度一致，适用于广告、短剧、创意预演等对质量与时效要求高的场景。

¥1.05

video-extend

全能视频X-视频续写-官方稳定版

全能视频X-视频续写是一款用于延展原始视频镜头的视频模型。它可以基于已有短视频内容继续生成后续画面，并自动将新增内容与原视频顺滑拼接，适合短片续写、社媒内容延展、B-roll 补镜和创意片段扩展等场景，让已有视频更自然地延伸成完整叙事。官方稳定版，稳定高效，价格低于直接模型官方。

¥1.89

image-to-video

SkyReels V4 图生视频-std

SkyReels V4 图生视频（标准版）专注于提供商业级的静态图像动态化体验。依托更深度的推理演算，该模型在赋予图像生命力的同时，能够实现极其严苛的原图主体特征保持和细节极致还原。即使在处理大范围运镜和复杂的动态走势时，也能有效杜绝画面崩坏与形变失真。此接口专为追求极致画面的创作者打造，是最终高精度动画渲染、角色细节刻画和高品质视觉特效成片的理想选择。

¥0.39/秒

image-to-video

周星驰

audio-to-audio

Mureka-v9 伴奏生成

Mureka 伴奏生成（mureka-9）：根据 prompt 或 instrumentalId 生成不带人声的伴奏，V9模型在混音与音频质量上有所提升，生成速度更快，且输出多样性增强，减少了内容重复问题。

¥0.28/次

image-to-3D

hitem3d-v2/image-to-3d

Hitem3D v1.5的架构升级版，采用改进的纹理合成管线，在几何保真度、纹理一致性和材质生成方面均有提升。针对全彩3D打印场景优化了色彩还原与表面质量。与v1.5共享相同的四档分辨率选项，但生成结果在结构细节和视觉真实感上更为出色。

¥5.6

text-to-music

suno-custom-v5

用户输入自定义歌词文本和风格标签，模型根据这些指令生成两首备选歌曲。v5版本强化了对复杂编曲指令的响应精度，能更准确地处理用户指定的乐器、节奏、情绪等细节。用户可迭代生成多个版本直到满意。

¥0.72

text-to-image

f-2-klein-9b/text-to-image

Black Forest Labs推出的90亿参数的极速文生图模型。Klein作为专业级 FLUX.2 的衍生系列，通过架构优化与蒸馏在保持接近顶级生成质量的同时，大幅降低硬件门槛和推理延迟。应用覆盖实时创意设计、社交媒体内容生成、快速 UI/UX 原型迭代、游戏美术预览、教育可视化等领域，尤其适合对低延迟和成本友好硬件有要求的交互型应用。

¥0.05

text-to-video

海螺-02-文生视频-标准

Hailuo 02 是由 MiniMax 推出的一款兼顾高品质与生产效率的 AI 文生视频模型。依托其不断进化的底层框架，该模型能够将纯文本指令精准转化为具有电影质感的 768p 高清影像。Hailuo 02 在物理规律的模拟上表现卓越，无论是碎屑飞溅、织物飘动还是水流动态，均能呈现极其自然的视觉反馈。此外，其强大的镜头一致性与低随机性特点，使得创作者能够以较低成本进行高质量的创意迭代。无论是 6 秒的快速构思还是 10 秒的精彩片段，它都是追求真实动态与稳定产出的理想选择。

¥1.5

text-to-image

f-2-dev/text-to-image-lora

FLUX.2 Dev的文生图LoRA定制版本，在320亿参数极致画质基础上支持深度个性化定制。通过LoRA适配器固化特定艺术风格、品牌视觉或角色形象，结合多参考图一致性保持能力，实现"高保真生成+个性化风格"的完美结合。适合需要保持品牌资产一致性、进行角色跨场景运营和高端定制化内容生产的创意团队与商业品牌。

¥0.17

reference-to-video

SkyReels V4 Omni 参考视频-fast

SkyReels V4 Omni 参考视频是天工 AI 推出的统一多模态视频生成模型。支持多主体、多视频、多模态参考输入，可实现主体替换、动作迁移、网格拼图驱动、视频续写等高级编辑场景。配合 @tag 引用机制，用脚本化提示词精准指导每一段视觉内容。1080p、最长 15 秒输出，是创意视频生产的强力工具。在保持多模态参考输入及基础视听同步能力的前提下，优化推理速度以缩短等待时长，适合预览或高时效需求场景。

¥0.1

text-to-video

可灵文生视频2.5-turbo-pro

Kling 2.5 Turbo Pro 是一款高性能文生视频模型，能从文本提示生成流畅、电影感十足的动态视频。其创新的文本-时序控制器可解析多步骤指令，将静态描述转化为连贯可控的叙事场景。模型在高速运动下仍保持高稳定性，显著减少抖动、撕裂或掉帧等伪影。通过优化推理流程，生成速度更快，同时不牺牲画质。增强的风格控制机制能精准保留色彩、光影、笔触与氛围，在激烈动态中也确保画面风格高度一致，适用于广告、短剧、创意预演等对质量与时效要求高的场景。

¥1.75

image-to-3D

hitem3d-v15/image-to-3d

数美万物推出的图像转3D通用模型，支持单张图片重建高分辨率3D模型。提供512³、1024³、1536³及1536³ Pro四种分辨率选项，其中Pro模式可获取更精细的几何结构。支持纯几何生成或几何+纹理一次性生成两种输出模式，适用于游戏开发、3D打印、影视制作等多场景。

¥0.7

text-to-3D

混元文生3D模型v3.1

面向生产力场景的超高清几何生成模型。其核心优势在于拥有 1536³ 的极致几何分辨率与 36 亿体素规模，彻底告别了早期模型常见的表面模糊问题。该版本引入了 PartGen 1.5 组件化生成技术，能够自动实现语义拆解（如车辆轮子可独立旋转），极大简化了下游的游戏绑定工作流。通过几何与纹理的深度解耦，模型在生成复杂结构（如机械零件或高精手办）时，展现出了工业级的结构精准度与材质还原力。

¥1.8

reference-to-video

SkyReels V4 Omni 参考视频-std

SkyReels V4 Omni 参考视频是天工 AI 推出的统一多模态视频生成模型。支持多主体、多视频、多模态参考输入，可实现主体替换、动作迁移、网格拼图驱动、视频续写等高级编辑场景。配合 @tag 引用机制，用脚本化提示词精准指导每一段视觉内容。1080p、最长 15 秒输出，是创意视频生产的强力工具。

¥0.1

text-to-video

海螺-02-pro

MiniMax 视频生成体系中的专业级旗舰模型，专为追求极致视觉品质与物理真实的创作者打造。该模型支持原生 1080p 超清输出，在色彩深度与微观纹理表现上远超标准版本。其核心突破在于增强的运动与物理引擎，能够精准还原碰撞、碎屑飞溅及织物形变等复杂动态，并显著减少画面闪烁与形变。无论是纯文本驱动还是图像引导（支持首尾帧控制），它都能以极高的指令遵循度实现丝滑的镜头连续性，是影视级创意落地的终极选择。

¥2.63

image-to-image

f-2-klein-4b/edit

FLUX.2 Klein 4B的图像编辑基础版本，统一架构支持文生图与图生图编辑任务。通过文本提示词精确控制编辑方向，在保持原图主体特征、光影和构图的同时实现风格迁移、元素替换和细节增强。4步蒸馏实现亚秒级响应，为设计师提供高效的视觉迭代工具。

¥0.05

text-to-video

happyhorse-1.1/text-to-video

HappyHorse 1.1 文生视频是阿里云百炼推出的 AI 视频生成模型，仅凭一段文本提示词即可输出富有戏剧性与电影质感的高动态视频。模型擅长理解复杂场景描写、情绪氛围与镜头语言，原生支持 720P/1080P、16:9~3:4 多种画幅，3~15 秒灵活时长，是创意短视频、广告分镜、社媒内容生产的高质量选择。

¥0.69/秒

video-tools

可灵 o3 创建主体

image-to-video

SkyReels V4 图生视频-fast

数美万物推出的第二代肖像专用单图重建模型，基于v2.0通用架构。针对人物头部和面部比例进行基础级重建优化，支持头发和面部细节生成。作为v2.1的前代版本，提供可靠的肖像生成能力，适用于头像、胸像等人物3D资产创作。

¥5.6

image-to-3D

hitem3d-portrait-v20/multi-image-to-3d

数美万物推出的第二代肖像 Portrait v2.0的多视图版本，支持2-4张人像照片输入。通过多视角信息补充提升头部几何完整性和面部特征准确度，适用于需要更稳定面部重建结果的场景。结合v2.0架构的多视角融合能力，为人物3D化提供更可靠的几何基础。

¥5.6

upload-file

Mureka 文件上传

Mureka 文件上传：将音频/MIDI 上传到 mureka 平台，得到可在歌曲生成、伴奏生成、短歌延长等接口中复用的 file id。后缀与 purpose 的对应关系会校验，10 MB 上限。

Mureka mureka-7.6 版本支持从人声中分离并生成伴奏。基于MusiCoT架构优化，在音乐性与编曲能力上较前代提升，响应速度更快，适合实时生成与移动端部署场景。根据 prompt 或 instrumentalId 生成不带人声的伴奏。

¥0.19/次

text-to-music

Mureka-v8 歌曲生成

Mureka 歌曲生成（mureka-8）：根据歌词与可选的 prompt / vocalId / referenceId / melodyId 生成完整歌曲，成功后返回 1~n 首歌曲的 mp3 URL。该模型支持完整歌曲生成，包括人声演唱，在旋律流畅性、人声表现力、编曲结构与情绪渲染四个维度达到行业顶尖，整体听感达到可发布水准。

¥0.28/次

加载中...