image-to-image
全能图片V2-图生图-低价渠道版
基于高能效视觉引擎的图生图与图像编辑接口。允许开发者通过输入“参考图像+文本指令”的组合,实现极速的风格迁移、局部重绘或背景替换。全能图片V2强大的特征提取能力确保了在大幅度修改画面的同时,依然能精准保留原图的核心结构与参考物特征,是打造动态交互式设计工具的理想选择。低价渠道版,价格远低于官方稳定版,不稳定。
image-to-image
全能图片PRO-图生图-低价渠道版
全能图片PRO编辑版,支持专业级图像编辑并实现 4K 超清画质输出,视觉效果极致出色。提供开箱即用的 REST 推理接口,达成行业领先性能,全程无冷启动延迟,全场景定价亲民且高性价比。低价渠道版,价格远低于官方稳定版,不稳定。
image-to-image
全能图片G-2.0-图生图-低价渠道版
为专业开发者与设计师提供了前所未有的图像控制力。依托底层强大的语义一致性算法,该接口不仅支持无缝的局部重绘(Inpainting)与平滑的画面扩展(Outpainting),更能精准锁定参考原图的材质纹理、人物特征及全局光影。无论是 IP 角色的动作延展、线稿精细上色,还是商业产品图的背景替换,都能在极低的“抽卡”成本下,实现完美融合、浑然一体的高阶视觉重构。低价渠道版,价格远低于官方稳定版,不稳定。可选择 1k/2k/4k,因接口稳定性限制,暂不保证精准输出 2k/4k 分辨率,多数情况下仍会输出 1k 图像,介意请使用官方接口。
text-to-image
全能图片G-2.0-文生图-低价渠道版
当前最顶级的图像生成底座,专为高标准商业场景打造。它拥有革命性的文本渲染能力,能够将复杂的短语乃至完整句子精准生成于画面之中,彻底告别“拼写乱码”。同时,模型在交互界面(UI)草图生成和现代设计美学上表现卓越,原生支持超高清画质输出,生成速度较上一代提升近一倍,完美契合海报设计、电商主图及产品原型开发等高频业务流。低价渠道版,价格远低于官方稳定版,不稳定。可选择 1k/2k/4k,因接口稳定性限制,暂不保证精准输出 2k/4k 分辨率,多数情况下仍会输出 1k 图像,介意请使用官方接口。
image-to-image
全能图片G-2-图生图-官方稳定版
专注于极致的画面重构与细节修改。它底层强制采用最高级别的保真度引擎(High Fidelity),确保在对画面进行深度编辑时,完美保留原图的几何结构、主体特征和基础光影关系。凭借强大的跨模态理解能力,模型能在维持底图核心骨架不变的前提下,实现极其自然的风格迁移、无缝的局部重绘和精准的主体特征替换,满足严苛的高阶视觉创作需求。
text-to-image
全能图片V2-文生图-低价渠道版
专为高并发场景与极速响应设计的轻量级文生图接口。作为全能图片V2家族的核心能力,该端点(Endpoint)完美平衡了生成质量与极高的吞吐量,能够将自然语言指令瞬间转化为高保真视觉资产。特别适合需要快速迭代、实时预览或大规模批量生成图像的应用场景。低价渠道版,价格远低于官方稳定版,不稳定。
reference-to-video
seedance2.0/多模态视频
seedance 2.0 多模态视频生成,追求最高生成品质。支持多模态参考、视频编辑和视频续写,可组合文本、图片(最多9张)、视频(最多3段)、音频(最多3段)等多模态输入,生成 4-15 秒高质量视频。
text-to-image
全能图片PRO-文生图-低价渠道版
全能图片PRO是行业领先的前沿文本生图模型,可生成画质出众的 4K 高清图像,且针对移动设备完成全面适配优化,保障运行流畅度。内置开箱即用的 REST 推理接口,性能表现稳居行业顶尖,无任何冷启动问题,定价更是极致亲民。低价渠道版,价格远低于官方稳定版,不稳定。
image-to-image
全能图片PRO-图生图-官方稳定版
全能图片PRO编辑版,支持高清输出的图像编辑功能。提供即用型 REST 推理接口,性能表现行业领先,无冷启动延迟,定价经济亲民。官方稳定版,稳定高效,价格低于直接模型官方。
image-to-video
全能视频X-图生视频-低价渠道版-v1.5
专注于将静态灵感转化为极具动感的视觉现实,其最大的突破在于主体身份(Identity)的绝对锁定。通过深度解析原图的几何结构与材质属性,模型能自动推演出最符合逻辑的动态演变,无论是微细的纹理抖动还是大幅度的空间流转,都能确保核心元素不产生形变。它在时空稳定性与光影继承方面表现卓越,能将单张参考图平滑扩展为一段充满张力的影视级长镜头。低价渠道版,价格远低于官方稳定版,不稳定。
image-to-image
全能图片V2-图生图-官方稳定版
该模型具备卓越的上下文感知能力,支持高达 4K 的精细化输出。它不仅能精准执行自然语言修改指令,更突破性地支持多达 14 张参考图的复杂合成。无论是精准的局部重绘、图像内文字转译,还是在编辑过程中保持主体高度一致,它都能以“闪电级”的速度提供专业级影像解决方案。官方稳定版,稳定高效,价格低于直接模型官方。
image-to-image
全能图片G-1.5-图生图-低价渠道版-(已下架) 可用全能图片G-2 模型代替
依托欧喷爱·鸡皮提图像技术的高性价比图像编辑模型,支持通过自然语言指令优化、修改现有图像,精准匹配编辑意图,同时保留原图风格、构图与视觉完整性,适用于快速原型、设计迭代等场景。低价渠道版,价格远低于官方稳定版,不稳定。
text-to-image
全能图片G-2-文生图-官方稳定版
最新一代多模态大模型,彻底打破了传统图像生成的固定尺寸限制。它原生支持任意比例的自定义分辨率(最大边长达 3840px),并具备极高的文本语义理解与指令遵循能力。无论是快速生成概念草图,还是输出影视级的高保真巨幅海报,该模型都能精准捕捉提示词中的光影、材质与构图细节,是构建高定制化 AI 产品(如电商主图、游戏原画)的核心引擎。
reference-to-video
seedance2.0-Fast/多模态视频
seedance 2.0 Fast 多模态视频生成,更注重生成速度与性价比。支持多模态参考、视频编辑和视频续写,可组合文本、图片(最多9张)、视频(最多3段)、音频(最多3段)等多模态输入。
image-to-video
全能视频V3.1-fast-图生视频-低价渠道版
全能视频V3.1图生视频高性价比速享版,新一代高级 AI 图生视频模型,支持静态图片转影院级动态视频,极速生成且比标准版快 30%,还原原图构图与视觉风格,原生音画同步生成,兼具影院级真实光影与流畅运镜,支持人物对话唇形同步,适配社交创作、创意叙事轻量需求,成本优化,性价比拉满。低价渠道版,价格远低于官方稳定版,不稳定。
image-to-image
全能图片V1-图生图-低价渠道版
全能图片V1是一款高阶图像生成与编辑模型,可生成照片级写实或风格化视觉内容,同时支持精准的图像修复、外延生成与背景替换功能。提供即用型 REST 推理接口,性能表现行业领先,无冷启动延迟,定价经济亲民。低价渠道版,价格远低于官方稳定版,不稳定。
image-to-video
seedance2.0/图生视频
seedance 2.0 图生视频,追求最高生成品质。支持首帧图生视频和首尾帧图生视频两种模式,将静态图片转化为 4-15 秒的动态影像,支持有声视频生成。
image-to-video
全能视频S-图生视频-低价渠道版
图生视频,可将单张参考图转化为画面连贯、音频同步匹配的视频片段。依托全能视频S核心技术升级,该图生视频流程能完整保留主体身份、光影效果与画面构图,同时智能合成逼真的动态效果与专业镜头运镜,呈现极致惊艳的视觉表现。低价渠道版,价格远低于官方稳定版,不稳定。
image-to-video
全能视频V3.1-fast-首尾帧生视频-低价渠道版
专为追求“效率与迭代”的创作者打造的高性能版本。在首尾帧模式下,它展现了极速的推理能力,能在几秒钟内完成两张静态锚点图之间的动态连接。该版本特别适合需要快速出样、低延迟交互或在大批量生产环境中使用。尽管追求速度,它依然能精准捕捉首尾帧之间的逻辑联系,实现自然的物体形变与运镜。低价渠道版,价格远低于官方稳定版,不稳定。
text-to-video
全能视频S-文生视频-低价渠道版
文生视频,是一款顶尖的音视频一体化生成模型,基于初代全能视频S技术底座打造。相较前代视频模型实现全面升级,具备更精准的物理运动效果、超高清的写实画质、音画同步匹配、更强的可控性,以及更丰富的风格表达维度,可满足多元创作需求。低价渠道版,价格远低于官方稳定版,不稳定。
image-to-video
seedance-v1.5-pro-image-to-video
字节跳动专为“激活关键帧”打造的专业图生视频模型。它能以单张参考图为基准,在高度保留原图构图与主体身份的同时,根据文字指令注入自然流畅的动态。该模型对摄像机运镜(如推拉、手持感、固定机位)有着极佳的操控力,非常适合人像微动、产品展示及电影感空镜的创作。通过灵活的画幅选择与参数调节,它为社交 feeds、故事及广告横幅等全平台内容产出提供了兼顾高保真度与生成效率的实效方案。
image-to-video
可灵图生视频2.5-turbo-std
Kling V2.5 Turbo Standard 是一款高性价比的图生视频模型,在速度、画质与成本之间实现优异平衡。用户仅需一张图像和简短提示,即可生成风格、光影与情绪高度还原的流畅电影感视频。尽管输出分辨率为720p,但其优化的动态建模与运动合成技术确保画面细节丰富、运镜稳定、光照自然,满足大多数创作场景需求。模型采用高效推理架构,生成速度快,适合批量内容生产。在文本理解与叙事连贯性上,它与高端版 Turbo Pro 表现相当,能精准解析提示并生成节奏合理的动态镜头,是预算敏感型创作者的理想选择。
image-to-image
seedream-v4.5-图生图
字节跳动推出的一款专业级 AI 图像编辑大模型。它突破了传统 AI 滤镜的局限,致力于提供“修图师级别”的精准编辑。该模型的核心优势在于对原图的高度忠实,能完美保留人物面部特征、姿态、光影及色调,仅根据指令进行精准微调。它支持多图联调,可一次性对最多10张图片应用相同风格,确保视觉的一致性。凭借最高 4K 的超清输出和极强的指令理解力,无论是修改服装、背景还是调整整体氛围,它都能呈现出纹理细腻、边缘锐利的专业质感。
image-to-image
全能图片G-1.5-图生图-官方稳定版
一款高性价比的图像编辑模型,可通过文字指令调整现有图片。它能理解复杂描述,在保留画面原有光线、色调和结构的基础上,完成从细节修饰到整体风格转换的多种操作,同时支持多张图片参考比对。官方稳定版,稳定高效,价格低于直接模型官方。
image-to-image
全能图片X-图片编辑-官方稳定版
全能图片X的图像编辑模型能根据输入的参考图与描述修改内容的文本提示词,模型在保持原图视觉质量的前提下进行智能编辑。支持移除物体、修复细节、更换背景等操作,大幅提升创作效率。模型还提供内置提示词优化工具。官方稳定版,稳定高效,价格低于直接模型官方。
image-to-image
seedream-v5-lite-图生图
专注于极致的视觉控制与深度图像编辑。它不仅支持基础的单图重绘,更开放了强大的多图特征融合与“参考图生组图”功能。无论是提取多张图片的风格、材质与元素进行无缝重塑,还是基于单张/多张参考图横向扩展出具有完美一致性的视觉系列,该接口都能在保持原始参考特征的前提下,实现极高自由度的艺术加工与工业级设计交付。
text-to-image
悠船文生图-v7
V7 标志着 AI 绘画进入“物理真实”时代。它彻底解决了复杂人体结构(如手部、足部)的畸变问题,并引入了全新的全局光照算法,使其生成的图像在动态范围和材质肌理上与 4K 摄影机拍摄无异。
text-to-audio
minimax/speech-2.8-turbo
一款重新定义人机交互的广播级文本转语音模型。它不仅能提供极其自然、丝滑的听感,更赋予了 AI 情绪的深度——从欢快的语调到冷静的叙述,皆可精准驾驭。通过内置的 17+ 种多元音色库和独特的拟人化语气助词(如笑声、叹息),它让语音合成告别“机械感”,实现更具生命力的表达。无论是品牌播报、有声书创作还是实时语音助手,其精细的参数控制和自定义词典功能,都能为你提供量身定制的顶级听觉盛宴。
text-to-image
全能图片PRO-文生图-官方稳定版
全能图片PRO是一款前沿文本生图模型,可生成高清图像,且针对移动端完成专项优化。提供即用型 REST 推理接口,性能表现行业领先,无冷启动延迟,定价经济亲民。官方稳定版,稳定高效,价格低于直接模型官方。
image-to-video
全能视频S-图生视频-官方稳定版
将单张参考图转化为具备同步音效的高保真视频,核心优势在于极其精准的“身份锁定”,能完美继承原图的人物特征、光影布局与艺术风格。该模型具备深层空间感知力,能通过推断 3D 结构实现逼真的视差与深度感。结合标志性的物理感知引擎,发丝、衣物的次生运动与物体的惯性碰撞均符合自然规律。支持 4s/8s/12s 多档时长及横竖屏720P高清分辨率切换,配合强力的提示词操控性,为创作者提供了稳定且可预测的电影级产出。本接口采用官方原生 API 协议,该协议目前未开放对 Web/App 端个人角色库(Cameo)的访问,暂不支持通过 @ 语法引用角色。官方稳定版,稳定高效,价格低于直接模型官方。
text-to-image
z-image/turbo
阿里巴巴通义实验室推出的极速文生图基础模型,以60亿参数实现亚秒级图像生成。采用创新的S3-DiT单流架构,仅需8步采样即可输出媲美大参数模型的摄影级真实感画面。专注解决双语文字渲染难题,中英文内嵌文字生成准确率远超同类模型。16GB显存即可流畅运行,为高频内容生产、实时交互应用和规模化商业部署提供极致性价比。
image-to-video
seedance-v1.5-pro-image-to-video-fast
字节跳动推出的高效图生视频引擎,专为追求极速响应与电影级质感的创作者设计。该模型以“首帧锚定”为核心,能完美继承输入图像的主体身份、光影布局与视觉风格,并根据指令注入流畅、连贯的动态效果。它对摄像机轨迹(如环绕、推拉、手持感)有着极佳的操控力,且支持原生音频生成与随机种子锁定。凭借其偏向真人实拍的细腻质感,它是快速产出商业短片预览、动态分镜及社交媒体素材的效能利器。
image-to-video
seedance2.0-Fast/图生视频
seedance 2.0 Fast 图生视频,更注重生成速度与性价比。支持首帧图生视频和首尾帧图生视频两种模式,快速将静态图片转化为 4-15 秒的动态影像。
text-to-video
seedance2.0/文生视频
seedance 2.0 文生视频,追求最高生成品质。仅需文本提示词即可生成 4-15 秒高质量视频,支持多种宽高比、有声视频生成和联网搜索增强。
text-to-image
全能图片V1-文生图-低价渠道版
全能图片V1是一款尖端的文本生图模型,可根据多样化的自然语言提示词,灵活智能生成高品质图像,覆盖多类视觉风格与场景需求。配备开箱即用的 REST 推理接口,保障顶级运行性能,彻底规避冷启动延迟问题,面向全用户推出超高性价比的亲民定价方案。低价渠道版,价格远低于官方稳定版,不稳定。
text-to-audio
minimax/speech-2.8-hd
一款专为追求极致听感而设计的录音室级文本转语音模型。相较于 Turbo 版本,它专注于高保真(HD)处理,能够精准还原真实语气中的细微细节,并全面提升音色相似度,使合成语音几乎不可区分于真人录音。该模型不仅拥有 17+ 种覆盖全年龄段的丰富音色库,更赋予了 AI 深度情感驱动力。通过支持(笑声)、(叹息)等拟人化助词以及多维度的音频参数精调,它为高端广告、有声书及专业广播提供了卓越的语音解决方案。
text-to-video
全能视频V3.1-fast-文生视频-低价渠道版
最新高级人工智能文生视频模型,全能视频V3.1 快速模式,原生支持文生视频 + 同步音画生成,具备基础影院级真实感与流畅动态效果,画质优质且定价极低,音画同步精准,是日常创作、轻量需求的高性价比优选,核心文生视频功能全覆盖。低价渠道版,价格远低于官方稳定版,不稳定。
image-to-video
可灵图生视频2.6-pro
业界领先的视听原生同步生成模型。它能够以单张静态图像为起始点,在赋予画面自然动态与电影级运镜的同时,同步合成出高度契合的环境音、物理音效及角色配音。该模型的核心突破在于“视听协同演化”,确保角色的口型、动作节奏与声音输出在生成瞬间即达成完美对齐。无论是品牌宣传还是沉浸式叙事,用户仅需一张原图和一段描述,即可一键产出音画合一、具备高度叙事完整性的高质量视频片段。
text-to-image
z-image/turbo-lora
阿里巴巴通义实验室推出的Z-Image Turbo的文生图LoRA推理版本,支持加载自定义LoRA适配器实现个性化视觉生成。在保持亚秒级生成速度的基础上,通过轻量级LoRA模块(18-150MB)注入特定风格、角色或品牌美学,无需修改60亿参数基础模型。适合需要快速迭代特定视觉概念、保持角色跨场景一致性、建立品牌专属生成工作流的创作者与商业团队。
text-to-image
全能图片V2-文生图-官方稳定版
专为创作者打造的“闪电级”影像旗舰。它在保持极速响应的同时,实现了 4K 超高清画质与电影级光影表现的完美平衡。该模型不仅能精准还原复杂的文本意图,更在多角色一致性、精准文字渲染及长宽比兼容性上取得了突破,是追求高效率与专业视觉品质的理想 AI 创作引擎。官方稳定版,稳定高效,价格低于直接模型官方。
image-to-video
Vidu-图生视频-q2-turbo
Vidu Q2 Turbo 是一款专为高效创作而生的图生视频引擎,旨在实现速度与质量的完美平衡。它能将静态图像瞬间转化为 720p 电影级视频,极大地缩短了渲染周期。该版本特别强化了“时间轴平滑技术”,能有效消除画面闪烁,并在高速生成中精准锁定人像细节、发丝及复杂背景。其具备的深度感知动效,能呈现真实的物理遮挡与空间位移,非常适合快节奏的广告转场、产品演示及短视频创意迭代,是追求极致产出效率的团队首选。
text-to-image
悠船文生图-v8.1
V8.1 代表 AI 绘画进入“语义真实”时代。通过深度语义理解与全景光照融合机制,它在保持物理真实感的基础上,进一步提升了对复杂场景、人物动作与材质属性的理解与表现能力。新一代结构感知模型有效避免图像生成中的逻辑错误,使生成内容在细节、光影与整体构图上达到专业艺术级水平。
image-to-image
万相2.5 Preview 图生图
万相2.5 Preview 图生图是阿里通义万相系列的多图理解与编辑模型。支持输入最多3张参考图片,结合文本描述进行智能图像编辑与合成,可实现物体放置、风格迁移、元素替换等创意操作,提供9种标准画幅比例选择,适用于电商场景合成、创意设计和图像编辑等场景。
text-to-video
全能视频X-文生视频-低价渠道版-v1.5
它的核心优势在于能够极其精准地解析复杂的长文本逻辑,不仅能还原画面的视觉美感,更在因果关系模拟与电影级镜头调度上展现出深厚的“大模型底蕴”。该模型在处理光影演变、复杂物理交互及环境叙事时,能保持极低的语义损耗,让每一帧都符合逻辑直觉,是追求高叙事精度与视觉真实感创作者的理想之选。低价渠道版,价格远低于官方稳定版,不稳定。
image-tools
万相2.7-图像编辑
万相2.7图像编辑是阿里巴巴推出的提示词驱动图像编辑模型,支持1-9张多图参考输入,通过自然语言描述精准编辑图像内容,同时保留原始构图、主体身份和画面结构。适用于服装换色、背景替换、产品修图、风格迁移等创意迭代场景。
image-to-video
Vidu-图生视频-q3-pro
Vidu Q3 图生视频模型赋予静态图像以“声命力”。它不仅能继承原图的任何比例与视觉风格,更在生成动态的同时,智能补全与之匹配的音效与环境对白。其核心亮点在于对静态构图的深度理解,通过智能切镜技术,让单张图片也能延展出具有叙事深度的 16 秒长镜头。无论是复杂的文字渲染还是高精度的 2K 画质表现,Vidu Q3 都能确保生成的动态视频在物理逻辑与听觉感受上与原图保持像素级的和谐。
image-to-image
全能图片X-图生图-低价渠道版
在参考图与提示词结合的垫图模式下,全能图片X成为了高度可控的视觉设计辅助引擎。它允许用户上传基础线稿、构图草图或现有图片作为视觉锚点,在严格保留原图核心特征与空间结构的前提下,通过文字指令实现精准的风格迁移、局部重绘和画面质感升级,大幅提升创作效率。低价渠道版,价格远低于官方稳定版,不稳定。
text-to-image
seedream-v4.5-文生图
字节跳动推出的新一代超高清文生图大模型。通过大规模架构优化与训练,该模型在视觉美学与逻辑理解上实现了质的飞跃。其最显著的突破在于卓越的文字渲染与海报排版能力,能够精准呈现清晰、易读的品牌标识与市场视觉素材。无论是复杂的 UI 界面设计,还是具有严谨层级关系的商业海报,Seedream 4.5 都能提供设计师级别的构图表现。凭借对复杂提示词的高度遵循及最高 4K 的自定义分辨率输出,它已成为品牌创意与视觉设计的强力引擎。
image-to-video
可灵图生视频o3-pro
快手视频生成技术的顶峰之作,代表了目前业界顶级的视觉质量与电影级动态表现。依托创新的 MVL(多模态视觉语言)技术,该模型不仅能完美保持主体一致性,更引入了真实的物理仿真与无缝场景动态,让静态图像焕发出极具生命力的真实感。模型支持 3 至 15 秒的超长自定义时长,并提供精准的首尾帧引导及同步音效合成。无论是追求极致细节的商业大片,还是复杂的叙事短片,它都能以 Pro 级的专业水准,将静态灵感转化为震撼视听的视觉杰作。
image-to-video
全能视频S-图生视频-pro-低价渠道版-已下架
图生视频专业版,可将单张参考图转化为流畅连贯、音画高度同步的视频片段。依托全能视频S核心进阶算法,能完整保留参考图的主体身份、光影与构图,同时合成超逼真的动态轨迹与专业电影级镜头运镜,实现高品质视频输出。低价渠道版,价格远低于官方稳定版,不稳定。
text-to-image
悠船文生图-niji7
基于 V7 架构开发的 Niji 7 将二次元创作提升到了“剧场版”级别。它不仅支持更复杂的透视和动态构图,还引入了多画风融合功能。其最大的突破在于动态感的捕捉,仿佛每一张静态图都是从高画质动画长片中截取的帧。
image-to-video
Vidu-图生视频-q2-pro-fast
一款兼顾卓越画质与极致效率的图生视频模型。它继承了 Q2 Pro 的影视级视觉基因,通过大幅优化的生成速度,助力创作者在瞬息之间将静态图像转化为动态大片。该模型具备敏锐的角色一致性与复杂的运镜控制力,无论是细腻的人物神态还是宏大的场景推移,都能精准呈现,是快速迭代与专业制作的理想之选。
image-to-video
可灵图生视频2.5-turbo-pro
Kling 2.5 Turbo Pro 图生视频模型能将单张图像与文本提示转化为电影感十足的动态视频,动作流畅、意图精准。其全新文本-时序引擎可解析多步骤指令,生成节奏合理、叙事连贯的镜头。模型支持首尾帧控制——用户可同时提供起始图与结束图,模型自动生成平滑过渡动画。通过优化动态建模与训练数据,即使在高速运动或复杂运镜下,也能减少抖动、撕裂等伪影。增强的图像条件控制有效保留色彩、光影、笔触与氛围,确保激烈动作中画面风格高度统一,适用于创意短片、广告预演等高要求场景。
image-to-image
千问2.0-图像编辑
阿里巴巴通义千问团队推出的智能图像编辑模型,用户上传图片后可通过文字指令对图像进行修改。该模型在理解编辑意图和保持图像质量方面有所增强,支持最高2K分辨率处理,适用于基于现有图像进行风格调整、元素增删或细节优化等创作场景。
text-to-image
seedream-v5-lite-文生图
基于豆包大模型的新一代智能视觉创作引擎。它不仅支持通过纯文本指令快速生成高精度的单张图像,更具备突破性的“文生组图”能力。借助先进的思维链(CoT)推理与实时联网检索(RAG)技术,该接口能够深刻理解复杂的长文本上下文,精准生成风格统一、逻辑连贯的系列插图或包含实时数据的时效性海报,为开发者提供极具扩展性的内容自动化解决方案。
image-to-image
全能图片PRO-图生图Ultra-官方稳定版
进化级影像编辑与生成模型。它将复杂的后期处理简化为直观的自然语言对话,凭借深度的语义感知能力,模型能精准识别场景结构、物体关联及光影逻辑,实现无痕的局部修改或全局重塑。除了具备原生 4K/8K 工业级输出外,其核心亮点在于强大的多语言文字自动翻译与排版功能,以及摄影级的摄像机参数控制(如焦距、景深及色调)。无论是维护品牌角色的一致性,还是跨画幅的比例适配,它都能在数秒内交付生产级别的专业视觉稿。官方稳定版,稳定高效,价格低于直接模型官方。
image-to-video
全能视频V3.1-pro-首尾帧生视频-低价渠道版
不仅能将单张静态图转化为长达 8 秒的 720P 动态画面,更突破性地支持“首尾帧插值”技术,实现两个不同场景间的无缝平滑过渡。该模型最大的亮点在于原生音效合成,能根据画面动作自动生成匹配的环境音或背景音乐。无论是构图层面的镜头推拉,还是叙事层面的时空转换,都能提供极具真实感与情感深度的视觉表达。低价渠道版,价格远低于官方稳定版,不稳定。
image-to-video
万相2.6-图生视频Flash
阿里巴巴推出的极速图生视频旗舰模型,专为追求高效生产与复杂叙事的创作者打造。该模型不仅能将静态图像转化为长达 15 秒的 1080p 高清动态影像,更引入了灵活的音频方案:支持原生音画同步生成或用户自主上传音轨。其最具竞争力的“多镜头模式”支持在单一片段中实现场景转场,结合内置的提示词增强器,能以极短的响应时间产出符合物理逻辑且极具电影感的视觉作品,是商业短片与快速原型设计的首选方案。
reference-to-video
happyhorse-1.0/reference-to-video
HappyHorse 1.0 多参考图生视频(R2V):基于多张参考图与文本提示词,生成与参考风格一致、运动连贯的短视频。支持 720P/1080P、多种画幅与 3–15 秒时长,适合「多图叙事」、分镜级创意与角色/场景一致的动态内容。
reference-to-video
Vidu-参考生视频-q2
旗舰级参考生视频模型,擅长将单张或多张(最高 7 张)参考图转化为极具表现力的电影级动态影像。其核心突破在于对“微表情”的细腻还原,能够精准呈现眨眼、眼球转动及自然的呼吸起伏。模型不仅提供了强大的运动幅度控制功能(从微动到大动作可选),还集成了专业的摄影机运镜指令。凭借对多图参考的支持,它能更好地捕捉角色的多角度特征与光影氛围,是肖像活化、虚拟数字人及概念视觉开发的顶尖生产力工具。
image-to-image
seedream-v4-图生图
字节跳动专为高精度图像编辑打造的专业级模型。它擅长在保持主体身份、原有光影及构图完全一致的前提下,对局部元素进行精准重构。无论是人像摄影中的服装与妆造切换、电商产品的材质与配色更替,还是室内设计中的墙面与家具饰面翻新,Seedream 4.0 都能呈现出极高的还原度。模型对皮肤质感、织物细节及品牌 Logo 的处理尤为出色,能够确保多版本生成的工业级一致性。凭借结构化的提示词指令,它已成为品牌营销、电商测款及人像工作流中不可或缺的效能工具。
reference-to-video
万相2.7-参考生视频
万相2.7-参考生视频(Wan 2.7 Reference-to-Video)是一款强大的AI视频生成工具,能够将视频或图像中的角色、道具和场景无缝转化为全新的动态画面。用户需上传参考素材(要求至少传入1个参考视频或图像,且素材总数最多不超过5个),辅以自然语言提示词,模型即可在全新场景中精准重现目标元素。该模型在生成平滑连贯画面的同时,高度保持原角色的身份特征与视觉风格。支持720P与1080P高清输出,并提供负向提示词功能,全面满足高一致性的定制创作需求。
image-to-video
ltx-2.3/image-to-video
Lightricks推出的新一代图生视频基础模型,在LTX-2系列基础上实现全方位画质跃升。全新重制的VAE架构显著增强毛发、文字和边缘细节的锐度,大幅减少画面冻结和静态平移现象,带来更真实的动态表现。原生支持9:16竖屏格式,无需裁剪即可直接生成社交媒体原生内容。单一路径同步生成匹配的环境音效与画面运动,5-20秒时长内实现音画完美对齐,让静态照片真正"活"起来。
image-to-image
全能图片V1-图生图-官方稳定版
一款前沿的 AI 图像编辑与生成模型,将复杂的视觉修改转化为直观的自然语言指令。依托顶尖的计算机视觉技术,它具备极强的场景语义感知力,能在精准执行“物体替换”、“色彩微调”或“构图重构”的同时,完美锁定原图的光影、材质与整体氛围。无论是专业摄影修图、概念美术设定还是日常创意生产,它都能提供“无痕级”的专业编辑体验。官方稳定版,稳定高效,价格低于直接模型官方。
text-to-video
seedance2.0-Fast/文生视频
seedance 2.0 Fast 文生视频,更注重生成速度与性价比。仅需文本提示词即可快速生成 4-15 秒视频,支持多种宽高比、有声视频生成和联网搜索增强。
reference-to-video
kling-video-o3-pro/reference-to-video
快手 O3 家族中针对“身份一致性”打造的顶级生成方案。该模型支持通过多达 7 张参考图(或 4 张图结合 1 段视频)深度提取角色、道具或场景的多视角特征,确保在复杂的动态叙事中主体形象始终稳定,彻底告别“掉脸”现象。借助 Pro 级的电影画质与运动真实感,模型不仅能通过参考视频进行精确的动作迁移与风格指引,还能灵活处理原声保留或 AI 音效合成。它是目前将特定 IP、定制角色或精密产品推向工业级视频创作的最强利器。
image-to-video
Vidu-图生视频-q3-turbo
专注于将静态灵感转化为具备高度一致性的长时段叙事。依托 Vidu Q3 的原生多模态架构,该模型不仅能完美继承原图的主体细节,更能通过 16 秒的长度赋予画面逻辑严密的因果关系。它解决了传统图生视频中背景闪烁或主体形变的痛点,实现了极高稳定性的镜头流转。配合同步生成的音效与对白,它能将单张海报或剧照瞬间扩展为一段具备电影质感的独立叙事段落。
image-to-video
可灵图生视频3.0-pro
快手目前最顶尖的图生视频模型,专为对画质有极致追求的专业创作而设计。作为 Pro 级别型号,它在视觉细节保真度、动作平滑度以及电影级渲染效果上均大幅超越标准版,能够完美复刻静态原图的每一个像素质感。其独特优势在于支持首尾帧引导,允许用户精准定义视频的起始与终结画面,实现极具掌控力的动态流转。配合可选的同步音效生成与双角色自定义配音,它能将一张简单的图片转化为声画一体、极具工业美感的短片杰作。
image-to-video
全能视频X-图生视频-官方稳定版
全能视频X强大的图生视频生成模型,旨在让静态图像焕发生机。用户只需上传一张参考图并输入动作描述,即可生成具备平滑自然动态、完美场景连贯性以及同步音效的电影级视频。它能将静止的瞬间无缝转化为动态的视觉故事,满足多样化的创作需求。官方稳定版,稳定高效,价格低于直接模型官方。
image-tools
万相2.7-图像编辑Pro
万相2.7图像编辑Pro是阿里巴巴推出的专业级提示词驱动图像编辑模型,支持最高2K分辨率输出和1-9张多图参考,为产品精修、高清背景替换、精细风格迁移等专业制作场景提供更高保真度的编辑结果。
reference-to-video
seedance2.0-Mini/多模态视频
seedance 2.0 Mini 多模态视频,支持文本、图片、视频、音频等多模态参考输入,面向批量创作、低成本视频编辑与参考生成。原生仅支持 480p/720p 生成;1080p/2k/4k 会先以 720p 生成,再通过超分补帧输出。适合高频生产,不适合追求 Standard 级画质稳定性的场景。
text-to-video
全能视频S-文生视频-官方稳定版
新一代音视频生成巅峰之作。它在初代模型的基础上,通过引入物理感知运动算法,实现了对惯性、动量和碰撞逻辑的精确模拟,彻底告别了画面的“果冻感”。最大的突破在于音画同步技术,能够自动匹配环境音效与角色的口型动作。凭借对高频细节(如皮肤纹理、织物纤维)的精细保留,以及在长镜头运镜中极高的时间轴一致性,它不仅能处理多主体间的复杂遮挡关系,还能在写实、动画等多种风格间自由切换。极强的可控性让创作者能精准调整镜头节奏,是真正具备“世界模型”雏形的生产力工具。4s/8s/12s可选。本接口采用官方原生 API 协议,该协议目前未开放对 Web/App 端个人角色库(Cameo)的访问,暂不支持通过 @ 语法引用角色。官方稳定版,稳定高效,价格低于直接模型官方。
video-tools
RH视频超分
全球先进的 AI 视频超分模型,支持将低清视频无损放大至 720p、1080p、2K 及 4K 画质。模型具备卓越的帧间一致性,能有效消除画面闪烁与伪影,精准还原发丝、织物等复杂纹理;同时搭载运动感知增强技术,确保动态场景流畅自然。单次接口调用最高支持 10 分钟长视频处理。
image-to-video
可灵图生视频o3-std
图生视频模型是快手 O3 系列中的高性价比旗舰方案。它在保留 O3 架构卓越的动态流畅度与视觉保真度的基础上,大幅降低了创作门槛。该模型不仅支持 3 至 15 秒的超长自定义视频时长,还引入了精准的首尾帧引导功能,让静态图像向动态影像的演变过程更加丝滑且可控。配合可选的同步音效生成,创作者能以更优的价格,将单张素材转化为极具叙事张力与电影质感的长时段短片。
image-to-video
happyhorse-1.0/image-to-video
HappyHorse 1.0 图生视频是阿里云百炼推出的图像驱动视频生成模型。基于一张首帧图片,结合可选的文本提示词,即可生成画面延展自然、运动连贯的高动态视频。原生支持 720P/1080P 输出与 3-15 秒灵活时长,适合让静态海报、人物照片、产品图秒变富有故事感的短视频,常用于内容创作、社媒、电商广告等场景。
text-to-audio
minimax/speech-02-turbo
一款兼具出色韵律与稳定性的高效能语音合成模型。它在继承 02 系列拟人化语调的基础上,显著加强了小语种处理能力,使其在全球化内容创作与跨境业务中拥有出色的性能表现。通过内置 17+ 种跨度极广的音色预设及自定义克隆技术,用户可以精准控制情感起伏与音频参数。无论是快节奏的视频配音还是复杂的播客生产,它都能以极速响应提供稳定、流畅且富有生命力的音频输出。
reference-to-video
kling-video-o3-std/reference-to-video
一款专注于高一致性视觉叙事的进阶生成模型。它的核心突破在于能够通过上传参考图像(甚至是参考视频),在生成过程中精准锁定人物特征、视觉风格及场景元素,确保角色在动态演绎中“不掉脸”且风格统一。该模型支持多参考输入,允许创作者将不同的角色或元素无缝融合在同一场景内,并提供可选的参考视频进行运动轨迹引导。配合 3 至 15 秒的灵活时长与自定义音效方案,它为 IP 动画化和品牌短片创作提供了极具工业掌控力的生产力支持。
text-to-image
全能图片G-1.5-文生图-低价渠道版-(已下架) 可用全能图片G-2 模型代替
基于欧喷爱·鸡皮提图像技术的高性价比多模态文本生成图像模型,具备强大的提示词理解与优化合成能力,可从自然语言生成高质量视觉内容,适用于 UI 设计、概念艺术、产品原型等场景。低价渠道版,价格远低于官方稳定版,不稳定。
image-to-image
全能图片X-高质量图片编辑-官方稳定版
全能图片X-高质量图片编辑是一款面向商业视觉和创意修图的 AI 图像编辑模型。它支持通过自然语言指令对单张输入图片进行局部调整、风格优化、画面增强和构图适配,并可一次生成多张候选结果。模型适合产品图精修、营销物料制作、社媒视觉创意和专业图片后期,兼顾高质量输出、灵活比例和多格式交付。官方稳定版,稳定高效,价格低于直接模型官方。
text-to-image
万相2.7-文生图
万相2.7文生图是阿里巴巴推出的高质量文本生成图像模型,内置思考模式(Thinking Mode)可深度理解提示词意图,生成构图精准、光影细腻的高清图像。支持自定义尺寸输出和多种画幅比例,适用于社交媒体、营销设计、概念艺术等多元创作场景。
image-to-image
即梦图片 4.6 图生图
即梦图片 4.6 图生图是火山引擎即梦 AI 的高质量图片生成与编辑模型,支持结合参考图片和文本提示词生成新图。模型适用于多参考图融合、人像写真优化、图片风格化、商品视觉和创意设计等场景;支持最多 14 张参考图,并可通过 size 或 width/height 控制输出规格,满足约 1K 到 4K 的图片生成需求。
text-to-image
全能图片G-1.5-文生图-官方稳定版
一款兼顾低延迟与高性价比的多模态文生图模型。具备出色的提示词理解能力,可快速生成高保真图像,适用于UI设计、概念艺术、产品原型及创意可视化等场景。官方稳定版,稳定高效,价格低于直接模型官方。
image-to-video
万相2.2-图生视频
核心能力是将一张静态参考图结合提示词快速转化为动态视频,支持480P/720P/1080P分辨率,生成5/10秒流畅片段。亮点在于极强的运动生成(复杂动作丝滑自然、无穿模)、高内容一致性(主体/风格/细节忠实保留)、电影级美学控制(光影、构图、色彩可通过关键词精准调节)。相比传统方法,运动真实感、物理合理性和语义遵从显著提升,适合创意动画、产品展示、短视频特效等场景。
image-to-image
f-2-klein-9b/edit
FLUX.2 Klein家族的90亿参数图像编辑旗舰模型。相比4B版本在细节丰富度和编辑精度上显著提升,支持更复杂的多参考图融合与高级语义编辑。4步蒸馏仍保持亚秒级推理,适合对画质要求极高的专业设计工作流、电影级概念艺术和高端商业广告制作。
image-to-video
万相2.6-参考生视频Flash
万相2.6-参考生视频Flash是阿里通义万相2.6系列的快速参考生视频模型,支持上传最多5个URL,每个URL可以指向一张图像或一段视频,基于参考图的角色身份、风格和场景布局生成新视频。该版本生成速度更快,支持720P/1080P两种分辨率,视频时长可选2-10秒,可生成带音频或无声视频,支持单镜头和多镜头叙事模式。
image-to-video
全能视频V3.1-Lite图生视频-官方稳定版
全能视频V3.1-Lite图生视频将静态图片转化为高保真720p或1080p视频,并原生生成配套音频。通过文本提示词精确控制画面运动和氛围,支持多种画幅比例和可调时长,适用于图片动画、产品展示和创意设计等场景。
image-to-video
可灵图生视频o1
专为工业级生产设计的图生视频模型,旨在将静态图像转化为高质量的动态影像。该模型的核心优势在于极高的人物/主体身份保持力,以及卓越的视觉与时间轴一致性。通过引入自然的运动规律与真实物理反馈,它能赋予静止画面平滑的场景动态。此外,该模型针对 REST API 调用进行了深度优化,具备响应快、无冷启动及价格可预测等特性,是在保障成本效益的同时实现稳定、高频视频产出的理想方案。
text-to-audio
minimax/voice-clone
基于 Speech-02 与最新 Speech 2.6 HD/Turbo 系列打造的尖端声纹克隆引擎。它仅需数秒音频样本即可实现高保真的零样本克隆,精准复刻目标说话人的音色、口音与独特的叙事风格。该系统不仅支持全球 40 多种语言的跨语言流畅合成,更在情感表达力上实现了质的飞跃,允许开发者对语速、音高及情感色彩进行细粒度调节。凭借 Turbo 版本低于 250ms 的极低延迟性能,它成为了实时交互、沉浸式游戏及全球化品牌播报的理想音频解决方案。
image-to-video
可灵图生视频3.0-std
快手推出的新一代图生视频旗舰模型,旨在将静态图像转化为具有生命力的电影级叙事影像。相比 V2.6 版本,V3.0 在动态质量与视觉保真度上实现了质的飞跃。其核心突破在于引入了首尾帧引导功能,允许用户通过上传起始与结束图像,精准控制视频的流转与演变过程。模型同时支持同步音效生成与双角色自定义配音,实现了从视觉到听觉的高度一致性。配合 CFG 引导系数微调,创作者能在遵循原图意图的同时,探索更具张力的动态表现力。
text-to-image
全能图片X-文生图-低价渠道版
全能图片X 的纯文本生成模式赋予了创作者从零构建宏大视觉世界的能力。只需输入自然语言描述,模型便能精准解析语意,生成具备极高清晰度、丰富细节和完美光影的图像。无论是高难度的文字排版渲染、逼真的摄影级画面,还是天马行空的奇幻场景,都能通过一行提示词瞬间化为现实。低价渠道版,价格远低于官方稳定版,不稳定。
video-edit
万相2.7-视频编辑
万相-视频编辑wan2.7是一款支持多模态(文本、图像、视频)输入的高效视频处理模型 。它能够通过自然语言文本指令、一段原始视频以及最多3张参考图像,精准完成指令编辑、基于参考图的编辑和视频迁移三大核心任务 。该模型支持输出30fps的MP4格式视频,提供720P与1080P两种高清分辨率档位,且视频时长支持2至10秒 。此外,它还具备负向提示词过滤功能,并允许用户灵活选择保留原视频声音或由模型智能生成音频,全方位满足多元化的创作需求 。
text-to-video
全能视频S-文生视频-pro-低价渠道版-已下架
文生视频专业版,是基于初代全能视频S框架打造的行业顶尖音视频生成模型。实现超精准物理模拟、极致写实画质、音画无缝同步、可控性全面提升与风格范围拓展的突破性升级,为全场景创作提供顶级的视频生成表现。低价渠道版,价格远低于官方稳定版,不稳定。
image-to-image
z-image-turbo/image-to-image
阿里巴巴通义实验室推出的Z-Image Turbo的图生图基础版本,通过单一强度参数实现从画质增强到创意重绘的全频谱控制。低强度(0.0-0.3)模式下作为智能增强器,锐化细节、提升质感而不改变内容;高强度(0.8-1.0)则将输入图作为灵感参考进行艺术再创作。8步采样实现亚秒级响应,支持自定义输出尺寸与双语文字渲染,为摄影师修图、设计师概念迭代和快速原型制作提供极简而强大的工具。
text-to-audio
minimax/music-2.5
MiniMax Music 2.5是音乐生成领域的里程碑式升级,主打**“高保真”与“强控制”的深度融合。该模型在编曲混音、人声表现、结构精度及声音设计四大维度实现了跨越式突破。通过引入拟人化音色模拟与 Flow 表现力优化,它产出的歌声具备物理意义上的“真声感”,彻底告别了早期的电子合成痕迹。最显著的优势在于其结构精度**:精准支持包含前奏、间奏、升华(Build-up)等 14 种以上的音乐段落控制。配合风格化声音滤镜,无论是摇滚的失真还是爵士的温暖,都能实现 Studio 级的成品产出。
image-to-video
PixVerse V6 图生视频
PixVerse V6 图生视频可将参考图片生成流畅、自然的电影级视频。上传照片并描述运动方式,模型即可生成保持主体外观与构图的高质量视频片段,支持 360p 至 1080p 分辨率、1-15 秒时长与可选同步音频。支持Thinking模式允许模型对复杂或细致的场景描述应用扩展推理,并辅以提示增强器内置工具,自动优化动作描述,提升输出内容。
image-to-image
z-image-turbo/image-to-image-lora
阿里巴巴通义实验室推出的面向风格定制化需求的图生图LoRA版本,在图像变换基础上支持最多三个自定义LoRA适配器同时加载。通过调节变换强度(0.0-1.0)实现从细微增强到彻底重绘的连续控制,叠加LoRA模块注入特定艺术风格、品牌视觉或角色形象。适合需要保持输入图结构同时进行风格迁移、品牌内容系列化生产、角色一致性变体生成的创意工作流。
image-to-video
Vidu-图生视频-q2-pro
Vidu Q2 Pro 是一款顶级的 AI 图生视频工具,致力于将静态瞬间转化为流动的电影画卷。它通过先进的布局感知算法,让单一图像呈现出自然的景深推拉与丝滑的动态效果。该模型的核心竞争力在于其惊人的“细节还原度”:能够完美保留原图中的面部特征、发丝纹理及复杂微小结构,彻底告别以往 AI 视频常见的扭曲感。无论是追求极致视效的专业创作者,还是社交媒体达人,都能通过它快速生成光影一致、逻辑真实的动态视觉作品,赋予静态作品全新的生命力。
text-to-image
seedream-v4-文生图
字节跳动为平面设计与社媒创意量身打造的布局感知型文生图模型。它在传统生成算法的基础上,深度集成了空间布局逻辑,擅长生成多格海报、九宫格、三联画及漫画分镜,并能精准规划留白区域以适配标题和正文排版。该模型最核心的优势在于“系列一致性”,能够确保多张视觉图(Series KV)在色调、光影及相机视角上高度统一。支持最高 4096×4096 的 4K 级超清输出,凭借对边缘细节的细腻处理和极低的画面伪影,它是设计师产出工业级营销素材与概念设计的理想工具。
video-edit
happyhorse-1.0/video-edit
HappyHorse 1.0 视频编辑是阿里推出的指令驱动视频编辑模型。可对已有视频进行局部修改,如替换背景、改变物体颜色或属性,同时保留原片的结构、角色与运动逻辑。无需重拍或逐帧处理,适合后期微调、素材二次创作、广告元素替换等场景。支持 720P/1080P 输出、原声/自动配音策略与随机种子;输入视频超过15秒时上游会从0秒截断至15秒。
image-to-video
万相2.7-图生视频
万相2.7-图生视频(Wan 2.7 Image-to-Video)旨在将静态图像转化为高质量的动态视频 。它支持上传单张首帧图像,或同时提供首尾两帧图像来精准定义视频的起始与结束状态 。结合文本提示词的细节引导,模型能生成过渡平滑的精美画面 。该模型支持720P与1080P高清生成,时长可达15秒 。同时,它支持引入音频驱动源实现声画同步 ,并支持使用负向提示词优化生成结果 ,为您提供专业级的视觉控制体验。
text-to-image
f-2-klein-4b/text-to-image-lora
Black Forest Labs推出的40 亿参数的极速文生图LoRA定制版本。Klein作为专业级 FLUX.2 的衍生系列,通过架构优化与蒸馏在保持接近顶级生成质量的同时,大幅降低硬件门槛和推理延迟。该模型支持加载自定义LoRA适配器实现个性化风格注入。开源协议允许商业使用,仅需13GB显存即可流畅运行。适合需要快速迭代特定视觉风格、保持品牌一致性的创作者和中小团队。
text-to-music
suno-custom-v5.5
用户输入自定义歌词文本和风格标签,模型根据这些指令生成两首备选歌曲。v5.5在人声真实感、乐器分离度和动态范围上达到Suno历史最高水平,能够处理更细腻的情感表达和复杂的风格混搭。适用于个人原创单曲制作、独立音乐人Demo创作。
image-to-video
可灵首尾帧生视频o1
只需上传起始图与结束图,模型便能通过强大的时空推理引擎,自动补全中间逻辑严密的运动轨迹与状态演变。该功能彻底解决了 AI 视频生成中“结尾不可控”的痛点,无论是人物从起跑到冲刺、物体从完整到破碎,还是复杂的镜头调度转场,都能在 5-10 秒的时长内实现丝滑、自然的物理衔接。它将随机的视觉生成转化为可预测的叙事工具,是广告创意、动画分镜及精准视觉叙事的理想方案。
image-to-video
Vidu-首尾帧生视频-q2-turbo
专注于在极短时间内实现首尾帧之间的逻辑衔接。通过“首尾双向引导”技术,它能精准锁定两张图片中的主体身份、光影与构图。Turbo 版通过优化的推理管线,在保持画质与时间流平稳的同时,显著提升了生成速度。它具备敏锐的人体与物体感知能力,能保护面部及手部细节不发生扭曲,并遵循视差规律处理前后景深。作为平衡速度与连贯性的典范,它是快速迭代动态分镜与商业叙事桥接镜头的理想工具。
video-tools
火山字幕擦除-视频字幕擦除(标准版)
自动将视频上传至火山视频点播后执行精细化字幕擦除,输出擦除字幕后的视频。
image-to-video
全能视频V3.1-fast-图生视频-官方稳定版
高速、低成本图生视频模型。该模型在保持电影级画质与自然动态的同时,生成速度相比标准版提升了 30%。它不仅能将单张静态图片转化为拥有逼真光影和运镜的动态视频,还具备强大的原生音频生成能力,支持环境音效及人物对话(含精准口型同步)。特别值得一提的是,它全面支持从 720p 到 4K 的多分辨率输出,在快速迭代中依然保持极高的构图与风格一致性。官方稳定版,稳定高效,价格低于直接模型官方。
image-to-video
海螺-02-fast
海螺 AI 视频引擎的极速变体版本,专为追求生产效率与快速迭代的创作者打造。该模型能将单张静态图像迅速转化为流畅的 6 秒或 10 秒动态片段,同时兼顾提示词响应能力与强劲的物理仿真效果。它在成本优化方面表现卓越,非常适合剧本分镜、视觉探索及大规模的 A/B 测试。即便在高速生成下,它依然能保持稳定的时间流表现,确保碎屑飞溅、布料飘动及手持镜头感自然且无明显闪烁,是低成本、高预测性视频创作的利器。
text-to-audio
minimax/speech-02-hd
一款录音室级别的旗舰文本转语音模型,其核心优势在于出色的韵律表现与稳定性。它不仅能精准捕捉人类语言中的情感细微差别,更在复刻相似度上表现优异,音质表现极为突出。该模型支持中、英、日、韩、西等多种主流语言,并具备毫秒级的流式输出能力。无论是 10,000 字的长文本处理,还是对语速、音高的精细微调,它都能提供如真人配音演员般的自然听感,是专业内容创作的理想之选。
motion-control
kling-v2.6-std-动作控制
一款专注于高效动作迁移的影像生成工具,旨在赋予静态图像以动态灵魂。通过上传角色原图与参考视频,该模型能够精准提取视频中的姿态、律动与手势逻辑,并将其 1:1 映射至目标角色身上。其核心优势在于卓越的身份保真度,确保角色在执行复杂动作时外观始终如一。此外,它突破性地支持长达 30 秒的超长动态生成,并提供原声保留与朝向控制功能,是短视频创作、虚拟偶像演出及动作特效开发的理想生产力方案。
text-to-music
suno-single-v5.5
用户输入一句话描述歌曲主题或氛围,模型自动生成包含旋律、歌词和人声的两首备选完整歌曲。v5.5在人声真实感、乐器分离度和动态范围上达到Suno历史最高水平,能够处理更细腻的情感表达和复杂的风格混搭,大幅降低创作门槛,无需音乐基础即可快速产出专业级音乐。
image-to-video
全能视频S-图生视频-支持真人-官方稳定版
可将单张参考图转化为连贯极致的写实视频片段,音画完美同步。全面整合全系列产品核心优势,涵盖身份锁定、物理精准、3D景深感知、电影级运镜、细节保真及强可控性;专属支持官方直连,性能稳定,可生成真人主体,动态自然、视觉效果高度还原真实。本接口采用官方原生 API 协议,该协议目前未开放对 Web/App 端个人角色库(Cameo)的访问,暂不支持通过 @ 语法引用角色。官方稳定版,稳定高效,价格低于直接模型官方。
text-to-audio
可灵对口型-语音合成
可灵推出的支持文本到语音转换的生成模型,提供多语言、多方言的合成能力。可基于文本描述生成在线配音,或结合自定义音色功能复刻特定人声。支持语速调节(0.8-2倍速)、多种情感风格选择,并能与对口型模型联动,实现音画同步的口型驱动。
reference-to-video
Vidu-参考生视频-q3
生数科技最新发布Vidu Q3系列的参考生视频模型,面向专业视频生成场景。支持上传1-7张图片作为主题参考,支持3-16秒音视频直出,在智能切镜与多机位一致性方面表现突出,可保持复杂场景下多个机位画面的连贯性。支持540p至1080p多档分辨率,兼容主体库调用与临时主体参考,适用于需要精细镜头控制的影视级内容生产。
video-extend
万相2.7-视频续写
万相2.7-视频续写(Wan 2.7 Video Extend)是一款强大的AI视频生成工具,能基于已有首段视频片段无缝生成后续内容 。用户只需上传原始视频并输入自然语言提示词描述后续情节,模型即可生成动作连贯、风格一致的续写画面 。它提供720P和1080P两种高清分辨率档位,最高支持输出15秒的MP4视频 。此外,该接口还支持传入音频以驱动视频节奏实现声画同步 ,并可通过负向提示词精准规避不良画面 ,全面满足高质量的影视创作与拓展需求。
text-to-video
全能视频V3.1-pro-文生视频-低价渠道版
最新顶级人工智能文生视频模型,全能视频V3.1 高质量模式,原生文生视频 + 全维度同步音画,支持对话唇形同步、主体跨帧一致、视频帧插值,还原电影级光影与运镜,叙事连贯,画质极致、功能全量拉满,适配专业创作场景,仅定价偏高,按需选用即可。低价渠道版,价格远低于官方稳定版,不稳定。
text-to-image
qwen-image/text-to-image-2512
Qwen Image 2512 是阿里巴巴通义千问家族最新推出的图文生成大模型。它拥有卓越的自然语言理解力,能够精准解析复杂的空间布局与主体关系。其最核心的优势在于突破性的文本渲染能力,能在图像中准确、清晰地生成多语言与多字体的可读文本,是海报设计、Logo 制作等强排版需求的理想工具。此外,它支持灵活自定义图像尺寸,并在写实、插画等多种艺术风格中均能保持极高且稳定的输出质量。
reference-to-video
可灵参考生视频o3-4k
可灵 O3 4K 参考生视频通过多角度参考图像(最多 7 张,搭配参考视频时最多 4 张)和可选参考视频引导生成 4K 影院级视频,跨帧保持人物身份与场景一致性。支持参考视频原声保留、AI 同步音频生成两种模式,可灵活调整画幅与时长,适合角色驱动叙事、产品广告与剧情视频。
image-to-image
千问2.0Pro-图像编辑
阿里巴巴通义千问团队开发的专业级图像编辑模型,在2.0编辑系列中提供最高处理品质。该版本在理解复杂编辑指令和输出质量上较标准版进一步提升,支持高至2K分辨率的精细调整,适合需要精确控制修改效果的专业图像处理与商业视觉生产工作流。
motion-control
即梦/动作模仿2.0
作为字节跳动最新一代视频动作捕捉与迁移模型,它彻底颠覆了静态图像的边界。只需提供一张任意风格的图像与一段参考视频,即可让图片中的角色完美复刻视频中的肢体运动、面部微表情与精准口型。模型不仅支持全画幅真人驱动,更首次突破性地兼容多人同框、二次元动漫及宠物动作迁移。它具备极致的特征锁定能力,在生成流畅自然、高度同步的复杂动作时,能完美保持原图的画幅、姿态及背景细节,实现零门槛的电影级动画演绎。
video-to-audio
分离音频-Vocals
通过 AI 音频分离技术,提取视频或音频文件中的纯人声(Vocal),并过滤掉背景音效与伴奏。
image-to-video
Vidu-首尾帧生视频-q2-pro
核心主打“首尾帧双向锚定”技术。通过输入起始帧与结束帧,模型能智能推导并补全两者间的自然运动轨迹,完美解决了视觉叙事中镜头衔接与状态转换的难题。它具备极强的人物与物体感知力,能精准保护面部、手部及微小细节,并遵循深度与透视规律进行空间插值。无论是模拟复杂的电影级推拉镜头,还是捕捉衣物发丝的自然摆动,该模型都能在保持光影一致性的同时,呈现出细腻、无闪烁且极具质感的动态画面。
reference-to-video
可灵参考生视频o1
快手推出的突破性统一多模态视频大模型。该模式的核心在于强大的“身份锁定”技术,能够从角色、道具或场景的多角度参考中提取核心特征,确保在全新的创意场景中完美保持主体的一致性。它赋予了创作者极高的自由度,支持在更换背景、调整视角或赋予主体全新动作的同时,精确还原人物面部、服装及配饰细节。无论是多视角主体构建还是复杂剧情的延续,该模型都能提供工业级的主体稳定性,是角色驱动型视频创作的理想引擎。
video-edit
kling-video-o3-pro/video-edit
快手视频编辑技术的巅峰之作,专为追求极致精度与电影级质感的专业后制而生。它彻底颠覆了传统的剪辑逻辑,无需遮罩或关键帧,仅通过自然语言即可实现物体替换、场景重构与风格迁移。作为 Pro 级别型号,它支持多达 4 张参考图输入,为目标元素提供精准的视觉引导。凭借深层的场景语义理解与工业级的时空一致性,该模型能确保编辑后的内容完美融入原视频的运动轨迹与结构,实现稳定、无频闪的视觉重塑。
text-to-image
全能图片X-文生图片-官方稳定版
全能图片X 的文生图模型。只需输入自然语言描述,模型便能精准解析语意,生成具备极高清晰度、丰富细节和完美光影的图像。支持11种预设宽高比,适合角色设计、概念图、社交媒体素材等场景。官方稳定版,稳定高效,价格低于直接模型官方。
video-edit
可灵视频编辑o1
快手科技推出的颠覆性视频编辑模型,实现了通过自然语言进行像素级语义重构的跨越。基于强大的 MVL(多模态视觉语言)系统,该模型能够精准理解创作者的修改意图,无论是移除背景路人、更换角色服装,还是将白昼切换为黄昏、为场景添加降雪,都能在保持画面连贯性的前提下完成内容、风格及环境的深度修改。它打破了传统视频编辑的繁琐流程,支持局部元素替换与全局氛围重塑,是视频二次创作与后期修正的智能化生产力工具。
text-to-video
seedance-v1.5-pro-text-to-video
生产力级文生视频模型,专为追求电影感写实与商业质感的创作流设计。该模型具备极强的指令遵循力,能精准捕捉复杂的镜头调度与细腻的情感基调。其核心突破在于对微表情与肢体动律的深度刻画,使其在短剧创作与高端广告领域表现尤为出色。支持 4-12 秒灵活时长切换及多种专业画幅,凭借其稳定的美学表现与原生的视觉特效处理,无需繁琐后期即可产出具备实拍质感的顶级影像。
text-to-image
即梦图片 4.6 文生图
即梦图片 4.6 文生图是火山引擎即梦 AI 的高质量图片生成模型,支持根据文本提示词生成高清图片。模型基于 Seedream 4.0 能力升级,适用于人像写真、平面设计、创意海报、商品视觉和图片风格化等场景;支持通过 size 或 width/height 控制输出规格,覆盖约 1K 到 4K 的图片生成需求。
reference-to-video
全能视频X-多图参考生视频-官方稳定版
全能视频X-多图参考生视频是一款面向角色一致性和多素材融合场景的视频模型。它支持1到7张参考图共同引导生成,能够在保持人物身份、画面风格与场景构图一致性的同时,输出自然流畅的动态镜头,适合角色短片、产品展示、社媒创意和多角度视觉叙事。官方稳定版,稳定高效,价格低于直接模型官方。
video-tools
PixVerse V6 视频续写
PixVerse V6 视频续写可无缝延续已有视频片段,分析原片结尾并生成运动连贯、风格一致的新画面。描述接下来的场景,即可获得自然流畅的续写内容,支持风格控制、反向提示词和同步音频生成。
image-to-video
seedance2.0-Mini/图生视频
seedance 2.0 Mini 图生视频,适合低成本批量将静态图片转为动态视频。原生仅支持 480p/720p 生成;1080p/2k/4k 会先以 720p 生成,再通过超分补帧输出。支持首帧/首尾帧模式、4-15 秒有声视频,面向高频内容生产而非电影级画质。
motion-control
可灵动作控制V3.0-std
快手可灵V3.0系列的动作控制基础版本,专为需要将参考视频中的动作迁移到静态图片的用户设计。通过上传角色图片与驱动视频,即可让图片中的角色精准复现视频中的舞蹈、手势或运动轨迹。采用3D时空联合注意力机制,在保持角色身份特征的同时实现物理真实的动作转移。支持"图片模式"(最长10秒,保持原图视角)与"视频模式"(最长30秒,跟随驱动视频视角)双模式,为社交媒体内容、虚拟主播和创意短视频提供高性价比的动作生成方案。
image-to-video
ltx-2.3/image-to-video-lora
为需要个性化视觉风格的图生视频用户打造的LoRA推理版本。在LTX-2.3基础能力之上,支持同时加载最多三个自定义LoRA适配器,将品牌特定美学、角色形象或镜头语言直接注入生成流程。无论是固定产品视觉风格、保持角色跨镜头一致性,还是实现特定的电影级运镜,均可通过轻量级LoRA模块精准控制,无需重新训练整个模型。适合品牌内容规模化生产、IP角色动画和风格化商业视频制作。
text-to-video
happyhorse-1.0/text-to-video
HappyHorse 1.0 文生视频是阿里云百炼推出的 AI 视频生成模型,仅凭一段文本提示词即可输出富有戏剧性与电影质感的高动态视频。模型擅长理解复杂场景描写、情绪氛围与镜头语言,原生支持 720P/1080P、16:9~3:4 多种画幅,3~15 秒灵活时长,是创意短视频、广告分镜、社媒内容生产的高质量选择。
text-to-video
Vidu-文生视频-q3-turbo
“为剧而生”的高效叙事模型。它打破了 AI 视频仅能生成短片段的限制,率先实现 16 秒超长视频直出,足以支撑一个完整的叙事闭环。该模型具备独特的“导演思维”,能根据提示词自动切换镜头,并同步生成对白、环境音与情绪呼吸点,实现端到端的声画对齐。q3-turbo 版本在保持电影级质感的同时,极大优化了生成速度,是短剧、广告及高时效性内容生产的工业化利器。
reference-to-video
Vidu-参考生视频-q3-mix
生数科技Vidu Q3系列的参考生视频模型的均衡优化版本,在画面质感与动态效果上表现优异,支持智能切镜与音画同步生成。支持1-16秒视频生成,支持720p、1080p分辨率,当前版本暂不支持主体库调用。适合追求画面质量与动态表现平衡、无需主体库功能的创作场景。
text-to-image
千问2.0-文生图
阿里巴巴通义千问团队推出的高效文生图模型加速版,在保证图像生成质量的同时大幅提升响应速度。支持复杂中英文文字渲染和多种艺术风格,输出分辨率高达2K(2048×2048),支持1-6张批量输出。兼顾效果与性能的最佳平衡,适合需要快速迭代出图的创意设计和内容生产场景。
text-to-video
Vidu-文生视频-q3-pro
Vidu Q3 文生视频模型实现了从“纯视觉生成”到“音视频一体化叙事”的跨越。它支持音画同出,用户可在提示词中直接定义角色对白与环境音效,彻底解决影音异步的痛点。该模型具备卓越的“智能切镜”能力,可根据语义自动规划专业摄影级别的镜头语言。支持最高 2K 高清分辨率及 16 秒超长时长的自由配置,配合原生字幕渲染功能,Vidu Q3 正在重塑从创意剧本到电影级成品短片的工业流程。
image-to-video
海螺-2.3-图生视频-标准
MiniMax 推出的最新一代图生视频大模型,旨在将静态图像转化为流畅且具电影感的动态影像。该模型将自然运动合成技术与高度真实的物理模拟相结合,能够赋予静止画面生动的视觉生命力。它支持包括平移、追踪及缩放等专业摄像机运镜,并能精确模拟风动、光影反射及运动模糊等物理动态。核心优势在于其极强的结构稳定性,在生成过程中能完美保留原图的构图、光照与角色细节。无论是 6 秒还是 10 秒的片段,均能展现出适用于叙事、广告或产品演示的专业级电影质感。
text-to-image
千问2.0Pro-文生图
阿里巴巴通义千问团队开发的专业级文生图模型,支持根据文字描述生成高质量图像。在文字渲染、真实质感和语义遵循能力方面表现卓越,擅长复杂中英文文本渲染、多行布局和段落级文本生成,可直出专业PPT、海报和信息图。输出分辨率高达2K(2048×2048),支持1-6张批量输出,适合海报设计、商业视觉素材创作和高品质内容制作。
image-to-video
海螺-2.3-图生视频-pro
Hailuo 2.3 Pro 是 MiniMax 视频生成技术的旗舰之作,专为追求极致视觉品质的创作者与专业工作室打造。该模型能将静态图像转化为原生 1080p 全高清电影级视频,无需后期放大即可在大型屏幕上呈现惊人的清晰度与细节。其核心突破在于将新一代运动渲染与精确的物理模拟相结合,无论是光影的细微偏移、织物的有机流动,还是复杂的空间深度过渡,都能表现得自然且真实。仅需 5 秒即可产出具有高度色彩一致性与构图稳定性的专业影像,是数字叙事与高端广告创作的终极工具。
video-to-audio
分离音频
分离音频
image-to-video
万相2.2-首尾帧生视频
Wan 2.2 是一款专为打造电影级画质而生的图生视频大模型。它能够输出极其清晰、可直接用于最终交付的专业级视频。除了基础的图生视频,它还具备强大的“首尾帧插值”功能,让画面过渡平滑自然,完美契合科幻场景与精细的影视制作。搭配极简的参数工作流与负向提示词支持,创作者可以轻松剔除多余元素,实现对视频内容的高效、精准控制。
image-to-video
全能视频S-图生视频-pro-官方稳定版
它能够将单张静态图像精准转化为具备原生音画同步的高保真视频。该模型核心优势在于极致的“身份锁定”与“物理感知”,能完美保留原图的人物特征、光影布局与材质纹理。通过对 3D 结构的智能推理,它能实现真实的视差深度与平滑的背景扩展,彻底解决传统模型在运镜时的扭曲问题。作为专业版,它支持最高 1080p 级别的超清分辨率及长达 20 秒的输出,配合强大的提示词可控性,让创作者能以导演视角精准定义每一个物理动效与声效,是目前最接近真实电影工业水准的图生视频工具。本接口采用官方原生 API 协议,该协议目前未开放对 Web/App 端个人角色库(Cameo)的访问,暂不支持通过 @ 语法引用角色。官方稳定版,稳定高效,价格低于直接模型官方。
text-to-audio
minimax/speech-2.6-turbo
一款专为极速响应与高性价比设计的“性能级”语音模型。它在 Speech 02 的基础上实现了多语种能力的跨越式升级,支持包括保加利亚语、马来语在内的 40 多种全球语言,且发音韵律更加精准。作为针对语音聊天和数字人场景深度优化的极速版本,它不仅能提供清晰自然的吐字,更具备领先的实时流式输出能力。无论是跨语种口音的复刻,还是特定年龄段音色的拟真,2.6 Turbo 都能以极低延迟为全球化业务提供丝滑的互动体验。
audio-to-video
可灵对口型-人脸识别
可灵推出的专为人脸特征提取与身份一致性保持设计的底层模型。可对视频进行人脸检测,返回视频中的人脸数据(人脸ID、人脸截图URL、可对口型时间区间),以及会话ID,用于后续对口型视频生成中的身份锁定。
image-to-video
海螺-02-图生视频-标准
海螺 AI 推出的一款卓越图生视频模型,依托于 MiniMax 持续进化的技术架构。该模型专注于将静态图像转化为原生 768p 的高清动态影像,无需二次放大即可呈现锐利画质。其核心优势在于对复杂动作与混乱物理场景的强大掌控力,无论是细碎的残骸飞溅、织物的自然摆动,还是极具冲击力的撞击与手持摄影的随机抖动,都能展现出极高的真实感。凭借出色的提示词响应能力和流畅的镜头连续性,它能够精准执行复杂的构图指令,同时大幅减少画面伪影,是动作影像创作的理想选择。
image-to-video
全能视频V3.1-pro-图生视频-低价渠道版
专为极致的高画质与叙事控制而设计。该模型支持生成最高 4K 分辨率的精美视频。其核心优势在于强大的主体一致性与原生音效生成能力,能够精准复刻原图的材质与光影,并同步合成逼真的环境音。此外,它还引入了首尾帧引导与视频扩展功能,让长达 8 秒的镜头呈现出导演级的转场与空间稳定性。低价渠道版,价格远低于官方稳定版,不稳定。
text-to-image
万相2.7-文生图Pro
万相2.7文生图Pro是阿里巴巴推出的专业级文生图模型,支持最高4K超高分辨率输出,配合内置思考模式深度理解创意意图,为印刷品、大幅面展示、时尚画册等高端制作场景提供极致细节和画质表现。
image-to-video
海螺-2.3-fast-图生视频
MiniMax 推出的最新一代高效率视频生成模型。作为该系列的极速版本,它在保持画面稳定、细节清晰及光影平衡的基础上,将生成速度提升了 30% 至 50%,最高可达标准版模型速度的两倍。该模型专为快节奏内容创作而设计,能以更低的成本实现大规模内容产出、预览及方案迭代。它内置了安全检测与提示词自动增强功能,并支持 768p 分辨率下的 6 秒或 10 秒灵活时长输出。对于在保障电影级质感的同时,对创作周转率有极高要求的专业创作者而言,Hailuo 2.3 Fast 是理想的效能工具。
video-tools
火山字幕擦除-视频字幕擦除(精细化版)
自动将视频上传至火山视频点播后执行精细化字幕擦除,输出擦除字幕后的视频。
image-to-video
海螺-02-图生视频-pro
Hailuo 02 (I2V Pro) 是 AI 视频生成领域的突破性之作,专为追求电影级写实感与物理精确性的创作者打造。该模型支持原生 1080P 全高清输出,无需后期放大即可确保每一帧画面的纯净质感与细腻纹理。通过大幅提升的运动与物理仿真技术,它能精准捕捉从微观粒子飞舞到宏大光影过渡的每一个动态细节。依托 5 秒时长的灵活创作机制与智能镜头转场技术,Hailuo 02 实现了极高的生成一致性与指令遵循力,能够将静态图像完美转化为极具沉浸感的专业影像片段。
text-to-image
万相2.5 Preview 文生图
万相2.5 Preview 文生图是阿里通义万相系列的文本生成图像模型。支持通过自然语言描述生成高质量图像,提供5种标准画幅比例(1:1/3:4/4:3/9:16/16:9),支持批量生成最多4张图片、智能提示词改写和反向提示词控制,适用于创意设计、内容配图、社交媒体素材等场景。
motion-control
可灵动作控制V3.0-pro
可灵V3.0系列的动作控制专业版本,在Std基础上实现画质与动作精度的全面跃升。通过上传角色图片与驱动视频,即可让图片中的角色精准复现视频中的舞蹈、手势或运动轨迹,并在角色细节保持、动作流畅度和物理真实感方面显著增强。支持1080p高分辨率输出,精确还原服装纹理、面部表情和复杂手势。双模式支持(图片模式10秒/视频模式30秒)配合音频保留功能,可直接生成声画同步的完整视频。适合需要电影级质感的专业制作、高端商业广告和IP角色动画。
video-edit
kling-video-o3-std/video-edit
基于自然语言指令的专业级视频编辑工具。它专注于实现 3-15 秒视频的局部化转换,能够精准执行移除或替换物体、更换背景、重塑场景风格以及动态调整天气与光影等复杂任务。依托强大的强时空一致性算法,该模型确保了编辑后的画面在动态序列中依然自然流畅。
image-to-video
万相2.6-图生视频
通义万相2.6图生视频模型是一款先进的图像到视频生成工具,用户只需提供一张静态图像和一段文本提示,即可生成5至15秒的电影感短视频。模型以输入图像为视觉锚点,智能解析提示内容,在保留人物身份、服装及场景风格一致性的基础上,实现自然流畅的动态演绎。支持多镜头叙事功能——开启后可自动将单一创意拆解为多个连贯镜头,并确保关键元素跨镜头统一。输出分辨率最高达1080p,提供720p/1080p等多档画质选择,适配社交媒体、广告预演、创意短片等多样化应用场景。
text-to-image
全能图片V1-文生图-官方稳定版
一款轻量级且功能强大的 AI 图像生成模型。它专为寻求快速、高质量视觉效果的创作者设计,只需简单的文字提示,即可在数秒内将创意转化为富有表现力、清晰逼真的图像。该模型具备卓越的构图能力和广泛的风格适应性(写实、插画、动漫及绘画等),能精准理解文本语境中的主体与背景关系,呈现自然平衡的光影效果。其快速高效的特性非常适合快速原型制作和社交媒体内容创作。官方稳定版,稳定高效,价格低于直接模型官方。
image-to-video
海螺-2.3-fast-pro-图生视频
MiniMax 视频生成家族中的高性能旗舰,专为追求极致效率与 1080p 全高清画质的创作者设计。作为极速专业版,它在保持画面高度稳定、细节锐利及光影均衡的同时,生成速度较标准模型提升了 30% 至 50%,最高可实现两倍速产出。该模型特别适用于高强度的批量内容创作与快速方案迭代,大幅降低了创作成本。凭借内置的提示词自动增强与安全检测机制,Fast Pro 能够在保障合规性的前提下,稳定输出 6 秒时长的电影级影像,完美平衡了“快”与“精”的双重需求。
image-to-video
万相2.6-参考生视频
万相2.6-参考生视频是阿里通义万相2.6系列的参考生视频模型,支持多模态输入(文本/图像/视频)。支持720P/1080P分辨率。模型可基于参考图像或视频还原角色形象,支持单人表演或多角色互动,同时具备多镜头智能调度能力。
text-to-image
全能图片PRO-文生图Ultra-官方稳定版
原生 4K/8K 级工业素材。它不仅能理解复杂的艺术风格,更支持通过自然语言对画面进行深度语境编辑。最引人注目的是其多语言文字渲染能力,能够自动翻译并完美排版图片内的文字。配合专业的摄影机视角、焦距及景深控制,它能确保在不同画幅下维持角色与品牌风格的高度一致,是社交媒体、广告创意及专业排版领域的全能型解决方案。官方稳定版,稳定高效,价格低于直接模型官方。
image-to-video
悠船图生视频
悠船的视频能力专注于捕捉静止艺术中的“灵魂瞬间”。它支持以单张图片作为起点,或通过“首尾双帧”设定精确的运动轨迹,在 5 秒的黄金时间内输出极具质感的动态序列。该功能提供 480p 与 720p 两种画质选择,确保了从微观的光影流转到宏大的镜头位移都能保持原图的顶级审美。无论是追求细腻的氛围渲染,还是富有冲击力的视觉转换,它都能在极短的时间内实现美学与动效的完美融合。
video-tools
PixVerse V6 转场
PixVerse V6 转场可在起始图片与终止图片之间生成流畅的 AI 视频过渡。描述变换过程,模型将生成自然连贯的转场片段,支持风格控制、多机位切换和同步音频,适合社交媒体、广告创意与影视制作。
text-to-video
可灵文生视频3.0-pro
快手视频生成技术的顶峰之作,专为追求极致视觉艺术与工业级精度的专业创作而设计。作为 Pro 级别型号,它在 Standard 版本的基础上实现了画质保真度与运动平滑度的跨越式质变,能够精准捕捉复杂的物理动态与微小的光影变幻,呈现出真正的电影级大片质感。该模型深度集成了声画一体化能力,支持同步音效生成与双角色自定义配音。配合负向提示词精准规避与 CFG 引导系数的深度控制,V3.0 Pro 赋予了创作者前所未有的掌控力,让文字瞬间转化为具备生产力价值的高端视觉杰作。
image-to-video
海螺-02-标准
MiniMax 技术框架下的全能型视频生成模型,支持纯文本生成(T2V)与图像引导生成(I2V)双模式切换。该模型提供原生 768p 的高清画质,确保每一帧画面都清晰锐利而非后期放大。其核心优势在于强大的物理仿真能力,能够自然地模拟碎屑飞溅、织物摆动及水流动态,并配合逼真的手持摄像机抖动增强代入感。凭借极高的指令遵循度与出色的时间轴稳定性,它可输出 6 秒或 10 秒的连贯片段,是快速迭代创意与打造高一致性影像的理想选择。
reference-to-video
Vidu-参考生视频-q2-pro
在“参考生视频”领域实现了跨越式进化,不仅支持 1-7 张图像参考,更突破性地支持 1-2 个视频片段作为参考源。该模型主打“AI 演技”,能在保持角色细节、服饰和场景高度一致的同时,精准捕捉细腻的微表情。它支持 1080P 高清输出,并具备强大的视频编辑与替换能力,是专业视频创作者追求“素材可控性”的终极利器。
audio-to-video
可灵对口型-视频生成
可灵AI对口型视频生成模型,基于输入的人物识别结果视频与音频,实现人物口型与声音内容的帧级同步。支持真实人物、3D及2D动画角色,可处理本地音频上传或在线合成配音。采用音频对齐插帧策略,确保发音难度较高的音节也能准确还原口型状态,生成时长支持延伸至分钟级。
text-to-video
ltx-2.3/text-to-video
Lightricks 2026年3月发布的开源文生视频基础模型。全新4倍大文本连接器显著提升复杂提示词的理解精度,多主体、空间关系和风格指令的还原准确度大幅改善。重制的VAE带来更锐利的细节表现,升级的声码器实现更清晰的同步音效生成。支持1080p原生竖屏与横屏双画幅,24/48fps多帧率可选,5-20秒时长内一次性输出完整音画内容,无需后期配音即可直接交付。
image-to-video
可灵图生视频v3-4k
Kling V3.0 4K 是快手推出的4K图生视频模型,用户上传参考图像并描述动作,可生成具有卓越细节的电影级视频。支持首尾帧控制来定义运动轨迹,具备物理感知运动(流体、布料、毛发等自然行为)。提供3至15秒时长及同步音效选项。
text-to-video
seedance-v1.5-pro-text-to-video-fast
专为工业级生产设计的极速文生视频模型。它致力于将自然语言指令快速转化为具备电影质感的短片,特别强调对主体、动作、环境及光影的高保真还原。该模型在保持稳定美学表现的同时,能够呈现极具感染力的动态效果,并支持原生音频合成与精确的随机种子控制。无论是社交媒体短视频还是广告创意初稿,它都能提供多比例适配的高效迭代方案,是追求“即时创意”的专业首选。
image-to-video
全能视频V3.1-pro-图生视频-官方稳定版
最新的图生视频模型,致力于将静态图像转化为充满电影感的动态序列。该模型支持从单张图片生成视频,或通过起始帧与结束帧进行流畅的插值过渡(Morphing)。它不仅能精准还原图像的风格与构图,还能生成逼真的运镜、自然的光影变化以及同步的原生音频。支持从 720p 到 4K 的高分辨率输出及多种画幅,是故事板制作、概念动画和场景开发的理想工具。官方稳定版,稳定高效,价格低于直接模型官方。
image-to-video
Vidu-首尾帧生视频-q3-turbo
主打高效生产的轨迹受控生成模型。它支持 16 秒声画同步直出,通过定义起始与结束帧,赋予了创作者“手术刀级”的剪辑能力。该型号在保持 Vidu Q3 系列电影级质感的同时,极大优化了生成速度,能够流畅补全两点间的动作演变路径。无论是快速的场景流转还是连贯的人物动作,它都能以工业级的响应效率实现逻辑严密的叙事闭环,并确保毫秒级的口型与音效对齐。
text-to-image
悠船文生图-v61
V6.1 是对 V6 架构的精细化重构,主要提升了图像的清晰度和处理速度。它在保持 V6 强大语义理解能力的基础上,显著减少了画面中的噪点,尤其在渲染微距摄影和极简主义设计时,表现出极高的纯净度和锐利感。
image-to-video
Vidu-首尾帧生视频-q2-pro-fast
一款专为时空过渡设计的智能视频生成模型。它能够精准识别起始帧与结束帧的关键元素,在保持人物主体、光影布局及场景构图高度一致的前提下,自动补全流畅的动态过程。凭借 Q2 Pro 的高质感基因与显著提升的生成效率,该模型能有效消除画面闪烁,完美呈现细腻的肢体动作与电影感运镜,是转场设计与叙事补全的效率利器。
text-to-image
全能图片X-高质量文生图-官方稳定版
全能图片X-高质量文生图是一款面向专业创意生产的 AI 图片生成模型。它可以根据自然语言提示词生成高质量视觉作品,支持多种画幅比例、1k/2k 输出档位和一次最多 4 张候选图。模型适合概念设计、营销素材、产品视觉、社媒内容和商业创意探索,兼顾画面质感、生成效率与交付灵活性。官方稳定版,稳定高效,价格低于直接模型官方。
video-tools
全能视频S-角色上传-低价渠道版
根据视频创建对应的形象。低价渠道版,价格远低于官方稳定版,不稳定。
text-to-image
悠船文生图-v6
V6 是迈向“精准指令”的重要里程碑。它摒弃了冗余的提示词技巧,支持自然语言输入。V6 首次实现了在图像中准确嵌入长句短语,并建立了更为严肃、真实的写实风格审美基调,是商业摄影和写实创作的基石。
text-to-image
f-dev
120亿参数文本生成图像模型,采用修正流 Transformer 架构。通过引导蒸馏技术从FLUX.1-pro提炼而来,在保持接近旗舰模型质量的同时实现更高效率。支持文生图、图生图和局部重绘等多种生成模式,可输出最高 1536×1536 分辨率图像。模型具备出色的文本渲染能力和人体解剖结构准确性。
image-to-image
qwen-image/edit-2511
阿里巴巴通义千问团队发布的200亿参数图像编辑模型,基于MMDiT架构。相比2509版本,2511在人物一致性、多主体场景稳定性和编辑可控性方面实现显著提升。支持语义编辑与外观编辑双模式,内置社区热门LoRA能力,可执行换背景、风格转换、服饰修改等操作,同时保持面部结构与身份特征不变。
image-to-video
可灵图生视频o3-4k
可灵 O3 4K 图生视频将静态图像转化为充满动感的 4K 影院级视频。具备主体一致性保持、自然运动生成、物理动力学模拟与场景动态过渡能力。支持起止帧精确控制、可选同步音频,适合产品动画、品牌视频、社交媒体内容创作等高端图像驱动场景。
text-to-video
万相2.7-文生视频
万相2.7-文生视频(Wan 2.7 Text-to-Video)是先进的文本生成视频模型,能够将自然语言提示词转化为细节丰富、动态稳定且具电影质感的高质量视频。它具备强大的指令遵循能力,非常适合制作广告、解说视频和社交媒体内容。该接口支持720P与1080P分辨率以及多种灵活的宽高比,以适配不同的播放平台。此外,它支持引入音频驱动视频节奏,并提供负向提示词控制与可选的智能提示词扩展功能,为您提供精准且专业的视频创作体验。
text-to-image
f-2-dev/text-to-image
Black Forest Labs 最新推出的 320 亿参数开源文本生成图像模型。flux-2-dev是基于 FLUX.2 base模型的 32B 开源权重版本,是目前最强的开源图像生成与编辑模型,可在单一checkpoint 下同时完成文本生成图像和多输入图片编辑任务。该模型能够根据文本指令生成、编辑和组合图像,并且具有性价比优势。
text-to-video
全能视频X-文生视频-官方稳定版
纯文本到视频生成模型,能够仅凭文字描述从零构建动态世界。用户只需输入所需的场景、动作与视觉风格,模型即可生成具备逼真物理运动与细腻氛围感的电影级画面。该模型支持高度自定义,包括灵活的视频时长、16:9 或 9:16 等多种常见画幅,以及 480p 和 720p 的分辨率选项,全面赋能创作者将想象力转化为高质量的视频内容。官方稳定版,稳定高效,价格低于直接模型官方。
video-to-audio
分离音频-Other
通过 AI 音频分离技术,提取视频中的场景音、环境音或伴奏(Background / Instrumental),彻底消除人声。
text-to-video
可灵文生视频2.6-pro
快手推出的划时代视听大模型,首次实现了视频与音频的原生同步生成。不同于后期配音,该模型在生成画面时同步构建声场,确保镜头运动、人物动作与环境音效、对白完美契合。其具备“角色感知”技术,能根据画面主体匹配相应的音色与语调,并让环境音随镜头深度动态变化。无论是社交广告、短片预演还是产品演示,创作者只需一段脚本,即可一步到位产出包含配音、环境音与配乐的电影级片段,极大地提升了创作效率与沉浸感。
reference-to-video
seedance-v1-lite-reference-to-video
支持同时上传最多 4 张参考图。该模型能够精准提取不同人物、动物或物体的特征,并让它们在同一视频场景中根据指令产生自然的交互。凭借卓越的身份保持技术,生成内容能高度忠于原图的外观细节。配合内置的 AI 提示词增强器和精准的相机锁定功能,用户可以轻松创作出构图稳定、逻辑连贯的多角色叙事片段。无论是复杂的创意广告还是多主体动态演示,它都提供了一个高效且可复现的专业级方案。
text-to-video
可灵文生视频3.0-std
快手最新发布的顶尖文本生成视频模型,代表了 AI 视频创作的又一里程碑。相比前代 V2.6,V3.0 在运动质量与视觉保真度上实现了显著跃升,能够生成极具质感的电影级画面。其最具竞争力的创新在于支持同步音效生成以及多达两个席位的自定义角色配音,彻底解决了 AI 视频“无声”的痛点。配合负向提示词精准规避、CFG 引导系数微调以及多比例画幅支持,它为创作者提供了前所未有的自由度,让每一个创意都能以声画合一的完美姿态呈现。
text-to-audio
minimax/speech-2.6-hd
一款主打高自然度与超低延时的专业级语音模型。通过深度“归一化升级”,该模型实现了极其丝滑的发音韵律与清晰吐字,能够精准复刻不同年龄段的音色与地域口音。它在 40 多种全球语种(如马来语、希伯来语等)的相似度与准确性上较前代有显著飞跃,完美适配跨国会议与本地化营销。凭借其强大的实时流式输出能力,它能为交互式应用提供近乎零延迟的听觉体验,让 AI 沟通如同真人般流畅。
text-to-video
seedance2.0-Mini/文生视频
seedance 2.0 Mini 是 Seedance 2.0 系列中的高性价比档位,面向高频批量生产、低成本视频生成与大规模内容产出。原生仅支持 480p/720p 生成;1080p/2k/4k 会先以 720p 生成,再通过超分补帧输出。支持 4-15 秒有声视频、多画幅比例,能力与 Standard 一致但画质与稳定性低于 Standard。
text-to-video
万相2.6-文生视频
通义万相 2.6 是阿里巴巴通义实验室推出的专业级 AI 视频生成模型,核心定位为 “支持角色扮演 + 多镜头叙事的电影级视频生成工具”,赋能全场景创作。
升级点:对比前代 Wan 2.5,时长从 10 秒增至 15 秒,新增智能分镜,支持全景、特写等电影级运镜。
画质性能:输出 1080P/24fps 高清视频,写实人像质感提升,大幅削弱 “AI 感”,光影具专业审美。
适用场景:覆盖影视短剧、商业广告、虚拟角色互动,输入文本即可生成连贯叙事视频。
text-to-image
qwen-image/text-to-image-2512-lora
Qwen-Image-2512的LoRA定制版本,支持加载自定义适配器实现个性化风格。在保持基础模型真实感和文字能力的同时,可通过轻量级LoRA模块注入特定艺术风格、品牌视觉或角色形象。适合需要跨项目保持视觉一致性的品牌团队、IP内容开发者和风格探索者,让高质量生成与个性化需求完美结合。
video-edit
全能视频X-编辑视频-官方稳定版
一款创新的视频编辑模型,允许用户通过自然语言指令轻松改造现有视频。只需上传源视频并输入期望的风格或修改建议,模型即可在全视频范围内进行无缝的 AI 编辑。无论是将真实画面转换为动漫、卡通,还是赋予其电影般的质感,该模型都能在所有帧之间保持卓越的时空一致性,确保生成平滑、无闪烁的高质量画面,并提供 480p 与 720p 分辨率选项,让视频重塑变得直观且高效。官方稳定版,稳定高效,价格低于直接模型官方。
text-to-video
可灵文生视频o1
快手科技推出的统一多模态视频生成引擎,旨在为专业生产环境提供高稳定性与高性价比的创作解决方案。该模型依托先进的多模态视觉语言(MVL)技术,能够精准理解自然语言指令、视觉上下文及主体身份,确保生成的视频在运动连贯性、语义准确度及视觉一致性上达到工业级标准。它不仅支持文生视频,还集成了图生视频、视频编辑、镜头扩展等全流程创作能力,是平衡画质、速度与成本的理想生产力工具。
image-to-video
Vidu-首尾帧生视频-q3-pro
生数科技推出的旗舰级受控生成模型,代表了目前 AI 视频物理仿真与视觉保真度的巅峰。它支持 16 秒超长叙事直出,在处理首尾帧间极其复杂的演变逻辑(如光影剧变、物质形态转化)时表现出卓越的控制力。该模型深度集成了“导演级镜头思维”,能根据补全路径自动生成细腻的环境音与对白,实现端到端的专业视听盛宴。Pro 版本专注于极致的画质还原,是打造专业级广告和影视样片的理想之选。
text-to-image
f-2-klein-9b/text-to-image-lora
FLUX.2 Klein 9B的文生图LoRA定制版本,在90亿参数高质量生成基础上开放深度个性化能力。支持通过LoRA适配器注入特定艺术风格、品牌视觉语言或专属角色形象,实现创意意图与视觉美学的精准统一。亚秒级生成速度配合多参考图输入,为需要保持跨项目风格一致性的专业团队、IP内容开发者和高端商业品牌提供灵活的定制化解决方案。
text-to-audio
MiniMax Music 2.6
MiniMax Music 2.6 是一款专业的 AI 音乐生成模型,支持通过文本描述和歌词创作完整歌曲。模型理解风格、情绪、场景等多维描述,能够生成旋律流畅、人声自然的高质量音乐作品。支持多种结构标签(Verse、Chorus、Bridge 等)精确控制歌曲结构,适合内容创作者和音乐爱好者快速制作原创音乐。
text-to-video
ltx-2.3/text-to-video-lora
面向专业创作者和品牌的文生视频LoRA定制版本,在LTX-2.3强大文本理解基础上开放深度个性化能力。支持最多三个LoRA适配器同时工作,可将特定视觉风格、标志性角色或专属运镜手法固化到生成流程中。通过"文本描述+LoRA风格"的双驱动模式,实现创意意图与品牌视觉的精准统一。适合需要保持视觉一致性的系列内容生产、跨项目角色运营和风格化广告战役,让文本驱动的视频生成真正服务于品牌资产积累。
text-to-video
PixVerse V6 文生视频
PixVerse V6 文生视频是 PixVerse 最新一代文生视频模型,支持 360p 至 1080p 四档分辨率、1-15 秒灵活时长与八种画幅比例。内置 Thinking 推理模式可优化复杂场景描述,可选同步音频生成,输出高保真、运动自然、光影精准的电影级视频。
text-to-image
悠船文生图-niji6
专为二次元审美定制的大规模模型,深度融合了日式动漫画风与插画技巧。它对光影的二次元处理(如丁达尔效应、赛璐璐风格)具有极强的表现力,不仅能处理简单的立绘,更能构建宏大的动漫叙事场景。
image-to-image
qwen-image/edit-2511-lora
Qwen-Image-Edit-2511的LoRA推理版本,支持加载自定义LoRA适配器进行个性化编辑。在继承基础模型200亿参数架构与人物一致性的基础上,可通过自定义LoRA注入特定风格、角色或视觉概念。支持最多三模块叠加,实现风格组合与精细控制,同时保持双语文字渲染能力。
text-to-video
Vidu-文生视频-q2
Vidu 是一款专为创作者打造的顶尖 AI 文生视频工具。它能够将简单的文字指令转化为 720p 高清电影级画面,具备极佳的动态光影效果与自然摄像机运镜。Vidu 的核心优势在于极高的“时空一致性”,有效解决了视频生成中的闪烁与变形问题。无论是细腻的人物神态还是复杂的动作序列,它都能精准捕捉语义,呈现出富有表现力的视觉叙事。它不仅是一个生成器,更是将创意灵感瞬间转化为专业影像的数字导演。
image-to-3D
混元图生3D模型v3.1
目前业界领先的工业级图像转三维模型工具。该版本最大的突破在于支持 8 视图同步输入,通过覆盖顶视、底视及多角度侧视,彻底消除了生成过程中的视觉盲区,实现了对复杂、非对称物体近乎完美的几何还原。配合 1536³ 的超高清分辨率,它能够精准复刻原图中的纹理细节与材质光泽。无论是为电商打造高精度商品模型,还是为游戏开发快速构建 3D 资产,其卓越的多视角一致性算法都能确保模型在任何角度下都经得起专业审视。
image-to-video
全能视频V3.1-pro-参考生视频-官方稳定版
专为高保真视觉转换设计。它能将最多三张静态参考图转化为生动的 8 秒电影级视频,支持 720p/1080p/4k 分辨率。该模型的核心优势在于卓越的视觉一致性,能精准保持角色、物体及光影在运动中的统一,并自动生成同步的原生音频,实现从静态图像到动态叙事的完美跃迁。官方稳定版,稳定高效,价格低于直接模型官方。
text-to-lyrics
suno-歌词生成
用户输入主题提示词描述想要的歌词主题,模型自动生成符合歌曲结构的纯文本歌词(含 Verse/Chorus 标签)、歌名以及风格标签。适合歌词草稿快速生成、创作灵感激发等场景。配合自定义模式使用可快速进行二次创作,生成音频。
video-tools
RH视频帧率增强
AI 视频帧率增强模型,通过智能帧间插值技术将视频帧率倍增,有效消除画面卡顿和抖动,生成流畅自然的运动过渡。适用于慢动作特效、低帧率修复、动画平滑等多种场景,仅需上传视频即可一键处理。
text-to-video
可灵文生视频o3-std
快手 O3 家族的高阶成员,代表了文生视频技术的又一次跨越。它在视觉精细度与动态真实感上全面超越了之前的 V3.0 系列,能够生成具有呼吸感的电影级画面。模型支持 3 至 15 秒的跨度,允许创作者精准把控叙事节奏。结合可选的同步音效与多画幅适配(16:9, 9:16, 1:1),它在保证顶级品质的同时,实现了极高的性价比,是构建高品质视觉叙事的专业利器。
text-to-video
可灵文生视频o3-pro
快手旗下最强悍的文生视频模型,核心搭载了革命性的 MVL(多模态视觉语言)技术。它将 AI 视频从单纯的像素堆砌提升到了电影级叙事的高度,不仅能实现极具生命力的自然物理模拟,更在长达 15 秒的镜头中保持极高的人物与环境主体一致性。该模型具备极其精准的语义理解力,支持从 16:9 到 9:16 的全比例画幅控制。配合可选的同步音效生成,O3 Pro 为专业创作者提供了目前 Kling 家族中视觉保真度与运动真实感的巅峰体验。
motion-control
kling-v2.6-pro-动作控制
快手推出的顶尖动作迁移(Motion Transfer)模型,专为将动态灵魂注入静态图像而设计。该模型能够精准提取 3 至 30 秒参考视频中的复杂位移、姿态及肢体轨迹,并将其丝滑地应用到目标角色上,同时确保角色身份(Identity)与时空逻辑的高度一致。它支持灵活的构图控制(图像比例优先或视频构图优先),并允许保留原视频音效。配合提示词引导功能,创作者可以在维持动作核心的同时,对场景光影、材质及氛围进行深度重塑,实现从“静态立绘”到“高精度动态表演”的质变。
image-to-image
f-2-klein-4b/edit-lora
基于FLUX.2 Klein 4B的图像编辑LoRA版本,专为需要保持原图结构同时进行风格改造的用户设计。支持单参考图与多参考图编辑工作流,通过LoRA适配器注入特定艺术风格或品牌视觉,在亚秒级速度内完成精准编辑。适合电商产品图批量风格化、品牌素材快速迭代和创意概念探索,实现"原图结构+定制风格"的灵活组合。
text-to-video
全能视频V3.1-Lite首尾帧生视频-官方稳定版
全能视频V3.1-Lite首尾帧生视频通过在起始帧和结束帧之间生成自然过渡,创建流畅的电影级视频。支持季节变换、场景切换和时间流逝等创意效果,输出720p或1080p高清视频并原生生成音频,适用于社交媒体、营销广告和创意叙事等场景。
text-to-image
f-dev-lora
在 FLUX.1-dev基础上集成 LoRA 支持的版本,允许用户通过预训练适配器实现个性化生成而无需重新训练全部 120 亿参数。支持多 LoRA 权重叠加使用,可快速切换不同风格、角色或品牌视觉。
reference-to-video
happyhorse-1.1/reference-to-video
HappyHorse 1.1 多参考图生视频(R2V):基于多张参考图与文本提示词,生成与参考风格一致、运动连贯的短视频。支持 720P/1080P、多种画幅与 3–15 秒时长,适合「多图叙事」、分镜级创意与角色/场景一致的动态内容。
text-to-video
海螺-2.3-文生视频-标准
MiniMax 推出的新一代 AI 视频生成模型,代表了当前文生视频领域的顶尖水准。该模型以先进的物理渲染技术为核心,能够精准模拟水流、碎屑及摄像机抖动等复杂动态,确保画面符合物理规律。其独特的电影级转场技术,实现了镜头间如行云流水般的自然过渡,消除了视觉上的突兀感。凭借极高的生成一致性与可重复性,它为专业创作者提供了精准的创意掌控力。在保障 6 至 10 秒高清输出质感的同时,Hailuo 2.3 以极具竞争力的成本优势,打破了高端影像创作的门槛,是影视预演与品牌广告的理想工具。
image-to-image
f-kontext-dev-lora
专为开发者、研究人员和高级用户打造的开源图像编辑模型,支持 LoRA 适配器。Kontext 能够同时处理文本和图像输入,可通过自然语言指令对现有图像进行精确编辑,无需微调即可保持角色和物体在多轮修改中的一致性。支持风格迁移、背景替换、局部重绘等操作。
text-to-video
全能视频V3.1-pro-文生视频-官方稳定版
旗舰级文生视频模型,旨在通过文本重新定义电影级叙事。该模型能生成高达 4k 的高保真视频,并具备行业领先的原生音频同步能力,支持环境音效、配乐及角色对话(含精准口型)。结合角色一致性与视频插帧技术,Veo 3.1 能够精准控制光影、运镜与物体动态,提供 4s/6s/8s 多种时长及横竖屏选择,是目前最通用的生成式视频系统之一。官方稳定版,稳定高效,价格低于直接模型官方。
text-to-video
海螺-2.3-文生视频-pro
Hailuo 2.3 Pro 是 MiniMax 旗下的顶级文生视频模型,专为对电影感纪实、动态表现及视觉连贯性有极致要求的专业创作者打造。该模型能将文本指令直接转化为 1080p 超高清的 5 秒影像,将专业级的画面质感与尖端的物理模拟技术深度融合。其核心优势在于能够精准模拟物体动态、光影反射及复杂的镜头语言,并具备卓越的语义理解力,确保生成的画面高度遵循提示词描述。凭借对角色身份的一致性维护与电影级的调色深度,它已成为追求高保真数字叙事的首选工具。
text-to-music
suno-single-v5
用户输入一句话描述歌曲内容,模型自动生成两首完整歌曲。v5版本核心升级在于录音棚级别的音质——人声逼真度大幅提升,混音声场和乐器分离度达到专业水准,基本消除“电子机械味”。适用于高质量背景音乐制作、内容创作者配乐、快速Demo生成。
image-to-image
f-2-dev/edit-lora
FLUX.2 Dev编辑版本的LoRA定制模型,结合320亿参数高精度编辑能力与轻量级适配器灵活性。支持通过LoRA模块注入特定风格或品牌视觉,在保持多参考图一致性和4MP高分辨率的同时实现个性化编辑。适合需要批量处理产品图风格化、维护角色跨项目一致性、进行季节性营销活动素材更新的专业团队,提供"高精度+高效率+个性化"三位一体的编辑解决方案。
image-to-video
全能视频S-文生视频-pro-官方稳定版
它不仅是一个视觉生成器,更是一个深度集成了音频同步的“时空物理模拟器”。该模型基于初代架构实现质变,能够精准模拟动量、惯性和碰撞等物理法则,彻底消除视觉伪影。其独有的音画同步技术可实现完美的口型对齐与环境音渲染。通过对高频细节的精细保留和复杂场景推理,能在 20 秒的长镜头中维持极高的主体一致性。支持 720p/1080p 级横竖屏输出及多档时长选择,赋予专业创作者前所未有的导演级操控力。本接口采用官方原生 API 协议,该协议目前未开放对 Web/App 端个人角色库(Cameo)的访问,暂不支持通过 @ 语法引用角色。官方稳定版,稳定高效,价格低于直接模型官方。
image-to-image
wan-2.2/image-to-image
Wan-2.2系列中的图像到图像转换模型,基于140亿参数MoE架构实现高质量图像重绘与风格迁移。支持通过文本提示词精确控制生成结果,在保持输入图像结构信息的同时,实现画质增强、风格转换、元素替换等多种创意效果。采用双专家协同机制,确保输出图像在细节丰富度与语义一致性之间达到最佳平衡,为设计师提供高效的视觉迭代工具。
image-to-video
万相2.5 Preview 图生视频
万相2.5 Preview 图生视频是阿里通义万相系列的图像驱动视频生成模型。通过输入一张图片,结合可选的文本提示词和音频,生成最高1080P的流畅动态视频。支持5或10秒可控时长与多种分辨率,视频画幅比自动匹配输入图片,适用于图像动画化、创意短视频等场景。
text-to-music
suno-custom-v4.5
用户输入自定义歌曲标题、歌词和风格标签,模型按指令生成两首备选歌曲音频。v4.5的核心升级是将最大歌曲时长延长至8分钟,适用长篇叙事音乐、影视配乐、需要较长时长的创作项目,性价比高。
text-to-video
全能视频V3.1-fast-视频扩展-官方稳定版
专为高效迭代设计的视频续写模型。它在保持标准版核心能力的基础上,重点优化了生成速度与低延迟性能。该模型能基于现有的 Veo 视频无缝追加 7 秒 的新内容,并自动合并为单一文件。它同样支持高达 20 次的连续扩展(最长 148 秒),非常适合快速验证剧情走向、制作多版本广告创意或在紧迫的制作周期中快速响应修改需求。官方稳定版,稳定高效,价格低于直接模型官方。
image-to-image
f-2-dev/edit
FLUX.2 Dev的图像编辑专用版本,基于320亿参数架构实现高精度的提示词驱动编辑。支持单参考图和多参考图编辑工作流,可在保持角色核心身份、产品几何结构和材质纹理的同时,精准执行服装更换、色彩调整、姿态微调和元素替换。4MP分辨率输出配合专业级控制能力,为游戏、电商产品变体和营销素材迭代提供生产级解决方案。
text-to-video
全能视频V3.1-fast-文生视频-官方稳定版
专为高效创作打造的高速、低成本视频生成模型。它能在保持 4k 电影级画质、自然动态和逼真光影的前提下,以比标准版快 30% 的速度将文本转化为视频。该模型的一大突破是原生音频同步生成,不仅包含环境音效,还支持角色对话与口型同步(Lip-Sync),确保视觉与听觉的完美统一。这使其成为短视频营销、快速叙事和高频内容生产的首选工具。官方稳定版,稳定高效,价格低于直接模型官方。
video-to-video
万相 2.2 角色动作迁移
基于 Wan2_2-Animate-14B 模型,提供视频角色动作迁移能力。上传单张人物图片与目标动作视频,即可将视频中人物替换为图片人物形象,完整保留原视频动作、场景与时长。视频最长支持 30 秒,适用于单人角色的动作复刻与角色替换场景。
text-to-video
全能视频V3.1-Lite文生视频-官方稳定版
全能视频V3.1-Lite文生视频是新推出的高效文生视频模型轻量版,能够从文本描述生成高质量720p或1080p视频,支持原生音频生成与唇形同步。具备多种画幅比例、反向提示词控制和可调时长,以极具竞争力的价格适用于创意内容制作、社交媒体和营销广告等场景。
text-to-image
wan-2.2/text-to-image-lora
Wan-2.2生态中的文生图LoRA定制版本,支持通过自定义适配器实现个性化图像生成。在保持MoE架构高效推理的基础上,允许用户注入特定艺术风格、品牌视觉语言或专属角色形象,实现文本描述与个性化美学的精准结合。支持多LoRA模块叠加使用,为需要快速迭代视觉概念、保持跨项目风格一致性的创意团队提供灵活的定制化解决方案。
text-to-video
万相2.2-文生视频
基于Wan-2.2架构的图生视频模型,支持上传首尾帧图片生成5秒或8秒动态视频,支持多种分辨率输出。采用MoE双专家系统(高噪声专家处理结构布局、低噪声专家优化细节),在保持输入图像主体特征、光影和构图的同时,生成自然流畅的摄像机运动与物体动态。特别适合人像照片动态化、产品展示动画和创意概念可视化,单张图片即可启动专业级视频叙事。
reference-to-video
全能视频V3.1-fast-参考生视频-官方稳定版
全能视频V3.1-Fast 参考生视频是一款面向高效创意生产的参考图驱动视频模型。它支持使用 1-3 张参考图锁定主体、商品或视觉风格,并结合提示词生成固定8秒MP4 视频。模型适合产品动效、角色一致性短片、品牌视觉素材和社媒广告创意,兼顾生成速度、画面稳定性与商业化落地效率。官方稳定版,稳定高效,价格低于直接模型官方。
text-to-video
可灵文生视频2.5-turbo-std
Kling 2.5 Turbo std 是一款高性能文生视频模型,能从文本提示生成流畅、电影感十足的动态视频。模型在高速运动下仍保持高稳定性,显著减少抖动、撕裂或掉帧等伪影。通过优化推理流程,生成速度更快,同时不牺牲画质。增强的风格控制机制能精准保留色彩、光影、笔触与氛围,在激烈动态中也确保画面风格高度一致,适用于广告、短剧、创意预演等对质量与时效要求高的场景。
video-extend
全能视频X-视频续写-官方稳定版
全能视频X-视频续写是一款用于延展原始视频镜头的视频模型。它可以基于已有短视频内容继续生成后续画面,并自动将新增内容与原视频顺滑拼接,适合短片续写、社媒内容延展、B-roll 补镜和创意片段扩展等场景,让已有视频更自然地延伸成完整叙事。官方稳定版,稳定高效,价格低于直接模型官方。
image-to-video
SkyReels V4 图生视频-std
SkyReels V4 图生视频(标准版)专注于提供商业级的静态图像动态化体验。依托更深度的推理演算,该模型在赋予图像生命力的同时,能够实现极其严苛的原图主体特征保持和细节极致还原。即使在处理大范围运镜和复杂的动态走势时,也能有效杜绝画面崩坏与形变失真。此接口专为追求极致画面的创作者打造,是最终高精度动画渲染、角色细节刻画和高品质视觉特效成片的理想选择。
image-to-video
周星驰
seedance 2.0 多模态视频生成,追求最高生成品质。支持多模态参考、视频编辑和视频续写,可组合文本、图片(最多9张)、视频(最多3段)、音频(最多3段)等多模态输入,生成 4-15 秒高质量视频。
audio-to-audio
Mureka-v9 伴奏生成
Mureka 伴奏生成(mureka-9):根据 prompt 或 instrumentalId 生成不带人声的伴奏,V9模型在混音与音频质量上有所提升,生成速度更快,且输出多样性增强,减少了内容重复问题。
image-to-3D
hitem3d-v2/image-to-3d
Hitem3D v1.5的架构升级版,采用改进的纹理合成管线,在几何保真度、纹理一致性和材质生成方面均有提升。针对全彩3D打印场景优化了色彩还原与表面质量。与v1.5共享相同的四档分辨率选项,但生成结果在结构细节和视觉真实感上更为出色。
text-to-music
suno-custom-v5
用户输入自定义歌词文本和风格标签,模型根据这些指令生成两首备选歌曲。v5版本强化了对复杂编曲指令的响应精度,能更准确地处理用户指定的乐器、节奏、情绪等细节。用户可迭代生成多个版本直到满意。
text-to-image
f-2-klein-9b/text-to-image
Black Forest Labs推出的90亿参数的极速文生图模型。Klein作为专业级 FLUX.2 的衍生系列,通过架构优化与蒸馏在保持接近顶级生成质量的同时,大幅降低硬件门槛和推理延迟。应用覆盖实时创意设计、社交媒体内容生成、快速 UI/UX 原型迭代、游戏美术预览、教育可视化等领域,尤其适合对低延迟和成本友好硬件有要求的交互型应用。
text-to-video
海螺-02-文生视频-标准
Hailuo 02 是由 MiniMax 推出的一款兼顾高品质与生产效率的 AI 文生视频模型。依托其不断进化的底层框架,该模型能够将纯文本指令精准转化为具有电影质感的 768p 高清影像。Hailuo 02 在物理规律的模拟上表现卓越,无论是碎屑飞溅、织物飘动还是水流动态,均能呈现极其自然的视觉反馈。此外,其强大的镜头一致性与低随机性特点,使得创作者能够以较低成本进行高质量的创意迭代。无论是 6 秒的快速构思还是 10 秒的精彩片段,它都是追求真实动态与稳定产出的理想选择。
text-to-image
f-2-dev/text-to-image-lora
FLUX.2 Dev的文生图LoRA定制版本,在320亿参数极致画质基础上支持深度个性化定制。通过LoRA适配器固化特定艺术风格、品牌视觉或角色形象,结合多参考图一致性保持能力,实现"高保真生成+个性化风格"的完美结合。适合需要保持品牌资产一致性、进行角色跨场景运营和高端定制化内容生产的创意团队与商业品牌。
reference-to-video
SkyReels V4 Omni 参考视频-fast
SkyReels V4 Omni 参考视频是天工 AI 推出的统一多模态视频生成模型。支持多主体、多视频、多模态参考输入,可实现主体替换、动作迁移、网格拼图驱动、视频续写等高级编辑场景。配合 @tag 引用机制,用脚本化提示词精准指导每一段视觉内容。1080p、最长 15 秒输出,是创意视频生产的强力工具。在保持多模态参考输入及基础视听同步能力的前提下,优化推理速度以缩短等待时长,适合预览或高时效需求场景。
text-to-video
可灵文生视频2.5-turbo-pro
Kling 2.5 Turbo Pro 是一款高性能文生视频模型,能从文本提示生成流畅、电影感十足的动态视频。其创新的文本-时序控制器可解析多步骤指令,将静态描述转化为连贯可控的叙事场景。模型在高速运动下仍保持高稳定性,显著减少抖动、撕裂或掉帧等伪影。通过优化推理流程,生成速度更快,同时不牺牲画质。增强的风格控制机制能精准保留色彩、光影、笔触与氛围,在激烈动态中也确保画面风格高度一致,适用于广告、短剧、创意预演等对质量与时效要求高的场景。
image-to-3D
hitem3d-v15/image-to-3d
数美万物推出的图像转3D通用模型,支持单张图片重建高分辨率3D模型。提供512³、1024³、1536³及1536³ Pro四种分辨率选项,其中Pro模式可获取更精细的几何结构。支持纯几何生成或几何+纹理一次性生成两种输出模式,适用于游戏开发、3D打印、影视制作等多场景。
text-to-3D
混元文生3D模型v3.1
面向生产力场景的超高清几何生成模型。其核心优势在于拥有 1536³ 的极致几何分辨率与 36 亿体素规模,彻底告别了早期模型常见的表面模糊问题。该版本引入了 PartGen 1.5 组件化生成技术,能够自动实现语义拆解(如车辆轮子可独立旋转),极大简化了下游的游戏绑定工作流。通过几何与纹理的深度解耦,模型在生成复杂结构(如机械零件或高精手办)时,展现出了工业级的结构精准度与材质还原力。
reference-to-video
SkyReels V4 Omni 参考视频-std
SkyReels V4 Omni 参考视频是天工 AI 推出的统一多模态视频生成模型。支持多主体、多视频、多模态参考输入,可实现主体替换、动作迁移、网格拼图驱动、视频续写等高级编辑场景。配合 @tag 引用机制,用脚本化提示词精准指导每一段视觉内容。1080p、最长 15 秒输出,是创意视频生产的强力工具。
text-to-video
海螺-02-pro
MiniMax 视频生成体系中的专业级旗舰模型,专为追求极致视觉品质与物理真实的创作者打造。该模型支持原生 1080p 超清输出,在色彩深度与微观纹理表现上远超标准版本。其核心突破在于增强的运动与物理引擎,能够精准还原碰撞、碎屑飞溅及织物形变等复杂动态,并显著减少画面闪烁与形变。无论是纯文本驱动还是图像引导(支持首尾帧控制),它都能以极高的指令遵循度实现丝滑的镜头连续性,是影视级创意落地的终极选择。
image-to-image
f-2-klein-4b/edit
FLUX.2 Klein 4B的图像编辑基础版本,统一架构支持文生图与图生图编辑任务。通过文本提示词精确控制编辑方向,在保持原图主体特征、光影和构图的同时实现风格迁移、元素替换和细节增强。4步蒸馏实现亚秒级响应,为设计师提供高效的视觉迭代工具。
text-to-video
happyhorse-1.1/text-to-video
HappyHorse 1.1 文生视频是阿里云百炼推出的 AI 视频生成模型,仅凭一段文本提示词即可输出富有戏剧性与电影质感的高动态视频。模型擅长理解复杂场景描写、情绪氛围与镜头语言,原生支持 720P/1080P、16:9~3:4 多种画幅,3~15 秒灵活时长,是创意短视频、广告分镜、社媒内容生产的高质量选择。
video-tools
可灵 o3 创建主体
可灵 o3 创建主体
image-to-video
SkyReels V4 图生视频-fast
SkyReels V4 图生视频(极速版)专为赋予静态图像生命力而生,具备卓越的图像特征解析与动态延展能力。该模型能够在视频生成过程中,实现高精度的原图主体特征保持和优异的画风一致性。即使在复杂的动作预测中,也能有效减少形变与画面崩坏。Fast 模式极大地加速了图像的推理与渲染过程,显著降低了试错成本,是原画动画化、角色动态演绎以及视觉特效快速预览的高效生产力工具。
text-to-video
海螺-02-文生视频-pro
MiniMax 打造的高端文生视频大模型,旨在将纯文本指令转化为具有 1080p 原生全高清质感的电影镜头。该模型专注于为创作者提供无需手动动画或脚本分镜的专业级视效,核心优势在于极其精准的指令遵循力与真实物理仿真。无论是复杂的织物动态、碰撞碎屑,还是细腻的手持摄像机抖动,它都能呈现出符合物理规律的自然运动。通过显著增强的时间一致性,它消除了画面闪烁与幻灯片感,以低随机性与高重现性,成为影视预演与高质量创意生产的可靠引擎。
text-to-video
可灵文生视频o3-4k
可灵 O3 4K 文生视频是快手最新一代 4K 文生视频模型,融合物理感知运动、高时序一致性与原生音频生成能力。支持 3-15 秒灵活时长、16:9/9:16/1:1 多画幅,可选同步音频。相比 V3.0 系列在物理拟真度和语义理解上有显著提升,适合复杂动作场景、剧情叙事和品牌叙事级视频创作。
text-to-image
f-2-klein-4b/text-to-image
FLUX.2 Klein家族的极速文生图基础模型,采用40亿参数流式Transformer架构,4步蒸馏实现亚秒级推理。Klein作为专业级 FLUX.2 的衍生系列,通过架构优化与蒸馏在保持接近顶级生成质量的同时,大幅降低硬件门槛和推理延迟。通过自然语言描述能够快速生成高质量图片,性价比极高。
image-to-3D
hitem3d-portrait-v21/multi-image-to-3d
数美万物推出的Portrait v2.1的多视图版本,支持2-4张人像照片输入。结合多视角信息与肖像专用架构,提升头部360度几何一致性和面部特征准确度。特别适用于需要精确还原特定人物肖像/形象定制的委托手办制作,通过多角度输入减少面部特征推断误差。
text-to-video
SkyReels V4 文生视频-std
SkyReels V4 文生视频(标准版)代表了该系列最高水准的生成画质与推理能力。通过更完整的计算步数,它能深度理解并严格遵循复杂的长文本指令,生成极具电影级质感、光影丰富、物理运动极其连贯的高清视频。此接口专为最终成片与商业级创作设计,在细节保真度、画面稳定性以及时空连贯性上表现卓越,是影视级高精度视频素材生成的首选方案。
image-to-video
kling-elements
快手可灵推出的服务于视频生成的元素锁定功能,支持同时锁定1-4个不同类别的视觉元素——包括人物角色、动物、物体道具和场景环境。上传参考图后,系统提取各元素的核心特征,在视频生成中严格保持其视觉身份,无论镜头如何运动、光线怎样变化,元素的外观始终统一。通过提示词指定"Figure 1/2/3"等标签控制元素间的交互关系,实现角色对话、动物表演、物品操作等复杂叙事。适合需要跨镜头保持多元素统一的AI短剧、虚拟IP运营、产品展示和创意叙事。
text-to-video
可灵文生视频v3-4k
可灵 V3.0 4K 文生视频是快手 Kling 系列旗舰文生视频模型,提供 4K 影院级画质生成。支持 3-15 秒灵活时长、16:9/9:16/1:1 多画幅,可选同步音频生成。具备负向提示精确控制、画幅切换灵活,适合高端营销、品牌广告、电影叙事等专业级视频创作。
image-to-3D
hitem3d-v2/multi-image-to-3d
基于v2.0架构的多视图重建版本,结合改进的纹理管线与多视角输入优势。在v1.5多图版基础上进一步提升了几何结构保真度和纹理表面一致性,特别优化了复杂物体在多视角下的材质连贯性。支持2-4张图片输入及全彩3D打印场景。
image-to-3D
hitem3d-portrait-v21/image-to-3d
数美万物推出的专为人物肖像生成优化的单图重建模型,基于v2.0通用架构升级。针对面部结构、头发丝级细节和睫毛等微结构进行专门训练,在高分辨率模式下可重建高精度人像几何。适用于数字人、手办、虚拟头像等需要高保真面部还原的场景。
text-to-image
f-krea-dev-lora
Black Forest Labs 与 Krea AI 合作开发的特别版本,基于 FLUX.1-dev架构针对美学质量进行调优。专注于消除 AI 图像常见的塑料质感、过饱和色彩和过度平滑纹理,输出具有胶片摄影感的自然光影和真实细节。支持完整 LoRA 生态,兼容 FLUX.1-dev的所有适配器,同时提供更具辨识度的美学风格,适合追求真实感和电影级视觉的商业创意项目 。
text-to-music
suno-single-v4.5
用户输入一句话描述歌曲(风格/情绪/场景),模型自动生成两首备选的完整音乐。v4.5相比前代显著扩展了支持的音乐风格种类,并能智能处理复杂风格混搭。声线表现更加饱满,情感表达范围从低语到高亢副歌都能覆盖。成本较低,适合批量生成。
text-to-video
SkyReels V4 文生视频-fast
SkyReels V4 文生视频(极速版)基于先进的多模态大模型架构,具备极深的文本语义理解力。它能够精准捕捉长文本提示词中的核心元素,将抽象的文字迅速转化为具备电影级质感、物理运动符合逻辑的动态画面。该 Fast 模式专为高频创意测试与快速迭代设计,在保证出色画面构图与运镜表现的同时,大幅缩减了生成等待时间,是创作者进行敏捷原型设计和灵感视觉化的绝佳引擎。
image-to-3D
hitem3d-v15/multi-image-to-3d
基于v1.5架构的多视图重建版本,支持输入2-4张同物体不同角度的图片生成3D模型。通过多视角信息融合提升360度几何一致性,解决单图重建中遮挡区域和背面结构的推断不确定性。提供与单图版相同的四档分辨率及两种生成模式选项。
text-to-video
全能视频V3.1-pro-视频扩展-官方稳定版
专为突破视频时长限制而设计,支持对现有的生成片段进行无缝续写。该模型并非简单的重新生成,而是基于原视频的视觉逻辑,精准追加 7 秒 的全新内容。它能确保扩展部分在风格、动作和构图上与原片完美融合,支持连续扩展多达 20 次,最终自动合并生成最长 148 秒 的单文件视频。这一功能极大地提升了叙事连贯性,是制作电影长镜头和社交媒体短视频的理想工具。官方稳定版,稳定高效,价格低于直接模型官方。
image-to-video
happyhorse-1.1/image-to-video
HappyHorse 1.1 图生视频是阿里云百炼推出的图像驱动视频生成模型。基于一张首帧图片,结合可选的文本提示词,即可生成画面延展自然、运动连贯的高动态视频。原生支持 720P/1080P 输出与 3-15 秒灵活时长,适合让静态海报、人物照片、产品图秒变富有故事感的短视频,常用于内容创作、社媒、电商广告等场景。
text-to-music
Mureka-v9 歌曲生成
Mureka 歌曲生成(mureka-9):根据歌词与可选的 prompt / vocalId / referenceId / melodyId 生成完整歌曲,异步任务,平台自动轮询 /v1/song/query/{task_id}。成功后返回 1~n 首歌曲的 mp3 URL。V9模型增强了文本控制精度,使生成结果更贴合创作意图,同时混音与音频质量提升,生成速度更快。
text-to-audio
MiniMax Music 翻唱
MiniMax Music Cover 专注于 AI 翻唱与歌曲风格重塑。通过输入原始歌曲和目标风格描述,模型可以在保留原曲旋律的基础上,改变人声音色、乐器配置、音乐风格和整体编曲。适用于翻唱创作、歌曲重混、风格迁移、音乐改编和创意音频制作等场景。
text-to-lyrics
Mureka 歌词生成
支持根据自然语言描述自动生成贴合主题的歌词,能够理解情绪与具体场景指令并同步返回标题(title)与歌词(lyrics),可直接灌入 song/generate 的 lyrics 字段。
image-to-3D
hitem3d-portrait-v15/multi-image-to-3d
Portrait v1.5的多视图版本,支持2-4张人像照片输入。通过多角度信息融合提升面部360度一致性和几何稳定性,解决单图肖像重建中侧面和背面结构的推断难题。适用于需要高一致性头部模型的创作场景,提供与单图版相同的分辨率选项。
image-to-3D
hitem3d-portrait-v15/image-to-3d
数美万物推出的首个肖像专用模型,基于v1.5通用架构开发。专为面部和胸像生成优化,提供与通用版相同的四档分辨率选项。针对人物头部结构进行专门训练,可生成带纹理的逼真面部模型,适用于数字人、雕塑、虚拟形象等场景。
image-to-3D
hitem3d-portrait-v20/image-to-3d
数美万物推出的第二代肖像专用单图重建模型,基于v2.0通用架构。针对人物头部和面部比例进行基础级重建优化,支持头发和面部细节生成。作为v2.1的前代版本,提供可靠的肖像生成能力,适用于头像、胸像等人物3D资产创作。
image-to-3D
hitem3d-portrait-v20/multi-image-to-3d
数美万物推出的第二代肖像 Portrait v2.0的多视图版本,支持2-4张人像照片输入。通过多视角信息补充提升头部几何完整性和面部特征准确度,适用于需要更稳定面部重建结果的场景。结合v2.0架构的多视角融合能力,为人物3D化提供更可靠的几何基础。
upload-file
Mureka 文件上传
Mureka 文件上传:将音频/MIDI 上传到 mureka 平台,得到可在歌曲生成、伴奏生成、短歌延长等接口中复用的 file id。后缀与 purpose 的对应关系会校验,10 MB 上限。
image-to-video
周星驰 fast
seedance 2.0 多模态视频生成,追求最高生成品质。支持多模态参考、视频编辑和视频续写,可组合文本、图片(最多9张)、视频(最多3段)、音频(最多3段)等多模态输入,生成 4-15 秒高质量视频。
text-to-video
万相2.5 Preview 文生视频
万相2.5 Preview 文生视频是阿里通义万相系列的视频生成模型。支持通过文本描述生成高质量视频,提供5或10秒可控时长与多种画幅比例,支持音频驱动生成和智能提示词改写,适用于短视频创作与内容创意制作。
text-to-music
Mureka-v7.6 歌曲生成
Mureka 歌曲生成(mureka-7.6):根据歌词与可选的 prompt / vocalId / referenceId / melodyId 生成完整歌曲,成功后返回 1~n 首歌曲的 mp3 URL,在文本到音乐的语义映射上更精准,响应速度优化,适用于高并发与实时创作场景。
audio-to-audio
Mureka 人声克隆
Mureka 人声克隆支持上传一段人声样本,同步返回可复用的 vocal ID,可在 song/generate 的 vocalId 中引用,实现指定音色的歌曲生成。
audio-to-audio
Mureka-v8 短歌延长
从指定时间点起按 lyrics 续写歌曲,对现有音乐片段进行智能延续与拓展,保持风格与情绪的一致性;mureka-8 支持 extend_type 选择头部 / 尾部延长。
text-to-music
Mureka-o2 歌曲生成
Mureka 歌曲生成(mureka-o2):根据歌词与可选的 prompt / referenceId 生成完整歌曲,异步任务,平台自动轮询 /v1/song/query/{task_id}。成功后返回 1~n 首歌曲的 mp3 URL。该模型强化动态编曲结构与空间声场,文本到音乐映射精度更高,音质更通透,适合对混音质量和空间感有较高要求的创作项目。
text-to-audio
Mureka-v8 伴奏生成
Mureka mureka-8 版本支持由人声反向生成伴奏。依托MusiCoT技术体系,在编曲层次与和声丰富度上表现突出,整体听感更接近专业发布级水准,根据 prompt 或 instrumentalId 生成不带人声的伴奏。
audio-to-audio
mureka-v7.6 短歌延长
从指定时间点起按 lyrics 续写歌曲,对现有音乐片段进行智能延续与拓展,保持风格与情绪的一致性; 仅支持尾部延长。
text-to-audio
MiniMax Music 翻唱前处理
对参考音频进行预处理,提取音频特征和歌词,用于两步翻唱流程。
text-to-audio
Mureka-v7.6 伴奏生成
Mureka mureka-7.6 版本支持从人声中分离并生成伴奏。基于MusiCoT架构优化,在音乐性与编曲能力上较前代提升,响应速度更快,适合实时生成与移动端部署场景。根据 prompt 或 instrumentalId 生成不带人声的伴奏。
text-to-music
Mureka-v8 歌曲生成
Mureka 歌曲生成(mureka-8):根据歌词与可选的 prompt / vocalId / referenceId / melodyId 生成完整歌曲,成功后返回 1~n 首歌曲的 mp3 URL。该模型支持完整歌曲生成,包括人声演唱,在旋律流畅性、人声表现力、编曲结构与情绪渲染四个维度达到行业顶尖,整体听感达到可发布水准。
加载中...