开源的风,在上海继续呼啸。
这一次,依旧是本土初创大模型公司、位列大模型“六小强”之一的阶跃星辰。此次开源的是图生视频模型Step-Video-TI2V,支持生成102帧、5秒、540P分辨率的视频,具备运动幅度可控和镜头运动可控两大核心特点,同时天生具备一定的特效生成能力。
此次开源亦是一场“赴约”——在2025全球开发者先锋大会(GDC)上,阶跃星辰就“官宣”要在3月开源自主研发的图生视频模型,进一步推动多模态AI技术的开放生态。新民晚报记者了解到,这是最近一个月阶跃星辰开源的第三款多模态大模型;此前阶跃星辰开源了Step-Video-T2V文生视频模型和Step-Audio语音模型,两款均达到了State-of-the-Art级别(即在某一领域或任务中表现最佳的模型),阿里云、火山引擎、天数智芯、LiblibAI、TCL等生态厂商均快速接入。
开源图生视频模型,被视为阶跃星辰在多模态开源领域发挥生态影响力的又一动作。据介绍,此次开源的Step-Video-TI2V主要针对图生视频任务做了两大关键优化:其一是引入图像条件,提高一致性;其二则是引入运动幅度控制,赋予用户更高自由度。
Step-Video-TI2V主要针对图生视频任务做了两大关键优化。
阶跃星辰方面介绍,Step-Video-TI2V支持控制视频的“运动幅度”,平衡图生视频内容的运动性和稳定性。无论是静态稳定画面,还是高动态动作场景,都能满足创作者需求;除了对镜头内主体运动的控制,Step-Video-TI2V还支持对多种运镜的理解,从基本的推拉摇移、升降,到各种复杂的电影级运镜效果都能驾驭,生成大片级运镜效果。
此外,Step-Video-TI2V支持多种尺寸图生视频,无论是横屏的宽阔视野,竖屏的沉浸体验,还是方屏的经典复古,都能轻松驾驭。用户可以根据不同的创作需求和平台特性,自由选择图片尺寸,无需担心画面变形或比例失调的问题。
值得一提的是,Step-Video-TI2V在动漫类任务上的效果尤其优异,非常贴合动画创作、短视频制作等应用场景。
在VBench-I2V基准测试中,Step-Video-TI2V取得了State-of-the-Art级别的表现。
记者还获悉,该模型上线后已迅速与华为昇腾计算平台完成适配,并在VBench-I2V基准测试中,取得了State-of-the-Art级别的表现,综合性能问鼎榜首。