字节跳动提出OmniHuman多模态框架，一张图配上音频即可生成逼真视频

2025.02.06 19:11

钛媒体App 2月6日消息，字节跳动提出了一种名为OmniHuman的端到端多模态数字人视频生成框架，可基于一张图片和运动信号（如音频、视频或两者）生成视频。该框架混合数据训练策略，科技媒体TechSpot称它可能是目前最逼真的深度仿真算法。不过，该框架目前暂未向公众提供服务。(科创板日报)

本文内容仅供参考，不构成投资建议，请谨慎对待。

0 / 300

根据《网络安全法》实名制要求，请绑定手机号后发表评论

请登录后输入评论内容

投资日历