《Sora》介绍

2024-02-17 82 0

OpenAI的Sora是一种人工智能文生视频大模型,该模型于2024年2月15日(美国当地时间)正式对外发布。Sora不仅继承了DALL-E 3的画质和遵循指令能力,还能根据用户的文本提示创建逼真的视频。


image.png

Sora被OpenAI视为一种“世界模拟器”,因为它能够深度模拟真实物理世界,生成具有多个角色、包含特定运动的复杂场景。这种模型不仅能理解用户在提示中提出的要求,还了解这些物体在物理世界中的存在方式。

Sora采用了扩散模型的方式生成视频,它从一个看起来像静态噪声的视频开始,然后通过多步去除噪声来逐渐转换视频。与此同时,Sora与ChatGPT一样采用Transformer架构,并使用DALL-E 3中的重述技术,为视觉训练数据生成高精准描述性的字幕。这使得Sora在生成视频过程中能够精准还原用户的文本提示语义。

除了文本生成视频之外,Sora还能根据图像生成视频,并能准确地对图像内容进行动画处理。它也能提取视频中的元素,对其进行扩展或填充缺失的帧。此外,Sora可以创建长达60秒的视频,具有非常详细的场景、复杂的摄像机运动,以及充满活力的情感角色。它还可以在单个生成的视频中创建多个镜头,以准确保留角色和视觉风格。

对于需要制作视频的艺术家、电影制片人或学生来说,Sora无疑带来了无限可能。它是OpenAI“教AI理解和模拟运动中的物理世界”计划的其中一步,也标志着人工智能在理解真实世界场景并与之互动的能力方面实现了飞跃。

以上内容仅供参考,如需更多关于OpenAI Sora的详细信息,建议查阅OpenAI的官方网站或相关新闻报道。

免责声明:如发现本站有涉嫌抄袭侵权/违法违规的内容,请发送邮件至25538@qq.com举报,一经查实,本站将立刻删除。

发布评论

文章目录