刘强东最恨的人是他？曾60亿身家一夜破产，如今京东彻底放弃他！

文章主题：Sora, AI视频, OpenAI, ChatGPT

本文来自微信公众号：字母榜（ID：wujicaijing），作者：赵晋杰，题图来自：视觉中国

Sora的横空出世，对张一鸣来说，亦喜亦忧。

🔥ChatGPT余热未消，AI巨擘OpenAI再掀高潮！🚀今日，他们以Sora视频生成模型的横空出世，再次让业内惊艳。💥这款创新力爆棚的产品，不仅打破了传统，更开启了视频创作的新纪元。🌟技术的进步，为艺术赋予了无限可能，Sora无疑是未来内容领域的领航者。💡探索无界，敬请期待OpenAI的下一次震撼！🏆

🌟【超长时稳定拍摄】🔥Sora不仅仅是一款打破常规的视频生成工具，它以卓越性能颠覆了传统观念——不再是短暂的10秒片段，而是长达60秒的细腻之作！👀每个镜头都精心设计，多角度切换，让你的视频内容丰富而层次分明。✨更重要的是，它能忠实地捕捉现实世界的每一个细节，带你领略近乎真实的视觉盛宴。🌍相比那些只能提供单一视角、画面模糊的竞争对手，Sora以高清还原力，为你的创作赋予了无与伦比的真实质感。💻无论是艺术表达还是商业宣传，Sora都能满足你对视频深度和质量的严苛要求。🏆立即体验，让每一次拍摄都成为视觉艺术的杰作！🔥欲了解更多关于Sora如何打破界限，创造非凡效果的信息，请访问我们的官方网站——[替换为相关链接]。💡在那里，你会发现更多关于如何利用这款神器提升你的创作力的秘密。💪

🌟【ChatGPT背后的效能法则】🚀OpenAI CEO亚历山大·阿尔特曼的创新思维不仅在文本领域验证了强大的缩放定律，现在这一理论在视频世界中也展现出了惊人的力量——”规模即胜利”！随着模型尺寸的提升，性能呈指数级增长，ChatGPT的智慧结晶在Sora身上再次熠熠生辉。🚀阿尔特曼的策略揭示了科技领域一个不言而喻的秘密：智能并非偶然，而是通过规模化扩展得以涌现。这不仅证实了ChatGPT的卓越能力，也为未来的AI技术发展提供了宝贵的指导。🔍”Sora的壮丽崛起”，背后是规模与效能的完美结合，它再次证明，只要遵循正确的路径，科技的力量可以创造奇迹。🏆欲了解更多关于如何利用这些原理优化你的AI应用，敬请关注我们的最新研究动态，让算法在更大规模中释放无尽可能！👇#ChatGPT效应 #模型性能提升 #智能涌现

🌟面对Sora的挑战，AI视频领域的创新者们纷纷亮出应对策略：🌟Runway的CEO克里斯托瓦尔·巴伦苏埃拉已全情投入，准备迎接这场“Game On”；🌈Pika的郭文景则在秘密筹备，瞄准Sora，欲打造全新的产品力；🏆Stability AI的埃马德·莫斯塔克由衷赞叹，称Sora为AI视频界的革新里程碑——GPT-3级的存在。🚀每个人心中都铭记着阿尔特曼的魔力，Sora正引领行业进入一个崭新的纪元。SEO优化提示：#AI视频挑战 #创新者应对策略 #Sora革新时刻

但对字节跳动来说，这未必是个好消息，因为 Sora所处的视频生成赛道，正是眼下字节跳动旗下剪映所瞄准的AI创新方向。2月份从抖音转岗剪映后，据界面新闻报道，抖音前CEO张楠即将推出一个AI生图和视频的产品。

🌟张楠的AI视频梦想破灭？初创之路遇挫💥——曾雄心勃勃投身AI生成视频领域的他，如今却在产品的面世前，面临来自Sora的严峻挑战。内部创业的蓝图尚未完全展开，便遭遇了不期而至的挫折。这无疑给他的未来道路蒙上了一层阴影，但无论如何，我们期待他能以坚韧和创新，找到新的突破点。🚀

🌟张楠的创业热情被OpenAI这一AI领域的领军者点燃，2022年，OpenAI的创新之作DALL-E 2震撼发布，让AI图像生成的力量首次清晰展现，对传统内容创作方式带来了翻天覆地的影响。梁汝波，字节跳动全球CEO的高度评价，预示着这将开启一个全新的创作平台时代。正是这个颠覆性的技术突破，促使张楠果断决定从剪映的岗位上转型，投身于这场创新革命中。🔥

2019年剪映的出现，帮助抖音内容生态从偏向PGC（专业机构生产内容）转向UGC（用户生产内容），大大降低用户创作门槛。如今，随着平台内容生态转向PUGC融合态，其对用户创作视频的成本和整体质量，又提出了新的要求。AI生成视频产品的出现，则对尽可能拉低每一个普通人创作视频的门槛，提供了一种现实可能性，抖音乃至TikTok，都有望借此在内容创作者数量上迎来新的爆发。

值得一提的是，AI视频生成更是一个颇具前景的创业赛道。截至2023年底，该赛道已经涌现出一批独角兽公司：Midjourney估值100亿美元，Stability AI估值40亿美元，Runway估值15亿美元。年初爆火出圈的新贵Pika，成立时间不足一年，其估值已经达到2.5亿美元。

但在Sora的突然袭击之下，留给张一鸣和张楠孵化下一个AI视频生成独角兽的时间，越发紧张了。

一

Sora亮相之前，字节内部也在研发AI生成视频产品。

1月份，字节跳动研究人员在arXiv上发表了一篇论文，其中介绍了字节正在开发的一款文本生成视频的模型，被命名为 MagicVideo-V2，其通过集成多个模块，包括文本到图像模型、视频运动生成器、参考图像嵌入模块和插值模块，实现从文字到视频的自动化生成。

MagicVideo-V2想要解决的问题，是Runway、Pika等在生成视频中所表现出来的保真度不高、运动不自然、分辨率不高、风格不多样等。

字节旗下产品剪映原有的“图文成片”功能模块，在进行文生视频转换过程中，同样面临上述难题的拷问。

在等待MagicVideo-V2完善研发，从demo走向量产上线之际，张楠在过去一个月多的用户访谈中，收集到了更多来自一线创作者对AI生成视频产品的不满和期待，其中之一就包括部分创作者“为了更好表达自己的想法，几乎无法用一个产品完成所有的创作，要横跨几个产品之间，用复杂的编辑和交互流程，才能完成他们的表达。”

去年8月，UP主数字生命卡兹克制作的一条爆款视频《流浪地球3预告片》，便先后运用了MidJourney和Runway等多款产品，且经历了长达5天的后期剪辑拼接。

造成UP主数字生命卡兹克创作困难的主要原因，便出在AI软件不够智能和便捷上。Sora出现之前，业内文生视频的默认方式是，只能输出单一、且往往是静止视角的短视频片段，画面背景还多呈现赛博朋克风。

Sora出现之后，文生视频领域的旧识被打破，不管多么复杂的视角、场景切换，都只用通过单一提示词便可生成，在兼顾便捷性的同时，最大限度保证了生成内容与真实物理世界的相关性。

Sora提示词示例图源：官网截图

字节和张楠规划中AI视频所应具备的更高保真度生成效果、更清晰生成画面、更顺畅自然的逻辑理解能力等，率先被Sora一一实现。

需要注意的是，尚未对外开放测试的Sora，眼下还存在诸多不完善之处，按其官方说法，“仍然处于世界模型研究应用的初期阶段。”

Meta首席科学家杨立昆便直接质疑Sora：“仅凭能够根据提示生成逼真的视频，并不能说明系统真正理解了物理世界。”

OpenAI在官网介绍中也提醒道，Sora可能难以准确模拟复杂场景的物理原理，并且可能无法理解因果关系，还可能混淆提示的空间细节，例如混淆左右，并且可能难以精确描述随着时间推移发生的事件，例如遵循特定的相机轨迹。这些缺陷可能导致Sora生成一些不合逻辑的视频，如一个人在跑步机上跑错方向。

这些尚未解决的Bug，是OpenAI决定暂未全面开放Sora的原因之一。如今，OpenAI正选取部分用户展开内测，以评估关键领域的潜在危害或风险，以期获得宝贵反馈，进而推动模型进步。

二

ChatGPT发布后，外界开始意识到AGI时代有了实现的可能性，Sora等视频生成模型，无疑是推动AGI到来的重要加速器。

OpenAI直接在官网上写道：“Sora为能够理解和模拟真实世界的模型提供了基础，我们相信这一能力将是实现AGI的重要里程碑。”

想要借助视频生成模型，推动AGI带来的不止OpenAI一家公司。去年12月，Runway提出要开发通用世界模型（General World Model），用旗下的视频生成Gen-2来模拟整个世界，“我们相信，人工智能的下一个重大进步将来自理解视觉世界及其动态的系统，这就是为什么我们要围绕通用世界模型开始一项新的长期研究工作。”

理解现实世界的物理法则，成为通往AGI的必经之路。360创始人周鸿祎在点评Sora时直言，一旦AI接上摄像头，把现存所有视频都看一遍，其对世界的理解能力将远远超过文字学习。“这就离AGI真的不远了，不是10年20年的问题，可能一两年很快就可以实现。”

正是在AGI相关概念刺激之下，AI生图和视频领域的垂类大模型公司，估值迎来飙升，出现了Midjourney、Stability AI、Runway等一批明星独角兽创业公司。

具体到字节跳动的业务层面，图片/视频生成还能帮助提效字节的商业化需求，如帮助字节广告客户低成本、便捷地制作视频。有字节人士告诉晚点PostLate，字节广告客户投放总成本里有10%-20%为视频制作成本，从去年开始，字节已在开发一些相关产品帮广告客户压缩这部分投入。

尽管在推出类似文生视频产品方面落后一步，但对张楠来说，反过来也迎来了一个摸着Sora过河的机会。

ChatGPT亮相之前，算法方面的短板，一度是行业研发对话大模型的主要障碍之一。人工智能专家丁磊博士解释道，部分大模型创业公司“还不是那么会训练大模型……如果训练方法错的话，你有再多的GPU也没用。”

在追赶Sora过程中，Pika创始人郭文景提到，目前生成式视频发展的一个重要限制是算法的成熟度，“语言对话模型大家已经知道大概的方法，算法相对比较成熟了。但视频之前还没有很好的算法。”

Sora的发布，无疑再次给行业提供了一个行之有效的解题思路，也给郭文景和张楠这样的同领域创业者，提供了一条成熟的算法借鉴路线。

三

随着Sora正式亮相，在上一波语言对话模型上落后的字节，在视频领域再次陷入被动追赶窘态。

2022年11月ChatGPT发布之后，百度、阿里等国内大厂相继在去年三四月份推出自研大模型文心一言和通义千问，但直到8月份，字节才对外亮相了云雀大模型。

动作迟缓的后果之一是，当文心一言月活已经破亿后，字节同类产品“豆包”的月活，还不足千万。

在1月底的新一期All Hands（员工面对面）上，梁汝波着重以AI进展缓慢说明公司正在变得迟钝的现况，称 “公司层面的半年度技术回顾，直到2023年才开始考虑GPT，而业内做得比较好的大模型创业公司，都是在2018年至2021年创立的。”

字节关注大模型并不算晚。据晚点LatePost报道，2020年6月OpenAI发布GPT-3后，字节曾训练了一个数十亿参数的生成式语言大模型，由于参数规模有限，该模型生成能力一般，字节当时看不到它的商业化可能性，“ROI（投资回报率）算不过来”，这次探索便浅尝辄止。

如今选派张楠这样一员大将用AI改造剪映，被外界视为是字节内部希望提速AI发展的一个信号。

但在完成内部调兵遣将之后，留给张楠的挑战不只是追赶时间上的紧迫，还有外部芯片断供所带来的算力荒难题。

去年10月份，英伟达旗下A100、A800、H100、H800和L40S等五种GPU芯片禁令正式生效。对于一众国内大模型厂商而言，英伟达芯片的断供，在客观上成为其追赶ChatGPT乃至GPT-4的最大阻力。

在缩放法则（scaling laws）指导下，阿尔特曼提出了芯片需求每三四个月就要翻一番的大模型时代“摩尔定律”。这无疑再次拉高着张楠追赶Sora的门槛。

“对于国内厂商而言，这种大力出奇迹的模式跑通之后，硅谷会进入更为狂热的算力军备竞赛。字节们的算力短板会进一步放大。”招商证券研究员刘枋说道。

参考资料：

《剪映全员信》张楠

《揭秘字节AI版图：调集多位高管参战，数款重磅产品内测》Tech星球

《大厂大模型：久违的一把手工程》晚点LatePost

《“今天，所有VC的会上都在谈Sora”》投中网

《Sora发布后，Pika创始人独家回应钛媒体：很振奋，我们将直接冲》钛媒体

本文来自微信公众号：字母榜（ID：wujicaijing），作者：赵晋杰

本内容为作者独立观点，不代表虎嗅立场。未经允许不得转载，授权事宜请联系 hezuo@huxiu.com

正在改变与想要改变世界的人，都在虎嗅APP

AI时代，拥有个人微信机器人AI助手！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

搜索微信号aigc666aigc999或上边扫码，即可拥有个人AI助手！

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

Midjourney UX 文本到图像视频

相关文章

Leave a Reply Cancel reply