OpenAI文生视频模型“秒杀”众模型 AI创业是否难逃被大厂降维碾压

来源：科技发展解说　发布时间：2024-02-19 11:20:15　编辑：夕歌

导读：农历新年期间，OpenAI又发布了一个超乎所有人想象的版本。其首个Vincent视频模特Sora正式亮相。

农历新年期间，OpenAI又发布了一个超乎所有人想象的版本。其首个Vincent视频模特Sora正式亮相。

Sora效应在科技圈一直很受欢迎。它不仅可以根据文本创建假场景，还可以生成持续长达60秒的视频。所以很多人都在期待新的OpenAI技术的发布，就像乔布斯时代苹果的发布一样。总有一些技术超出人们的预期，让人眼前一亮。

从ChatGPT、DALL-E3到Sora，如果用一句话来概括OpenAI的独特之处，那就是：技术想象力和工程能力远比技术路线或黑科技更重要。与此同时，几项曾经火爆的AI视频创新，也因规模缩小而直接被碾压。他们的大部分产品都支持最长4秒的视频生成时长，这与Sora的60秒完全无法相比。OpenAI、谷歌等科技公司表示，“世界只有一天，而人工智能的迭代速度却是数千年”。他们似乎真的在几分钟之内就碾压了人工智能业务。人们不能因为人工智能创业如此困难而感到遗憾。所谓的“技术护城河”和“产品护城河”还存在吗？会不会被大厂商的快速技术发展一夜之间摧毁呢？

1想象力和工程的爆发以及视频生成技术的逐渐融合

在Sora之前，我们看到的Vincent的视频技术很多还没有达到技术上的融合，主要的技术路径是利用各种方法让单帧图像“动起来”，类似于定格动画。从用户的实际需求出发：每个视频帧之间的一致性和自然度是体现视频价值的关键，即每个视频帧的语义信息的平滑连接是关键。

而且，从Sora在业界的知名度来看，根据需求提供合适的技术解决方案或产品，比从技术达到的角度创造产品要好得多。

OpenAI想要公布Sora的所有技术细节已经不太现实，开源只能依赖其他团队。不过，OpenAI官网的介绍称，Sora与Vincent之前的视频不同，它允许模型一次预测多个帧，并确保视频的主要部分保持不变。

单从技术创新来看，Sora的技术和方法并不算惊艳，也不能说是从0到1的创新。其他机构也进行了相关研究，但总体项目成果非常好。Sora的技术巧思也是如此：它在视频帧数上取得了突破，巧妙地提高了其生成视频的上限。

这与文盛视频技术的融合难度和项目实施的难度密切相关。Vincent的视频扩散模型中引入了变压器来实现视频帧之间语义信息的预测，使得语言模型在其中发挥了巨大的作用。换句话说：TransformerDiffusionModel终于在2024年初达到整合，不再是两条独立的发展路径。因此，Sora一出现就得到了用户的好评和认可：文本模型的一致性和可扩展性可以在视频模型的基础上多层面提升用户的感知效果，让Vincent的视频接近商业统一。

在这方面，OpenAI在ChatGPT和DALLE-3的工程化上取得了突破。这次，它把上述模型结果有机地结合起来，最大限度地发挥了工程能力。

2好莱坞风格的大片越来越接近业余爱好者

2023年及之前，虽然VincentVideo模型中出现了Runway、PiKa等现象级产品，但从全行业角度来看，扩散模型与语言模型相结合的工作并没有被业界给予“最高优先级”。

在可预见的未来，随着文森特视频技术的融合，生成视频技术的使用门槛将进一步降低，这将有助于人们进行大规模的工程工作，堪比好莱坞标准的视频解决方案将会出现。

更具体地说，过去传统的前期设计、中期拍摄、后期制作的视频制作流程已经逐渐转向后期制作。尤其是新视频元素的不断产生，将导致前期开发和中期拍摄的工作流程发生重大变化。变化、新工具和工作流程出现。

最终将应用于更多C端消费场景，如产品广告、专题片等。特别是对于视觉艺术、设计师、电影制作等工作来说，它可以帮助这些专业人士快速原型化和可视化，节省一定的时间和成本。

尤其是在短视频行业，创造了极大的想象空间。普通用户或许无法用Sora制作出好莱坞大片，但拍摄60秒的高品质短视频似乎触手可及。尤其是内容逻辑性不高的情况下，在探索科幻等方面时，可以帮助创作个性化的内容。

3、与其寄希望于Sora，不如等待AI视频编辑软件的普及

OpenAI更像是一个开拓者，开创新局面是它的强项，而且不讲究摆枝落叶。

从单一突破角度来看索拉是一个里程碑。然而，从商业化需求和提高混合切割工作流程效率的角度来看，Sora本身的价值仍有待争论。

依靠一个60秒生成的视频成为下一个董宇辉和李佳琪是不现实的，更不用说制作长视频、电影或电视剧了。距离真正落地还有很长的路要走。

以短视频为例，是一遍又一遍地改变提示词（Prompt）效率更高，还是在视频编辑软件中调整素材更快？

显然，我们很期待Sora。最好还是等待视频编辑软件尽早更新并添加AI工具，才能真正提高业务效率。同时，利用即时文字生成视频一直是一个被误解的问题。这个问题不仅困扰文盛视频，而且在使用ChatGPT时也依然没有解决。

即使Sora完全发布使用，普通用户也很难创建像当前演示这样的演示。最终决定Sora能否腾飞的关键是这个工具本身能否提高人们的工作效率。

无论是买家秀还是卖家秀，还需要时间来验证。

4、生成视频领域其他公司没有机会吗？

显然不是。

在生成人工智能领域，科技公司不断努力：

Meta几乎同时发布了V-JEPA，它可以用于各种需要了解世界而无需细化的任务。另外，V-JEPA在特征空间进行自监督学习，效率更高。哪条道路将通向最终的通用人工智能尚不得而知。

大约在同一时间，Google还发布了Gemini15，可以支持10,000,000个token上下文，使得大型模型输出更加连贯和实用。多模态变得更加顺畅，工程技术与OpenAI一样好。

Vincent之前的视频产品，比如Runway、Pika，在人工智能时代依然能有一席之地。Sora使用TransformerDiffusion。从模型架构来看，如果以Transformer为标杆，VincentVideo作为领先的科技公司将继续优先考虑。不过，如果生成视频架构仍然围绕Diffusion，创业公司将会有更多的机会。选项。

没有一种放之四海而皆准的技术，只有螺旋式上升的工业繁荣。

虽然Sora一次可以生成几十秒的视频，但在实际应用阶段，如果产品没有为微操作提供足够的空间来确保用户可以使用微操作将其集成到自己的工作流程中，那么还有机会。大概率空依然会产生越来越爆炸的效果，离使用者越来越远。

即使在ChatGPT问世一年多的今天，仍然有大量用户没有使用过聊天机器人。这也为开源社区创造了一个迎头赶上的窗口期。同时，文声文、文声视频模块等机型的结合是否会导致类似iPhone的专有智能设备的出现？让更多的用户使用终端侧的模式，打造开源小参数移动终端的思路，以智能手机的形式进行创新。

新产品不断涌现，技术扩散才刚刚开始，没有一家公司会因为新技术而“突然消亡”。

5、AI爆发时代，普通人也可以成为“领航员”

对于普通人来说，要避免被“遥遥领先”、“王球”这样的词洗脑，实属不易。如果他们能再清醒一点就更有价值了。当Sora发怒时，普通人的做法可以概括为三件事：

1适用于你熟悉的场景

焦虑的反面是具体性。只有使用像Sora这样的新的人工智能应用，并将其融入到具体的场景和工作中，我们才能真正了解我们的哪些工作将被人工智能取代以及在何种程度上被取代。同时，我们也可以真正发现哪些地方可以真正引入人工智能，解决我们的问题。对于新技术和应用，早期采用者最大的优势是可以更早地利用先进技术的价值，提高生产力和生产效率。如果你只是尝试一下，用AI问智力游戏，看看AI是真聪明还是弱智，寻求优越感，你只会陷入暂时的舒适区。

2研究你的新模型

蒸汽机是瓦特改进的，但真正的价值是由使用蒸汽机进行生产的企业家提供的；汽车大大提高了交通运输行业的效率，而电商行业则将交通运输行业提升为物流体系。，让NextDay成为很多电商平台的标配。

迄今为止，空已经展现了各种超能力，但他仍然需要一个真正的伯乐。伯乐不仅了解人工智能工具的各种优缺点，还深入了解和理解其业务体系，利用人工智能技术对业务流程进行整合和改造。未来，将会出现更多融合人工智能的新解决方案，这将“入侵”生活的各个领域。

3、成为规则的“领航员”。

适应变化才是出路。

回顾工业革命，机器的出现导致失业他们不是普通的纺织工人，而是经验丰富的高级纺织工人。原因是工业革命在系统中巩固了专家的专业知识，允许没有经验的人使用机器或系统生产出比有经验的人更好的产品。同样，波士顿咨询集团最近使用GPT-4将顾问分为两组：高级和低级。最终结果是，低级别顾问的结果质量提高了43%，而高级别顾问的结果质量则提高了43%。级顾问仅提高了17%。高组和低组之间的表现得分差异从22%下降到4%。

与其去适应别人近期制定的新规则、新制度，不如发挥先发优势，适应变化、拥抱变化，成为规则的“领航者”。在阻止Sora生成后，我们讨论了一些如何“创新”的想法，供大家参考：

标签：OpenAI 文生视频模型