看周鸿祎如何揭秘中美AI差距的神秘密码！

科技
2024-02-17 11:22:49
0
admcpc198

　　近日，2月17日消息，OpenAI 发布了 Sora 该模型可以根据用户输入的文本提示生成60秒的视频内容。从OpenAI公开的演示视频来看，效果非常超现实。

　　昨日，360董事长周鸿祎在微博上发文，提到OpenAI的文字转视频模型Sora。他认为：Sora代表Sora。 AGI将在现在实现 10年缩短到1年。

　　周鸿祎说，人工智能并不一定能如此迅速地颠覆所有行业，但它可以激发更多人的创造力。今天 Sora 也许会给广告业、电影预告片、短视频行业带来很大的颠覆，但并不一定能如此迅速地战胜它。 TikTok，更将会成为 TikTok的创作工具。

　　与此同时，周鸿祎还谈到了中美人工智能的差距，他认为：Openal手中应该还藏着一些秘密武器，不管是不是 GPT-5、或机器自学自动生成内容，包括 AIGC。他们没有拿出所有的武器。所以看来中国和美国的武器都是这样的。 AI 差距可能还在增加。

　　以下是周鸿祎的整篇文章：

　　Sora代表 AGI实现将从10年缩短到1年

　　几年前，我在风马牛的演讲中分享了大型模型的十大趋势预测。出乎意料的是，在年底之前，我验证了几个模型 Gemini、英伟达的 Chat With RTX到 OpenA!发布 Sora，每个人都觉得很爆裂。朋友问我怎么看。 Sora，我想谈谈一些观点，总的来说，我觉得AGI很快就会实现，就这几年而言：

　　首先，科技竞争的最终竞争是让人才密度和深度积累。许多人说吊打Sora的效果 Pika和Runway。与创业团队相比，OpenAl是正常的这类具有核心技术的企业实力依然十分强大。有些人认为有了它在AI之后，创业公司只需要做个体户就可以了，其实今天再证明这个想法是很可笑的。

　　第二，人工智能不一定会这么快地颠覆所有行业，但它能激发更多人的创造力。今天很多人都提到过。 Sora 我不认为这是对影视行业的打击。因为机器可以制作一个好的视频，所以视频的主题、剧本、分镜头策划和台词的配合至少需要人们的创造力和提示。一个视频或一部电影是由无数人制作的 60 由秒组成的。今天 Sora 它可能会给广告业、电影预告片和短视频行业带来巨大的逆转，但它可能不会那么快克服它 TikTok，更将会成为 Tiktok的创作工具。

　　第三，我一直说国内大模型的发展水平接近表面 GPT-3.5 是的，但实际上跟着 4.0 还有一年半的差距。而且我相信。 Openal手里应该还藏着一些秘密武器，不管是不是 GPT-5、或机器自学自动生成内容，包括 AIGC。奥特曼是一名营销大师，知道如何掌握节奏，他们没有拿出所有的武器。所以中国和美国似乎都是这样。 AI 差距可能还在增加。

　　第四，大语言模型最好的是，它不是填空机，而是能够全面了解世界知识。这一次，很多人从技术和产品体验上分析Sora，强调它可以导出 60 第二个视频，保持多镜头的一致性，模拟自然世界和物理规律，实际上这些更具表现力，最重要的是， Sora 技术思维完全不同。因为在此之前，我们用来制作视频和图片 Diffusion，你可以把视频看作是多个真实图片的搭配，它并没有真正掌握世界知识。现在所有的文生图片、文生视频都在 2D 物理定律不适用于平面中图形元素的操作。但 Sora 在视频中，它可以像人一样理解坦克有巨大的冲击力，坦克可以破坏汽车，而不会破坏坦克。所以这次我明白了 OpenAl 利用其大语言模型优势，LLM 和结合Difusion进行训练，让Diffusion结合起来 Sora 完成对现实世界的理解和模拟世界的双层能力，使视频真实，跳出 2D 真实物理世界的范畴模拟。这些都是大模型的功劳。这也代表了未来的方向。以强大的大模型为基础，基于对人类语言的认知，对人类知识和世界模型的理解，加上许多其他技术，可以创造各行各业的非常工具，如生物医学蛋白质基因研究，包括物理、化学、数学学科研究，大模型将发挥作用。这次 Sora对物理世界的模拟至少会对机器人的智能和自动驾驶产生很大的影响。原来的自动驾驶技术过于强调感知，而不是在认知上工作。事实上，当人们开车时，许多判断都是基于对世界的理解。例如，对方的速度，是否会发生碰撞，冲击的严重性，如果没有对世界的理解，就很难做出真正的无人驾驶。

　　所以这次 Sora 它不仅展示了视频制作的能力，也展示了大模型对现实世界的理解和模拟，将带来新的成果和突破。

　　第五，Open Al训练模型应该能够阅读大量的视频。大模型加上大模型加上大模型。 Diffusion技术需要进一步了解世界，学习样本主要是视频和相机捕捉到的图片。一旦人工智能连接到相机上，再看所有的电影，然后再看YouTube 上和 Tiktok的视频再看一遍，对世界的理解会远远超过文字学习，一张图片会超过千言万语，视频传递的信息量会远远超过一张图片，离AGI真的不远，不是10年20年的问题，可能一两年就能实现。

上一篇：能2023财报：营业额增长3.7% 利润飙升8.4%
下一篇：软银CEO孙正义携AI芯片战略力争创下千亿帝国