中美围绕ChatGPT的大语言模型竞赛还未结束,美国人工智能巨头OpenAI 2月16日横空出世的视频生成工具Sora,又为中美拓展出文生视频的第二赛道。

Sora可根据文字指令,生成足以以假乱真的动画视频。这标志着OpenAI在ChatGPT大语言模型的基础上,进一步在多模态大语言模型技术领域取得重大突破。

尽管文生视频和虚拟视频的概念本身并不新,但Sora的视频时长提升至60秒,是其他现有技术的将近10 倍。Sora令其他业者望尘莫及的能力,还包括复杂的多镜头切换、符合物理学的反射和光线、可创造出细腻和富有情感的场景和人物、人物不会扭曲变形、自然流畅的动态等;和以往“一眼假”的AI视频形成强烈对比,有巨大潜力能颠覆影视、短视频、广告等行业。

Sora飞跃性的成果,引发部分中国科技业者对中美人工智能水平差距拉大的担忧,也推动中国业者在视频生成领域加速寻求突破。

中国国务院国有资产监督管理委员会在Sora问世不到一周后,举办中央企业人工智能专题推进会,要求中央企业加快布局和发展智能产业,加快建设一批智能算力中心。

阿里巴巴智能计算研究所于2月28日发布一款全新的生成式AI模型EMO,可用一张人物肖像照片和音频,让照片中的人物按照音频内容动嘴唱歌和说话。

百度今年1月已发布名为UniVG的视频生成模型。百度创始人、董事长兼首席执行官李彦宏,2月28日也在百度2023年第四季及全年业绩会上,表明文字到视频等多模态或多模态的融合,是未来基础模型非常重要的一个开发方向。

李彦宏强调,这是通用人工智能的一个必要方向,百度已在这些领域进行投资,并会在未来继续进行投资。

360集团创办人周鸿祎2月23日接受澎湃新闻采访时也向市场信心喊话称,中国和美国在AI上的差距主要体现在方向上,一旦方向正确,中国公司一两年就能赶上。

全球市场洞察力公司报告显示,企业和机构下来十年内会越加普遍地使用文生视频制作营销内容。2022年全球文生视频市场规模,估计为1.225 亿美元(1.65亿新元);这个市场预计将在 2023 年至 2032 年达到超过 35%的复合年增长率,到了2032年预计将达到20亿美元。

人工智能如今已成为中美科技战最重要的战场之一,中国能否培育出可赶超Sora的视频生成技术,在庞大的文生视频市场中占有一席之地,仍是个未知数;在这场追赶赛中,中国还必须扫除两大障碍。 

美国商务部去年10月剑指中国人工智能领域,限制英伟达对华出售高端AI晶片,包括两款为中国市场定制的晶片A800和H800。

尽管英伟达一个月后推出三款新晶片作为A800和H800的替代品,但美国从供应链下手掣肘中国AI发展的势态料难以扭转;中国AI业者面对巨大的供应链风险,必须在着力研发技术的同时,不断寻找方式规避西方的科技围堵,很可能因此拖慢技术发展的进度。

另一方面,全球目前面对着AI相关法规严重缺失的问题;Sora发布后,有关视频生成技术引发的深伪、假信息、诈骗等问题都成为各国政府日益加剧的挑战。

Sora发布不到一周后,中国恰巧出现乌克兰女子洛伊克(Olga Loiek)在中国网络上被盗用面孔的事件,引爆中国网民对AI安全的讨论。不法之徒通过深伪技术,用洛伊克的脸制造出网红博主,称这个深伪人物是定居中国的俄罗斯人,分享各种关于俄罗斯和中国生活的短视频并且带货,由此博取流量。 

中国在AI监管方面属于全球领跑者,在AI技术仍未成熟时,中国已先后发布《促进大数据发展行动纲要》《新一代人工智能发展规划的通知》等文件,力图确保人工智能领域有序发展。但洛伊克事件反映出现有监管措施仍存在许多漏洞。

中国要在AI竞赛中赶超美国,并非毫无可能,只是面对着越来越陡峭的上坡路,不仅面对美国的竞争,也难逃各国面对的AI治理难题。Sora是继ChatGPT后,中美AI技术差距进一步扩大的一次节点,也是一个重要的提醒——这场AI竞赛没有中场休息,中国只有通过不懈的追赶才有可能翻盘,否则一不留意,就会远远被抛在后头。