日期:[2024年08月15日] -- 每日经济新闻 -- 版次:[08]

“即梦AI”上架,字节跳动能否在视频大模型上赶超快手?

每经记者 杨昕怡 每经编辑 魏官红
  近日,字节跳动旗下剪映团队研发的一站式AI创作平台“即梦AI”移动版正式上架至苹果应用商店。记者了解到,该应用目前拥有文生图和文/图生视频等功能。另外,即梦已经上线会员体系,推出了多种订阅方式。
  通过对即梦、可灵以及Sora的实际应用对比,《每日经济新闻》记者发现,三款视频生成大模型在对提示词的捕捉和理解上都较为准确、完整,但即梦的人物塑造、内容的丰富度和视频流畅度等能力相对有所欠缺。在生成内容的时长上,即梦支持最多12秒的视频生成。
  “生成流畅视频的秒数是判断一个视频生成大模型能力优劣的关键因素。”一位大模型工程师在接受《每日经济新闻》记者采访时表示,流畅与否需从多个维度评判,比如生成的内容有没有事实错误以及空间感对不对等。
 
 动作自然度略逊一筹
 
 今年初,Sora的横空出世开启了“视频的ChatGPT时代”。随后,快手推出的可灵让人们对国产AI视频大模型的表现有了越来越多的期待。同为短视频巨头的抖音母公司字节跳动,则被视为赛道内最具赶超可能的选手之一。
  3月底,字节跳动旗下剪映团队研发的AI创作平台“即梦AI”开放内测;5月9日,该应用上线网页版,上线之初只有图片生成、智能画布和视频生成三大功能;8月6日,该应用移动版正式上架至苹果应用商店,拥有文生图和文/图生视频等功能。
  至于即梦的实际使用效果,今年7月初,全国首部AIGC生成式连续性叙事科幻短剧集《三星堆:未来启示录》在抖音上线。在这部总共13集的短剧集里,即梦作为首席AI技术支持方出现。
  据媒体报道,在和博纳影业合作推出《三星堆:未来启示录》的过程中,即梦AI改进了“视频生成”功能,包括支持24fps、30fps、60fps的补帧以及二倍超分的能力,新增镜头水平移动、上下移动,支持镜头移动的方向和幅度控制等。
  在即梦App上线后,《每日经济新闻》记者选取了OpenAI官方公布的多条Sora视频提示词对即梦、可灵和Sora进行对比测试。从测试结果来看,三款视频生成大模型在对提示词的捕捉和理解上都较为准确、完整,生成视频内容的画面表现也都连贯且流畅。
  在人物形象的刻画精细度上,Sora相较于即梦和可灵有一定的优势;在动作的自然度上,即梦在三个测试产品中略逊一筹,例如在以“东京街头的女士”为主题的视频画面呈现上,即梦生成的人物在转头时头颈部略显扭曲,拎包的手部动作也有所变形。
  而在生产内容的元素丰富程度上,Sora在三者中表现最优。例如在以“太空人”为主题的生成视频内容里,Sora给出了飞船、舱外景象等多个有关提示词的联想内容,而即梦和可灵仅呈现了一个穿着宇航服的男性角色。
  易观分析研究合伙人陈晨在接受《每日经济新闻》记者采访时表示,在生成效果上,即梦的AI图像整体质量较好,AI视频则在时长、元素丰富性、动作连贯性等细节处理上仍然有所欠缺。
  “如果缺失了从‘太空人’联想到‘飞船’的能力,应该是基座模型的能力问题。”一位大模型工程师向《每日经济新闻》记者指出,生成流畅视频的秒数是判断一个视频生成大模型能力优劣的关键因素,“流畅”需要从多个维度来看,比如生成的内容有没有事实错误、记忆能力如何以及空间感对不对等。
  目前,即梦支持3秒、6秒、9秒和12秒的视频内容生成,分别对应不同的积分消耗。而Sora早在发布时就已经能合成1分钟的超长视频;6月21日,可灵推出了图生视频功能,支持根据不同文本内容,将静态图像转化为生动的5秒视频,且续写功能可让视频延续约5秒,最长可生成约3分钟视频。
 
 AI视频能赚到钱吗?
 
 Sora的出现无疑给大模型开辟了新的赛场。今年7月,阿里达摩院发布了一站式AI视频创作平台“寻光”,商汤科技推出了首个面向C端用户的可控人物视频生成大模型Vimi,智谱AI也宣布将AI生成视频模型清影(Ying)正式上线智谱清言。
  在AI头部玩家集体向视频生成大模型发起猛攻时,一个不能回避的问题就在眼前:AI视频能让大模型公司赚到钱吗?
  以业内明星公司OpenAI为例,在推出了Sora等一众能力领先的大模型的情况下,今年7月,有媒体援引知情人士以及未公开的内部财务数据分析称,OpenAI今年或面临高达50亿美元的巨额亏损,预估公司全年收入可能在35亿美元到45亿美元之间,远低于运营成本。
  同时,国内视频大模型在商业化落地上也显得有些“着急”。7月30日,可灵上线了面向全球的会员体系,该体系与其在国内市场推出的会员体系相仿,例如月卡分为10美元、37美元和92美元三档,可对应生成约66个、300个和800个5秒视频。
  《每日经济新闻》记者注意到,即梦也已推出会员体系,有79元单月、69元连续包月和659元包年的基础会员等不同订阅方式。具体来说,基础会员每月可使用505个积分生成约2020张图片或168个AI视频。此外,每月2020个积分的标准会员和每月6555个积分的高级会员服务即将上线。
  “由于AI大模型高昂的模型训练与推理成本,加之C端用户对AI工具的需求相对分散,付费意愿不足,视频大模型在C端市场的商业化仍然会面临一个较长的培育期。”陈晨认为,对于C端市场而言,视频大模型的商业化落地道阻且长。
  而从B端市场出发,陈晨向《每日经济新闻》记者表示:“对于B端而言,AI技术革命正在重塑原有的工作流程,压缩冗余环节并引发新的创作工具需求。在这个过程中,AI视频大模型可以逐步与现有的影视制作、广告创意、媒体内容策划结合,辅助进行复杂工序自动化处理和智能化内容生产。而模型能力是否有效嵌入实际工作流程,带来实质性的效率提升以及成本降低,是构建商业化能力的关键因素。”
  “公司会逐步开始探索Kimi的商业化,但目前的重点还是打造能力更强的下一代模型。”今年8月,月之暗面方面在接受《每日经济新闻》记者采访时表示,现阶段还不是以商业化为重的时候。
  也许,对“初出茅庐”的即梦来说也是如此,它还有一个又一个里程碑要去触达、超越。“即梦目前的产品功能、商业模式聚焦于服务UGC(用户生成内容),与抖音的生态融合将是未来的发展重点。”陈晨表示,“或许在时长、帧率、画面细节等技术参数上的直接对标并不是即梦现阶段最需要关注的,关键还是在于应用落地和生态整合能力。”