(原标题:AI大模型全面盘点!从文本到3D,国产替代与投资机会在哪?| 智库)
在文本、图片、视频、音频、3D这AI五大模态中,海外企业仍处于领先地位,不过,中国厂商正进入快速追赶期,我们可重点关注文本、视频、音频三大方向及AI产业链投资机会。
文本方面,国产厂商在长文本上具有差异化优势,随着大厂下场深入,国产大模型在中文语义方向的优势将会持续放大。视频方面,拥有高质量视频语料库的公司具有竞争优势。音频方面,TTS和音乐合成在AI音频领域更有市场空间。
来源:新财富杂志(ID:xcfplus)
作者:刘欣(华创证券首席传媒分析师)
01
多模态的五感共鸣,AI技术跨界协奏
人工智能的概念自提出已有近70年历史。2018年,Open AI发布GPT-1模型,标志着预训练模型在自然语言处理领域的兴起。2020年开始,大规模语言模型的发展迎来了一个显著的加速期:OpenAI发布GPT-3,以1750亿的参数量成为了当时最庞大的语言模型。此后,一系列创新方法相继涌现,包括利用人类反馈进行强化学习(RLHF)、代码预训练等技术,进一步提升了模型的推理能力。2022年底及2023年初,GPT-3.5和GPT-4相继问世,GPT-4具备了多模态理解与多类型内容生成能力。从GPT系列的发展路径来看,技术层面的突破离不开强大的算力基础设施、海量高质数据的支持和训练、在Transformer架构基础上不断精调。
据中国电信研究院分析,国外行业大模型发展模式主要有三种,一是“龙头大模型+原有业务”,二是“龙头大模型+外部行业数据”,三是“开源大模型+自有行业数据搭建行业大模型”。结合中国电信研究院的观点,我们认为海内外的大模型赋能企业发展主要有三种模式。
一是“大模型+原有业务”。国际巨头布局大模型较早,或投资或自研,例如微软作为OpenAI最大股东,谷歌自研Gemini系列,以及Meta自研Llama系列等,并利用大模型赋能各自原有的强势业务线,做产业升级。比如微软用GPT-4赋能Azure云服务、Office365、搜索业务等;谷歌和Meta利用大模型生成创意广告文案或图片赋能广告主,亦或是在广告业务的多个环节提升精准度和效率。该模式常见于大厂,“大模型+原有业务”利用大模型的语言能力提升传统业务的智能化水平,同时利用传统业务积累的庞大数据资源反哺大模型持续迭代。
二是“开源大模型+AI产品”。一方面,高性能开源大模型的出现削弱了国产大模型的竞争力,比如Meta于2023年7月推出的开源可商用大模型Llama-2,相对国产大模型,Llama-2是一个免费、技术更强且可以直接商用的竞对;另一方面,大量中小开发者和企业申请部署开源大模型去开发各自的AI产品,大大降低了开发成本。但Llama的开源也存在弊端,例如仅适用于英文环境,而国内的百川智能的开源模型则弥补了中国开源生态的短板。
三是“垂类模型+行业数据”。虽然通用大模型适用场景更广,但垂类大模型更符合垂直场景需求(包括营销、金融、电商、新闻、教育等),训练数据更聚焦,输出结果更符合用户偏好。此类模型需要选择一个通用大模型作为底座,并用垂类数据进行训练,进行模型微调后形成,适合拥有海量高质行业数据的中、大型企业。例如蓝色光标的营销行业大模型Blue AI、易点天下的Kreado AI、因赛集团的InsightGPT等。
我们认为,大模型基座的能力将直接影响上述三种模式的应用水平。微软亚洲研究院认为,大模型基座的重要特征是拥有多模态能力。分析当前大模型基座能力和应用水平,包括文本、图像、音频、视频、3D模型五大模态。
02
文本:海外一超多强,长文本国内卷出差异化优势
我们将大模型的迭代路径分为三个,一是多模态能力,二是逻辑推理能力,三是长文本能力。从能力纬度来看,国产大模型在用差异化优势奋力追赶。
从多模态和逻辑推理角度,海外大模型呈一超多强的趋势。
从海外主流大模型看其迭代路径,基本可以归纳为更多的模态和更强大的推理能力。
文本当前是从单一模态向多模态的迭代。多模态(图像、音频、视频)核心是在一个共同的语义空间整合不同模态的数据。如GPT-3主要关注文本模态,而作为后续迭代,GPT-4则能够理解和生成图像、视频等。多模态的进化也使得大模型的应用场景被拓宽,如图像标注、视频内容理解、文生图和文生视频等。
多模态下,需要超大参数和“上下文窗口”(tokens)。通常而言,模型的训练参数越多,表达能力越强,也能够捕捉更复杂的数据模式,当然也意味着更多的训练数据和算力。多模态大模型的训练参数更大,Open AI 的GPT-4达到1.8万亿,谷歌的Gemini-1.5也达到1.5万亿。而“上下文窗口”的拓展则能增加模型的可处理信息量,使得模型在长内容方面突破。根据谷歌官方披露,Gemini 1.5 Pro可一次处理包括1小时的视频、11小时的音频、超过3万行代码或超过70万字的代码库。
大模型评测中很重要的一个步骤是衡量模型的性能,通过常识、逻辑、数学、代码能力等多个维度给出准确率或错误率的判断。Anthropic发布的Claude-3系列包含三个模型,按能力由弱到强排列,分别是Haiku、Sonnet和Opus,其中Opus的各项指标都领先GPT-4和Gemini系列,或意味着大模型的推理能力也将随着不断推出的新版本得以提升。
与此同时,国内大模型的性能正在加速追赶海外。OpenCompass于2023年7月由上海人工智能实验室推出,构建了一套中英文双语评测基准,旨在系统性分析国内外大模型的综合客观性能。通过其2024年1月的榜单,我们观测到智谱清言GLM-4、阿里巴巴Qwen-Max和百度文心一言4.0具有较为全面的性能,在语言和知识等基础能力维度上可比肩GPT-4 Turbo。
长文本方面,国内大模型“卷”出差异化优势。
多模态是主流的迭代路径,互联网大厂利用生态优势,将多模态能力融进具体使用场景。和海外相似,国内大模型的迭代方向也能捕捉到多模态的趋势。如百度文心一言的多模态体现在toB平台“智能云千帆”,帮企业将大模型运用到需要文生图、文生视频的场景;讯飞星火则将多模态能力落地在教师助手、口语训练等教育场景。多模态的训练对参数规模和算力支持要求更高,芯片供给侧的紧缺也一定程度上成为各平台算力扩张的阻碍。
因此,“长文本”能力成为差异化优势的生存之道。赛道企业中,月之暗面(Moonshot AI)成立于2023年3月,根据新浪科技新闻,截至2024年3月的最新估值为25亿美元,投资方包括红杉、真格、美团、阿里巴巴等。3月18日,月之暗面宣布Kimi智能助手启动“无损上下文200万字”内测,用户数据表现亮眼。根据新浪科技引述资料,SimilarWeb数据显示,去年10月到今年2月,Kimi访问量从16万增长到292万,仅次于文心一言和阿里通义;非凡产研预测,3月Kimi的访问量将介于750万到900万之间,半年内有望增长达55倍。
一石激起千层浪,阿里巴巴、百度、360纷纷表示将开放或内测长文本处理功能。要保证“长文本输入+优质结果输出”,就不得不推升算力成本,大模型公司的商业化诉求也会随之变强。
我们认为,随着大厂下场深入大模型的长文本能力,相较于海外大模型,国产大模型在中文长文本方向的差异化优势将会持续放大。对于大模型企业而言,手里最重要的牌还是用户,下一阶段的文本差异化竞争很可能是关于用户的定制化竞争——基于庞大在手用户数据的特征搜集,形成更深的产品护城河。
03
AI生图,不可忽视的巨大市场潜力
根据Everypixel估算,截至2023年8月,AI在近一年半所生成的图片数量或已超越过去150年人类拍摄的所有照片总和。贡献AI生图的最大阵营是Stable Diffusion开源社区,截至2023年8月,其已生成图片超过120亿张,占到历史统计AI生图数量的81%。互联网平台内容端过往大部分是UGC,图片内容供给需求高,AI生图空间广阔。另一方面,我们认为互联网数字经济催生出以视觉中国、Shutterstock、Getty Images、Corbis Images为代表的数字版权交易平台,未来也离不开对新生产要素AIGC素材的数据确权,预计将催生出对生成式AI素材的版权需求。
AI应用日新月异,“AI+图片类”产品的访问量表现好,且掉队率最低。海外风投机构a16z(Andreessen Horowitz)曾在2023年9月和2024年3月(采用Similarweb 1月的用户访问量数据)两次列出网页端Top 50 AI应用排名,2023年1月相比半年前的数据,有超过40%的新产品进入排名。在新榜单中,AI图片类产品有16个,占榜单的32%,是所有功能分类中占比最高的。AI图片类产品掉出新榜单的数量也是所有分类中最少的,掉出率为38%;而AI视频类产品的掉出率更高,为71%。我们认为,虽然AI图片和AI视频类应用都对素材训练要求极高,但是AI图片的产品或社区成熟度显著高于视频,因此头部AI图片产品的用户访问量更趋稳定(榜单变化小),意味着商业化进程或更快;而AI视频类的访问量波动较大,或也意味着产品竞争更激烈、更易跑出超预期的黑马新品。
分平台来看,海外四大文生图平台(包括Meta Imagine、Midjourney、Adobe Firefly和Dalle-3)的成像效果已经十分成熟,但也需要建立在给出明晰提示词的基础上。通过多维度对比,公众号“数字生命卡兹克”的作者为四大平台进行打分。在细节质量方面,Midjourney > Adobe > Meta > Dalle-3;在审美方面,Midjourney = Adobe > Meta = Dalle-3;在风格多样化方面,Dalle-3 > Adobe = Midjourney > Meta;在语义理解方面,Dalle-3 > Adobe > Meta > Midjourney。综合来看,Adobe的表现能力更加均衡,各维度基本领先;Midjourney也较为均衡,但在审美上有明显优势;Meta表现中规中矩;Dalle-3偏科严重,语义理解出色,但细节质量和审美较弱。
Midjourney是AI生图应用中最早上线的产品之一,需要集成在discord平台使用,但用户也受益于Discord的基础设施和社区环境。通过整理Midjourney的迭代路径,我们发现主体的“一致性”概念贯穿始终,而这也是AI生图最重要的部分,因为图像的连贯性和可预测性,是AI生图正式作为商业化用途的基础。
风格、角色、场景一致性的难度逐渐递增,目前场景一致性还未解决,这也是AI生图最具挑战的部分之一。场景包含大量的细节、元素以及角色之间的逻辑关系,大模型把握的不仅是视觉层面的一致性,更是匹配上下文关系的一致性。我们认为场景一致性若得以解决,或意味着AI生图正式进入规模化的商业进程。相应的,AI视频的场景一致性或也可能受益并得以突破。
04
视频产品发展梳理,爆火元年因何而起?
大模型在视频领域主要有三个发展方向,其中视频生成挑战最大。一是视频生成包含文生视频、图片或视频生视频、编辑视频元素等多种形式,海外以Sora、Runway、Pika等为代表,国内有Pixverse、MorphAI等。二是视频剪辑,主要能力为根据素材库或已有视频完成自动剪辑并配音、对视频片段或画面大小进行裁剪等。抖音剪映、腾讯智影、捷成股份的ChatPV、OpusClip等均有一定表现力。三是视频识别,通过为大模型插入视觉编码器,赋予模型理解视频的能力,如Claude-3将2小时的视频转换为一篇博客文章,谷歌Gemini 1.5通过视频画面即可理解电影剧情并进行细节推理。
视频生成模型的早期尝试包括基于预设规则组合素材,应用于天气预报等程序化场景;而基于GAN的文本生成视频模型控制难度大、时序建模较弱;基于自回归Transformer的模型,例如谷歌的Phenaki、清华与BAAI团队的CogVideo开源模型,这种方式训练稳定性好,长视频建模、时序建模能力强,缺点是计算量大。
2023年已成为AI视频元年,本质上是基于Diffusion架构的视频生成模型与产品迎来爆发。Meta、谷歌、OpenAI等企业对基于Diffusion架构视频生成模型进行了开创性研究,过往Transformer模型需要将视频分解为时空上的一个个块(patch)分别预测,而Diffusion模型通过逐步加入噪声,学习逆向模拟的过程生成图像,大大降低了模型学习的复杂程度,扩散模型开始占据主导地位。海外Runway、Pika等相继上线产品引爆网络,国内如Morph、PixVerse发布测试版,阿里、腾讯、字节等巨头也相继发布视频生成模型。
2024年,Sora的爆火有望明确DiT路线地位,但对算力提出更大挑战。Sora采用的Diffusion Transformer(DiT)架构将U-Net主干替换为Transformer形成新的扩散模型,由此带来的优点是具备更高的可拓展性。Sora产生的1分钟视频长度远超其他模型,在三维空间的连贯性、持久性,包括数字世界的模拟方面都有更好的表现。但由于视频增加了时间的维度,其token长度远远超过文本和图像,对大模型训练所需的算力开支提出挑战。
Sora尚未公测之际,国内视频模型也在紧张追赶的进程中。根据EvalCrafter测试得分,Runway、Pika的模型领先,阿里达摩院的ModelScope和ZeroScope也在榜。测试之外的模型中,字节跳动的MagicVideo-V2在人工投票中优于Stable Video Diffusion(SVD)、Pika、Gen-2等模型。
在AI视频产品的落地方面,国内厂商交出有竞争力的答卷。国内公司爱诗科技与Morph AI是较早入局的,其中爱诗科技是少数在早期就探索DiT架构方向的公司,其产品PixVerse目前在公测阶段。
在一份来自“归藏的AI工具箱”的自媒体评测中,PixVerse总分甚至超过Pika和Runway,尤其是在主题一致性、成像质量上有明显优势。Pixverse的综合得分也是三个产品中最平衡的,在较强的运动幅度中依然可以维持较好的一致性。
我们认为,能引发市场轰动的AI模型或应用往往有更清晰、更远大的商业化预期。特别是在2023年之前,AI视频的预期还停留在降本维度,随着以Sora为代表的视频生成产品上线,降本逻辑不仅没被证伪,甚至Sora的产品质量已经可以希冀于商业化用途,进而衍生出对视频语料库和IP、版权的强烈需求。相较于文本,视频的采集、处理和标注难度更大,高质量的视频语料库相对稀缺,因此使得拥有高质量视频语料库的公司具有竞争优势。
05
AI音频:科技巨头、开源项目和创业公司竞争激烈
AI音频产品可归为三类:TTS(Text to Speech语音合成)、SVC(Speech-to-Speech Voice Cloning 语音克隆)和语音设计。其中TTS和语音设计应用更广泛,TTS产品成熟度更高,海外已落地的产品代表为ElevenLabs,支持29种语言的语音合成;国内代表为魔音工坊,更适合中文环境。语音设计的代表是AI音乐产品Suno,其在2024年3月发布的V3版本的音乐及人声质量大幅提高,能产出广播品质的AI音乐,或将改变未来音乐创作市场的格局。
TTS是一种文生声音的技术,核心在于模拟人声发音过程。使用场景包括智能助手、有声读物、导航系统、残障人士服务等。随着AI理论的发展,2021年起开始出现了更多控制语音风格的技术,如 Styler(改变输出风格)、DiffTTS(声音自然流畅)等。目前市场上普遍认为 ElevenLabs 的底层模型架构是Transformer 的语音生成模型和Diffusion模型的结合。
SVC是一种复制原声并模拟的声音克隆技术。通过对声音的采集、分析、建模后合成与采集样本极其相似的声音。根据海外独角兽报道,以Elevenlabs为例,语音克隆通常需要2小时采样、上千美元成本和1-2天的模型微调,但是目前也可支持30秒级别的即时语音克隆。2024年3月31日,OpenAI的Voice Engine发布,仅需文本输入及15秒音频样本便能生成与原声极其相似的语音。即时SVC成本不高,主要应用于配音、社交等场景。
语音设计是近期最超预期的AI音频细分市场,主要体现在AI音乐的进步。文生音乐本身门槛较高,因为声音是连续的波型信号,无法像文字一样轻易拆解再拼接。但随着以Suno V3为代表的产品问世,一首完整的音乐可以通过提示词自由生成,音乐小白也可以创建从歌词到人声和配器的所有内容,且曲风多变、声音质量清晰稳定。
目前AI音频产品的主要参与者有三类:科技巨头、开源项目和创业公司,竞争较为激烈。
科技巨头如Meta、谷歌、微软、亚马逊等均布局TTS,大厂具有语料库优势,能与自身云平台深度集成,未来或将赋能传统业务(广告、搜索、电商、办公等),且部分项目也已开源代码和模型。科技大厂可能短期内不会直接将AI音频产品落地商业化,但长期来看,AI音频与传统业务的结合或将释放巨大潜力。
创业公司的竞争赛道更广,也有OpenAI的身影。TTS赛道的硅谷明星项目包括ElevenLabs、Deepdub,国内则为魔音工坊。在AI音乐赛道上,Suno V3表现亮眼,V4已在研发过程中。根据乌鸦智能说公众号引述Similarweb数据,Suno在2024年2月的访问量已达810万;但仅在去年8月刚完成种子轮融资140万美元。预计后续研发投入空间仍很大,产品迭代值得期待。
OpenAI在音频领域的储备也不容忽视,SVC产品已率先在2024年3月发布Voice Engine,以及用于自动语音识别的Whisper神经网络系统。在人才方面,包括开源项目Tortoise的作者——工程师James Betker,此人目前在OpenAI负责语音和图像的生成式模型。需要关注OpenAI后续是否会将音频能力与Sora相结合,实现带声音的AI视频,或将成为AI视频商业化真正意义上的拐点。
通过梳理海外竞争格局,我们认为TTS和音乐合成在AI音频领域更有市场空间,虽然国内产品仍处初期,但存在极大空间迎头追赶。其中TTS发展更成熟,特别是科技大厂未来可能会与传统业务结合,释放巨大潜力。音乐合成领域在全球范围内的出圈产品都较少,技术难度更高,看好Suno的研发投入空间和后续迭代,长期有望改写音乐创作市场格局。SVC相对更工具化,OpenAI发布的产品猜想会是一个中间形态,远期价值在于与AI视频或其他模态的结合。
06
3D:主流路径暂不明朗,整体处于萌芽期
AI生成3D模型的技术手段或仍未看到主流路径,处于萌芽和探索期。首先,AI生成3D并不是简单地将2D图像模型扩展成3D。在训练资源方面,3D资产素材相较于图片更为稀缺和私有化。为了利用更为丰富的图像素材,诞生了原生3D数据训练、2D图像训练后升维、混合训练模型这三种不同类型及技术手段。在3D结果展示方面也并未统一,某些方法可以直接存储模型的空间结构,而一些隐式方法采用集合或函数的形式表现3D表面,表现形式的不同也造成不同模型存在较大差异。
3D应用前景广阔,但目前的生成效果精度欠佳。3D生成模型可以极大降低游戏、电影的3D资产成本,有利于推动更多领域采用3D内容表现手段,同时也可以用于元宇宙、虚拟现实、3D打印等新兴应用方向。但受限于3D资产的稀缺性以及3D表达的复杂性,目前3D生成模型缺乏细节表达的能力,尤其对于光影的影响难以消除,不能很好地支持材料属性。
从已上线的3D生成平台的应用对比效果来看,Tripo或处在行业头部。自2023年下半年,3D内容生成平台陆续上线,大部分平台均支持图文生成3D。在自媒体的评测中,其均表示在文生3D领域Tripo与Luma领先,细节上Tripo更优;而在图生3D中,Tripo依然保持领先优势。
我们认为,2024年传媒乘AI东风的行情与2023年有本质不同。2023年更多为海外催化、国内找映射,但实质上国内大模型本身能力与海外存在不小差距,且并未真正意义上实现用户数据起量和产品性能出圈。
而2024年春节后的AI行情始于海外Sora推出(标志着多模态视频成为关注重点),爆发于国内大模型的实质进展和出圈。从Kimi、阶跃星辰等创业公司,到此后阿里、百度等大厂纷纷入局无损超长上下文领域,我们切实感受到国内AI产品、AI生态的正向进展,并坚定看好2024年及未来国内的AI产业趋势。
基于全球AI产业发展的阶段判断,我们认为,中国厂商正进入快速追赶期,部分领域体现较强竞争力。可重点关注文本(确定性最强)、视频(后续期待值最高)、音频(短期爆发性更强)三大方向及AI产业链投资机会。
其中,产业链上游包括语料库概念,在“AI+文本语料”领域,可关注中文在线、南方传媒、掌阅科技、荣信文化、山东出版、中原传媒、中国科传、新华文轩等公司。
在“AI+视频数据”领域,相较于文本语料,视频语料更具稀缺性,商业化逻辑顺畅。建议关注华数传媒、华策影视、中广天择、电广传媒、捷成股份。
而产业链下游包括B端/C端应用场景,在“AI+游戏/社交”领域,可关注恺英网络、神州泰岳、巨人网络、昆仑万维、盛天网络;在“AI+广告/电商”领域,可关注易点天下、值得买、因赛集团等;对“AI+影视/IP”领域,我们全年维度看好,电影大盘高景气度,叠加“AI+视频”为今年高确定性进展方向,建议关注光线传媒、万达电影、上海电影、博纳影业、中国电影等。
风险提示:
1.1) AI技术发展水平不及预期。算力短缺、技术瓶颈难突破、数据质量不高、伦理和隐私问题等因素限制多模态技术发展。
2.2) 法律监管趋严风险。多模态AI技术涉及大量个人和敏感数据的处理,可能会引发隐私泄露和伦理争议。
3.3) 地缘政治导致的供应链风险。如海外芯片出口禁令或对我国的多模态AI技术造成算力限制、研发成本增加、技术发展滞后等阻碍。
本文所提及的任何资讯和信息,仅为作者个人观点表达或对于具体事件的陈述,不构成推荐及投资建议,不代表本社立场。投资者应自行承担据此进行投资所产生的风险及后果。