多模态AI加速爆发！人工智能核心重点赛道，布局龙头梳理

admin 最新科技 2024-08-07 22 0

AI大模型标志着人工智能发展的新里程碑。自1956年达莱茅斯会议以来，人工智能的发展历程可划分为四个阶段。随着互联网和云技术的崛起，人工智能逐渐从符号主义过渡到联结主义，呈现出一种波浪式的发展态势。当前，由AI大模型引领的这一轮人工智能浪潮，正预示着通用人工智能时代的到来。

而ChatGPT的问世宣告了AI大模型时代的开启，自此，多模态预训练大模型已成为行业标配。

在AI大模型向多模态领域延伸的过程中，生成式AI领域正经历着深刻的变革。大模型的创新焦点已从单模态拓展至多模态，使得多模态预训练大模型在文字、图像和视频生成等多个领域逐渐成为不可或缺的工具。

近日，OpenAI推出了其首个文本生成视频模型——Sora，其所展现出的效果令人叹为观止。Sora模型不仅能够根据文本描述生成长达60秒的视频内容，更能对视频的色彩、风格等关键要素进行精准把握，从而制作出人物表情丰富、情感饱满的生动视频。Sora的三大核心优势使其在AIGC领域取得了突破性的进展，堪称该领域的一大里程碑。

AI大模型逐步从单模态向多模态发展：

资料来源：毕马威

多模态行业概览

根据处理数据类型数量的不同，AI模型可以分为两大类别：

（1）单模态模型：专注于处理单一类型的数据，例如文本。它们针对特定类型的信息进行优化，并在该领域内表现出色。

（2）多模态模型：与单模态模型不同，多模态模型能够同时处理两种或更多种类型的数据。这种处理方式与人脑相似，能够同时接收并处理文本、声音、图像等不同形式的信息。多模态模型通过整合来自不同模态的数据，提供更全面、多维度的理解和表达。

多模态的概念意味着从多个角度或感官来表达或感知事物。

在这种背景下，“多模态大模型”特指那些能够处理文本、音频、图像、视频以及代码等多种不同形式内容的大规模模型。这些模型通过融合多种类型的信息，实现更高级别的理解和生成能力，为人工智能的发展开辟了新的道路。

多模态大模型框架：

资料来源：东吴证券、行行查

随着支撑技术的不断完善，AI模型在输入文字后能够生成多模态内容的能力日益增强，业内新产品层出不穷，商业化应用的速度也在加快。

2020年6月GPT3.0的发布，标志着AI已经能够高水平地生成文字和代码。随后，2022年7月，文生图领域的标志性产品stable fusion问世。到了2023年，AI在生成3D模型和视频领域也取得了显著进展，相关产品陆续落地。在视频生成领域，RunwayGen和PikaLabsPika等采用扩散模型的技术不断推动视频效果的优化与提升。

随着AI技术的不断发展，无论是B端还是C端用户，都能够以高质量、低成本的方式制作图像、视频以及3D视频。这将为影视、营销、游戏等传媒行业细分板块带来巨大的商业价值，助力这些行业降低成本、提高效率。

多模态能力不仅能够提升交互体验和内容生产效率，还能优化原有AI产品在场景中的表现。通过对图片、语音、文本、视频等多种模态的深入理解，多模态技术能够显著提升交互体验，使AI产品在各种场景中发挥更大的作用。

在技术上，多模态大模型主要分为单塔结构和双塔结构两种。单塔结构利用一个深度神经网络完成图像和文本之间的交互融合，属于信息前融合方案。而双塔结构则使用不同的神经网络处理不同模态的信息，并在最后一层进行信息交互和融合，属于信息后融合方案。这种结构具有模型独立性强、训练效率高等优势。

在商业模式上，大模型的落地主要可分为三种模式：大模型、大模型+算力以及大模型+应用。企业用户可以直接购买大模型产品，也可以租用大模型服务。同时，厂商还可以将模型与算力组合销售，或者向企业用户销售融入了大模型能力的上层应用，并收取软件授权费等费用。

目前，大模型+算力是主流的收费模式，但随着模型应用和生态的进一步完善，大模型+应用模式的占比有望逐步提升。

多模态市场竞争格局和龙头梳理

当前多模态已成为众多厂商在AI大模型演化过程中的重要发展方向，其中，“能说会画”的能力更是成为各大模型竞相追逐的焦点。

海外OPENAI和谷歌凭借在多模态领域的广泛布局和先进技术，推出了表现卓越的通用多模态大模型，引领着行业的发展趋势。同时，Stability.ai、Midjourney、Runway等垂直领域的独角兽企业也在技术突破和产品创新方面发挥着举足轻重的作用。

国内高校、技术和行业三方的紧密结合进一步稳固了大模型行业的格局，生成式AI为产业升级提供了强大的动力。ChatGPT的崛起激发了阿里、华为、腾讯、京东、字节、360、商汤、科大讯飞等大厂的积极参与，使得国内大模型领域进入了“百模混战”的激烈竞争时代。

截至2023年10月，国内已有254家厂商及高校院拥有10亿参数规模以上的大模型。在这个生态中，高校和研究者专注于基础研究和人才培养，为行业提供源源不断的创新动力；大厂则凭借强大的算力支撑、基础设施建设和MaaS服务，为大模型的训练和部署提供坚实保障；而创业公司则在大模型应用开发方面大展拳脚，推动技术的商业化进程。

此外，在多模态方向已有布局或具备布局能力的厂商包括昆仑万维、万兴科技、美图、新国都等。随着多模态技术的不断进步，电商、游戏、教育、营销等领域的AI应用也将迎来新的发展机遇，相关布局厂商如焦点科技、中文在线、盛天网络、蓝色光标、凤凰传媒、世纪天鸿、掌趣科技等将受益于这一趋势。同时，虹软科技、当虹科技等公司也将因AI视频应用的发展而受益。

随着大模型数据规模的持续增长，单体服务器已难以满足日益增长的算力需求。因此，将大量服务器通过高性能网络相连，打造大规模算力集群已成为必然趋势。在这一领域，浪潮信息、中科曙光、工业富联、拓维信息等厂商已积极布局，为行业的快速发展提供有力支撑。

结语

当前多模态大模型的发展正在带来技术平权，使得C端内容创作能够达到一个成本与质量更优的均衡点。这种技术的进步为普通用户提供了更多的创作工具和可能性，让他们能够更轻松地创作出高质量的内容。

随着图像、视频、音频、3D资产等多模态技术的进一步发展，我们有望看到AIGC时代的真正到来。在这个时代，人工智能将成为内容创作的重要驱动力，帮助用户更快速、更高效地生成丰富多样的内容。

这种变化将为UGC平台带来巨大的机遇。过去，UGC平台如小红书、知乎、抖音、快手等已经证明了用户创造内容的潜力。每当用户创造内容的门槛降低一倍，用户创造内容的数量就会增加十倍，对应平台的用户规模也会大幅增加。这意味着，随着多模态大模型和多模态技术的普及，UGC平台将迎来更多的创作者和更多的内容，从而进一步推动平台的发展和壮大。

关注【乐晴智库】，洞悉产业格局！