华体会- 华体会体育官网- 体育APP下载中信建投:AI多模态大模型投资展望
栏目:华体会APP下载 发布时间:2026-02-23

  华体会体育平台是一家专注于体育娱乐的领先平台。华体会专注体育竞技,华体会app提供实时体育赛事、华体会棋牌、华体会彩票、华体会百家乐、华体会APP,华体会官网,华体会官方网站,华体会网址,华体会登陆链接,华体会平台,华体会官方平台,华体会app下载,华体会体育靠谱吗,华体会2025最新,华体会世界杯,华体会体育打造安全便捷的互动娱乐平台,体验最好的赛事服务。

华体会- 华体会体育官网- 华体会体育APP下载中信建投:AI多模态大模型投资展望

  字节于2月7日开启 Seedance 2.0 内测,持续优化AI视频生成对生成结果的把控。Seedance 2.0 的核心突破在于全方位多模态参考与精细化镜头控制,模型支持同时上传最多 12 个参考素材(含图像、视频、音频),能够对角色面部、服装纹理及画面风格进行像素级锁定,有效解决了 AI 视频长期存在的角色一致性难题。通过引入首尾帧控制与原生音视频同步技术,创作者能够精准定义镜头的起止状态并实现口型与动作的帧级对齐,这使得 AI 生成不仅停留在空镜或单人动作,而是真正具备了处理复杂叙事与多镜头交互的能力。

  产业侧,漫剧市场迎来爆发式增长,AI 仿真人剧成为新流量高地。据 1 月 20 日巨量引擎漫剧生态大会数据,漫剧赛道日耗峰值已达 3000 万,预计 2026 年市场规模将突破 220 亿元。2025 年下半年,漫剧广告营销流水增长超 21 倍,每日自然流水大盘增长 144%。尽管总供给量突破 10 万部,但优质动画及 AI 仿真人剧供给仍显稀缺,自 2025 年 11 月以来仿真人剧快速起量并带动千万级大盘流量。在技术赋能下,AI 已深度融入漫剧生产管线,内容制作环节渗透率达 50%-80%,平均降低生产成本 70% 以上,提升效率 80% 以上。Seedance 2.0 的推出有望进一步缓解优质产能短缺,通过 IP(60% 爆款源自小说)与 AI 的结合,加速漫剧产业的工业化升级。

  总结:Anthropic 发布 Claude Opus 4.6,凭借 Agent Teams 机制与自适应思考能力,深度打通 Office 生态并实现复杂工程任务托管,推动 AI 在金融、法律等垂直场景的深度渗透;OpenAI则推出GPT-5.3-Codex,不仅刷新编程与终端操作 SOTA,更通过端侧环境接管与自我构建能力,验证了 AI 自动化研发的内生循环。多模态领域,字节跳动 Seedance 2.0开启内测, 通过全方位多模态参考与精细化镜头控制解决视频生成的一致性痛点,有望协同 Doubao、Seedream 构成全模态矩阵,大幅降低内容制作成本并加速商业化落地。

  风险分析:(1)宏观经济下行风险:计算机行业下游涉及千行百业,宏观经济下行压力下,行业IT支出不及预期将直接影响计算机行业需求;(2)应收账款坏账风险:计算机多数公司业务以项目制签单为主,需要通过验收后能够收到回款,下游客户付款周期拉长可能导致应收账款坏账增加,并可能进一步导致资产减值损失;(3)行业竞争加剧:计算机行业需求较为确定,但供给端竞争加剧或将导致行业格局发生变化;(4)国际环境变化影响:国际贸易摩擦加剧,美国不断对中国科技施压,对于海外收入占比较高公司可能形成影响。

  海螺AI:MiniMax10月28日更新的Hailuo2.3系列模型重点聚焦物理稳定性与全模态协作,解决了大动态运镜下的物理崩坏问题,大规模运动指令下对光影方向、明暗过渡及物理碰撞逻辑的模拟已接近实拍质感,尤其在复杂肢体动作如精细抓取与手指交叉方面展现了极高的稳定性。海螺Media Agent则进一步将视频、语音及语言模型封装为统一的智能体,支持在无限画布中通过自然语言协作。用户仅需输入简单的商业创意,Agent即可自主完成脚本生成、视频渲染与音效配置。

  可灵AI:快手可灵12月1日发布的o1是行业内首个将多种创作任务整合进统一引擎的视频大模型。该模型基于多模态视觉语言理念,将参考图生视频、内容增删、风格重绘等功能融合,解决了过去创作中功能割裂的问题。根据快手内部测试数据,可灵o1在图片参考任务中的胜负比达到247%,在指令变换任务中的胜负比达到230%,在理解复杂创作意图方面表现突出。可灵视频2.6模型则进一步强化了音频同步与动作控制能力,支持在生成视频的同时直出自然语言对话与音效,并具备针对手势、表情及肢体动作的精细化驱动。据实测,可灵2.6支持长达30秒的复杂武打动作控制,且在生成过程中可维持音色的一致性,使得视频生成可控性进一步增强。

  阿里通义万相:阿里于2025年12月26日正式发布通义万相2.6系列模型,通过多模态联合建模技术,实现了国内首个商业化角色扮演功能。具体而言,万相2.6通过提取参考视频中的主体情绪、姿态及声学特征,在生成阶段作为约束条件,确保了角色在不同镜头间的一致性,解决了影视创作中IP形象易闪烁的痛点。在叙事控制方面,万相2.6引入了专业的分镜控制公式,能够理解高层语义逻辑,将文本自动拆解为远景环境、中景动作与近景特写等专业镜头组合。目前,万相2.6支持单次生成15秒的高清视频,为国内当前公开测试的最高指标,其对镜头节奏与画面氛围的高一致性建模,为专业导演提供了可量产的数字生产工具。

  智谱:2026年1月14日,智谱AI联合华为发布的GLM-Image,成为首个在国产全栈算力底座上完成全流程训练的SOTA图像生成模型,验证了国产昇腾芯片与昇思框架在大模型训练中的可靠性。技术方面,GLM-Image模型采用自回归理解结合扩散解码的混合架构,兼顾了宏观逻辑理解与微观细节刻画,在处理知识密集型场景时表现优异,特别是在复杂的海报排版、带有数据信息的图表生成方面,解决了汉字渲染乱码的行业难题。此外,GLM-Image模型原生支持1024x1024至2048x2048的任意比例输出,且能理解具有推理性质的创作指令,API调用模式下生成一张图片仅需0.1元,极具性价比优势。

  产业端,模型能力的突破已带动社区传播与商业化落地。快手可灵2.6“动作控制”功能驱动了以宠物跳舞为代表的现象级视频在全球范围内的爆火,不仅带动了C端用户的涌入,更直接转化为了订阅收入。根据晚点独家调研数据,可灵AI的月活跃用户数在2026年1月已突破1200万;截至2026年1月20日,可灵App端付费用户规模环比增长达350%,1月的日均收入较12月日均高出约 30%(2025 年 12 月可灵单月收入超过 2000 万美元)。从收入构成看,2025年可灵全年收入预计达1.4亿美元,其中专业生产者贡献了近70%的份额,这与快手一直以来瞄准P端(自媒体视频创作者、广告从业人员等)用户的战略相一致——即多模态AI工具已脱离娱乐属性,成为影视、广告等行业从业者的生产力标配,初步形成商业闭环。

  AI漫剧则成为了继短剧之后视频生成应用的又一场景,字节跳动等头部平台正通过激进的激励政策推动AI内容精品化。以抖音短剧版权中心为例,其2025年12月16日推出了“漫剧创作激励计划”,对使用豆包大模型制作漫剧的机构提供15%的技术成本补贴;而后,抖音进一步加码漫剧创作激励,给予S+漫剧保底激励5000元/分,单部剧保底50万-75万,超头部作品最高分成达30000元/分;同时平台开放了番茄小说超过6万部优质IP库,并全额补贴改编费用。数据显示,2025 年 9 月红果短剧月活用户约 2.36 亿,超过了B 站和优酷,接近芒果TV;而从市场规模来看,短剧今年有望突破千亿,漫剧有望突破200亿,展现出巨大的潜力。从短剧的视频素材生成到完整漫剧生成,AI技术正催生全新的产业生态,逐步产生商业化价值。

  风险分析:(1)AI产业商业化落地不及预期:目前各环节AI 产品的商业化模式尚处于探索阶段,如果各环节产品的推进节奏不及预期,或对相关企业业绩造成不利影响;(2)市场竞争风险:海外 AI 厂商凭借先发优势,以及较强的技术积累,在竞争中处于优势地位,如果国内 AI 厂商技术迭代不及预期,经营状况或将受到影响;同时,目前国内已有众多企业投入AI产品研发,后续可能存在同质化竞争风险,进而影响相关企业的收入;(3)政策风险:AI技术的发展直接受各国政策和监管影响。随着AI在各个领域的渗透,政府可能会进一步出台相应的监管政策以规范其发展。如果企业未能及时适应和遵守相关政策,可能面临相应处罚,甚至被迫调整业务策略。此外,政策的不确定性也可能导致企业战略规划和投资决策的错误,增加运营的不确定性;(4)地缘政治风险:在全球地缘政治环境的波动下,尤其美国对中国的出口限制或将直接影响国内企业算力芯片的获取,进而影响其产品研发和市场竞争力。同时,地缘政治风险也可能导致 AI 产品开拓海外市场面临障碍,影响相关企业的营收情况。

  (MAS)演进,Anthropic Cowork与MiniMax Agent 2.0等产品深度打通本地工作流,推动AI从对话助手升级为具备长程规划能力的数字员工。垂直场景Agent同样加速渗透,商业情报、企业自动化等初创Agent企业的融资亦验证商业闭环。多模态领域,AI漫剧接棒短剧成为新增长极,字节跳动等平台通过高额激励推动内容精品化,AI加速IP影视化进程,有望催生新的市场机遇,重塑广告与游戏资产生产逻辑。

  风险分析:(1)宏观经济下行风险:计算机行业下游涉及千行百业,宏观经济下行压力下,行业IT支出不及预期将直接影响计算机行业需求;(2)应收账款坏账风险:计算机多数公司业务以项目制签单为主,需要通过验收后能够收到回款,下游客户付款周期拉长可能导致应收账款坏账增加,并可能进一步导致资产减值损失;(3)行业竞争加剧:计算机行业需求较为确定,但供给端竞争加剧或将导致行业格局发生变化;(4)国际环境变化影响:国际贸易摩擦加剧,美国不断对中国科技施压,对于海外收入占比较高公司可能形成影响。

  风险分析:版权保护力度不及预期,知识产权未划分明确的风险,IP影响力下降风险,与IP或明星合作中断的风险,大众审美取向发生转变的风险,竞争加剧的风险,用户付费意愿低的风险,消费习惯难以改变的风险,关联公司治理风险,内容上线表现不及预期的风险,生成式AI技术发展不及预期的风险,产品研发难度大的风险,产品上线延期的风险,营销买量成本上升风险,人才流失的风险,人力成本上升的风险,政策监管的风险,商业化能力不及预期的风险。

  来自香港理工大学和腾讯ARC Lab的研究团队提出了首个统一的像素级多模态大模型——UniPixel。只需UniPixel一个模型,就能完成目标指代(Referring)、像素级分割(Segmentation)与区域推理(Reasoning)三大任务,兼具灵活性、精确性与可扩展性。该模型首次实现了视频理解与精确物体标注的统一,通过创新的对象记忆机制和多模态提示编码,支持用户通过点击、框选等自然交互方式获取细粒度视觉信息,并生成时空对齐的分割掩码与语言回答。

  多模态提示编码器支持点、框、掩码三种视觉提示的统一编码,将空间坐标、时间位置及提示类型融合为高维向量,并与视觉 Token 对齐。例如,用户在视频第 5 秒点击某物体,系统可自动解析该点的时空信息并生成特征向量。对象记忆机制(Object Memory Bank)动态存储用户指定的目标区域,通过 “记忆预填充” 和 “记忆注入” 机制实现多轮交互中的上下文感知。当用户首次框选目标时,系统生成唯一标识符并记录其时空特征;后续对话中只需引用该标识符,即可快速激活对应区域的特征进行推理。SAM 2.1 掩码解码器采用 Segment Anything Model 2.1 作为底层分割工具,结合时空信息生成高精度掩码。在视频场景中,该模块可自动处理物体运动与变形,确保多帧标注的一致性。

  仅 3B 参数的 UniPixel-3B 在多项任务中超越 72B 传统模型,基准测试全面领先。分割任务:在 ReVOS(62.1 J&F)、MeViS(68.3 J&F)等数据集上超越现有模型,尤其在视频动态物体分割中优势显著。指代理解:在 Ref-YouTube-VOS(73.5 J&F)、RefCOCOg(85.2% 准确率)等任务中表现最优。综合推理:在新提出的 PixelQA 任务中,UniPixel-3B 以 58.7% 的准确率超越 72B 模型(41.2%),展现出跨模态推理的深度整合能力。

  风险分析:北美经济衰退预期逐步增强,宏观环境存在较大的不确定性,国际环境变化影响供应链及海外拓展;芯片紧缺可能影响相关公司的正常生产和交付,公司出货不及预期;公司生产和交付延期,导致收入及增速不及预期;信息化和数字化方面的需求和资本开支不及预期;市场竞争加剧,导致毛利率快速下滑;主要原材料价格上涨,导致毛利率不及预期;汇率波动影响外向型企业的汇兑收益与毛利率;人工智能技术进步不及预期;汽车与工业智能化进展不及预期。