多模态交互 - 财报，业绩电话会，研报，新闻 - Reportify

多模态交互

搜索文档

算力总量将增长10万倍！华为预测未来智能世界十大趋势

第一财经· 2025-09-17 10:49

智能世界2035技术趋势 - AGI将成为未来十年最具变革性的驱动力量但需克服核心挑战才能实现奇点突破走向物理世界是AGI形成的必由之路 [2] - AI智能体将从执行工具演进为决策伙伴驱动产业革命 [3] - 人机协同编程成为主流开发模式人类专注于顶层设计和创新思考 AI负责繁琐编码执行 [3] 交互与服务模式演进 - 交互方式从图形界面转向自然语言并向融合人类五感的多模态交互演进用户通过语音手势获得深度沉浸体验 [3] - 手机App从独立功能实体转变为AI智能体驱动的服务节点 AI智能体调用相关服务节点提供极致体验 [3] 自动驾驶与算力发展 - 世界模型等关键技术突破将推动L4+自动驾驶汽车成为移动第三空间 [3] - 2035年全社会算力总量将增长10万倍计算领域在架构/材料/工艺/范式四大层面实现颠覆性创新 [3] 数据存储与通信网络 - AI存储容量需求比2025年增长500倍占比超过70% Agentic AI驱动存储范式改变 [3] - 通信网络连接对象从90亿人扩展到9000亿智能体实现移动互联网至智能体互联网的跃迁 [4] 能源系统变革 - 可再生能源发电量占比将突破50% 加速替代传统化石能源 [4] - 人工智能成为新能源系统核心通过Token管理瓦特实时管理每一焦耳能量实现更动态高效的电网 [4]

多模态交互

多模态交互

华为发布十大技术趋势：2035年全社会算力总量将增长10万倍

观察者网· 2025-09-17 10:35

9月16日，华为发布智能世界2035系列报告，包括《智能世界2035》和《全球数智化指数2025》报告两大研究成果，展望了未来十年的关键技术趋势以及这些技术对教育、医疗、金融、制造、电力等行业带来的改变和影响。华为常务董事汪涛表示："每一次文明的跃迁都源自人类对未知的不断探索。这份深植于人类基因的探索精神，推动我们不断突破认知与技术的边界，走向更加繁荣的智能文明。生成式人工智能正在以我们从未想象过的方式，重新定义未来的可能性。因此，我们比以往任何时候都更需要前瞻的视野，更需要依靠科技的愿景与假设来指引前路。" 趋势六：随着世界模型等关键技术突破，全新的L4+自动驾驶汽车将会走入人们的生活，成为"移动第三空间"。趋势七：2035年全社会的算力总量将增长10万倍，计算领域将突破传统冯• 诺依曼架构的束缚，在计算架构、材料器件、工程工艺、计算范式四大核心层面实现颠覆性创新，最终催生新型计算的全面兴起。趋势一：AGI将是未来十年最具变革性的驱动力量，但仍需克服诸多核心挑战，方能实现AGI奇点突破。因此，走向物理世界是AGI形成的必由之路。趋势二：随着大模型的发展，AI智能体将从执行工具演进为决策伙伴， ...

多模态交互

全球数智化指数（GDII）

生成式人工智能

L4+自动驾驶汽车

多模态交互

全球数智化指数（GDII）

生成式人工智能

L4+自动驾驶汽车

当辅助驾驶 “哑火”，车企将如何重构城市交通的智能基因

36氪· 2025-08-20 19:04

政策监管趋严 - 部分高速路段明确禁止启用L2/L2+级辅助驾驶系统[1] - 市场监管总局与工信部发布新规，严禁使用“L2 5”、“脱手驾驶”等模糊宣传术语[1] - 新规要求车企在APP和用户手册中显著标注功能限制，禁止将辅助驾驶宣传为无人驾驶[2] 技术局限性暴露 - 辅助驾驶系统存在明显技术边界，无法可靠识别静止车辆、缓慢行驶的工程车及异形挂车等场景[1] - 在施工改道路段，系统感知范围有限，难以应对不规则摆放的锥桶和临时限速标志[2] - 节假日车流量激增时，ACC/AEB系统可能因误判急刹而引发连环追尾事故[2] - 国内L2级辅助驾驶渗透率已超过50%，但技术水平与营销宣传存在巨大差距[2] 安全事故与责任界定模糊 - 曾发生因系统未能识别静止车辆导致的追尾致死事故，造成2人死亡[1] - 现行法规要求驾驶员全程负责，导致“辅助”与“自主”的责任边界模糊，车企常以“系统识别局限”为由免责[2] 多模态交互与物理世界AI模型成为新方向 - 技术竞争焦点转向车辆对物理世界的理解深度，多模态模型通过融合800万像素摄像头、4D毫米波雷达和激光雷达数据，提升环境感知能力[4] - 系统通过“多模态认知-场景推理-决策进化”的三层架构，将感知数据转化为具体决策依据，例如识别施工路段需减速30%[4] - 驾驶员监测系统升级，通过方向盘扭矩感知、眼球追踪和心率监测等多维度数据构建驾驶员实时状态模型，实现渐进式干预[4] - 物理世界AI大模型通过模拟数千种危险情境的演化路径，具备场景预判能力，在虚拟测试中反应速度比人类快2倍以上[5] 数据驱动算法进化 - 智能驾驶的进化速度由数据质量与模型能力决定，新规强调将警示路段场景数据反哺算法训练[7] - 针对静止车辆误判问题，有车企建立了覆盖23种环境条件的专项数据库，包含超过10万案例，以提升识别非常规静止物体的能力[7] - 物理世界AI大模型通过学习百万次真实车流交互数据，能预测多车博弈场景，计算出保持秒级车距等最优策略，提升效率[7] 车企竞争维度与商业模式重构 - 行业竞争从“功能炫技”转向“生态安全”，透明化的安全承诺正在取代夸大宣传[8] - 新规推动车企在APP中设置“智能驾驶安全中心”，实时展示系统能力评分和功能优化项，此举有助于提升用户信任度和日均使用时长[8] - OTA升级需备案审查，倒逼车企建立全流程管控体系[8] - 最终竞争力在于构建“人-车-环境”的和谐关系，车辆成为智能出行生态的核心节点[8] - 商业模式可能从“卖车”升级为运营“城市效率基础设施”，车企转变为交通效率的运营商[9]

多模态交互

辅助驾驶系统

物理世界AI大模型

多模态交互

辅助驾驶系统

物理世界AI大模型

营收超1亿美元！可灵，凭什么？

第一财经· 2025-08-06 23:32

AI视频生成行业动态 - 创作者Hashem AI-Ghaili使用AI工具在12天内以500美元成本制作出短片《Kira》，在YouTube和Bilibili分别获得5.9万和47.9万次观看 [2] - 另一部短片《The Colorless Man》制作成本仅600美元，使用ChatGPT、MidJourney等工具完成脚本、图像、视频、语音等全流程 [4] - 视频生成赛道从最初不被看好到1年后出现商业成功案例，如可灵年化营收突破1亿美元 [7] 可灵公司发展 - 可灵用户规模从2024年Q3的500万快速增长至4500万，均为付费用户 [8][15] - 年化营收(ARR)在2024年3月突破1亿美元，超过MiniMax的7000万美元预期收入 [7] - 在Poe平台市场份额达30%，超过Runway的23.6% [18] - Freepik平台数据显示可灵生成视频数量超过其他模型总和 [19] 技术迭代与功能创新 - 推出"首尾帧"功能让用户通过两张图片生成连贯过渡视频 [9] - 1.5版本新增"运动笔刷"、"人脸一致性"、"口型同步"等功能提升视频可控性 [11] - 1.6版本推出"多图参考"功能，用户可上传多张图片作为生成参考 [13][14] - 2.0版本整合多模态交互方式MVL，允许文字、图片、视频片段等多种输入 [15] - 最新推出"灵动画布"功能，整合文生图、图生视频等流程并支持团队协作 [23][24][25] 行业竞争格局 - 可灵在国内领先生数科技(ARR 2000万美元)、字节跳动即梦AI(ARR<1000万美元)等竞争对手 [17] - 全球范围内与Runway(ARR 8400万美元)形成竞争 [17] - 面临Google Veo 3(支持生成带声音视频)和字节跳动Seedance 1.0等新模型的追赶 [21][23] - 行业用户忠诚度低，新模型上线会快速改变市场份额分布 [21] 商业化应用前景 - 视频生成技术已应用于Netflix《the eternaut》、Amazon Prime《House of David》等影视作品 [27] - 广告营销行业广泛应用AI技术生成素材，如保持模特一致性推广不同产品 [34] - 好莱坞态度从抵触转为拥抱，出现AI分镜师等新职业 [41][42] - 预计未来将向Agent方向发展，实现从脚本到视频的自动化生成 [45]

快手(HK:01024)

多模态交互

多模态交互

营收超1亿美元！可灵，凭什么？

第一财经· 2025-08-06 23:22

视频生成行业现状 - 视频生成行业在2024年迎来爆发式增长，可灵等公司已实现商业化成功，年化营收突破1亿美元[11][22] - 行业标杆公司Runway去年12月ARR达8400万美元，可灵与之不相上下[22] - 国内竞争对手如生数科技Vidu产品ARR为2000万美元，字节跳动即梦AI和Minimax海螺AI均未达1000万美元[22] - 全球用户对视频生成工具忠诚度低，新模型上线会迅速改变市场份额分布，如Google Veo 3上线后份额从0增至30%[25] 可灵公司发展 - 可灵用户规模从2024年1月的600万快速增长至2025年4月的4500万，3个月内增长近2倍[20][57] - 可灵在Poe平台市场份额达30%，超过Runway的23.6%[23] - 在Freepik平台，可灵生成的视频数量超过其他所有模型总和[23] - 公司年化营收在2025年3月突破1亿美元，超过MiniMax预期的7000万美元[11][22] 技术发展 - 视频生成技术仍处于早期阶段，类似LLM的GPT-2时期，存在常识和逻辑错误[11] - 可灵通过多模态交互方式(MVL)提升生成效果，允许用户以文字、图片、视频等多种方式输入指令[19] - 关键技术创新包括首尾帧、运动笔刷、人脸一致性、多图参考等功能，大幅提升视频生成可控性[16][18][19] - 1.6版本是多图参考功能推出的重要分水岭，使可灵用户从600万增至2200万[20][48] 产品迭代 - 可灵在1年内发布5个版本更新，从1.0迭代至2.1[13][20] - 1.5版本引入运动笔刷、人脸一致性、口型同步等功能[16] - 1.6版本推出多图参考功能，成为用户增长转折点[18][20] - 2.0版本整合所有交互功能，推出MVL多模态交互方式[19] - 最新推出"灵动画布"功能，实现工作流整合和团队协作[28][31] 行业应用 - AI视频生成已应用于影视制作，如Netflix《the eternaut》和Amazon《House of David》使用AIGC镜头[34] - 广告营销行业深度应用AI技术，可实现模特一致性推广不同产品[51] - 职业细分出现AI分镜师、AI视频生成师等新岗位[61] - 视频素材生成市场规模达千亿级别，已形成完整产业链[34] 未来趋势 - Agent技术将成为下一阶段发展方向，实现创作流程自动化[66] - 视频生成将不仅服务于存量市场，还将创造具备实时性和互动性的新内容形态[67] - 行业竞争加剧，Google已发布自带声音的Veo 3模型，字节跳动整合资源加速追赶[25][26] - 技术领先性、产品创新和创作者社区将成为核心竞争壁垒[55]

快手(HK:01024)

多模态交互

Artificial Intelligence

多模态交互

Artificial Intelligence

AI数字人辅助小程序功能版块设计分析

搜狐财经· 2025-08-06 16:00

人机交互技术发展 - AI数字人辅助小程序通过模拟人类交流方式提供自然高效的服务支持旨在构建兼具实用性与亲和力的交互平台 [1] - 对话界面采用多轮对话技术支持上下文语义理解与意图识别用户可通过文字或语音输入需求系统自动纠错并补全关键信息 [2] - 响应模块设计拟人化表达根据对话内容匹配表情符号与语气词避免机械式回复 [2] 任务管理功能 - 数字人可解析复杂需求并自动拆解为可执行步骤例如生成食材采购清单、场地布置建议及时间安排表 [4] - 日程管理模块支持与手机日历同步具备提前提醒与冲突检测功能当检测到时间重叠时自动建议调整方案 [4] 个性化推荐系统 - 基于用户历史对话数据构建偏好模型数字人可主动推送相关服务例如定期发送运动教程与饮食建议 [5] - 推荐内容涵盖生活服务、学习资源、娱乐活动等类别每个推荐项附带简要说明与操作入口用户可通过滑动手势快速采纳或忽略建议 [5] 多模态交互设计 - 支持简单手势识别与表情反馈例如通过点赞手势表达满意系统将记录该行为并提升同类推荐权重 [6] - 视觉呈现采用2.5D卡通风格数字人形象保持固定发型与服饰强化品牌识别度同时降低用户认知负担 [6] 隐私保护机制 - 对话数据采用端到端加密技术用户可自主选择数据保留期限 [7] - 权限设置提供精细化控制选项例如允许访问日历但禁止读取通讯录敏感操作需通过二次验证 [7] 界面优化成果 - 界面设计遵循品牌色系标准主色调采用浅蓝色系营造科技感关键操作按钮尺寸不低于44px确保触控准确性 [8] - 数字人动画帧率稳定在30fps以上测试数据显示适配优化版本在老年用户群体中操作错误率降低40% [8]

数字人(BJ:835670)

自然语言交互

多模态交互

AI数字人辅助小程序

自然语言交互

多模态交互

AI数字人辅助小程序

创新消费力 | 学而思：AI学习机让处处变课堂

北京商报· 2025-08-04 17:38

行业趋势与市场格局 - 中国教育智能硬件市场规模2023年达807亿元同比增长29.53% 预计2025年将超1000亿元 [9] - 行业从早期野蛮生长进入头部企业全线产品竞争阶段 2024年小度等巨头入局后大量白牌机退出市场 [10] - 2025年市场竞争加剧学而思向中低端市场下沉作业帮拓展中高端产品线猿辅导转型全功能学习机 [10] 技术演进与产品创新 - 学习机技术发展历经三阶段：2014-2015年拍搜时代→2019-2023年视频解析时代→当前交互式诊断时代 [6] - 多模态交互技术实现"视觉+听觉"双通道并行 AI能实时分析解题步骤并感知学习行为 [5] - 学而思解题引擎持续升级数学学科已应用多模态交互近期将完成语文英语适配升级 [9] 用户结构与应用场景 - 智能学习机用户64.03%为小学生 79.42%集中在一二线城市高中渗透率较低 [8] - 家庭场景中每日平均辅导时间从2小时降至半小时改善亲子关系 [3] - 学校场景实现"双线教学"模式 AI自动批改作业并生成个性化学习报告 [7] 产品定位与价值主张 - 学习机从普通电子产品向专业化学习工具转变强化AI 1对1辅导和同步课程资源 [10] - 核心技术价值在于用多模态技术"看懂"作业书写过程 "听懂"孩子疑问定位思维卡点 [5] - 未来需攻克高中数理化生复杂场景处理包括动态理解解题过程和连续帧分析能力 [9]

好未来(US:TAL)

多模态交互

智能教育硬件

学而思学习机

多模态交互

智能教育硬件

学而思学习机

字节视觉大模型负责人杨建朝宣布休息

快讯· 2025-07-17 18:18

人事变动 - 字节跳动豆包大模型视觉多模态生成方向负责人杨建朝宣布"暂时休息"，相关工作已完成交接 [1] - 杨建朝的个人信息仍能在字节内部系统中查询到 [1] - 周畅（花名"时光"）将接任杨建朝的工作，周畅所在架构为"多模态交互与世界模型"部门，汇报对象为吴永辉 [1] 变动原因 - 知情人士透露人事变动原因为"家庭因素" [1] - 此前有传言称杨建朝因难以兼顾北美与国内工作节奏，长期处于高强度压力下，身心俱疲 [1] - 另有说法称其为"提前退休" [1]

多模态交互

视觉大模型

豆包大模型

多模态交互

视觉大模型

豆包大模型

元宇宙数字人技术新飞跃：交互、感知与虚拟现实的全面升级

搜狐财经· 2025-07-10 10:22

人工智能与数字人技术融合 - 生成式AI技术如GPT系列及扩散模型显著提升数字人交互能力和形象逼真度 [1] - 语音合成、表情驱动及实时渲染技术使数字人活跃于直播、客服等动态场景 [1] - 数字人自主学习与情感感知能力持续提升通过深度学习算法提供个性化服务 [1] 虚拟现实与多模态交互技术 - VR设备为数字人带来真实感和立体感提升用户沉浸感 [3] - 多模态交互技术融合语音识别、自然语言处理实现更自然便捷的人机交互 [3] - 数字人在直播、客服场景表现优异赢得用户广泛好评 [3] 大数据分析与硬件配套升级 - 大数据分析提供精准用户画像助力数字人优化服务和直播内容 [3] - 5G、云渲染、VR/AR设备为数字人创造低延迟高沉浸应用环境 [3] - 脑机接口技术潜力巨大未来或拓展数字人交互方式与应用场景 [3]

数字人(BJ:835670)

多模态交互

大数据分析

Artificial Intelligence

多模态交互

大数据分析

Artificial Intelligence

OpenAI以65亿美元收购Jony Ive的io背后，软硬件结合的AI原生硬件公司正在崛起

36氪· 2025-06-18 07:51

行业动态 - OpenAI以65亿美元收购前苹果硬件设计负责人Jony Ive的公司io 目标是为OpenAI打造一系列硬件产品 [1] - OpenAI前CTO创立的新公司Thinking Machines估值达90亿美元其首款产品为专为AI训练设计的"手动调参仪表盘"硬件 [1] - 软硬件结合的AI终端产品是科技公司重点发展方向早期产品如Siri和小度音箱因AI"智力"不足导致交互体验较差 [1] AI原生硬件发展挑战 - 大语言模型推动人机交互从GUI向多模态转变但第一波AI原生硬件产品市场接受度低 [2] - AI Pin采用激光墨水显示屏和手势交互因学习成本过高导致融资2.4亿美元的公司在2025年被惠普以1.16亿美元收购 [4] - VR/AR眼镜经过10年市场教育 2024年出货量仅600-700万部远低于智能手机的亿级规模 [4] - 部分AI硬件功能低频且易用性差售价过高（如AI Pin 699美元 Vision Pro 3499美元）制约渗透率 [4][5] - 硅谷企业面临供应链劣势硬件迭代慢且成本高中国珠三角的产业集群提供更高效低成本的制造环境 [4][5] 第二批AI硬件创新方向 - 专注明确场景的产品获得更好发展如会议录音/转写类硬件契合大模型语音处理能力 [8] - 教育领域代表产品包括科大讯飞AI学习机猿辅导小猿学习机大疆RoboMaster教育机器人 [9] - 个人陪伴机器人出现差异化设计如可移动的Yonbo对比固定形态的ElliQ [12] - 医疗健康领域创新包括BioLink Systems的可消化设备能实时采集体内健康数据 [12] - 华人创业公司plaude去年营收达7000万美元讯飞AI耳机用户突破100万且年营收翻倍 [10] 中国AI硬件产业优势 - 中国具备全球最完善的AI硬件产业链涵盖消费电子机器人智能汽车三大领域 [15] - 技术生态支持包括开源大模型（Qwen 3 4B） VLA模型以及各领域数据资源 [15] - 2024年中国智能手机出货量占全球23.4% 为AI硬件转型提供巨大潜在市场 [16] - 华为小米等品牌证明中国市场足以支撑硬件企业成长 AI硬件已建立教育企业等基础市场 [16] 未来发展趋势 - AI操作系统成为关键需要适配AI模型的计算管理需求 Meta Google OpenAI等公司正积极布局 [13][14] - 多模态交互方式将逐步替代智能手机和平板但需降低用户学习成本 [12][13]

大语言模型

多模态交互

苹果Vision Pro

大语言模型

多模态交互

苹果Vision Pro