多模态交互
搜索文档
当AI与老人相爱,谁来为“爱”买单?
虎嗅· 2025-10-17 12:50
文章核心观点 - AI陪伴机器人市场潜力巨大,但快速发展伴随显著的伦理挑战,需在商业与伦理间取得平衡 [4][7][21][26][28] 市场潜力与增长动力 - 2025年上半年全球AI陪伴应用收入达8200万美元,预计年底突破1.2亿美元,消费支出累计2.21亿美元,较2024年同期增长64% [6] - 全球AI老年陪伴机器人市场规模2024年约为2.12亿美元,预计2031年增长至31.9亿美元,期间年复合增长率高达48.0% [12] - 市场基础由庞大刚需人群奠定,中国失能半失能老人约4400万,独居老人3729万,阿尔茨海默病患者约1699万,潜在服务人口规模逼近亿级 [9] 产品功能与发展趋势 - 产品功能从简单对话升级为融合多模态情感大模型、健康监测与安全预警的综合性解决方案 [10][11] - 技术向情感智能化发展,构建稳定可定制的人格和长期记忆库,交互载体从手机应用扩展至实体机器人与混合现实空间 [14][15][16][19][20] - 全球服务机器人市场规模预计2035年接近1960亿美元,为具身化陪伴提供产业基础 [19] 伦理挑战与行业问题 - AI情感回应本质是算法生成,长期使用可能导致用户现实社交意愿下降,斯坦福研究显示使用超200小时的用户社交意愿下降比例达41% [23][24] - 存在数据安全隐忧,部分应用过度收集用户敏感信息,例如xAI公司被曝公开超过37万条用户聊天记录 [24] - 技术风险转化为实际损害时责任认定困难,法律在界定平台、开发者与用户责任方面存在空白 [25]
阿里AI战局再落一子:顶尖科学家许主洪转岗,执掌多模态交互模型
硬AI· 2025-09-30 13:52
公司AI战略调整 - 公司将顶尖AI科学家许主洪从智能信息事业群调岗至核心AI研发机构通义实验室,负责多模态交互模型研究[2][3] - 此次人才调动体现了公司以“AI驱动”为核心的战略,旨在将顶尖人才向AI基础模型研发领域集结[3] - 调整反映了公司对AI战略优先级的再聚焦,从C端应用创新转向集中优势兵力攻坚核心基础模型能力[4][5] 多模态交互技术布局 - 多模态交互被视为下一阶段AI突破的关键隘口,是AI从“能听会说”迈向“能看会想”的关键一步[3][6] - 公司通义实验室已构建包括语言、视觉、语音等的“全尺寸”和“全模态”模型矩阵,其开源模型在全球有巨大影响力[6] - 公司意图整合许主洪在多模态预训练领域的学术远见和工业经验,以在多模态核心赛道建立更强技术壁垒[6] 行业竞争与战略逻辑 - 全球科技巨头在人工智能领域展开激烈军备竞赛,多模态能力成为竞争前沿,如谷歌Gemini、OpenAI GPT-4o等[6] - 顶尖人才的流向是战略方向的指针,显示出公司最高层对底层技术掌控力的极度重视[9] - 资源正以前所未有的力度向核心模型集中,公司倾向于将宝贵研发资源投入底层模型以求颠覆性技术突破[9]
Nano Banana核心团队:图像生成质量几乎到顶了,下一步是让模型读懂用户的intention
Founder Park· 2025-09-22 19:39
图像模型发展趋势 - 图像模型正从创意工具向信息查询工具转变,类似于LLM的发展路径[4][11] - 未来模型将更主动、更智能,能根据用户问题灵活运用文本、图像等多模态交互[4][11] - 所有团队都在朝通用模型(Omni Models)方向发展,即能处理多种任务的模型[6][40] 技术突破方向 - 关键进步将体现在模型的可表达性方面,重点是提升能力下限而非上限[6][33] - 现在最好的图像质量与几年后相差不大,但最差的图像质量将显著改善[6][33] - 图像与视频模型技术共享紧密,未来可能融合在一起[40][41] 产品应用场景 - 角色一致性功能成为用户最感兴趣的功能之一,允许用户将自己形象置于不同场景[8][9] - 用户最高频需求包括更高分辨率(目前为1K)、透明背景和更好的文字渲染效果[9] - 图像模型在专业工作流中应用广泛,包括建筑设计、视频制作和网站UI生成[24][25][28] 交互设计挑战 - 多模态交互核心在于识别用户意图,根据实际任务切换不同交互模式[4][19] - 界面设计需明确问题边界,让用户清楚哪些操作可行[5][20] - 当前UI设计被低估,需要整合各种模态让普通人更容易使用模型[4][18] 模型评估方法 - 真实用户主动测试是最佳评估方式,如LM Arena平台让用户输入自己的Prompt使用模型[21] - 形成反馈循环,利用语言模型的智能来评估自己生成的内容[21] - 团队通过多渠道收集用户反馈,调整评估标准确保好用功能不退化[22] 个性化与美学需求 - 美学需求难以满足,需要深度个性化才能提供有用建议[6][26] - 个性化更多停留在Prompt层面,通过对话和上下文实现而非专属模型[26][27] - 现成模型支持的使用场景范围广泛,但高级功能需求需要结合其他工具[28] 行业竞争格局 - Midjourney成功关键在于比其他团队更早搞清楚如何进行模型的后续训练[6][31] - 小团队仍有可能做出顶尖模型,但有能力训练LLMs的团队可能占据主导地位[6][43] - 图像和视频领域存在良性竞争,推动整个行业快速发展[30] 工作流整合 - 传统工具和AI模型将长期共存,各自满足不同精度控制需求[35][36][37] - Gemini等聊天工具适合快速迭代和创意构思,专业场景需要更精密的多工具协作流程[35] - 模型在办公协作、知识性场景和创意领域都有巨大应用潜力[37][38]
2025国际汽车智能座舱大会苏州召开
中国汽车报网· 2025-09-17 13:56
大会概况 - 2025国际汽车智能座舱大会于9月16日在苏州召开,主题为“AI赋能智舱革新,重构人·车·未来生态” [1] - 大会设置1场全体大会、1场高端闭门会、3场关键技术会议及3场专题会议,并设有实车体验活动 [1] - 来自国内外智能座舱领域的800名专家学者和企业代表参会 [1] 行业发展趋势 - 人工智能大模型、多模态交互等技术正推动智能座舱从“功能集成”向“场景驱动”、“单机智能”向“群体智能”加速演进 [3] - 中国相关产业凭借技术与市场优势持续领跑全球 [3] - 参评车型智能座舱平均得分达6.78分,绝大多数车型稳居6分以上良好区间,头部车型突破8分,显示产业整体向上发展 [5] 技术发展路径与挑战 - 行业专家指出,“单车智能+网联赋能”的车路云一体化方案是中国智能网联汽车的终极发展方向 [6] - 当前“车路云一体化”方案在产业化、市场应用的生态和商业模式上尚不够清晰,相关领域投资回报不理想 [6] - 建议行业关注端到端大模型技术发展,推进车路协同标准化建设,并加强大模型上车安全监管 [6] 网络安全创新方案 - 当前以IP网络为架构的智能网联汽车体系存在安全缺陷,传统防护手段难以应对AI时代攻击风险 [7] - 多标识网络融合区块链技术,通过“数字护照+数字签证+数字海关”管理模式,可实现网络安全指数级提升 [7] - 该技术方案已在多次国际安全对抗赛中验证其高可靠性 [7] 企业战略与产品创新 - 理想汽车将智能座舱定义为“幸福空间”,认为座舱将成为车企差异化竞争核心,并围绕三维空间交互等三大方向构建交互体系 [8] - 斑马智行认为AI是构建专属用户关系的核心手段,其全模态端模型解决方案将通过端侧大模型部署推动座舱从“被动响应”转向“主动陪伴” [8] - Unity中国的3D实时渲染技术已服务全球54家主机厂,赋能120余款量产车型HMI开发,未来将探索车载游戏等新应用 [9] 标准体系建设目标 - 汽车智能座舱团体标准体系建设目标为:到2026年搭建好体系框架并与国家标准对接;到2030年完善体系并填补关键技术标准空白;到2035年使中国标准成为国际标杆 [5] 区域产业生态与支持 - 江苏省作为全国最大汽车产业集群地之一,已在车载芯片、车联网、智能座舱解决方案等领域形成完整的智能网联汽车产业链与创新体系 [3] - 苏州正成为长三角汽车产业集聚区的重要力量与全国智能网联汽车发展的“先行者”,并出台涵盖核心技术攻关、高端人才引进等领域的支持政策 [3] - 中国汽车工程学会长三角科技交流中心在苏州揭牌,将依托学会资源为长三角区域汽车产业高质量发展提供助力 [4]
华为,发布!未来十年,十大技术趋势!
证券时报· 2025-09-17 11:54
核心观点 - 华为发布《智能世界2035》和《全球数智化指数2025》报告 展望未来十年关键技术趋势及其对教育、医疗、金融、制造、电力等行业的影响 [2] 技术趋势 - AGI将是未来十年最具变革性的驱动力量 需克服核心挑战以实现奇点突破 走向物理世界是AGI形成的必由之路 [3] - AI智能体将从执行工具演进为决策伙伴 驱动产业革命 [4] - 人机协同编程成为主流开发模式 人类专注于顶层设计和创新思考 AI负责编码执行 [4] - 交互方式从图形界面转向自然语言 并向融合人类五感的多模态交互演进 用户通过语音、手势获得深度沉浸体验 [4] - 手机App从独立功能实体转变为AI智能体驱动的服务节点 AI智能体调用服务节点为用户提供极致体验 [4] - 世界模型等关键技术突破推动L4+自动驾驶汽车成为"移动第三空间" [4] - 2035年全社会算力总量将增长10万倍 计算领域在计算架构、材料器件、工程工艺、计算范式四大核心层面实现颠覆性创新 催生新型计算兴起 [4] - 数据成为推动人工智能发展的"新燃料" AI存储容量需求比2025年增长500倍 占比超过70% Agentic AI驱动存储范式改变 [4] - 通信网络连接对象从90亿人扩展到9000亿智能体 实现移动互联网至智能体互联网的跃迁 [5] - 能源成为制约AI高速发展的核心要素 2035年可再生能源发电量占比突破50% 人工智能通过Token管理瓦特实时管理能量 实现动态高效电网 [5] 行业影响 - 关键技术趋势将对教育、医疗、金融、制造、电力等行业带来改变和影响 [2] - 全球数智化指数帮助各国量化数智化发展进程 [2]
算力总量将增长10万倍!华为预测未来智能世界十大趋势
第一财经· 2025-09-17 10:49
智能世界2035技术趋势 - AGI将成为未来十年最具变革性的驱动力量 但需克服核心挑战才能实现奇点突破 走向物理世界是AGI形成的必由之路 [2] - AI智能体将从执行工具演进为决策伙伴 驱动产业革命 [3] - 人机协同编程成为主流开发模式 人类专注于顶层设计和创新思考 AI负责繁琐编码执行 [3] 交互与服务模式演进 - 交互方式从图形界面转向自然语言 并向融合人类五感的多模态交互演进 用户通过语音手势获得深度沉浸体验 [3] - 手机App从独立功能实体转变为AI智能体驱动的服务节点 AI智能体调用相关服务节点提供极致体验 [3] 自动驾驶与算力发展 - 世界模型等关键技术突破将推动L4+自动驾驶汽车成为移动第三空间 [3] - 2035年全社会算力总量将增长10万倍 计算领域在架构/材料/工艺/范式四大层面实现颠覆性创新 [3] 数据存储与通信网络 - AI存储容量需求比2025年增长500倍 占比超过70% Agentic AI驱动存储范式改变 [3] - 通信网络连接对象从90亿人扩展到9000亿智能体 实现移动互联网至智能体互联网的跃迁 [4] 能源系统变革 - 可再生能源发电量占比将突破50% 加速替代传统化石能源 [4] - 人工智能成为新能源系统核心 通过Token管理瓦特实时管理每一焦耳能量 实现更动态高效的电网 [4]
华为发布十大技术趋势:2035年全社会算力总量将增长10万倍
观察者网· 2025-09-17 10:35
报告核心观点 - 华为发布《智能世界2035》系列报告 展望未来十年关键技术趋势及其对各行业的影响 [1] - 生成式人工智能正以全新方式重新定义未来可能性 前瞻视野和科技愿景比以往更重要 [1] - 技术需融入生活、家庭、企业与环境 方能真正推动文明进步 [6] 十大技术趋势 - AGI将是未来十年最具变革性的驱动力量 实现突破需克服核心挑战并走向物理世界 [3] - AI智能体将从执行工具演进为决策伙伴 驱动产业革命 [3] - 人机协同编程成为主流开发模式 人类专注于顶层设计 AI负责编码执行 [3] - 交互方式从图形界面转向自然语言 并向融合人类五感的多模态交互演进 [3] - 手机App从独立功能实体转变为AI智能体驱动的服务节点 [3] - 世界模型等技术突破将推动L4+自动驾驶汽车成为移动第三空间 [4] - 2035年全社会算力总量将增长10万倍 计算领域在四大核心层面实现颠覆性创新 [4] - AI存储容量需求将比2025年增长500倍 占比超过70% Agentic AI驱动存储范式改变 [4] - 通信网络连接对象从90亿人扩展到9000亿智能体 实现移动互联网至智能体互联网跃迁 [5] - 能源成为制约AI高速发展的核心要素 2035年新能源发电量占比突破50% AI成为新能源系统核心 [5] 行业与社会影响 - 到2035年 人工智能将助力预防超过80%的慢性病 推动健康管理从被动治疗转向主动预防 [6] - 超过90%的中国家庭将拥有智能机器人 人类逐渐进入全息生活空间时代 [6] - 由AI Agent驱动的自主决策组织将重塑生产范式 2035年人工智能应用率超过85% [6] - AI可提升劳动生产率60% 通过自主系统彻底重构企业价值创造方式 [6] 全球数智化指数 - 华为将全球数字化指数升级为全球数智化指数 构建新时代生产要素综合评估模型 [7] - 新模型以数据、ICT人才和数智化生产工具为核心生产要素 涵盖ICT基础设施、行业应用深度、人才生态等多维度 [7] - 该指数旨在为国家数字经济高质量发展提供量化参考 帮助各国制定精准产业策略 [7]
当辅助驾驶 “哑火”,车企将如何重构城市交通的智能基因
36氪· 2025-08-20 19:04
政策监管趋严 - 部分高速路段明确禁止启用L2/L2+级辅助驾驶系统[1] - 市场监管总局与工信部发布新规,严禁使用“L2 5”、“脱手驾驶”等模糊宣传术语[1] - 新规要求车企在APP和用户手册中显著标注功能限制,禁止将辅助驾驶宣传为无人驾驶[2] 技术局限性暴露 - 辅助驾驶系统存在明显技术边界,无法可靠识别静止车辆、缓慢行驶的工程车及异形挂车等场景[1] - 在施工改道路段,系统感知范围有限,难以应对不规则摆放的锥桶和临时限速标志[2] - 节假日车流量激增时,ACC/AEB系统可能因误判急刹而引发连环追尾事故[2] - 国内L2级辅助驾驶渗透率已超过50%,但技术水平与营销宣传存在巨大差距[2] 安全事故与责任界定模糊 - 曾发生因系统未能识别静止车辆导致的追尾致死事故,造成2人死亡[1] - 现行法规要求驾驶员全程负责,导致“辅助”与“自主”的责任边界模糊,车企常以“系统识别局限”为由免责[2] 多模态交互与物理世界AI模型成为新方向 - 技术竞争焦点转向车辆对物理世界的理解深度,多模态模型通过融合800万像素摄像头、4D毫米波雷达和激光雷达数据,提升环境感知能力[4] - 系统通过“多模态认知-场景推理-决策进化”的三层架构,将感知数据转化为具体决策依据,例如识别施工路段需减速30%[4] - 驾驶员监测系统升级,通过方向盘扭矩感知、眼球追踪和心率监测等多维度数据构建驾驶员实时状态模型,实现渐进式干预[4] - 物理世界AI大模型通过模拟数千种危险情境的演化路径,具备场景预判能力,在虚拟测试中反应速度比人类快2倍以上[5] 数据驱动算法进化 - 智能驾驶的进化速度由数据质量与模型能力决定,新规强调将警示路段场景数据反哺算法训练[7] - 针对静止车辆误判问题,有车企建立了覆盖23种环境条件的专项数据库,包含超过10万案例,以提升识别非常规静止物体的能力[7] - 物理世界AI大模型通过学习百万次真实车流交互数据,能预测多车博弈场景,计算出保持秒级车距等最优策略,提升效率[7] 车企竞争维度与商业模式重构 - 行业竞争从“功能炫技”转向“生态安全”,透明化的安全承诺正在取代夸大宣传[8] - 新规推动车企在APP中设置“智能驾驶安全中心”,实时展示系统能力评分和功能优化项,此举有助于提升用户信任度和日均使用时长[8] - OTA升级需备案审查,倒逼车企建立全流程管控体系[8] - 最终竞争力在于构建“人-车-环境”的和谐关系,车辆成为智能出行生态的核心节点[8] - 商业模式可能从“卖车”升级为运营“城市效率基础设施”,车企转变为交通效率的运营商[9]
营收超1亿美元!可灵,凭什么?
第一财经· 2025-08-06 23:32
AI视频生成行业动态 - 创作者Hashem AI-Ghaili使用AI工具在12天内以500美元成本制作出短片《Kira》,在YouTube和Bilibili分别获得5.9万和47.9万次观看 [2] - 另一部短片《The Colorless Man》制作成本仅600美元,使用ChatGPT、MidJourney等工具完成脚本、图像、视频、语音等全流程 [4] - 视频生成赛道从最初不被看好到1年后出现商业成功案例,如可灵年化营收突破1亿美元 [7] 可灵公司发展 - 可灵用户规模从2024年Q3的500万快速增长至4500万,均为付费用户 [8][15] - 年化营收(ARR)在2024年3月突破1亿美元,超过MiniMax的7000万美元预期收入 [7] - 在Poe平台市场份额达30%,超过Runway的23.6% [18] - Freepik平台数据显示可灵生成视频数量超过其他模型总和 [19] 技术迭代与功能创新 - 推出"首尾帧"功能让用户通过两张图片生成连贯过渡视频 [9] - 1.5版本新增"运动笔刷"、"人脸一致性"、"口型同步"等功能提升视频可控性 [11] - 1.6版本推出"多图参考"功能,用户可上传多张图片作为生成参考 [13][14] - 2.0版本整合多模态交互方式MVL,允许文字、图片、视频片段等多种输入 [15] - 最新推出"灵动画布"功能,整合文生图、图生视频等流程并支持团队协作 [23][24][25] 行业竞争格局 - 可灵在国内领先生数科技(ARR 2000万美元)、字节跳动即梦AI(ARR<1000万美元)等竞争对手 [17] - 全球范围内与Runway(ARR 8400万美元)形成竞争 [17] - 面临Google Veo 3(支持生成带声音视频)和字节跳动Seedance 1.0等新模型的追赶 [21][23] - 行业用户忠诚度低,新模型上线会快速改变市场份额分布 [21] 商业化应用前景 - 视频生成技术已应用于Netflix《the eternaut》、Amazon Prime《House of David》等影视作品 [27] - 广告营销行业广泛应用AI技术生成素材,如保持模特一致性推广不同产品 [34] - 好莱坞态度从抵触转为拥抱,出现AI分镜师等新职业 [41][42] - 预计未来将向Agent方向发展,实现从脚本到视频的自动化生成 [45]
营收超1亿美元!可灵,凭什么?
第一财经· 2025-08-06 23:22
视频生成行业现状 - 视频生成行业在2024年迎来爆发式增长,可灵等公司已实现商业化成功,年化营收突破1亿美元[11][22] - 行业标杆公司Runway去年12月ARR达8400万美元,可灵与之不相上下[22] - 国内竞争对手如生数科技Vidu产品ARR为2000万美元,字节跳动即梦AI和Minimax海螺AI均未达1000万美元[22] - 全球用户对视频生成工具忠诚度低,新模型上线会迅速改变市场份额分布,如Google Veo 3上线后份额从0增至30%[25] 可灵公司发展 - 可灵用户规模从2024年1月的600万快速增长至2025年4月的4500万,3个月内增长近2倍[20][57] - 可灵在Poe平台市场份额达30%,超过Runway的23.6%[23] - 在Freepik平台,可灵生成的视频数量超过其他所有模型总和[23] - 公司年化营收在2025年3月突破1亿美元,超过MiniMax预期的7000万美元[11][22] 技术发展 - 视频生成技术仍处于早期阶段,类似LLM的GPT-2时期,存在常识和逻辑错误[11] - 可灵通过多模态交互方式(MVL)提升生成效果,允许用户以文字、图片、视频等多种方式输入指令[19] - 关键技术创新包括首尾帧、运动笔刷、人脸一致性、多图参考等功能,大幅提升视频生成可控性[16][18][19] - 1.6版本是多图参考功能推出的重要分水岭,使可灵用户从600万增至2200万[20][48] 产品迭代 - 可灵在1年内发布5个版本更新,从1.0迭代至2.1[13][20] - 1.5版本引入运动笔刷、人脸一致性、口型同步等功能[16] - 1.6版本推出多图参考功能,成为用户增长转折点[18][20] - 2.0版本整合所有交互功能,推出MVL多模态交互方式[19] - 最新推出"灵动画布"功能,实现工作流整合和团队协作[28][31] 行业应用 - AI视频生成已应用于影视制作,如Netflix《the eternaut》和Amazon《House of David》使用AIGC镜头[34] - 广告营销行业深度应用AI技术,可实现模特一致性推广不同产品[51] - 职业细分出现AI分镜师、AI视频生成师等新岗位[61] - 视频素材生成市场规模达千亿级别,已形成完整产业链[34] 未来趋势 - Agent技术将成为下一阶段发展方向,实现创作流程自动化[66] - 视频生成将不仅服务于存量市场,还将创造具备实时性和互动性的新内容形态[67] - 行业竞争加剧,Google已发布自带声音的Veo 3模型,字节跳动整合资源加速追赶[25][26] - 技术领先性、产品创新和创作者社区将成为核心竞争壁垒[55]