Workflow
多模态交互
icon
搜索文档
十五五聚焦科技,AI进入交互发展期
东吴证券· 2025-10-27 17:51
核心观点 - AI产业正进入"模型+硬件+交互"的融合周期,重点关注具身智能、多模态交互及算力基础设施的中长期投资机会[5] - 政策焦点从"化解风险"转向"高质量发展",科技类产业有望在产业结构与资本市场中占据更核心地位[2] 周度观点与AI产业动态 - AI产业迎来多线共振:应用层、硬件层、具身智能全面推进,市场情绪延续温和复苏态势[2] - OpenAI推出AI浏览器"ChatGPT Atlas",正式切入浏览器生态,标志着AI从内容生成迈向信息入口层的竞争新阶段[2] - 三星发布混合现实设备Galaxy XR,定位"释放多模态AI潜力",代表AI与XR的融合进入实用化阶段,消费级智能硬件有望再掀创新浪潮[2] - 中国模型Qwen与DeepSeek在"六大AI模型实盘厮杀"中以37%和24%收益率领跑,标志着人工智能从文本生成迈入决策智能,赋能量化投资等智能商业化层面[3] - 宇树科技发布人形机器人Unitree H2,性能和拟人化程度显著提升,成为"具身智能"落地的主要载体[4] - 亚马逊推出"三合一"仓库机器人,摩根士丹利分析师估计到2027年可能为亚马逊节省高达40亿美元,代表雇主企业从"人工"转向"人工智能"的新风向[3] 市场表现与数据跟踪 - 美国主要科技股周度表现:英伟达市值45,261亿美元,周涨跌幅1.66%;微软市值38,920亿美元,周涨跌幅1.95%;苹果市值39,004亿美元,周涨跌幅4.17%;谷歌市值31,467亿美元,周涨跌幅2.61%;亚马逊市值23,912亿美元,周涨跌幅5.24%;Meta市值18,549亿美元,周涨跌幅2.99%;特斯拉市值14,425亿美元,周涨跌幅-1.27%[8] - AI板块走势延续结构性分化,硬件链条如算力芯片、光模块、电源管理等维持高景气[3] 行业研究与推荐方向 - 智慧交通领域政策推动建设加速,数据赋能价值释放,AI推动安防市场持续提升[15] - AI漫剧供需两旺,规模高速增长,工具升级带动产能提速,效率指数级提升[15] - AI算力需求释放,驱动核心业务量价齐升,盈利能力显著提升[15]
智元推出“灵创”平台:0代码创作,人形机器人内容生态迎来新变革
凤凰网· 2025-10-24 21:50
公司产品发布 - 智元机器人正式推出内容创作平台“灵创”,旨在向普通用户开放人形机器人复杂的内容开发流程 [1] - “灵创”平台最大特点是实现“0代码、0门槛”,用户无需专业编程或机器人控制知识即可参与创作 [1] - 平台核心功能包括强大的动作模仿能力,用户通过手机拍摄人物动作视频上传,AI即可自动化生成控制策略,使机器人精准复现动作 [1] - 动作模仿功能未来将支持手指级别的精细动作模仿 [1] - 平台整合多模态交互能力,“语音演绎”功能可通过上传文本或音频,智能生成匹配的机器人肢体语言和面部表情 [1] - 平台提供可定制化的音色与情绪选项,以增强机器人表达的真实感与沉浸感 [1] - 平台提供类似视频剪辑软件的时间轴编排工具,满足商业表演、导购等场景对长序列复杂任务的需求 [2] - 用户可将不同动作、语音和表情片段自由组合剪辑,精确控制每一帧节奏,创作连贯的“机器人故事片” [2] - 平台支持一键群控多台机器人协同表演,可为不同机器人分配差异化角色和任务 [2] - 平台内置覆盖11类场景的超过180套动作与140套表情模板,用户作品可分享至创意广场 [2] - “灵创”平台已首先适配智元旗下灵犀X2人形机器人 [2] - 公司预告将于下个月上线定义机器人个性的新平台“灵心” [2] 产品商业化进展 - 灵犀X2人形机器人现已进入量产交付阶段 [2] - 预计2025年交付量可达数千台 [2] - 机器人已开始在文娱商演、门店接待等场景落地 [2] - 平台的推出将进一步推动人形机器人从技术展示走向更广泛的规模化应用 [2]
微软深夜送出程序员节最“离谱”的礼物:让Mico接管你的Copilot
AI前线· 2025-10-24 12:07
核心观点 - 微软发布Copilot秋季更新,将其从“生产力工具插件”升级为跨设备、跨场景的“情境AI基础设施”,体现了“以人为本的AI”理念 [2] - 此次发布围绕三个关键词:协作、个性化、连接,共推出12项关键功能 [2][3] - 新虚拟角色Mico的推出是本次更新的亮点,标志着微软在人机交互领域长达三十年探索的延续,旨在将AI从“工具”转变为“伙伴” [5][18] 关键功能更新 - **小组(Groups)**:支持最多32人共享Copilot会议,在同一工作空间进行头脑风暴和共同创作,Copilot负责维持上下文、自动汇总决策 [3] - **Imagine**:作为协作中心,用于在企业环境中快速创建和混合AI生成的视觉素材、营销草稿或培训材料原型 [3] - **真实对话(Real Talk)**:旨在摒弃AI模型过度讨好的行为,采用更可信的对话方式,如苏格拉底式问答,以提供更具技术协作价值的反馈 [7] - **记忆与个性化(Memory & Personalisation)**:使Copilot具备长期情境记忆能力,可按用户指示记住关键细节并提供个性化建议 [7] - **连接器(Connectors)**:与OneDrive、Outlook、Gmail、Google Drive、Google日历集成,实现跨账户的自然语言搜索 [7] - **主动行动(Active Actions,预览)**:基于用户最近活动与上下文,以“下一步建议”的形式主动提出可行操作 [7] - **Copilot for Health**:基于可靠医疗来源提供健康信息,并支持用户查找和比较医生 [7] - **实时学习(Live Learning)**:提供通过问题、视觉效果、白板的苏格拉底式、语音驱动辅导体验 [7] - **Edge中的Copilot模式**:将Microsoft Edge浏览器转换为“AI浏览器”,用户可通过语音总结、比较网页内容并执行操作 [7] - **Windows上的Copilot**:通过“Hey Copilot”激活,与Windows 11深度集成,引入Copilot Vision并通过摄像头/屏幕识别理解视觉内容 [7] - **Copilot Pages和Coppilot Search**:Pages为协作文件画布,Search将AI生成答案与标准网络搜索结果相结合 [7] 虚拟角色Mico - Mico是Microsoft和Copilot的组合名,以可爱、不规则圆点造型作为新的角色标识出现在用户界面 [3][5] - Mico能实时变换表情和颜色以反映情绪和反馈,定位为跨模态、统一的用户体验层 [3][15] - 该角色是微软对1997年推出的Office助手“大眼夹”(Clippy)理念的延续,旨在探索“情感化计算”和“亲和式交互” [5][6][10] - 微软AI部门高管表示,Mico拥有固定形象、独立空间以及“成长”过程,是公司“人本主义人工智能”愿景的具体化体现 [10][15][16] 行业意义与市场反应 - 外媒评论此举是微软将其生产力体验与生成式AI能力更深整合的一次重大举措 [3] - 此次更新标志着AI技术从“工具”迈向“伙伴”,旨在让人与电脑的关系从命令与响应转变为对话与理解 [18] - Mico亮相后在社交媒体引发讨论,有用户称赞其可爱、有活力,并包含将Mico变为Clippy的彩蛋功能 [20][21] - 有观点认为,Mico在市场上面临挑战,因为科技公司对赋予AI个性持谨慎态度,此前Clippy因技术受限和交互生硬而失败 [5][21]
荣耀Magic 8系列上新,火山引擎助力“YOYO助理”多模态升级
搜狐网· 2025-10-17 17:00
产品发布与核心升级 - 荣耀于10月15日发布年度旗舰新品,包括Magic 8系列手机、MagicPad 3 Pro平板及荣耀手表5 Pro,并搭载全新MagicOS 10操作系统 [1] - 智能语音助手“YOYO助理”实现多模态交互能力升级,旨在提供更贴心、全能、主动的智能服务 [1] 关键技术合作与赋能 - 荣耀与字节跳动旗下火山引擎合作,基于豆包大模型能力为“YOYO助理”注入多场景智能服务,如联网问答、智能识图、创意修图等 [3] - 火山引擎的联网问答Agent整合豆包大模型及联网能力,能实时检索互联网公开资源并深度整合抖音集团生态内容,如今日头条图文、抖音百科等 [4] - 火山引擎实时对话式AI方案保障“YOYO助理”在复杂网络下的低延时、高流畅连续交互体验,实现视频通话中“看得准、答得快” [9] “YOYO助理”功能详解 - 联网问答功能具备秒级输出能力,支持图片、文字、语音多模态输入,输出形式包括文字、图片、音乐、视频等,并具备精准的时效性信息筛选能力 [4] - 智能识物功能可基于视觉理解能力快速识别物体(如鸟类)并提供详细信息,结合联网问答补充知识 [6] - 提供“YOYO打电话”和“YOYO视频通话”功能,支持用户通过语音或视频进行闲聊陪伴、口语陪练及专业问答,例如在超市通过视频通话挑选水果 [7] - AI修图功能允许用户通过圈选和语音指令快速完成去除杂物、调整光影、照片风格迁移等复杂图片编辑需求 [10][11] 具体应用场景与用户体验 - 在健康饮食场景中,用户询问食物建议后,“YOYO助理”可定制输出包含文字、图片、视频等多元内容的低脂饮食搭配建议 [6] - 豆包大模型能结合上下文理解用户情绪和语调,生成超自然、高保真、个性化的即时语音互动,使回答更拟人 [9] 未来合作方向 - 荣耀与火山引擎将持续合作,训练“YOYO助理”的智商和情商,并拓展更多AI智能体应用场景,强化MagicOS的多模态交互体验 [11]
当AI与老人相爱,谁来为“爱”买单?
虎嗅· 2025-10-17 12:50
文章核心观点 - AI陪伴机器人市场潜力巨大,但快速发展伴随显著的伦理挑战,需在商业与伦理间取得平衡 [4][7][21][26][28] 市场潜力与增长动力 - 2025年上半年全球AI陪伴应用收入达8200万美元,预计年底突破1.2亿美元,消费支出累计2.21亿美元,较2024年同期增长64% [6] - 全球AI老年陪伴机器人市场规模2024年约为2.12亿美元,预计2031年增长至31.9亿美元,期间年复合增长率高达48.0% [12] - 市场基础由庞大刚需人群奠定,中国失能半失能老人约4400万,独居老人3729万,阿尔茨海默病患者约1699万,潜在服务人口规模逼近亿级 [9] 产品功能与发展趋势 - 产品功能从简单对话升级为融合多模态情感大模型、健康监测与安全预警的综合性解决方案 [10][11] - 技术向情感智能化发展,构建稳定可定制的人格和长期记忆库,交互载体从手机应用扩展至实体机器人与混合现实空间 [14][15][16][19][20] - 全球服务机器人市场规模预计2035年接近1960亿美元,为具身化陪伴提供产业基础 [19] 伦理挑战与行业问题 - AI情感回应本质是算法生成,长期使用可能导致用户现实社交意愿下降,斯坦福研究显示使用超200小时的用户社交意愿下降比例达41% [23][24] - 存在数据安全隐忧,部分应用过度收集用户敏感信息,例如xAI公司被曝公开超过37万条用户聊天记录 [24] - 技术风险转化为实际损害时责任认定困难,法律在界定平台、开发者与用户责任方面存在空白 [25]
阿里AI战局再落一子:顶尖科学家许主洪转岗,执掌多模态交互模型
硬AI· 2025-09-30 13:52
在吴泳铭"AI驱动"的核心战略下,阿里正进一步将顶尖人才向AI基础模型研发的核心战场集结,而多模态交互则被视为下一阶段AI突破的关键隘口。 作者 | 小 猫 编辑 | 硬 AI 正值全球科技巨头在人工智能领域展开激烈军备竞赛之际,阿里巴巴内部的排兵布阵再次出现关键变动。 硬AI获悉,近期备受瞩目的AI顶尖科学家、阿里集团副总裁许主洪(Steven Hoi)已从智能信息事业群首席科学家的职位上,转岗至阿里集团的核心AI研发机构 ——通义实验室。 阿里方面向硬AI证实了这一消息,并表示许主洪将负责多模态交互模型方向的研究,后续向通义实验室负责人、阿里云CTO周靖人汇报。 这一内部调动释放出重要信号:在吴泳铭"AI驱动"的核心战略下,阿里正进一步将顶尖人才向AI基础模型研发的核心战场集结,而多模态交互则被视为下一阶段AI 突破的关键隘口。 对于许主洪而言,这次转岗意味着他将从更贴近C端应用的"前线阵地"转向更为核心和 底层的"研发心脏"。 时间拉回至今年2月,这位在学术界和工业界均享有盛誉的AI大牛(IEEE Fellow、斯坦福大学评选的"全球前1%的AI科学家")正式加盟阿里,在当时引发了业内不 小的轰动。他最 ...
Nano Banana核心团队:图像生成质量几乎到顶了,下一步是让模型读懂用户的intention
Founder Park· 2025-09-22 19:39
图像模型发展趋势 - 图像模型正从创意工具向信息查询工具转变,类似于LLM的发展路径[4][11] - 未来模型将更主动、更智能,能根据用户问题灵活运用文本、图像等多模态交互[4][11] - 所有团队都在朝通用模型(Omni Models)方向发展,即能处理多种任务的模型[6][40] 技术突破方向 - 关键进步将体现在模型的可表达性方面,重点是提升能力下限而非上限[6][33] - 现在最好的图像质量与几年后相差不大,但最差的图像质量将显著改善[6][33] - 图像与视频模型技术共享紧密,未来可能融合在一起[40][41] 产品应用场景 - 角色一致性功能成为用户最感兴趣的功能之一,允许用户将自己形象置于不同场景[8][9] - 用户最高频需求包括更高分辨率(目前为1K)、透明背景和更好的文字渲染效果[9] - 图像模型在专业工作流中应用广泛,包括建筑设计、视频制作和网站UI生成[24][25][28] 交互设计挑战 - 多模态交互核心在于识别用户意图,根据实际任务切换不同交互模式[4][19] - 界面设计需明确问题边界,让用户清楚哪些操作可行[5][20] - 当前UI设计被低估,需要整合各种模态让普通人更容易使用模型[4][18] 模型评估方法 - 真实用户主动测试是最佳评估方式,如LM Arena平台让用户输入自己的Prompt使用模型[21] - 形成反馈循环,利用语言模型的智能来评估自己生成的内容[21] - 团队通过多渠道收集用户反馈,调整评估标准确保好用功能不退化[22] 个性化与美学需求 - 美学需求难以满足,需要深度个性化才能提供有用建议[6][26] - 个性化更多停留在Prompt层面,通过对话和上下文实现而非专属模型[26][27] - 现成模型支持的使用场景范围广泛,但高级功能需求需要结合其他工具[28] 行业竞争格局 - Midjourney成功关键在于比其他团队更早搞清楚如何进行模型的后续训练[6][31] - 小团队仍有可能做出顶尖模型,但有能力训练LLMs的团队可能占据主导地位[6][43] - 图像和视频领域存在良性竞争,推动整个行业快速发展[30] 工作流整合 - 传统工具和AI模型将长期共存,各自满足不同精度控制需求[35][36][37] - Gemini等聊天工具适合快速迭代和创意构思,专业场景需要更精密的多工具协作流程[35] - 模型在办公协作、知识性场景和创意领域都有巨大应用潜力[37][38]
2025国际汽车智能座舱大会苏州召开
中国汽车报网· 2025-09-17 13:56
大会概况 - 2025国际汽车智能座舱大会于9月16日在苏州召开,主题为“AI赋能智舱革新,重构人·车·未来生态” [1] - 大会设置1场全体大会、1场高端闭门会、3场关键技术会议及3场专题会议,并设有实车体验活动 [1] - 来自国内外智能座舱领域的800名专家学者和企业代表参会 [1] 行业发展趋势 - 人工智能大模型、多模态交互等技术正推动智能座舱从“功能集成”向“场景驱动”、“单机智能”向“群体智能”加速演进 [3] - 中国相关产业凭借技术与市场优势持续领跑全球 [3] - 参评车型智能座舱平均得分达6.78分,绝大多数车型稳居6分以上良好区间,头部车型突破8分,显示产业整体向上发展 [5] 技术发展路径与挑战 - 行业专家指出,“单车智能+网联赋能”的车路云一体化方案是中国智能网联汽车的终极发展方向 [6] - 当前“车路云一体化”方案在产业化、市场应用的生态和商业模式上尚不够清晰,相关领域投资回报不理想 [6] - 建议行业关注端到端大模型技术发展,推进车路协同标准化建设,并加强大模型上车安全监管 [6] 网络安全创新方案 - 当前以IP网络为架构的智能网联汽车体系存在安全缺陷,传统防护手段难以应对AI时代攻击风险 [7] - 多标识网络融合区块链技术,通过“数字护照+数字签证+数字海关”管理模式,可实现网络安全指数级提升 [7] - 该技术方案已在多次国际安全对抗赛中验证其高可靠性 [7] 企业战略与产品创新 - 理想汽车将智能座舱定义为“幸福空间”,认为座舱将成为车企差异化竞争核心,并围绕三维空间交互等三大方向构建交互体系 [8] - 斑马智行认为AI是构建专属用户关系的核心手段,其全模态端模型解决方案将通过端侧大模型部署推动座舱从“被动响应”转向“主动陪伴” [8] - Unity中国的3D实时渲染技术已服务全球54家主机厂,赋能120余款量产车型HMI开发,未来将探索车载游戏等新应用 [9] 标准体系建设目标 - 汽车智能座舱团体标准体系建设目标为:到2026年搭建好体系框架并与国家标准对接;到2030年完善体系并填补关键技术标准空白;到2035年使中国标准成为国际标杆 [5] 区域产业生态与支持 - 江苏省作为全国最大汽车产业集群地之一,已在车载芯片、车联网、智能座舱解决方案等领域形成完整的智能网联汽车产业链与创新体系 [3] - 苏州正成为长三角汽车产业集聚区的重要力量与全国智能网联汽车发展的“先行者”,并出台涵盖核心技术攻关、高端人才引进等领域的支持政策 [3] - 中国汽车工程学会长三角科技交流中心在苏州揭牌,将依托学会资源为长三角区域汽车产业高质量发展提供助力 [4]
华为,发布!未来十年,十大技术趋势!
证券时报· 2025-09-17 11:54
核心观点 - 华为发布《智能世界2035》和《全球数智化指数2025》报告 展望未来十年关键技术趋势及其对教育、医疗、金融、制造、电力等行业的影响 [2] 技术趋势 - AGI将是未来十年最具变革性的驱动力量 需克服核心挑战以实现奇点突破 走向物理世界是AGI形成的必由之路 [3] - AI智能体将从执行工具演进为决策伙伴 驱动产业革命 [4] - 人机协同编程成为主流开发模式 人类专注于顶层设计和创新思考 AI负责编码执行 [4] - 交互方式从图形界面转向自然语言 并向融合人类五感的多模态交互演进 用户通过语音、手势获得深度沉浸体验 [4] - 手机App从独立功能实体转变为AI智能体驱动的服务节点 AI智能体调用服务节点为用户提供极致体验 [4] - 世界模型等关键技术突破推动L4+自动驾驶汽车成为"移动第三空间" [4] - 2035年全社会算力总量将增长10万倍 计算领域在计算架构、材料器件、工程工艺、计算范式四大核心层面实现颠覆性创新 催生新型计算兴起 [4] - 数据成为推动人工智能发展的"新燃料" AI存储容量需求比2025年增长500倍 占比超过70% Agentic AI驱动存储范式改变 [4] - 通信网络连接对象从90亿人扩展到9000亿智能体 实现移动互联网至智能体互联网的跃迁 [5] - 能源成为制约AI高速发展的核心要素 2035年可再生能源发电量占比突破50% 人工智能通过Token管理瓦特实时管理能量 实现动态高效电网 [5] 行业影响 - 关键技术趋势将对教育、医疗、金融、制造、电力等行业带来改变和影响 [2] - 全球数智化指数帮助各国量化数智化发展进程 [2]
算力总量将增长10万倍!华为预测未来智能世界十大趋势
第一财经· 2025-09-17 10:49
智能世界2035技术趋势 - AGI将成为未来十年最具变革性的驱动力量 但需克服核心挑战才能实现奇点突破 走向物理世界是AGI形成的必由之路 [2] - AI智能体将从执行工具演进为决策伙伴 驱动产业革命 [3] - 人机协同编程成为主流开发模式 人类专注于顶层设计和创新思考 AI负责繁琐编码执行 [3] 交互与服务模式演进 - 交互方式从图形界面转向自然语言 并向融合人类五感的多模态交互演进 用户通过语音手势获得深度沉浸体验 [3] - 手机App从独立功能实体转变为AI智能体驱动的服务节点 AI智能体调用相关服务节点提供极致体验 [3] 自动驾驶与算力发展 - 世界模型等关键技术突破将推动L4+自动驾驶汽车成为移动第三空间 [3] - 2035年全社会算力总量将增长10万倍 计算领域在架构/材料/工艺/范式四大层面实现颠覆性创新 [3] 数据存储与通信网络 - AI存储容量需求比2025年增长500倍 占比超过70% Agentic AI驱动存储范式改变 [3] - 通信网络连接对象从90亿人扩展到9000亿智能体 实现移动互联网至智能体互联网的跃迁 [4] 能源系统变革 - 可再生能源发电量占比将突破50% 加速替代传统化石能源 [4] - 人工智能成为新能源系统核心 通过Token管理瓦特实时管理每一焦耳能量 实现更动态高效的电网 [4]