Workflow
多模态交互
icon
搜索文档
第五届未来视听创新大赛“沉浸式交互视听赛道”复赛路演在京举办
新京报· 2025-11-20 21:42
大赛活动概况 - 第五届未来视听创新大赛“沉浸式交互视听赛道”复赛路演于11月19日在北京举办 [1] - 大赛由北京市广电局与北京市新闻工作者协会共同主办,主题为“视听无界 价值共融” [1] - 赛道重点聚焦沉浸式交互视听领域的前沿探索与产业融合,致力于推动虚拟与现实在视听体验中的深度结合 [1] 技术方向与项目征集 - 赛道围绕VR/AR/MR、多模态交互等前沿技术展开项目征集与评选 [1] - 共吸引来自全国20个省、自治区、直辖市的181组项目报名,25组优秀项目晋级复赛 [1] - 项目应用场景涵盖文旅文博、教育科普、线下娱乐等领域 [1] 评审机制与合作 - 评审团由来自国家广播电视总局广播电视科学研究院、中国信息通信研究院、中国传媒大学等机构的专家组成 [1] - 评审维度包括内容呈现效果、技术应用水平、作品创新亮点、商业价值、社会效益以及现场路演表现 [1] - 现场设置沉浸式设备体验区与项目对接洽谈区,邀请银行、投资机构及产业园区代表参与互动交流 [1] 未来发展规划 - 大赛将持续发挥平台聚合作用,深化“政、产、学、研、金”协同机制 [2] - 围绕技术研发、成果转化、市场应用等关键环节,为优秀项目提供政策指导、资本赋能与资源对接等“一站式”服务 [2]
小米生态老兵出手,咖啡机器人要白菜化了?
观察者网· 2025-11-19 18:05
公司战略合作 - 影智科技与绿联智能联手在松江投建咖啡机器人工厂,计划产能达万台,目标年营收突破15亿元[1] - 合作模式为“生态链操盘手+制造老兵”,绿联智能掌舵人李波手握追觅、石头、海尔等巨头的代工订单,是机器人制造领域的隐形冠军[1] 行业市场潜力 - 2023年全球消费级机器人市场规模达68亿美元,预计2028年将突破150亿美元,年复合增长率接近17%[4] - 中国咖啡市场规模近3000亿元,被视为机器人最好的试炼场[4] - 2023年全球消费级机器人市场增速超27%,但自动咖啡机的家庭渗透率仍徘徊在1%以下,商用市场发展缓慢[3] 产品技术优势 - XBOT咖啡机器人通过算法重构咖啡标准线,控制0.1克咖啡粉、1毫升奶泡的误差[1] - 采用多模态交互技术,压力传感系统可实时调整萃取参数,视觉识别模块自动适配不同杯型,并能通过用户扫码反馈记住个性化需求[5] - 与英伟达生成式AI技术合作,允许消费者自定义咖啡印花[5] - 建立全链路管控体系,对物料来源进行严格限定,配比精度锁定在0.1克级,并通过内置近红外光谱传感器实时检测咖啡豆新鲜度与研磨度[8] - 设备自带温湿度监控和清洁度感应模块,对存储环境和机器状态进行双重预警,确保风味标准化[8] 成本与供应链 - 通过核心部件国产化替代与规模化生产,松江工厂投产后XBOT定价为18.9万元,比同类产品低30%以上[7] - 极低的运维成本使商家回本周期可控制在12个月内[7] - 绿联智能每年为追觅、石头、海尔代工数百万台智能设备,具备强大的成本控制与供应链韧性[4] 行业痛点与解决方案 - 行业存在“伪智能”陷阱,市面上80%的产品只是按预设程序完成磨粉萃取,无法读懂杯型差异或调整风味[5] - XBOT通过技术升级解决了风味标准化问题,确保不同地点的设备制作出的同一杯拿铁味道分毫不差[8] - 当前咖啡自动售货机赛道因核心部件依赖进口,同类产品单价多在30万元以上,制约市场渗透[7] - 行业存在风味失控和食品安全问题,如使用劣质咖啡豆、牛奶存储温度超标、设备清洁不到位等乱象[7]
小度宣布全系产品升级“超能小度” AI助手迈入“多模态”时代
中国经济网· 2025-11-13 19:36
产品发布与升级 - 小度科技在2025百度世界大会上正式发布全新升级的多模态AI智能助手“超能小度”并宣布全系、全量、全生态上线 [1] - 公司宣布将推动数千万台已售小度设备免费升级至超能小度 [1] - 搭载超能小度的硬件新品同步亮相,包括小度AI眼镜Pro、小度智能摄像机C1200三摄版和C800视频通话版、小度智能音箱Fun [1] 技术能力与交互体验 - 超能小度实现了从“语音”到“多模态”的感知交互能力进化,基于AI原生操作系统,具备更强大的视觉理解和推理思考能力 [1] - 依托自研的极速架构,超能小度的响应速度得到大幅优化 [1] - 在家庭看护场景中,公司首创“AI随心看护”功能,可对人、宠特定行为进行自定义看护提醒,并通过语音播报和全屋设备联动进行主动干预 [2] 市场拓展与生态合作 - 基于超能小度的能力加持,公司全面进军家庭摄像机领域 [2] - 超能小度已全面应用于智慧酒店、智慧养老、智能家电、智能汽车、AI玩具等行业,赋能千行百业 [2] - 公司秉持开放态度,将超能小度的能力赋能给更多行业伙伴,共同为用户创造智能、便捷、人性化的体验 [2]
从“给答案”到“教动脑”:这届小学生被AI教会主动思考
量子位· 2025-11-11 12:24
行业现状与痛点 - AI+教育浪潮汹涌,ChatGPT、谷歌等巨头纷纷推出相关产品,有学校要求学生每天花两小时与AI助手学习[2] - 当前多数AI教育产品本质是效率工具,追求快速响应、批改和给出答案,停留在授人以鱼层面[2] - 直接给出答案的模式掩盖了学生思维过程缺失,导致一听就会、一做就废和盲目刷题的循环[2] 产品核心功能与特点 - 小思AI1对1从被动应答工具进化为能主动引导、完成教学闭环的师者[4] - 基于多模态感知能力,可同时看懂纸上笔迹、听懂学生表达,并以自然语言实时讲解引导[5] - 通过拍头唤醒,支持语音或手指题目方式启动讲解,精准识别题目[8] - 讲解过程采用纸屏互动,引导孩子将解题步骤亲手写在纸上,并实时识别批改每一步[10][11][12] - 实现一题多解,根据学段选用相应解题方法,并圈划题目关键信息[12] - 讲解完成后进行整体回顾与重点总结,帮助理解同类题型解题思路[14] - 具备个性化教学方案,在孩子持续出错时灵活转换思路和提问角度,并判断认知负荷调整节奏[21] - 通过情绪感知技术捕捉孩子情绪变化,给予鼓励或祝贺,并生成情绪总结报告推送家长[21][22] - 自动构建动态学情图谱,基于行为模型生成个性化学习规划,实现千人千面教学[22] - 支持拍照上传学校习题试卷,持续跟踪学情进行动态诊断与精准反馈[23] - 备考时可自动筛选薄弱环节,优先呈现易错题型与未掌握题型[25] 技术路径与核心能力 - 公司采用软硬一体与自研主导的AI原生派技术路径,难以被快速复制[30][31] - 为实现低延迟、多模态、沉浸式交互和深度个性化教学,软硬一体化是必然选择[31] - 自研T系列学习机作为AI老师物理载体,前置高清摄像头和内置传感器算法实现低延迟纸屏同步[32] - AI老师能力包含解题准确性和讲题能力两个维度,前者客观讲求逻辑正确,后者主观体现教学设计水平[32] - 解题环节依托自研九章大模型(MathGPT),承担全学科解题、批改、分步讲解任务,获教育大模型5级与教育智能体4+级双项最高认证[34] - 采用双模型架构,引入通用大模型DeepSeek增强开放对话与逻辑推理能力[34] - 将二十余年教研团队授课经验、解题策略与课堂互动逻辑数据注入大模型,使AI掌握教学思维而不仅是答题能力[34] - 全链路自研体系保障安全,题目经过真人审核甚至三轮审核机制,数据隐私有防控管理机制[37] - 自研意图理解模块搭配可插拔调度大模型保障专业准确,安全机制覆盖全流程[37] 行业演进与未来展望 - AI教学系统正经历从答题工具到AI学伴再到AI老师的演进过程[38] - 公司CTO提出AI老师L1-L5分级,核心标准是AI在多大程度上替代传统课外辅导角色[40][41] - 学而思AI老师能力目前已一只脚迈入L3阶段,在题目讲解场景实现多模态交互+个性化引导+实时批改与自适应讲解的系统化学习链[44] - 小思学习机可自由调度的AI能力有七十多种,涵盖精准学、批改、弱项练习、口语训练等多方面[45][46] - 未来AI老师需在教學能力、认知理解能力、交互能力三方面持续推进,学习机有望向具备教育感知与情感交互的陪伴式机器人演进[47]
科大讯飞推出全新多模态数字人
36氪· 2025-11-06 12:00
公司产品发布 - 科大讯飞在11月6日1024开发者节上正式推出数字人导览产品“小飞” [1] - “小飞”具备高度多模态交互能力并已实际上岗 [1] - 产品突破简单问答局限,能够实现多人自由对话和多语种交流 [1] - 产品具备个性化记忆能力,可记住访客历史信息并进行贴心提醒 [1]
前小米 OS 高管创业:你的下一部「手机」未必是手机
Founder Park· 2025-11-05 18:54
AI时代交互变革 - AI将重塑消费电子行业,从交互、软件到硬件都将发生根本性变化 [12][13] - 未来交互将从“指令式”转变为“需求式”,AI能理解模糊需求并完成中间决策和执行 [18][19] - 多模态交互成为核心,需要语音、视觉等多种传感器支持 [19][22][23] 硬件形态演进 - 穿戴类设备可能成为AI交互变革的第一步,因其具备“永远在线”特性 [21] - 未来硬件将呈现多设备协同趋势,由云端AI大脑统一调度 [21][30][31] - 手机作为个人计算中心的地位将瓦解,退化为发挥大屏幕优势的设备之一 [27][28][30] 传感器重要性 - 新型硬件需要增加传感器数量,以支持AI对环境和用户状态的感知 [22][23][37] - 摄像头核心价值在于“识别”和“感知”,而非传统拍照录像功能 [38][39] - 传感器使用需平衡功耗,通过优化使用方式降低能耗 [38][39] 操作系统生态 - AI时代需要全新操作系统架构,现有图形化交互系统无法满足需求 [49] - 新操作系统应支持端云协同,实现多设备统一调度 [52] - 应用生态将发生变革,传统App形态可能消亡,转向Agent模式 [50][51] 创业公司策略 - 通用硬件价值大于专用硬件,需解决用户佩戴成本与价值感平衡问题 [45][46] - 操作系统成功关键在于找到最佳软硬件范式,而非公司规模大小 [50] - 新产品从传统品类切入但重新定义,增加传感器并探索多设备联动 [33][36][37]
十五五聚焦科技,AI进入交互发展期
东吴证券· 2025-10-27 17:51
核心观点 - AI产业正进入"模型+硬件+交互"的融合周期,重点关注具身智能、多模态交互及算力基础设施的中长期投资机会[5] - 政策焦点从"化解风险"转向"高质量发展",科技类产业有望在产业结构与资本市场中占据更核心地位[2] 周度观点与AI产业动态 - AI产业迎来多线共振:应用层、硬件层、具身智能全面推进,市场情绪延续温和复苏态势[2] - OpenAI推出AI浏览器"ChatGPT Atlas",正式切入浏览器生态,标志着AI从内容生成迈向信息入口层的竞争新阶段[2] - 三星发布混合现实设备Galaxy XR,定位"释放多模态AI潜力",代表AI与XR的融合进入实用化阶段,消费级智能硬件有望再掀创新浪潮[2] - 中国模型Qwen与DeepSeek在"六大AI模型实盘厮杀"中以37%和24%收益率领跑,标志着人工智能从文本生成迈入决策智能,赋能量化投资等智能商业化层面[3] - 宇树科技发布人形机器人Unitree H2,性能和拟人化程度显著提升,成为"具身智能"落地的主要载体[4] - 亚马逊推出"三合一"仓库机器人,摩根士丹利分析师估计到2027年可能为亚马逊节省高达40亿美元,代表雇主企业从"人工"转向"人工智能"的新风向[3] 市场表现与数据跟踪 - 美国主要科技股周度表现:英伟达市值45,261亿美元,周涨跌幅1.66%;微软市值38,920亿美元,周涨跌幅1.95%;苹果市值39,004亿美元,周涨跌幅4.17%;谷歌市值31,467亿美元,周涨跌幅2.61%;亚马逊市值23,912亿美元,周涨跌幅5.24%;Meta市值18,549亿美元,周涨跌幅2.99%;特斯拉市值14,425亿美元,周涨跌幅-1.27%[8] - AI板块走势延续结构性分化,硬件链条如算力芯片、光模块、电源管理等维持高景气[3] 行业研究与推荐方向 - 智慧交通领域政策推动建设加速,数据赋能价值释放,AI推动安防市场持续提升[15] - AI漫剧供需两旺,规模高速增长,工具升级带动产能提速,效率指数级提升[15] - AI算力需求释放,驱动核心业务量价齐升,盈利能力显著提升[15]
智元推出“灵创”平台:0代码创作,人形机器人内容生态迎来新变革
凤凰网· 2025-10-24 21:50
公司产品发布 - 智元机器人正式推出内容创作平台“灵创”,旨在向普通用户开放人形机器人复杂的内容开发流程 [1] - “灵创”平台最大特点是实现“0代码、0门槛”,用户无需专业编程或机器人控制知识即可参与创作 [1] - 平台核心功能包括强大的动作模仿能力,用户通过手机拍摄人物动作视频上传,AI即可自动化生成控制策略,使机器人精准复现动作 [1] - 动作模仿功能未来将支持手指级别的精细动作模仿 [1] - 平台整合多模态交互能力,“语音演绎”功能可通过上传文本或音频,智能生成匹配的机器人肢体语言和面部表情 [1] - 平台提供可定制化的音色与情绪选项,以增强机器人表达的真实感与沉浸感 [1] - 平台提供类似视频剪辑软件的时间轴编排工具,满足商业表演、导购等场景对长序列复杂任务的需求 [2] - 用户可将不同动作、语音和表情片段自由组合剪辑,精确控制每一帧节奏,创作连贯的“机器人故事片” [2] - 平台支持一键群控多台机器人协同表演,可为不同机器人分配差异化角色和任务 [2] - 平台内置覆盖11类场景的超过180套动作与140套表情模板,用户作品可分享至创意广场 [2] - “灵创”平台已首先适配智元旗下灵犀X2人形机器人 [2] - 公司预告将于下个月上线定义机器人个性的新平台“灵心” [2] 产品商业化进展 - 灵犀X2人形机器人现已进入量产交付阶段 [2] - 预计2025年交付量可达数千台 [2] - 机器人已开始在文娱商演、门店接待等场景落地 [2] - 平台的推出将进一步推动人形机器人从技术展示走向更广泛的规模化应用 [2]
微软深夜送出程序员节最“离谱”的礼物:让Mico接管你的Copilot
AI前线· 2025-10-24 12:07
核心观点 - 微软发布Copilot秋季更新,将其从“生产力工具插件”升级为跨设备、跨场景的“情境AI基础设施”,体现了“以人为本的AI”理念 [2] - 此次发布围绕三个关键词:协作、个性化、连接,共推出12项关键功能 [2][3] - 新虚拟角色Mico的推出是本次更新的亮点,标志着微软在人机交互领域长达三十年探索的延续,旨在将AI从“工具”转变为“伙伴” [5][18] 关键功能更新 - **小组(Groups)**:支持最多32人共享Copilot会议,在同一工作空间进行头脑风暴和共同创作,Copilot负责维持上下文、自动汇总决策 [3] - **Imagine**:作为协作中心,用于在企业环境中快速创建和混合AI生成的视觉素材、营销草稿或培训材料原型 [3] - **真实对话(Real Talk)**:旨在摒弃AI模型过度讨好的行为,采用更可信的对话方式,如苏格拉底式问答,以提供更具技术协作价值的反馈 [7] - **记忆与个性化(Memory & Personalisation)**:使Copilot具备长期情境记忆能力,可按用户指示记住关键细节并提供个性化建议 [7] - **连接器(Connectors)**:与OneDrive、Outlook、Gmail、Google Drive、Google日历集成,实现跨账户的自然语言搜索 [7] - **主动行动(Active Actions,预览)**:基于用户最近活动与上下文,以“下一步建议”的形式主动提出可行操作 [7] - **Copilot for Health**:基于可靠医疗来源提供健康信息,并支持用户查找和比较医生 [7] - **实时学习(Live Learning)**:提供通过问题、视觉效果、白板的苏格拉底式、语音驱动辅导体验 [7] - **Edge中的Copilot模式**:将Microsoft Edge浏览器转换为“AI浏览器”,用户可通过语音总结、比较网页内容并执行操作 [7] - **Windows上的Copilot**:通过“Hey Copilot”激活,与Windows 11深度集成,引入Copilot Vision并通过摄像头/屏幕识别理解视觉内容 [7] - **Copilot Pages和Coppilot Search**:Pages为协作文件画布,Search将AI生成答案与标准网络搜索结果相结合 [7] 虚拟角色Mico - Mico是Microsoft和Copilot的组合名,以可爱、不规则圆点造型作为新的角色标识出现在用户界面 [3][5] - Mico能实时变换表情和颜色以反映情绪和反馈,定位为跨模态、统一的用户体验层 [3][15] - 该角色是微软对1997年推出的Office助手“大眼夹”(Clippy)理念的延续,旨在探索“情感化计算”和“亲和式交互” [5][6][10] - 微软AI部门高管表示,Mico拥有固定形象、独立空间以及“成长”过程,是公司“人本主义人工智能”愿景的具体化体现 [10][15][16] 行业意义与市场反应 - 外媒评论此举是微软将其生产力体验与生成式AI能力更深整合的一次重大举措 [3] - 此次更新标志着AI技术从“工具”迈向“伙伴”,旨在让人与电脑的关系从命令与响应转变为对话与理解 [18] - Mico亮相后在社交媒体引发讨论,有用户称赞其可爱、有活力,并包含将Mico变为Clippy的彩蛋功能 [20][21] - 有观点认为,Mico在市场上面临挑战,因为科技公司对赋予AI个性持谨慎态度,此前Clippy因技术受限和交互生硬而失败 [5][21]
荣耀Magic 8系列上新,火山引擎助力“YOYO助理”多模态升级
搜狐网· 2025-10-17 17:00
产品发布与核心升级 - 荣耀于10月15日发布年度旗舰新品,包括Magic 8系列手机、MagicPad 3 Pro平板及荣耀手表5 Pro,并搭载全新MagicOS 10操作系统 [1] - 智能语音助手“YOYO助理”实现多模态交互能力升级,旨在提供更贴心、全能、主动的智能服务 [1] 关键技术合作与赋能 - 荣耀与字节跳动旗下火山引擎合作,基于豆包大模型能力为“YOYO助理”注入多场景智能服务,如联网问答、智能识图、创意修图等 [3] - 火山引擎的联网问答Agent整合豆包大模型及联网能力,能实时检索互联网公开资源并深度整合抖音集团生态内容,如今日头条图文、抖音百科等 [4] - 火山引擎实时对话式AI方案保障“YOYO助理”在复杂网络下的低延时、高流畅连续交互体验,实现视频通话中“看得准、答得快” [9] “YOYO助理”功能详解 - 联网问答功能具备秒级输出能力,支持图片、文字、语音多模态输入,输出形式包括文字、图片、音乐、视频等,并具备精准的时效性信息筛选能力 [4] - 智能识物功能可基于视觉理解能力快速识别物体(如鸟类)并提供详细信息,结合联网问答补充知识 [6] - 提供“YOYO打电话”和“YOYO视频通话”功能,支持用户通过语音或视频进行闲聊陪伴、口语陪练及专业问答,例如在超市通过视频通话挑选水果 [7] - AI修图功能允许用户通过圈选和语音指令快速完成去除杂物、调整光影、照片风格迁移等复杂图片编辑需求 [10][11] 具体应用场景与用户体验 - 在健康饮食场景中,用户询问食物建议后,“YOYO助理”可定制输出包含文字、图片、视频等多元内容的低脂饮食搭配建议 [6] - 豆包大模型能结合上下文理解用户情绪和语调,生成超自然、高保真、个性化的即时语音互动,使回答更拟人 [9] 未来合作方向 - 荣耀与火山引擎将持续合作,训练“YOYO助理”的智商和情商,并拓展更多AI智能体应用场景,强化MagicOS的多模态交互体验 [11]