Workflow
多模态交互
icon
搜索文档
国海证券:渗透率提升+AI升级 智能座舱国产供应链再成长
智通财经· 2026-02-09 10:24
文章核心观点 - 智能座舱产业正迎来“量价齐升”的明确成长周期 国产供应链龙头将受益于国内市场规模与结构红利 并凭借全球化交付能力和技术竞争力 通过海外高毛利业务优化盈利结构 [1] 产品与趋势 - 智能座舱是基于软硬件集成的人-机-环融合系统 硬件价值主要由域控制器和显示子系统驱动 成本从经济型约3000元到高端超13000元不等 [1] - 技术升级、渗透率深化与全球拓展三大动力叠加推动产业成长 技术端正从CL2“部分认知”迈向CL3“高阶认知” AI大模型与多模态交互为核心驱动力 [1] - 高通芯片平台迭代构成升级主线 第五代AI性能提升12倍 车载语音交互质变 免唤醒渗透率一年内从26%升至48% [1] - 市场端 国内2026年渗透率预计超80%全球领先 高阶配置加速渗透 数字钥匙、座舱域控、5G年增幅超10个百分点 驱动价值量增加 [1] - 海外市场进入追赶期 主流车企以“8155规模化+8295分层升级”路径加速智能化 并深度依赖与中国供应链合作实现产品落地 [1] 市场空间与竞争格局 - 智能座舱域控市场规模预计从2025年的208.2亿元增长至2030年的701.6亿元 年复合增速27.5% 2026及2027年为关键窗口期 [2] - 智能座舱显示市场规模预计从2025年的579亿元增至2030年的1171亿元 年复合增速约15% [2] - 市场增长由多屏化与显示技术高端化共同驱动 多屏化包括HUD、副驾屏、后排屏等渗透 [2] - 竞争格局呈现“芯片高通引领、域控德赛西威稳居第一、显示国产主导”的特点 [2] - 高通凭借高算力、完善的产品体系主导座舱域控芯片市场 华为、芯擎科技、瑞萨电子等本土企业加速渗透 [2] - 域控制器方面 德赛西威稳居第一 本土企业亿咖通、车联天下、镁佳科技具备相当规模 [2] - 显示领域国产供应商优势明显 德赛西威在中控屏、液晶仪表屏领先 华阳多媒体在HUD/AR-HUD装机量领先 [2]
量产可期?这款人形伴侣机器人爆火后,创始人回应来了
机器人大讲堂· 2026-02-04 17:04
文章核心观点 - 深圳一直在智能科技有限公司推出的Eva.i恒温AI伴侣机器人,旨在通过37℃恒温、多模态情感交互和逃离恐怖谷的设计,打造介于人、宠物与物品之间的“第四种关系”,为特定人群提供无负担的情感陪伴 [2][4][23][26] 从"冰冷硅胶"到37℃恒温:研发路上的意外与坚守 - 机器人最出圈的亮点是接近人体的37℃恒定体温,触摸时能感受到肌肤般温暖,甚至能模拟脸颊发烫等细微状态 [7][8] - 该功能源于研发高灵敏度柔性电子皮肤过程中的意外延伸,团队为克服传统材料冰冷生硬的问题,最终采用了石墨烯温控系统,能将机器人体表温度稳定在37℃左右 [10] - 研发最大挑战在于将电子皮肤技术转化为量产工艺,使其贴合机器人骨架曲线并保证柔性和灵敏度,团队耗时近半年才攻克难题 [12] 多模态交互:让AI懂你,更尊重你 - 机器人的核心竞争力在于通过视觉、听觉、触觉的协同来识别用户情绪,实现主动式情感交互,例如通过识别用户疲惫的表情和语气,主动问候并给出收紧的拥抱 [14] - 公司通过Robonova.i应用实现虚拟角色与实体机器人的数据同步,使陪伴更具连贯性 [16] - 隐私保护方面,采用本地算法处理数据,云端记忆由用户掌控,敏感数据通过本地加密与边缘计算保护,用户可访问AI训练日志 [16] - 背后的人脸和表情识别技术能实现99%的多表情识别准确率,并能通过细节(如流泪时嘴角的细微抽搐)判断真实情绪 [17] 逃离恐怖谷:颜值之外,让陪伴有生命力 - 外观设计目标明确为逃离恐怖谷效应,让机器人不仅好看更有生命力 [19] - 面部采用五层镀膜与高精度3D打印技术,眼睛有多种颜色,在光线下呈现“闪闪发光”的质感,避免传统机器人的僵硬感 [21] - 摄像头未设置在眼部,而是可以搭配眼镜或项链使用且易于拆卸,此设计兼顾了灵动感与隐私保护,避免用户产生被监视感 [21] AI陪伴的本质:不是替代社交,是接纳所有“不完美” - 公司将AI伴侣的角色定位为“第四种关系”,它能提供情感依赖与互动,但不会要求回报或评判 [23] - 认为当代人的孤独往往源于缺乏理解而非缺乏陪伴,在“悦己经济”趋势下,AI陪伴的最大优势是“无负担”,不替代真实社交,而是提供一个随时在线的回应与接纳空间 [24][26] 初创阶段的挑战:量产、资金与行业认知 - 公司目前面临的主要困难是资金和人才,优秀技术人员成本高,初创公司难与大厂竞争,这影响了研发和量产进度 [27] - 量产工艺的稳定性、供应链配合以及公众对情感机器人行业的某些误解(如低俗化认知)也是需要面对的问题 [27] - 团队正在筹建自有工厂以提升量产效率与控制成本,如果一切顺利,首批产品可能在今年5到8月交付 [29] 产品个性化与设计理念 - 用户可通过应用内商店的AIGC功能定制虚拟角色,其数据会同步到实体机器人上,从而使每个Eva.i在交互个性上有所差异 [30] - 产品的设计理念强调陪伴的意义不在于完美复刻人类,而在于提供一种可定制、低压力的回应方式 [32]
可灵AI推出全新3.0系列模型
新浪财经· 2026-01-31 14:03
公司产品发布 - 可灵AI于1月31日面向全球上线全新的可灵3.0系列模型,目前正在超前内测中 [1] - 该系列模型基于All-in-one产品理念打造,是多模态输入输出一体化模型,标志着公司正式迈入3.0时代 [1] - 系列模型包括可灵视频3.0、可灵视频3.0 Omni和可灵图片3.0 [1] 产品功能与特性 - 产品覆盖图片生成、视频生成、视频编辑及后期处理等影视制作全流程 [1] - 在上一代全能创作引擎基础上,实现了更为原生的多模态交互 [1] - 支持文字、声音、图片和视频等多模态信息输入与输出方式 [1] - 融合音画同出能力与主体一致性控制,为AI影像内容创作注入新活力 [1]
讯飞星辰智能体平台升级:Agent正式从“对话框”进化为“数字合伙人”
新浪财经· 2026-01-26 19:09
公司产品升级发布 - 星辰智能体平台于1月26日升级发布,旨在让智能体从“屏幕幻象”进化为“物理实体”的生产工具,整合语音、视觉、运动与执行的多模交互全栈方案,使其成为具备“五官、手脚与个性”的“数字合伙人” [1][28] - 平台升级的核心是补齐智能体通往物理世界的三块拼图:感知的“五官”、执行的“手脚”以及共情的“灵魂”,从而构建一套完整的“Agent基础设施” [27] 多模态交互与感知能力 - 平台与AIUI平台完全打通,实现Agent一键接入语音交互,支持多模态感知和输出,依托讯飞AIUI实现1.6秒的秒极速响应,使交互如真人聊天般流畅 [6][10][32][34] - 全新升级多模态超拟人交互技术,融合语音、人脸、环境等多模态信息,实现多人高噪场景下的自由交互,让智能体具备丰富的声音和形象以进行情感表达 [11][34] - 声音层面,超拟人合成在语音合成大模型底座升级赋能下,在自然度、情感表达、节奏停顿等维度表现更好,具备更快响应、更懂情绪、更加灵活、更加百变的特点,一句话复刻能力在支持的语种、方言及多风格表达上取得突破 [14][37] - 形象层面,仅需一张照片即可生成专属数字人形象,口型、表情、动作由大模型自动生成并匹配文本意图,大幅降低数字人应用门槛 [14][37] 个性化与角色塑造 - 通过星辰MaaS的一句话精调模式,仅需对性格、经历、技能、语言习惯等维度进行描述,系统即可生成100条场景数据,自动定制角色模型,实现Agent交互的千人千面 [19][42] - 平台上线音色创造功能,通过与语种、情感、风格等属性联合训练,实现音色与风格的任意组合,一句指令即可让智能体瞬间切换声音风格 [19][42] - 角色性格从单薄的文案描述升级为“可组合、可迁移”的能力模块,为教育、玩具、虚拟IP等需要长期陪伴和高频互动的场景提供了更大的想象空间 [16][21][39][44] 执行与自动化能力 - 通过将Agent与RPA深度融合,使智能体具备“动手”能力,能7x24小时接管重复性工作以释放生产力 [21][44] - 平台在RPA工作流编排层面引入两项新能力:智能组件与数据表格,让开发者专注于业务逻辑而非底层代码 [21][44] - 智能组件通过自然交互即可生成可配置、可重复执行的自动化组件,应用于网页自动化和基础数据处理,极大降低自动化创造门槛 [22][45] - 数据表格允许用户在流程中直接对数据进行读写、编辑、展示和导出,使涉及数据获取和处理的自动化流程更透明、可调试,提升复杂任务的可靠性和执行效率 [22][45] - 发布会现场演示了通过自然语言指令让RPA自动打开网页、抓取待办事项关键信息,并支持对话式二次编辑,实现从原始网页到业务报表的闭环 [22][45] 应用场景与落地案例 - 场景打通:智能体能够极速接入机器人、智能穿戴及各类智能硬件,实现工业、家庭与消费等场景落地 [7][32] - 桌面硬件机器人“小飞”展示了融合能力,能准确识别语音指令,自主移动并调用视觉能力环顾四周后给出描述性回复 [8][32] - “小飞”可调用绘本智能体,将古诗转化为图文声音结合的绘本,帮助儿童学习 [10][34] - 搭载多模态超拟人交互技术的数字人已在企业服务、旅游导览、陪伴学习、健康管理等多场景应用,重塑服务体验 [14][37] - 具体案例包括:智慧大厅的数字人前台实现自动感知与主动迎宾,并与多人自然交流;业务终端的数字人助手通过人脸识别引导用户完成查询、填表到电子签名的复杂业务流程 [16][39] - 在发布会中,多位RPA数字员工高效支撑会务工作,如自动通知演示官、回复信息、收取邮件设置待办等 [24][47] 全球化与行业赋能 - 公司持续推进全球化战略,向全球开发者开放核心AI能力与解决方案,并聚焦中东与东南亚两大新兴市场 [24][47] - 星辰智能体平台将多模交互与执行能力同步延展至海外场景,构建覆盖多行业的海外智能体矩阵 [24][47] - 平台能力已应用于数千页基建标书的自动分析与比对、多语言混杂的实时出行引导、复杂合同中的合规风险透视等场景,覆盖公共服务与出行、大型基建招投标、金融与支付等领域 [26][49] - 目标是为全球企业提升效率、管控风险,构建可持续的智能化竞争力,打造全场景、全链路的智能新生态 [26][49] 行业趋势与战略意义 - 大模型的叙事逻辑正从“参数竞赛”转向“应用落地”,智能体从“赛博玩具”进化为“生产工具” [1][28] - 感知、声音、图像、动作等维度成为智能体深入业务流程、实现规模化落地的“入场券” [1][28] - 行业正处在从“AI技术”向“AI原生应用”跨越的临界点,智能体“移出屏幕”是将其深度嵌入工业生产、家庭陪伴、全球贸易等真实商业场景的关键 [27][49] - 当成千上万个具备“执行力”的智能体走向生产一线,将引发真正的效率革命 [27][49]
2025最强AI产品一文看尽丨量子位智库年度AI 100
量子位· 2026-01-22 15:37
2025年中国AI产品市场格局与趋势 - 2025年国内AI市场以智谱和MiniMax两家大模型公司启动上市进程收尾,标志着市场发展进入新阶段 [3] - 2025年被视作“AI应用元年”,行业经历了从“功能叠加”到“系统重构”的质变,竞争焦点从模型能力转向用AI重新定义场景 [5][6] - AI产品的用户高度集中于头部应用,Web端TOP5产品的月活跃用户(MAU)在所有AI产品中占比超过62%,APP端TOP5产品的日活跃用户(DAU)占比超过65% [12] 旗舰AI 100榜单核心发现 - 旗舰AI 100榜单评选出2025年综合能力最强的100款AI产品,这些产品在技术突破和实际应用场景中均展现出巨大价值 [8] - 头部产品如QQ浏览器、夸克、DeepSeek、豆包等在Web端和APP端用户数据大幅领先,已成长为国民级应用 [11] - 百度文心助手、WPS、腾讯元宝等产品在Web端或APP端稳定在TOP5的第一梯队 [11] - 从赛道分布看,AI通用助手和AI工作台是最热门方向,用户规模显著领先 [12] - AI编程与开发平台、AI创作平台、AI消费级硬件、AI搜索、AI教育、AI文档等赛道也有至少5款产品凭借卓越数据表现进入该榜单 [12] 创新AI 100榜单核心发现 - 创新AI 100榜单旨在挖掘2025年崭露头角、2026年具备爆发潜力的创新产品,代表了AI技术的前沿方向 [13] - 榜单中除了AI工作台、AI编程与开发平台等成熟赛道,还涌现出AI消费级硬件、AI剪辑、AI漫剧、AI图表、AI输入法、AI平面设计、AI音乐、AI知识管理等细分赛道产品 [16] - 这些在垂直赛道耕耘的创业产品,其通过用户与数据沉淀打造壁垒的成败,将在2026年得到进一步验证 [18] 十大热门细分赛道代表产品 - 为精准反映细分领域发展,榜单对10个热度最高的赛道进行专项提名,每个赛道评选出TOP3产品 [19] - 这十大赛道依次为:AI浏览器、AI Agent、AI智能助手、AI工作台、AI创作、AI教育、AI健康、AI娱乐、Vibe Coding和AI消费级硬件 [19] - 这些赛道在2025年聚集了最大规模的用户,其中的代表性产品凭借创新功能、工程化设计、强大AI能力及丰富生态而崭露头角 [22][23] AI 100榜单评估体系与方法论 - AI 100榜单是量子位智库推出的AI产品风向标系列,旨在提供AI技术驱动下产品创新与变革的第三方参考 [25] - 榜单目前主要由代表当前领军阵营的“旗舰AI 100”和代表未来种子选手的“创新AI 100”构成,按季度发布 [25] - 评估采用定量与定性相结合的双重体系 [26] - 定量层面以真实用户数据为基础,涵盖用户规模、增长、活跃、粘性四大维度,包含超过20个具体指标;硬件产品则考察出货量 [26] - 定性层面聚焦长期发展潜力,通过专家评估和用户调研,综合考量产品的底层技术、市场空间、功能设计、变现潜力等多重因素;硬件产品考察功能设计和实际体验 [26]
不是天才少女!雷军麾下罗福莉硬刚营销号:我只是普通研究者
搜狐财经· 2026-01-14 20:37
小米MiMo大模型负责人罗福莉的访谈回应 - 小米MiMo大模型负责人罗福莉在北大校友访谈中,直面回应了“AI天才少女”标签,称其为吸引注意力制造的刻板印象,并自认是普通平凡的研究者[1] - 罗福莉此前已在朋友圈声明,不愿被贴此类标签,认为过度的赞誉伴随巨大压力,希望安静地做困难但正确的事情[3] - 罗福莉选择正面发声抵制不良风气,旨在让更多人看清标签背后的真相[4] 对大模型未来发展的预判 - 罗福莉预判大模型将在未来十年引发科学研究领域的重要变革,可能使所有人都能参与科研,因为大模型或能自己写代码、做实验、提交任务、分析结果[4] - 她认为多模态交互将成为下一个重要领域,大模型将更理解真实物理世界,帮助生产力工作者进行更有创造力的工作[6] - 若其预判实现,科研门槛将大幅降低,有奇思妙想但缺乏技术能力的人也能参与,从而可能大大提升科学进步的速度[6] 罗福莉的个人目标与行业影响 - 罗福莉表示,接下来十年希望实实在在做一些对社会、对全人类有价值的研究,并期望看到中国的科学研究能力站立在世界中央舞台[7] - 网友评论认为,中国AI行业快速发展,正需要罗福莉这样有情怀、有能力、有担当的研究者,带领行业在世界科技舞台上发光发热[9] - 罗福莉的形象被视为真实、清醒又有情怀的研究者,其不被标签绑架、专注做事的风格被认为能激励更多人投身科研,为中国的科技发展贡献力量[9]
炮轰张文宏拒绝AI“屁股决定脑袋”后,王小川拿出了自己的AI医疗大模型
观察者网· 2026-01-14 18:31
公司战略与产品发布 - 百川智能于1月13日正式开源新一代医疗大模型Baichuan-M3,并将一度淡出的“百小应”以医疗助手形式重新回归,同步接入M3,面向医生与患者开放能力 [1] - 公司CEO王小川将M3定义为从“语言”迈向“数学”与“生命科学”的关键一步,其最大技术突破在于将强化学习从“半动态”升级为“全动态” [3] - M3的问诊逻辑强大,其患者模拟器和“医生评价模型”均为动态,使得模型在多轮问诊中能通过“追问”来排除风险、锁定病因,在权威评测HealthBench的Hard榜单上以44分位居榜首,超越了GPT-4等通用大模型 [3] - “百小应”APP区分“医生模式”和“患者模式”,医生模式对标美国的OpenEvidence,提供专业循证科研辅助并保证引用文献100%真实;患者模式致力于将医疗术语翻译成易懂语言,提供决策建议以填补医患沟通鸿沟 [3][4] - 公司计划在2026年继续深耕医疗领域,并计划发布两款全新产品 [11] 商业化路径与财务状况 - 公司CEO王小川预判,医疗AI未来巨大的增量是在院外,不在院内,医疗AI更多的是服务患者而非替代医生,可以推动“医患权力让渡” [2] - 公司商业化是To C导向,通过辅助决策和健康陪伴等方式实现,目前已与药企、医院合作,未来计划通过向患者提供服务包、与药企及保险公司合作等方式实现商业闭环 [2][6] - 公司并非走传统药企“十年十亿美金研发一款新药”的老路,而是通过AI作为“数字伴随”来提升药物的依从性和有效性,例如将一款老药的有效性从70%提升至75% [6] - 公司目前账上还有30亿元储备,CEO王小川认为资金足够,并预计将在2027年正式冲击IPO上市 [5][6] 技术理念与行业观点 - 公司CEO王小川直言数据不是核心,更看重算法与评测体系的重要性,并认为很多医疗模型不知道自己在做什么 [1] - 在行业普遍追逐多模态的浪潮下,王小川表示“从第一天就不认同多模态是主战场”,坚持认为“符号才是智力的中轴”,认为真正的医疗决策依赖逻辑与推理 [11] - 对于大厂进军健康赛道,王小川认为“大创新靠小厂,小创新靠大厂”,大厂追求安稳和共识,创业公司应切入“非共识”的严肃高价值场景 [8] - 针对蚂蚁集团旗下健康助手APP阿福,王小川直言“广告太多了”,并认为双方路线不同,阿福是泛健康概念,而百川希望得到医生们的认可 [9] - 对于其他医疗大模型,王小川评价市面上有500多个垂直医疗模型,认为他们都不知道什么叫做模型,并指出DeepSeek、ChatGPT虽然强但会假造症状、引用虚假论文 [9] - 对于国外竞争,王小川认为OpenEvidence如果嵌入ChatGPT能力则无法进入中国,且其只服务医生的模式不符合中国服务患者的核心需求 [9] - 针对张文宏教授拒绝把AI引入病历系统的言论,王小川表示“他有他的道理,只是他屁股决定脑袋的位置”,认为其观点是局部最优解,是为了保护医生训练体系而非从患者利益出发 [9] - 对于“大模型六小龙”中已上市的两家公司,王小川认为其市值与商业化能力并不匹配,是踩在了通用模型技术红利和国家扶持基础上,目前的商业模型未达到满意状态 [9]
不追DAU的AI公司火了!MiniMax港交所上市,技术路线成关键
搜狐财经· 2026-01-13 18:39
公司上市与创始人背景 - MiniMax于2025年1月9日在港交所正式挂牌上市 [1] - 创始人闫俊杰将公司成功上市归因于坚持技术信仰且未中途放弃 [1] 战略转折与认知转变 - 2024年初公司核心目标是技术达到GPT-4水平、用户规模翻十倍并突破千万日活跃用户 [3] - 2025年春节前竞品DeepSeek-R1发布后,公司认识到大模型性能提升依赖算法迭代和算力投入,而非用户数据,因此放弃单纯追求日活跃用户的战略 [3] 核心技术路线与突破 - 公司自创立起即坚持研发混合专家系统技术路线,期间经历两次失败 [5] - 2025年1月发布的M1模型是国内首个线性注意力千亿参数大模型,能够轻松处理百万字文本 [5] 早期创业与资源分配 - 公司成立于2021年底,当时通用人工智能概念在国内不受投资人青睐 [7] - 早期将80%的算力资源投入混合专家系统研发,曾面临资源紧张,需通过其他方式补贴运营成本 [7] 产品演进与市场应用 - 产品路线从早期的3D数字人转向多模态交互,融合文本、图像和语音 [9] - 当前拥有三个核心产品:Glow主打情感陪伴,星野服务企业客户,海螺AI专攻长文本处理 [9] - 企业客户反馈显示,使用星野系统后质检效率提升40%,并降低了人力成本 [9] 技术优化与核心能力 - 公司在算力受限环境下采取“十倍优化”策略,用100张显卡完成同行需1000张显卡的实验 [11] - 长文本处理是核心技术优势,线性注意力机制使其能处理整本书内容,例如十分钟内从数百页案卷中整理出关键证据链 [11] 公司管理与行业挑战 - 公司采用三层架构的“函数优化式管理”,目标明确且参数透明 [15] - 行业挑战包括算力资源获取困难以及高端人才竞争激烈 [15] - 中国市场机遇在于用户对AI产品接受度高、应用场景丰富,例如海螺AI能根据学生错题本生成个性化讲义 [15] 未来趋势与公司愿景 - 多模态交互是未来趋势,交互方式将扩展至图片、旋律等 [17] - 公司愿景是“Intelligence with everyone”,让普通人也能使用顶级AI能力 [17] - 中国AGI创业公司的独特优势在于既能追赶技术前沿,又擅长本土化落地 [19]
中信建投研报:多模型能力筑壁垒 MiniMax(00100)开启 AI 价值变现新周期
智通财经网· 2026-01-13 12:25
公司评级与核心战略 - 中信建投给予MiniMax“买入”评级 [1] - 公司以“反共识”的战略定力,聚焦模型智力突破,正从行业竞争中脱颖而出 [1] - 公司是上海首批获得大模型备案的企业 [1] - 公司摒弃“流量即壁垒”的传统思维,将资源极度聚焦于模型研发 [1] - 2025年战略重心转向“技术迭代”,通过精简低效团队、压缩营销开支,集中力量攻坚多模态交互等核心领域 [1] 管理层与技术基础 - 创始人闫俊杰兼具顶尖科研实力与ToB商业化经验,曾带领团队打造行业领先的人脸识别算法 [1] - 创始人团队曾创下超20亿元人民币的智慧城市业务收入,为公司技术落地与商业拓展奠定坚实基础 [1] 技术进展与产品布局 - 公司精准把握Scaling Law下半场趋势,在架构创新与推理优化上持续突破 [2] - 公司深耕多模态领域,形成“高感官交互+生产力工具”的独特布局 [2] - 公司推出Video-01、端到端语音等创新模型,构建起差异化竞争优势 [1] - C端产品Talkie/星野积累海量RLHF数据 [2] - ToB产品海螺AI与开放平台贡献高毛利现金流 [2] 财务表现与盈利能力 - 2025年前三季度,公司实现总收入5344万美元,同比激增175% [2] - 收入结构呈现“三驾马车”驱动的多元化格局 [2] - ToB业务毛利率高达69.4% [2] - C端产品实现4.7%的正毛利,盈利能力显著修复 [2] 增长预测与市场前景 - 中信建投预测,2025-2027年公司营收将保持90%以上的高速增长 [2] - Non-GAAP毛利率有望提升至55% [2] - 净亏损率持续收窄 [2] - 随着推理成本优化与新一代多模态模型落地,公司有望在AI原生应用领域开辟更大市场空间 [2] - 在AI产业从工具向“数字员工”跨越的关键节点,公司以模型智能为护城河,正解锁千亿级劳动力市场的巨大机遇 [2] - 公司凭借技术沉淀、团队优势与清晰的商业化路径,成为值得期待的AI领域领军者 [2]
对话光帆科技董红光:当耳机长出眼睛, “说一下”开始取代“点十下”
乱翻书· 2026-01-12 21:11
文章核心观点 - 下一代AI计算终端的竞争焦点在于交互形态,光帆科技提出了一个反直觉的解决方案:将摄像头集成在单耳仅11克重的AI耳机上,并与手表联动,形成多设备组合,以规避当前智能眼镜在重量、续航、显示等方面的技术瓶颈,为用户提供更低门槛、更务实的全能AI助理体验 [1][4][10][12] - AI硬件的交互逻辑正从手机时代的被动、工具化的图形界面,转向主动、代理式的意图感知,其核心是让机器适应人,AI操作系统需要以调度大模型和多模态传感器为核心,而非传统的图形渲染 [27][28][30] - 通用AI硬件的价值大于专用硬件,因为它需要接入海量应用和服务,成为一个具备感知、记忆和决策能力的“智能体”,这必须由操作系统来统筹,光帆自研的“云端+端侧”操作系统旨在服务于未来所有以语音交互为主的AI品类 [53][54] - 为了解决AI设备普遍存在的“吃灰”问题,光帆选择在成熟的耳机和手表品类上叠加AI能力,通过高频使用场景(如听歌、消息提醒)带动低频刚需场景(如博物馆讲解),确保设备持续佩戴,为AI服务创造触发机会 [57][59] 一、为什么是耳机,而非眼镜 - 智能眼镜面临重量、光机显示效果、续航、对妆容影响等短期内难以解决的技术挑战,且新品类需要用户付出新的佩戴成本 [4] - 耳机已是成熟的可穿戴大品类,用户的佩戴成本已被听音乐、打电话等功能解决,在此基础叠加AI能力,可显著降低用户的购买决策和使用成本,策略类似当年iPhone在手机品类上叠加智能化 [4][6] - 摄像头需位于头部与眼睛齐平的位置,以实现“你看什么,就想让它看什么”的直觉感知,耳机天然占据离嘴巴和耳朵最近的位置,是语音交互的第一界面,符合扎克伯格关于AI硬件交互第一界面应是音频的判断 [6] - 采用“耳机+手表”的多设备联动方案,将功能拆解:耳机负责听、说、看(摄像头);手表负责屏幕显示、触控交互、GPS定位和生物传感,并用多设备组合替代单一设备的工程难题,是当前更务实的全能AI助理落地方案 [10][12] 二、从图形界面到意图感知 - 手机交互是被动、工具化的,需要用户一步步点击操作以适应机器;AI交互是主动、代理式的,用户只需表达最终需求,由AI在后台理解意图、拆解步骤并调用服务,是机器适应人 [30] - 以打车为例,AI系统可主动触发:综合机票信息、GPS位置、实时路况,在耳边提醒用户出发并询问是否叫车,确认后自动完成叫车并在手表显示上车点与车牌号,此过程调度了多应用数据与多器件,将手机所需的十几次点击简化为无缝体验 [33] - AI操作系统(AI OS)的核心是调度大模型和传感器,而非传统手机操作系统(OS)的图形渲染,光帆自研的操作系统采用“云端+端侧”双层架构:云端运行核心OS负责调度大模型与任务编排;端侧运行实时OS负责传感器管理与即时反馈 [27][28] - 光帆团队因操作系统开发的软硬结合基因,以及对交互逻辑的敏感性,更早构思并动手,从而率先推出全球首款具备视觉感知能力的AI耳机,并获得了宁德时代、韶音、兆易创新等产业链头部公司的投资 [21][22] 三、主动智能:越用越懂你 - 摄像头采用事件性触发(用户明确指令)和预判性触发(如先判断用户是否忙碌再决定是否播报消息),并非常开,以平衡功耗与体验 [37][38] - 光帆构建了基于四类记忆来源的用户画像体系:传感器记录(位置、所见)、对话内容、行为记录(交易)、主动托付(用户明确指令),记忆会进行权重处理并存储在云端,使得AI能提供差异化服务(如为故宫新手或发烧友提供不同讲解)并形成用户迁移成本 [43][44] - 核心应用场景包括:1)博物馆讲解,结合GPS与视觉识别,用户看着展品并在手表息屏触摸即可触发,无需说话;2)旅游场景,基于地理位置触发讲解或通过视觉扫描推荐餐厅;3)实时翻译;4)灵感记录,通过敲击耳机口述,由AI后续整理 [47][48][50][51] - 主动服务的理想体验是让用户忘掉硬件存在,在后台悄无声息处理琐碎意图,仅在必要时打扰,关键在于掌握主动服务的分寸感 [35][39] 四、通用硬件的价值一定大于专用硬件 - 专用AI硬件(如MP3)功能单一,只需薄层系统;通用AI硬件要成为智能体,需接入海量应用与服务,必须依靠操作系统来统筹云端大脑、端侧感官及服务生态 [53][54] - 光帆自研操作系统的设计具有普适性,目标是为未来所有以语音交互为主的AI品类提供支持,类似iOS和Android从手机扩展到其他图形设备 [54] - 通过选择耳机和手表这两个用户本就天天佩戴的成熟品类,确保设备基础实用价值,解决“吃灰”问题,让AI功能有机会在合适场景被高频使用唤醒,并通过操作系统降低应用开发成本,平衡刚需低频与高频场景 [57][59][60]