Workflow
人机交互
icon
搜索文档
2026数字人觉醒:从“形似”到“共情”的技术革命
搜狐财经· 2025-12-15 18:29
文章核心观点 - 到2026年,数字人技术将实现从“形似”到“神似”的深刻变革,从执行命令的工具进化为能共情、会成长的“数字伙伴”,并渗透至工作与生活的各个领域,重塑服务业形态、就业结构和家庭关系 [3] 技术突破:情感智能与交互 - 技术重点从追求外观逼真转向内在智能和情感交互能力,多模态情感计算模型使数字人能实时分析用户的语音语调、微表情和肢体语言,并做出恰当的情绪反应 [4] - 情感交互能力提升源于语音识别、计算机视觉和自然语言处理等技术的进步,使数字人能判断情绪状态、识别微表情并生成带有情感色彩的回应,从而跨越“恐怖谷”陷阱 [5] - 数字人系统通过构建“性格记忆库”,在与用户的长期互动中形成个性化的交互模式,基于对用户行为模式的深度学习和理解来沉淀沟通偏好 [3][4] 行业应用:垂直领域专家型数字人 - 在医疗领域,24小时在线的“虚拟护士”能监测患者生命体征、提供个性化康复指导,并理解患者心理状态以给予情感支持,尤其利于慢性病患者和老年人 [3][6] - 在教育行业,“AI教师”能根据学生的认知特点、学习方式和节奏调整教学策略,提供定制化教学内容和辅导,作为教育资源的重要补充 [3][8] - 在金融领域,精通全球法规的虚拟合规官能帮助企业监控法规变化、分析业务风险点并提供合规建议,同时处理大量文书工作以减轻人工负担 [8] - 在创作领域,数字人通过深度学习海量艺术作品能融合不同风格,主导创作短片和音乐专辑,人机协同创作成为常态,人类提供核心创意,数字人负责高效执行与形式创新 [8][9] 新兴趋势:数字分身与伦理挑战 - 创建高度还原的个人“数字双胞胎”成为可能,可代理部分社交、工作及创意活动,基于特定个体的数据,具有其外貌、语言风格和行为模式 [9] - 数字分身可应用于工作场合代表本人参加常规会议,或在社交领域于本人无法到场时参与互动,扩展了个人的时间与空间存在 [10] - 数字分身技术引发伦理争议,包括其独立决策时的责任归属问题,以及“数字永生”技术带来的情感慰藉与伦理困扰 [12] - “AI人格权”概念被广泛讨论,涉及数字人是否应享有权利、其创作收益如何分配,以及是否应被当作纯粹工具对待等法律与伦理问题 [12] 产业转变:成本、设备与评估体系 - 成本门槛大幅降低,技术的开源和云服务普及使中小企业及个人创作者能以合理成本定制专属数字人 [13] - 交互设备多元化,AR眼镜和全息投影等技术使数字人能“走出屏幕”,更自然地融入物理空间,增强互动临场感 [13][14] - 评估体系专业化,行业建立从形象拟真度、交互自然度到任务完成效率的多维评价体系,并需评估情感理解、个性化及长期学习能力 [14] 社会影响与未来展望 - 就业结构将发生变化,重复性、标准化工作可能被取代,同时产生数字人训练师、人机协作协调员等新岗位 [15] - 服务业形态重塑,数字人能提供24小时不间断且品质一致的服务,如在零售、餐饮、旅游行业进行信息咨询与产品推荐 [15] - 在家庭生活中,数字人可能成为提供情感支持与日常陪伴的成员,尤其对于独居老人或需特殊照顾的人群,但无法完全替代人类亲情 [16] - 技术发展面临挑战,包括数字人与人类情感理解深度的差距、隐私与数据安全问题、伦理法律规范缺失以及社会接受度与经济影响等 [16][17]
知名大厂被约谈?官方最新回应!
中国经营报· 2025-12-14 09:38
产品发布与合作 - 字节跳动旗下AI大模型“豆包”于12月1日宣布上线手机助手,并与中兴通讯合作推出“豆包手机”努比亚M153 [1] - 该手机助手拥有系统级权限,能像人类一样操作智能手机,旨在重塑人机交互逻辑 [1] 技术实现原理 - 豆包手机助手采用云端处理模式:用户下达指令后,系统截屏上传至云端大模型分析,每步间隔约3秒,分析完成后执行操作 [7] - 截屏仅用于视觉理解和推理,任务完成后不会在云端存储 [7] - 受限于当前手机芯片性能,该“截图上云”的云端处理模式是行业内多家手机厂商AI助手产品的通用做法 [7] 安全性质疑与官方回应 - 产品发布后,AI手机助手的安全性迅速引发外界讨论,有报道称监管机构因担忧网络安全、数据安全及潜在竞争问题约谈公司,但知情人士称该消息不实 [4] - 针对用户担忧,豆包手机助手发布技术说明,澄清其采用原生截屏接口,严格遵循应用声明的Secure标记,无法截屏银行安全键盘等受保护的界面内容 [4] - 官方强调,豆包手机助手仅在有用户指令时才会开始截屏,且无法截屏三方应用Secure标记页面 [4] - 对于安卓系统的Secure协议,只要银行或支付App开启防截屏保护,AI截取到的画面将是漆黑一片,无法看见键盘和密码 [7] 行业生态反应与产品调整 - 12月初,“多家App对豆包手机禁用”登上热搜,微信、淘宝、支付宝以及多家银行App出现了对豆包手机的限制或禁用 [8] - 12月5日,豆包手机助手发布《关于调整AI操作手机能力的说明》,计划对部分场景的AI操作能力进行规范化调整 [9] - 具体调整涉及三类场景:限制在各类App中用于刷分、刷激励的自动操作能力;进一步限制银行、互联网支付等金融类应用的代操作能力;对涉及竞技排名的部分游戏场景暂停开放AI使用 [9]
阶梯医疗李雪:希望打通一条高速通道,实现人脑与外界高效沟通
新浪财经· 2025-12-10 14:18
公司概况与愿景 - 阶梯医疗由创始人李雪与其先生于四年前(约2021年)共同创立 [3][8] - 公司致力于搭建侵入式脑机接口的底层软件和硬件平台 [3][8] - 公司长期愿景是打通大脑与外部世界之间的高速通道,实现真正的人机交互、人机互联以及人与人之间的极速、高效沟通 [5][8] 目标市场与产品应用 - 公司产品主要旨在解决三类患者的问题:第一类是帮助运动功能障碍和失语患者恢复运动功能和语言功能 [3][8] - 第二类是帮助失明和失聪患者恢复听力和视力 [4][8] - 第三类是帮助神经系统性疾病患者恢复健康 [5][8] 技术研发与监管里程碑 - 三年前(约2022年),公司做出了第一个侵入式脑机接口的原型样机 [5][8] - 两年前(约2023年),公司拿到了中国第一个侵入式脑机接口的型检报告 [5][8] - 经过四次样机迭代后完成产品定型,并于去年(约2024年)拿到了第一个巡检报告 [5][8] - 今年(2025年),公司完成了全国第一例、第二例和第三例产品级的侵入式脑机接口临床验证 [5][8] - 阶梯医疗是全球范围内仅有的两家能够进行侵入式脑机接口产品级临床验证的企业之一,另一家是马斯克的Neuralink [5][8] - 公司是中国第一个获得创新医疗器械绿色通道的企业 [5][8]
估值 7 亿美元的 AI 语音输入产品:语音输入的关键问题是听写,不是转录
Founder Park· 2025-12-04 21:23
行业趋势:后键盘时代与语音交互的崛起 - 键盘被视为一种过渡性的“权宜之计”,是人机交互的巨大瓶颈,而语音被认为是更流畅、更好的交互方式 [5] - 语音交互对老年人、阅读障碍患者等群体更具包容性,能降低使用门槛 [6] - 从打字转向语音,对于日常沟通中99%的场景而言,是一次纯粹的、无损失的升级,仅在需要“像素级”精确性的法律文件起草或依赖书写过程厘清思维的日记等极小众场景下,键盘仍有价值 [9] 公司Wispr Flow:产品理念与市场表现 - 公司核心产品Wispr Flow是一款AI语音输入产品,其ARR(年度经常性收入)在5个月内翻了10倍,公司估值超过7亿美元,总融资达8100万美元 [2] - 自今年6月以来,产品收入环比增长近40%,用户一年后留存率高达70% [3] - 产品致力于解决“听写”问题,而非简单的“转录”,目标是理解用户真实意图,成为一个具备全局上下文的智能助理层 [3][4][11] - 产品关键指标“零编辑率”(即用户无需修改的比例)从年初的约45%提升至目前的89%,远超苹果、谷歌、OpenAI等公司约5%或10%的水平 [10][11] - 用户从看到Wispr生成信息到按下发送的平均时间仅半秒,显示出对系统的高度信任 [11] 产品价值与用户洞察 - 语音输入的核心价值在于消除思考时的认知负荷,让用户专注于创作,而将编辑工作交给AI,从而帮助用户进入心流状态,感觉生活更轻松 [8] - 语音能自然提供丰富的上下文,极大提升了与AI协作(如编写代码提示词)的质量和效率,解决了用户因懒惰或不耐烦而不愿输入完整提示词的问题 [13] - 语音沟通比文字打字更具人情味和情感温度,实验表明使用语音回复客户的销售团队被客户评价为“最有人情味的”,有助于恢复沟通中丢失的人性与个性 [21][22] 用户采纳路径与行为改变 - 推动用户采纳并产生依赖有三个关键的“顿悟时刻”:1)无可挑剔的初次体验带来的冲击;2)用语音解决实际痛点,使其从“很酷的玩具”变为“离不开的工具”;3)键盘使用率显著下降至5%以下,实现真正的行为改变 [14][15] - 在所有用户中,平均72%的文本输入通过Wispr Flow完成,表明其正在实质性地替代键盘 [17] - 公司正通过向财富500强企业部署产品及配套麦克风等方式,推动语音在办公环境的全面采纳 [18][19] 公司愿景与未来展望 - 公司的长期愿景是成为用户可以绝对信任、无处不在的智能助理,未来将适应无屏幕的沉浸式计算设备(如智能眼镜、智能戒指)环境 [11] - 公司致力于在未来两年内推动语音AI产品的普及,希望人们看到他人对着电脑说话时,能自然地联想到是在使用Wispr [20] - 公司认为其挑战技术构建规范的方式,在苹果、谷歌等大公司内部因官僚体系而难以实现,这是其作为独立公司存在的价值 [14]
豆包手机助手还有两道坎
新浪财经· 2025-12-03 10:53
字节跳动发布豆包手机助手技术预览版 - 字节跳动未自研手机,而是与中兴合作,在nubia M153工程样机上发布了豆包手机助手技术预览版,售价3499元,已面向开发者和科技爱好者少量发售[2] - 用户可通过语音、侧边键或豆包Ola Friend耳机唤醒豆包,实现交互及调用语音通话、视频通话和屏幕共享等功能[2] - 豆包手机助手可通过AI直接操控手机功能,在多个App间跳转,完成如查票订票、商品下单、批量下载文件、跨平台搜索比价并选择最便宜商品下单等操作[2] - 公司旨在通过豆包手机助手抢占AI手机操作系统入口,并正与多家手机厂商洽谈以“生态合作”形式整合进不同品牌机型[2] - 这是国内互联网科技公司首次发布AI手机操作系统探索成果,中兴商城显示该手机上架1天即售罄,闲鱼出现加价700元至1500元转卖的情况[2] 行业对AI人机交互终端的探索方向 - 业界普遍认为AI将颠覆人机交互形态,但对未来终端形态未达成共识,一部分认为手机仍是AI时代交互终端,另一部分认为将出现新终端[4] - 探索方向一:以手机为终端进行交互形式创新,案例如字节跳动发布豆包手机助手,苹果发布个人智能化系统Apple Intelligence(其在国内选择与阿里、百度大模型合作,尚未正式上线)[4] - 探索方向二:探索新终端,案例如阿里巴巴正式发布夸克AI眼镜,此前Meta、小米、百度等公司也已发布AI眼镜产品[4][5] - 新终端探索面临的挑战是如何将科技爱好者圈层的产品变为大众消费品,需不断拓展应用场景[5] AI手机操作系统探索面临的挑战 - 智能手机市场格局稳定,新玩家难突围,字节跳动在打造AI手机时选择了与手机厂商合作的非自研路线[5] - 合作模式涉及话语权争夺,手机终端厂商不愿将AI OS入口拱手让给合作伙伴而使自身沦为代工厂[5] - 与豆包手机助手合作的nubia M153出货量不高,中国市场出货量高的小米、vivo、华为等品牌是否愿意合作仍是未知数,若头部品牌均选择自研系统,豆包手机助手将难走向大众市场[5] - 豆包手机助手面临第三方应用权限开放挑战,其可模拟用户点开淘宝、京东、美团等App进行比价并下单最便宜商品,若大范围应用可能影响平台商业收益,可能引发平台反抗,此前电商平台曾屏蔽搜索引擎爬虫以保护生态[6] - 尽管前景存在未知数,但此类交互形式的出现将给国内更多互联网科技公司带来启发,推动更多公司在AI操作系统上进行探索[6]
夸克S1眼镜硬件普通,阿里的发力方向存疑
钛媒体APP· 2025-12-02 19:45
文章核心观点 - 文章批评某中国大型科技公司(推测为阿里巴巴,因其提及夸克S1及Qwen模型)发布的AI眼镜(夸克S1)缺乏真正的原始创新,产品多为整合成熟ODM方案,在显示技术、工业设计、人机交互等核心维度上,与国内外领先同行存在显著差距 [1][2][31] - 文章认为,拥有充足现金流和生态能力的大型科技公司,本应在AI+AR这一重要赛道进行更底层、更前瞻的技术投入和产品创新,而非发布一个“蹭热点”的赶工产品 [1][31][32] 产品技术分析:夸克S1的不足与对比 - **显示技术**:夸克S1采用双目单绿色Micro LED光机方案,显示为单绿色而非全彩色,视场角(FoV)为26度 [3][31];文章指出,行业已有更优方案,如JBD的X-cube合色方案可实现全彩色显示,以及光舟的“一拖二”光机方案能简化结构、降低功耗 [11];对比Meta使用碳化硅波导实现的70度FoV,差距巨大 [29][30] - **工业设计与重量**:夸克S1整机重量51克,镜腿最窄处7.5毫米 [11][18];对比之下,Even Realities G2重量为36克,较前代减轻5%,镜片薄30%,且实现了近视镜片与显示镜片全贴合 [16][18];S1将光机置于镜腿铰链处的设计被指突兀且不新鲜 [13] - **人机交互**:夸克S1在镜腿集成四个交互区,交互方式为按键、触控、压感、语音的“大杂烩”,其易用性和误触率存疑 [23][25];文章指出,Meta等公司在探索更前沿的交互方案,如基于表面肌电图(EMG)的腕带,以及利用大模型简化实现的ATUI(自适应可触用户界面)技术 [24][26][28] 行业创新标杆与差异化路径 - **国际巨头(Meta等)**:采取长期主义,进行不懈的底层研发与技术储备,例如Meta的Orion项目已投入约10年,研发使用碳化硅材料制造波导以实现70度大视场角 [10][29][30] - **国内创新公司(AR四小龙、Even Realities等)**: - **Even Realities**:产品思路独特,强调“智能眼镜先是一副好眼镜”,聚焦佩戴舒适、光学视觉舒适和好看,在G2上砍掉摄像头和扬声器以实现36克的极致轻量化 [20][21];其团队拥有高端眼镜品牌背景,结构/光学工程师与软件工程师比例为1:1,更像一家眼镜公司 [23] - **其他创新**:相位消音隐私Speaker由雷鸟创新Air 1S三年前首发 [3];热插拔电池与充电仓的“无限续航”概念由INMO影目GO3最先提出 [5];“合像距离调节技术”是夸克S1发布会上为数不多的亮点,但可能仅为软件层面调节,非物理多焦面显示 [7][9] 对大型科技公司的期望与批评 - **缺乏底层创新**:文章质疑公司未在波导Layout、全彩色显示、芯片定制(如为端侧AI模型定制存算一体芯片)等底层技术上进行攻坚,而是依赖ODM供应链速成产品 [31][32] - **战略定位模糊**:文章建议,若无意像Meta一样进行“软硬一体”的深度整合,大型科技公司应聚焦自身优势,例如扮演好AI眼镜时代的“Android”角色,深耕模型与系统生态,而非发布平庸硬件 [32] - **资源与责任不匹配**:公司拥有创业公司所渴求的充足现金流和强大资源整合能力,本应为了长期愿景持续投入,构筑技术护城河,但实际产品却未能体现相应价值创造 [1][32]
美芯晟:正积极推进多点ToF及3D ToF技术研发
巨潮资讯· 2025-11-29 09:20
核心技术进展 - 基于DToF技术的光学传感方案已在扫地机器人等场景实现规模量产 支持机器人精准测距和避障 并可适配多种服务与家用机器人应用场景 [1] - 在单点DToF产品量产基础上 正积极推进多点ToF及3D ToF技术研发 以支持三维环境建图和复杂场景感知 [3] - 通过多点测距与深度信息获取配合算法优化 帮助机器人更好识别环境结构 规划路径并应对多障碍物场景 为中高端智能清洁和服务机器人提供传感基础 [3] 产品与业务布局 - 在光传感技术基础上 密切关注其他类型传感器协同发展 包括适用于运动控制系统的磁传感方向 [3] - 希望围绕光传感 磁传感等技术路径 构建相对完整的智能传感器解决方案 为下游客户提供更高集成度与系统级感知能力支撑 [3] - 光学传感器可为终端设备提供环境感知与交互能力 赋能设备对外部环境作出更智能响应 [3] - 相关产品已导入部分AR/AI眼镜终端品牌客户 用于实现佩戴检测 手势识别 环境亮度调节等功能 [3] 未来战略方向 - 未来将重点聚焦智能感知与人机交互方向 在产品形态上持续丰富光学与多传感融合方案 [4] - 以满足机器人 可穿戴设备及更多AIoT终端对低功耗 高精度 小型化传感器的需求 [4] - 行业认为随着服务机器人和AR/VR等新兴应用加速落地 端侧智能传感器市场仍有较大成长空间 [4]
“框”不住的阿里野心
华尔街见闻· 2025-11-28 15:32
产品发布与核心功能 - 公司于11月27日首发夸克AI眼镜S1、G1两个系列共六款单品,均搭载最新的千问AI助手 [2] - 产品具备导航、支付、AI问答等功能,旨在成为随身超级助理,并在嘈杂环境中实现流畅语音交互、视线比价和眼神确认支付 [2] - 产品核心优势在于深度整合阿里生态,包括高德、支付宝、淘宝等,覆盖搜索、导航、支付、商旅等垂直场景 [2][4] 市场背景与表现 - 行业进入“百镜大战”,今年1月至10月全国AI眼镜等智能穿戴产品网上零售额增长23.1% [4] - “双11”期间天猫AI眼镜成交额暴涨2500%,京东同品类成交增速346%登顶3C数码榜首 [4] 战略意图与定位 - 公司将AI眼镜视为下一代人机交互的“感官中枢”和新的用户流量入口,是挑战手机的最有潜力设备 [5][9] - 此举是公司对用户一级入口的持续探索,意图将流量掌握在自己手中,AI眼镜是AI时代人机交互革命的关键设备 [5][6] - 公司通过整合阿里云、高德、闪送、夸克等资源,将千问作为前端接口,统一输出其ToC能力,全力冲刺AGI时代 [7] 技术架构与优势 - 产品采用高通+恒玄的双芯片、双系统架构,专为眼镜设计,旨在实现架构领先 [14] - 算力分配上目前依赖手机和云端协同,公司将响应时间优化至3秒以内,优于行业普遍的7秒等待 [12] - 公司优势在于其原生AI业务积累、对模型的反向定义能力,以及工具类场景与眼镜用户场景的高度契合 [17] 生态建设与未来规划 - 生态除阿里系应用外,已接入网易云音乐、QQ音乐、航班管家等外部资源,并优先考虑更适合眼镜场景的应用 [13] - 未来将拓展运动、健康、学习等场景,并构建开发者生态 [8][13] - AI应用将向Agent化改造,未来交互可能通过一句话完成,无需下载和打开独立APP [6][10] 行业展望与竞争格局 - AI眼镜发展将经历学习人、辅助人到超越人三个阶段,当前产品已进入辅助人阶段 [18] - 行业未来突破依赖于材料革命(如高透过率玻璃、碳化硅材料、高密度电池)和生态的蓬勃发展 [18][19] - 全球眼镜市场规模超过15亿副,换镜周期因耦合时尚因素而比手机更短,市场想象空间巨大 [22] - 公司认为国内AI眼镜在设计上已全面超越海外对手,正处在弯道超车阶段 [21]
AI周报|黄仁勋驳斥AI泡沫论;谷歌Gemini 3多项性能指标碾压竞品
第一财经· 2025-11-23 12:47
英伟达业绩与市场动态 - 2026财年第三财季营收570亿美元,同比增长62%,净利润319亿美元,同比增长65% [2] - 数据中心业务收入创历史纪录,达512亿美元,同比增长66% [2] - Blackwell芯片销量远超预期,云端GPU已售罄 [1][2] - 公司CEO黄仁勋驳斥AI泡沫论,认为AI需求真实 [2] - 桥水基金第三季度减持英伟达近三分之二 [4] - “硅谷风投教父”彼得·蒂尔旗下基金清仓英伟达,出售约53.7万股,套现约1亿美元 [3] 科技巨头资本开支与AI投资 - 微软第三季度资本支出达349亿美元,同比增长79% [3] - 亚马逊第三季度现金资本支出342亿美元,同比增长61% [3] - 谷歌第三季度资本支出总额达240亿美元 [3] - 英伟达和微软将向Anthropic共计投资至多150亿美元,其中英伟达投资至多100亿美元,微软投资至多50亿美元 [12] - 该投资将Anthropic估值推高至约3500亿美元,Anthropic承诺购买价值300亿美元的Azure云计算容量 [12] 大模型技术竞争与发布 - 谷歌发布Gemini 3 Pro,在数学、推理、多模态与Agent工具使用等关键标准上全面领先竞品 [5] - 马斯克旗下xAI发布Grok 4.1模型,在对话智能、情感理解和现实世界实用性方面树立新标准 [6][7] - 阿里巴巴正式公测“千问”APP,基于开源模型Qwen3,Qwen系列模型全球下载量已突破6亿次 [9] - 百度首次披露AI业务营收,本季度同比增长超50%,其中AI高性能计算设施订阅收入同比增长128%,AI原生营销服务收入同比增长262% [14] AI基础设施与硬件技术 - 华为发布Flex:ai AI容器技术,将GPU/NPU利用率从30%-40%提升至70% [8] - 摩尔线程在科创板IPO,发行价114.28元/股,募集资金近80亿元,总市值达537.15亿元 [15] - 联想集团已与核心零部件供应商签署长期供应协议,以应对存储芯片短缺和价格上涨 [16][17] - 大疆农业无人机自动驾驶水平达到L3,能在特定场景全无人自动化作业 [18] 行业专家观点与人事变动 - 桥水基金创始人达利欧认为AI投资泡沫尚未到真正拐点,拐点往往出现在流动性收紧或杠杆链条松动时 [4] - 马斯克认为人工智能和人形机器人将消除贫困,让每个人都变得富有 [13] - 图灵奖得主、Meta AI首席科学家杨立昆宣布将于年底离职,计划创办专注于先进机器智能研究的初创公司 [10] - 美国国家工程院外籍院士沈向洋指出人机交互方式正从文本扩展到语音、手势乃至脑机接口 [11]