机器之心
搜索文档
刚刚,Geoffrey Hinton成为第二位引用量破百万的科学家
机器之心· 2026-01-16 09:55
行业里程碑:Geoffrey Hinton的学术影响力 - Geoffrey Hinton的Google Scholar引用量突破100万,成为历史上第二位达到此成就的计算机科学家[1] - 其引用量仍在以惊人速度增长,自2021年以来新增引用量达534,241次,总h-index为192[2] - 在此之前,只有另一位“深度学习教父”Yoshua Bengio达成了百万引用成就[2] 核心学术成就与关键论文 - 2012年发表的论文《ImageNet classification with deep convolutional neural networks》引用量最高,已超过188,837次,标志着深度学习时代的正式开启[2][21] - 2015年发表于Nature的综述论文《Deep learning》引用量达107,646次,是Hinton引用量第二高的论文,系统总结了深度学习的发展历程与应用[2][16] - 其他高引著作包括《Visualizing data using t-SNE》(引用63,932次)、《Learning internal representations by error-propagation》(引用61,439次)和《Dropout: a simple way to prevent neural networks from overfitting》(引用60,895次)[2] 对人工智能领域的奠基性贡献 - 与David Rumelhart和Ronald Williams共同推广了反向传播算法,解决了多层神经网络的训练难题[10] - 提出了玻尔兹曼机、受限玻尔兹曼机、深度信念网络等,为无监督学习和特征表示学习奠定了基础[14] - 发明了Dropout正则化技术、t-SNE可视化方法、层归一化、知识蒸馏、胶囊网络、混合专家模型等多种关键技术[14] - 2022年提出了Forward-Forward Algorithm,作为对反向传播生物学合理性的反思与挑战[14] 荣誉与认可 - 2018年与Yoshua Bengio和Yann LeCun共同获得计算机领域最高荣誉图灵奖,三人被称为“深度学习三巨头”[13] - 2024年与John Hopfield共同获得诺贝尔物理学奖,以表彰他们“实现了利用人工神经网络进行机器学习的奠基性发现和发明”[18] 关键合作者与门生:Alex Krizhevsky与Ilya Sutskever - Alex Krizhevsky是AlexNet论文的第一作者和主要构建者,他编写的CUDA代码让神经网络在GPU上高效训练,在2012年ImageNet挑战赛中以10.8%的绝对优势夺冠[25] - Ilya Sutskever是AlexNet论文的第二作者,后作为联合创始人兼首席科学家创办了OpenAI,是ChatGPT和GPT-4诞生的关键人物[28] - 两人均师从Hinton,Alex Krizhevsky目前可能处于半退休状态,而Ilya Sutskever于2024年成立了专注于AI安全的公司Safe Superintelligence Inc. (SSI),并为其筹集了10亿美元资金[26][28] 行业影响与思想演变 - AlexNet在ImageNet竞赛中的成功被公认为深度学习时代的“大爆炸”时刻,证明了深层卷积神经网络在海量数据和GPU算力下的统治力[14] - Hinton晚年从谷歌离职,以更自由地谈论AI风险,他担忧数字智能可能演变成比人类更优越的智能形式并对人类构成生存威胁[20] - Ilya Sutskever对AI安全的关注日益加深,曾主导OpenAI董事会罢免Sam Altman,其新公司SSI宣称“第一个产品将是安全的超级智能”[28]
腾讯AngelSlim升级,首个集LLM、VLM及语音多模态为一体的投机采样训练框架,推理速度飙升1.8倍
机器之心· 2026-01-16 09:55
文章核心观点 - 大模型推理成本与延迟是产业落地的核心瓶颈,投机采样作为一种近乎无损的推理加速范式正成为业界新宠 [2] - 腾讯混元升级的AngelSlim训练框架,通过独创的Eagle3训练架构,将投机采样技术拓展至LLM、VLM及语音的全模态场景,实现了从“可加速”到“善加速”的关键跃迁 [2] - 该技术让小模型“前瞻性”地为大模型起草多步候选token,再由大模型并行验证,将解码阶段算力冗余转化为提速动能,实测最高可带来1.9倍的推理速度飙升 [2] AngelSlim与投机采样技术 - 投机采样是一种“小模型多步预测 + 大模型一步验证”的推理加速技术,利用轻量级草稿模型生成多个候选token,由目标模型并行验证,以提升推理吞吐并降低延迟 [4] - AngelSlim是一个集成了量化、投机采样等压缩算法,面向全模态的大模型压缩算法工具包 [4] - 其设计核心是“Eagle3训练即部署”,提供从数据处理、模型封装到投机采样算法训练的完整链路,帮助开发者在不断入现有模型结构的前提下,显著降低推理时延与计算成本,各模态、各类大模型加速可达1.4-1.9倍 [4] 多模态加速表现 - 在文生文模态,对Tencent HY 1.8B/4B/7B模型加速达1.6倍,对Qwen3 1.7B/4B/8B/14B/32B/30B-A3B模型加速达1.7倍 [5] - 在多模态理解模态,对HunyuanOCR 1B模型加速达1.6倍,对Qwen3-VL 2B/4B/30B-A3B模型加速达1.4x-1.9x [5] - 在语音模态,对Qwen2Audio 7B模型加速达1.9倍,对Fun-CosyVoice3 0.5B模型加速达1.6倍 [5] 核心亮点 - 覆盖从文生文、多模态理解到语音的全模态投机采样训练,通过统一的训练接口,不同模态之间共享核心算法与工程能力 [6] - 强调面向部署,训练产出的模型可以无缝用于vLLM/Sglang等框架进行部署 [7] 核心训练组件 - **数据处理模块**:为投机采样训练多个模态提供稳定、可复用的数据基础,包括数据重采样、数据预处理(统一不同模态数据格式、草稿模型裁剪词表映射)和隐藏特征提取 [10][12][13][14][15] - **模型模块**:是实现高度扩展性的关键,提供统一的TargetModel接口,包括模型加载与权重管理、前向计算、特征提取等抽象方法;对于新模型架构,用户只需实现TargetModel中定义的抽象方法即可完成注册,极大降低了适配成本 [17][18] - **训练器模块**:针对Eagle3算法特点设计了在线训练和离线训练两种模式;封装了Eagle3等投机采样算法训练的关键逻辑,如训练时测试;原生支持断点续训能力 [20][21][22] 实践与部署 - 提供了快速开始的命令行脚本,包括启动vLLM服务、生成训练数据和开始在线训练 [23] - 提供了全面的多模态模型Eagle3训练与部署指南,支持LLM / VLM / Audio (ASR & TTS) 模型 [24] - 使用vLLM在代码、数学、指令跟随等任务上评测,在设置num_speculative_tokens=2 or 4下,所训模型接收长度可达1.8-3.5,最高加速可达1.4-1.9倍 [25] 未来计划 - 工具方面,计划支持基于vLLM的离线hidden states生成,以降低数据构建与训练成本,并通过系统性的训练加速优化提升整体训练效率 [30] - 算法创新方面,将探索多模态理解与语音输入信息在Eagle3模型中的深度融合,统一建模文本、视觉与语音特征,拓展投机采样在全模态场景下的适用性与加速潜力 [30]
DeepSeek连发两篇论文背后,原来藏着一场学术接力
机器之心· 2026-01-16 08:42
文章核心观点 - 文章通过分析DeepSeek近期发布的两篇论文,揭示了大模型架构创新的演进路径,并指出DeepSeek与字节Seed团队的研究工作存在显著的“接力”关系,共同推动了技术进步 [2][3] - 这种公开研究成果的接力模式,在头部大模型厂商中已愈发少见,其价值在于促进整个社区的积累与相互启发,共同“上分” [28][32] 残差连接的演进:从ResNet到mHC - **ResNet奠定基础**:2015年何恺明等人提出的残差连接解决了深度神经网络训练中的信息失真问题,成为近十年几乎所有主流深度网络架构的默认配置 [6] - **字节Seed的HC突破**:2024年9月,字节Seed团队提出HC,通过引入宽度动态性和跨层特征聚合,打破了恒等映射残差连接传统,构建了更高维、更灵活的特征流动空间新范式 [8] - **DeepSeek的mHC改进与规模化**:DeepSeek在HC基础上提出mHC,通过引入Sinkhorn-Knopp等技术施加流形约束,恢复了训练稳定性,并进行了内核优化,使该范式能应用于万亿级参数规模的工业级训练,解决了HC在大规模训练中的工程瓶颈 [11][12] - **技术演进脉络清晰**:从2015年ResNet到2024年HC,再到2026年mHC,残差连接的演进是不同机构和研究者持续接力优化的结果 [15] 知识检索的革新:从N-gram到条件存储 - **问题定义**:标准Transformer缺乏原生知识查找能力,即使回答简单事实性问题也需要计算,造成算力浪费 [18] - **字节Seed的OverEncoding探索**:字节Seed团队发现,为模型配备巨大的N-gram词典能带来近乎“白捡”的性能提升,因为海量嵌入参数稀疏激活,对显存和算力消耗很小,且词典越大性能越好 [19] - **DeepSeek的Conditional Memory升华**:DeepSeek将N-gram查表机制升华为“条件存储”这一新的扩展轴线,并与混合专家模型并列,提出了在MoE专家与静态存储模块之间分配参数的“稀疏分配”问题 [21] - **工程实现与效率优势**:DeepSeek在架构上将Engram模块注入模型中间层,引入上下文感知门控,并进行了分词器压缩和硬件预取等系统优化,使其具备大规模工业落地能力,且在相同参数预算下,其缩放效率明显高于字节Seed的OverEncoding方法 [22][23] - **最优参数分配**:实验揭示了一条U型缩放规律,将约20%-25%的参数分配给Engram存储模块效果优于全押MoE [22] 公开研究的价值与启发 - **研究接力具象化价值**:DeepSeek与字节Seed的公开研究接力,展示了头部厂商带动社区共同进步的模式 [28] - **字节Seed的其他前沿探索**:字节Seed团队在多个基础研究领域进行了大胆尝试,包括解决MoE推理高访存问题的UltraMem架构、验证离散扩散路线的Seed Diffusion Preview、优于CLIP的SuperClass方法,以及引入傅里叶思想的新型架构FAN [29][30] - **底层技术推动长期进步**:这些短期内无法直接商业化的底层技术探索,是科技行业持续进步的重要源泉 [31]
仅需一个混频器的无线射频机器学习推理,登上Science Advances!
机器之心· 2026-01-16 08:42
文章核心观点 - 提出了一种名为“分离式计算”或“射频域物理计算”的全新机器学习推理范式,通过在射频域利用混频器进行模拟计算,将模型以无线信号广播,边缘设备无需存储模型或进行复杂数字计算即可完成推理,从而在保护隐私的同时,大幅降低带宽消耗、边缘设备算力需求及系统能耗 [8][11][29] 模型-数据的分解式计算 - 传统边缘AI推理存在两种方案:一是上传输入数据至云端,消耗大量带宽且存在隐私风险;二是将模型下载至边缘设备,挑战边缘算力并带来存储读写开销 [5][6][7] - 提出的第三种方案是“广播模型并在射频上完成计算”,模型存储在云端并通过射频广播,用户将模型输入调制到射频上,所有计算在边缘设备的混频器中以模拟方式完成,直接输出模型结果 [8][11] 利用混频器进行矩阵向量乘 - 混频器本质是时域乘法器,通过将广播的模型信号与本地调制的模型输入信号相乘,其输出即为模型输出 [14] - 在数字信号处理中,时域乘法对应频域卷积,从而可将模型推理抽象为矩阵向量乘 `y = Wx` 并用卷积实现 [14] - 通过在发送前预调制无线信道的逆,确保边缘设备接收到的信号即为所需的模型权重矩阵 `W` [14] 在测试平台上的实验 - 实验在软件定义无线电测试平台上进行,使用 USRP X310 作为无线收发机,ZEM-4300+ 作为混频器 [17] - 使用 915 MHz 频率和 25 MHz 带宽无线广播模型 [18] - 对通用复数域的 4096 点向量内积进行精度测试,最高计算精度达到 5.5 bit,满足大部分机器学习推理需求 [19] 计算能耗分析 - 对于输入维度 `N`、输出维度 `M` 的矩阵向量乘,系统能耗主要来自数模转换器、模数转换器和解码器 [22][24] - 整个系统能耗为 `O(M + kMN)`,均摊到单个乘累加操作上为 `O(1/N + k)`,其中 `k` 远小于1,表明计算规模越大,单个操作能耗越低 [22] - 在实验平台上实现了最高 32,768 点的向量内积,能耗达到飞焦级,比传统数字计算的皮焦级低 2~3 个数量级 [23] 机器学习推理 - 在 MNIST 数据集上,使用单全连接层模型进行了演示 [27] - 对于三全连接层模型,传统数字计算精度为 98.1%,而该框架下精度达 95.7%,但能耗仅需 6.03 fJ/MAC,单次推理总计 6.42 fJ [27] - 在 AudioMNIST 语音识别数据集上,精度达到 97.2%,能耗进一步降至 2.8 fJ/MAC [28] 核心创新总结 - 模型无线广播,多终端同时推理:神经网络模型被编码为射频信号广播,覆盖范围内任意数量设备可同步完成推理,实现“计算即广播” [29] - 无需改硬件,把“算力”直接搬进无线射频:利用边缘设备已有的射频混频器完成乘加运算,无需专用AI芯片或电路改动,实现“零额外能耗”的模拟计算 [30] - 单个射频器件即可支持规模化维度的神经网络计算:通过频域编码,单个混频器可完成高达 32,768 维的内积运算,突破了传统模拟计算的规模限制 [31]
Mira公司内乱?CTO被开除,带团队回OpenAI,翁荔上推发言
机器之心· 2026-01-15 17:17
核心事件与人事变动 - Thinking Machines Lab CEO Mira Murati宣布联合创始人兼CTO Barret Zoph被解雇,原因是其个人不道德行为,该消息在全体员工大会上宣布[2][5] - 同一日,公司任命PyTorch之父、前Meta研究员Soumith Chintala为新任首席技术官[2][23] - 约一小时后,OpenAI应用CEO Fidji Simo宣布Barret Zoph将重返OpenAI,一同回归的还有Thinking Machines Lab联合创始人Luke Metz及创始团队成员Sam Schoenholz[3] Thinking Machines Lab公司背景 - 公司于2025年2月正式成立,核心团队主要由来自OpenAI、Google DeepMind等顶级实验室的前核心成员组成[6] - 成立五个月后获得约20亿美元种子轮融资,投后估值达120亿美元,成为硅谷历史上规模最大的种子轮融资之一,投资方包括英伟达、AMD、Cisco等[6] 关键人物背景 - **Barret Zoph**:前OpenAI技术主管,领导过后训练团队,研究方向包括对齐、工具使用、评估、ChatGPT等,也是两篇重要神经网络架构搜索论文的第一作者[8][10] - **Luke Metz**:前OpenAI创始团队成员,与John Schulman等人内部共同开发了ChatGPT的雏形“low-key research preview”,也是GPT-4、GPT-4o、o1等模型的贡献者之一[12][13] - **Sam Schoenholz**:在加入Thinking Machines Lab前,曾领导OpenAI的可信赖扩展团队和GPT-4o优化,此前在Google Brain从事统计物理学与机器学习交叉研究,其合著论文《Neural message passing for quantum chemistry》被引用11898次[18][19][20] - **Soumith Chintala**:PyTorch的联合创造者,于2025年11月离开Meta后加入Thinking Machines Lab,现被任命为CTO[23] 行业观察与反应 - 人工智能领域人才流动频繁,即使创始团队成员也频繁变动[7] - 联合创始人Lilian Weng在事件后发表感言,强调与真正在乎产品、追求工匠精神的伙伴共事是一种享受和荣幸[6]
通用级PixVerse R1的技术突破,揣着进入平行世界的密码
机器之心· 2026-01-15 17:17
PixVerse R1模型的技术突破与定位 - 全球首个支持最高1080P分辨率的通用实时世界模型,标志着视频生成从“静态输出”迈入“实时交互”的全新阶段[6] - 通过将计算效率提升数百倍,实现了人类肉眼感知范围内的“实时”生成,是应用层级的代际跨越[3] - 模型基于用户意图实时生成持续演化、物理上合理的世界,开启了AI原生游戏、互动电影、实时仿真等全新媒介形态的大门[6][35] 视频生成行业的发展历程与现状 - 行业在速度、质量与成本的不可能三角中发展,高画质往往意味着高延迟,追求速度则需牺牲物理一致性[6] - 爱诗科技在DiT路线上持续迭代:从24年底的10秒生成,到25年2月实现5秒生成社交级视频,再到11月将1080P视频生成压缩至30秒[1] - 行业加速未停歇,生数科技与清华大学团队研发的TurboDiffusion框架,让视频生成正式迈入“秒级”门槛[2] 瞬时响应引擎(IRE)的技术构成 - 核心是一套系统级加速方案,通过三大关键技术在保持1080P高分辨率的前提下将推理时间压缩到极致[10] - **时间轨迹折叠**:引入“直接传输映射”作为结构先验,将传统扩散模型所需的50+采样步数压缩至仅需1-4步[11] - **引导校正**:将条件梯度直接融合进模型内部,绕过了传统无分类器引导策略的双倍计算开销,降低了计算复杂度[12][13] - **自适应稀疏注意力**:动态分析上下文依赖,智能识别并剪除长程依赖中的冗余计算,显著提升推理效率[14][15] Omni原生端到端多模态基础模型 - 通过底层架构重构,实现“因原生而通用”,旨在打破单一模态的感知壁垒[20] - **原生统一表示**:基于Transformer引入统一Token流架构,将文本、图像、音频与视频等不同模态数据统一编码为单一生成序列,实现原生层面的联合处理与理解[21] - **原生分辨率**:在原生分辨率和原始比例下进行端到端学习,自适应处理任意长宽比素材,从根源上消除因裁切或缩放带来的视觉偏差[23] - 模型通过原生学习大量真实世界视频数据,确保物理定律和动态的真实性,不仅限于生成引擎,更具备构建世界模型的潜力[25] 自回归流式生成机制 - 重点解决长视频生成中的“长时序一致性”难题及显存成本瓶颈[27] - **无限流式生成**:采用自回归建模,将视频合成重构为逐帧预测的流式过程,实现理论上的“无限流式生成”[29] - **时间一致性**:引入记忆增强注意力模块,显式提取并锁定视频中的关键特征为紧凑的记忆单元,在生成后续内容时直接调用,优化计算效率并避免显存爆炸式增长[30] - 该机制赋予模型“长期记忆”能力,确保生成内容是一个具备持续演化能力的“平行时空”,维持核心主体的统一性与环境逻辑的连贯性[32] 技术突破的意义与行业影响 - 突破了传统视频生成“离线制作、预录制回放”的阶段,满足了即时交互的严苛需求[9] - 视频内容的消费边界正在消融,媒体形态转向由用户意图驱动的即时生成流[36][37] - 为“可交互的数字世界”提供了可落地的技术样本,让视听媒介从“回放过去”迈向“未来创作”[35][38]
刚刚,喝到了千问APP给我点的奶茶
机器之心· 2026-01-15 12:31
行业动态:智能体发展进入狂奔状态 - 2026年初,智能体发展进入狂奔状态,Anthropic发布Cowork,将大模型与智能体能力推进到电脑桌面,可解决大部分人的工作问题[1] - 谷歌联合Walmart等零售商推出专为智能体购物设计的开放标准“通用商务协议”,旨在推动智能体购物全流程标准化,实现从推荐、决策到支付的无缝衔接[1] - 2025年被普遍视为智能体元年,智能体热度持续,其出现让大模型从拥有智能“大脑”进化出灵活的“手”和“脚”,自动执行复杂任务的能力与日俱增[11] - 2026年1月,业界出现Anthropic的Cowork、OpenAI的ChatGPT Health等一系列新产品,科技公司正快速兑现智能体在企业与专业领域落地的预言[38] 公司产品发布:千问App上线“任务助理” - 2026年1月15日,千问App上线全新AI Agent能力“任务助理”,全面打通阿里生态,一次开启400多项新功能,并开启免费测试与灰度上线[2] - 该产品将国内最强的AI模型与最全的应用生态合而为一[4] - 用户只需对AI说出需求,千问即可自动完成找店、选地址、选商品、下单等流程,用户仅需点击最终支付[5] - 千问能够接入的应用包括淘宝、闪购、飞猪、高德地图和支付宝,并能帮用户打电话[9] - 强大的千问模型正在把阿里独有的生态优势并联起来,未来生活与工作的通行方法或将被AI重新整理[9] 产品功能实测:多场景任务执行 - **多品牌团购**:用户输入指令如“帮我点3杯霸王茶姬,5杯瑞幸,8杯茶百道”,千问在确认地址和口味需求后,自动分析需求、核对数量、搜索商品信息[12][13][16] - 制定点单方案时,会根据距离远近等因素自动匹配合适商家,并进行商品筛选与推荐[17] - 能为用户推荐三种差异化方案,例如更快收货、选择高评分高销量门店、或包含更多饮品种类,精准捕捉用户潜在意图[18] - **定制旅游计划**:用户可要求制定旅游计划,千问会自动进行任务规划与执行,例如为从北京出发的威海两日游启动搜索子任务,查询多类型网络来源的攻略以确保信息可靠[22][23] - 根据搜索结果规划详细行程,全程调用高德和飞猪,最终在高德地图上呈现交互式路线图,用户可一键跳转导航或订票订酒店[25][29] - **政务场景**:接入支付宝政务服务后,用户一句话即可快速完成政策解读、材料清单梳理等步骤,覆盖办签证、查社保等场景,并直达办理入口[29] 技术架构:通用Agent体系与能力 - 千问App采用了一套全新的通用Agent体系,基于MCP和A2A协议[33] - 体系内主Agent作为指挥者,基于千问最强模型拆解和规划任务;子Agent作为执行者,是多个具有反思能力的智能体,在其领域有完全决策执行权限,可动态纠偏[33] - 该范式实现高效分层规划,保证特定任务领域的正确决策,大幅提升跨领域、长链路复杂任务的执行效率和准确率[34] - 千问深度重构了Agent的原生能力栈,选择通过直接协议打通而非基于视觉识别(GUI)的路线,提升了任务执行的精度、效率及隐私安全保障[34] - 为提升效率,千问专门为AI重构了工具栈,例如Agent能自主选择或并发不同搜索方式,操作浏览器的Agent经专门训练并结合阿里自研内核,具备毫秒级响应和极高交互精度[34] - 在处理可视化、写小程序或复杂表格时,智能体会检索、对齐经过验证的成熟代码范式,确保产出结果具备“工程级”稳定性[34] - “任务助理”多层Agent系统深度集成阿里生态应用与工具,大量应用被拆解成原子化指令级,确保工具调用准确,并能正确感知实时位置、价格等信息,减少大模型幻觉问题[34] - Agent系统具备持续演进能力,任务完成后会进行“反思”并沉淀经验,将实践经验转化为结构化经验库,作为先验知识在后续任务中动态加载[35] - 通过AI Coding能力,千问可在执行任务时发动AI生成代码现写工具,在少见任务上可启动Agentic Learning机制,自主编写、测试并封装新的原子工具[36] - 目前在数百个常用工具中,有超过一半是由AI Coding编程自主生成的[36] 产品意义与行业影响 - 千问的新发布把智能体拉近到用户身边,能用快速精准的方式连接最常用App,让Agent进入生活的每一步[38] - 在国内,能做到覆盖如此全面生活场景的公司只有阿里,其生态囊括购物、出行、支付、办公等方方面面[38] - 目前Agent能力虽显简单,但千问App的推出可能像是智能体的“iPhone时刻”,打响了从自然语言对话交互方式升级的第一枪,人与机器的关系进入第三次革命的关口[38] - 当AI开始帮用户整理发票、规划行程、下单购物时,它从云端“先知”变成了身边能干活的“助理”,这是AI从“言”到“行”的分水岭[38]
人脸机器人登上Science Robotics封面:用AI教会仿生人脸机器人「开口说话」
机器之心· 2026-01-15 12:31
文章核心观点 - 一项由哥伦比亚大学胡宇航博士团队主导的突破性研究,成功开发出具备仿生面部结构的人形机器人,该机器人通过自监督学习机制,实现了与语音和歌曲同步的真实、自然的唇部运动,标志着人形机器人在面部表情交互领域取得了关键进展,有助于跨越“恐怖谷”效应,为机器人在依赖情感沟通的领域应用奠定了基础 [2][7][22][25] 研究背景与重要性 - 研究显示,人类面对面交流时近一半注意力集中在唇部运动上,轻微不自然的面部表情会立刻引发不适,即“恐怖谷”效应 [5] - 面部表情,尤其是唇部自然运动,是当前人形机器人能力中的“缺失环节”,对于需要面对面交流的场景至关重要 [22] - 经济学家预测,未来十年全球或将制造超过**10亿台**人形机器人进入生活场景,面部表达将成为重要需求 [23] 技术核心与创新 - **硬件设计**:机器人面部在一层柔性硅胶皮肤下隐藏了**20余个微型电机**,能快速、安静且协同地驱动唇部形变 [8] - **自我建模学习**:机器人通过观察镜子中自己面部在不同电机驱动下的变化,构建Facial Action Transformer模型,学会控制自己的脸,这是一种“视觉—动作”的自监督学习 [12] - **纯声音驱动**:机器人通过观看合成的视频学习声音与唇部运动的对应关系,最终能将接收的声音信号直接转化为连续、自然的唇部运动,无需理解语义 [14] - **多语言泛化能力**:测试显示,机器人在多种语言、不同语音环境及歌曲中均能完成连贯的唇部同步,所有非英语语言的同步误差均保持在英语误差范围内 [18][21] 应用前景与行业意义 - 随着人形机器人进入娱乐、教育、医疗、陪护等高度依赖情感沟通的领域,一张温暖、自然、可信的“脸”将从加分项变为“入场券” [23] - 当唇部同步能力与对话型大模型结合时,机器人与人类之间的情感连接将发生质变,因为大量情感信息存在于面部和身体语言中 [25] - 该研究展示了中国学者在国际人形机器人领域具备独特的创新能力 [25]
解锁任意步数文生图,港大&Adobe全新Self-E框架学会自我评估
机器之心· 2026-01-15 11:52
文章核心观点 - 香港大学与Adobe Research联合发布了一种名为Self-E的新型文本到图像生成框架,其核心创新在于将训练范式从传统的“轨迹匹配”转变为“落点评估”,从而实现了无需依赖预训练教师模型进行知识蒸馏,即可从零开始训练出支持任意推理步数的模型 [2][7] - 该模型能够在极少的推理步数下生成语义清晰、结构稳定的图像,同时在常规50步设置下保持顶级质量,并且生成质量随步数增加呈现单调提升,实现了“一个模型,适应任意计算预算”的目标 [2][23][28] 技术范式转变 - 传统扩散或流匹配模型学习的是“局部向量场”,即在给定噪声状态下预测下一步方向,这种“轨迹匹配”方法在大步长推理时误差会被放大,导致生成质量下降 [7] - Self-E进行了根本性的范式改变,将训练重心从“每一步走得对不对”转向“落点好不好”,即“落点评估”,通过评估生成结果并给出纠偏方向来提供动态反馈信号 [7][11] 核心训练机制 - Self-E采用两条互补的训练信号:一是从真实数据中学习分布的局部结构,二是通过“自我评估”学习分布层面的正确性 [12][13] - 在“自我评估学习”阶段,模型先进行一次“长距离跳跃”生成一个样本,然后在落点处利用自身当前学到的局部估计产生一个“方向信号”,指导样本如何移动才能进入更高质量、更符合文本的分布区域,该评估信号不来自外部教师,而是来自模型自身的动态估计 [17] - 训练最终通过一个统一的损失函数实现,该函数结合了从数据学习的目标和自我评估的目标 [20][21] 性能表现 - 在GenEval基准测试中,Self-E对比其他方法取得了全面领先,并且性能随步数增加呈现单调提升 [24][25] - 在少步推理区间优势尤其显著,例如在2步设置下,Self-E的得分达到0.7531,相比当时最佳对比方法的0.6338,提升约为+0.12,而多种传统模型在2步下几乎无法生成可用结果 [25] 宏观意义与工程价值 - 从宏观视角看,Self-E将训练过程组织成一个类似强化学习的“环境-智能体”闭环,其内部的评估器角色接近“可查询的学习型奖励模型”,为将强化学习更系统地引入视觉生成训练提供了新的接口 [26][27] - 该框架的工程意义在于,同一个模型检查点可以根据不同场景动态选择推理步数,例如在交互式场景使用1-4步追求即时反馈,在高质量离线渲染时使用50步追求细节上限,同时训练侧绕开了复杂的教师蒸馏流程 [28]
实测夸克「千问划词快捷指令」,这7个邪修Prompt,建议收藏
机器之心· 2026-01-15 11:52
夸克AI浏览器功能升级 - 夸克AI浏览器更新“千问划词”功能,支持用户自定义快捷指令,将高频使用的提示词固定为一键调用,以提升AI交互的精准度和效率[8][10] - 该功能允许用户在设置中添加自定义指令,需使用 `{selection}` 代表选中的文字,设置后可于浏览网页或文档时通过划词一键使用,省去重复输入的麻烦[10][11] 高效提示词策略与应用 - 提出“邪修提示词”策略,通过指令主动询问AI需要什么额外信息来完成任务,例如在润色内容前让AI列出所需关键要素,从而获得更精准的输出[15][16][17] - 提出“毒舌大师”策略,通过为AI设定严格批评的人设指令,使其提供直接、无保留的反馈和修改建议,以提升内容质量[21][22] 学习与研究场景应用 - 针对专业论文阅读,可设置“人话翻译器”指令,要求AI使用费曼学习法、生活化类比和通俗语言解释复杂内容,实现快速理解[25][26][27] - 针对学术研究,可设置“论文引用查找器”指令,让AI分析选定内容的研究领域、可能的引用来源类型并提供搜索关键词与代表性文献建议,大幅提升文献检索效率[30][31] 内容创作与多平台适配 - 针对多平台内容发布,可通过自定义划词指令快速生成适配不同平台风格的内容,例如“小红书爆款生成器”指令要求生成带emoji、实用角度、短句和互动引导的500字以内内容[36][37][39] - 可设置“微博热搜体”指令,要求将内容浓缩至140字以内,并用中括号提炼标题、突出话题性、添加话题标签[40] - 可设置“X平台国际化表达”指令,要求将中文内容翻译并调整为简洁直白、面向国际用户的英文表达,控制在280字符以内[42] 夸克AI浏览器的生态与愿景 - 夸克AI浏览器深度整合千问AI助手,并上线十多种模型供用户选择,支持语音、图片、文件等多模态输入,旨在成为一个“超级应用”[45][46][47] - 浏览器内置一系列AI工具(如超级播放器、夸克PPT),可构建一站式工作流,例如快速处理视频内容并生成PPT,提升个人工作效率[48][49][50] - 公司致力于通过持续快速的产品进化、AI交互创新与工作流深度整合,赋能用户成为“超级个体”[51]