机器之心

搜索文档
提示词工程、RAG之后,LangChain:上下文工程开始火了!
机器之心· 2025-06-25 12:06
上下文工程概述 - 上下文工程是构建动态系统以合适格式提供准确信息和工具,使LLM能合理完成任务[5][9] - 该概念并非全新,近两年已被智能体构建者广泛关注[2] - 传统提示工程侧重设计提示语,但应用复杂度提升后单纯依赖提示已无法满足需求[3] 上下文工程核心特征 - 系统性:需整合开发者、用户、交互记录等多来源数据[10] - 动态性:多数上下文动态生成,提示逻辑需随动调整[11] - 准确性:缺乏正确上下文是智能体表现不佳的主因[12] - 工具适配:需提供查找信息或执行行动的工具[12] - 格式规范:工具输入参数的结构化程度影响沟通效率[13] 重要性分析 - LLM出错主因从模型能力不足转向上下文传递不当[15] - 现代AI系统需完整结构化上下文而非巧妙措辞[17] - 正成为AI工程师最关键的发展技能[7] 与提示工程差异 - 提示工程是上下文工程的子集[17] - 前者处理静态模板,后者处理动态数据集[17] - 核心指令设计仍是两者的共同重点[18] 实施要素 - 工具使用:外部信息需格式化为LLM易理解形式[20] - 记忆系统:需建立短期对话摘要和长期用户偏好记忆[20] - 检索机制:动态获取信息并插入提示[20] - 格式优化:数据传递方式直接影响模型响应质量[19]
具身智能的终极命题:是造「人」还是造「生产力」?
机器之心· 2025-06-25 12:06
华为CloudRobo具身智能平台 - 华为在HDC 2025发布CloudRobo具身智能平台,作为技术底座通过云端"强智能"赋能机器本体,解决本体侧智能进程慢和部署成本高的问题[1] - 该平台探索出覆盖范围最广、实现速度最快的具身智能落地路径,目标是让一切联网本体成为具身智能机器人[2] - 华为云采取不做本体而专注云端技术赋能的战略方向,为具身智能发展提供新视角[3] 具身智能的核心理念 - 具身智能不追求本体构型或智能程度,而是从"更好用"角度让各类机器实现智能化,加速在物理世界的应用[4] - 这种终局思维拓宽了产业化想象空间,工业领域实践已验证其可行性,如埃夫特机械臂和优艾智合物流机器人的应用案例[5] - 具身智能发展路线应聚焦通过高效智能赋能手段激活现有及未来机器的潜力,以实际生产力提升为目标构建可规模化复制的价值闭环[7] 生产力导向的应用实践 - 具身智能的核心是生产力而非形态,工业场景因其标准化流程和自动化基础成为首要落地阵地[10] - 优艾智合OW8晶圆盒搬运机器人在8寸晶圆车间实现全流程自动化物流,单台日均处理物料超240次,系统单日处理量突破12,000次[11][12] - 商用机器人如擎朗、云迹正从单一配送向具身智能转换,深度嵌入工作流完成多任务并减少人工参与[13] 多形态机器人的协同发展 - 人形机器人与多形态具身智能机器人不是迭代关系而是互补共存,类似公司中专家型研发部门与管理岗运营团队的关系[19][20] - 优艾智合MAIC系统采用多模态通用基座大模型+"一脑多态"端侧具身模型的混合架构,实现机器人群体间的紧密配合[22][23] - 产业终极竞赛在于打造普适、开放、高效的群体智能协同,构建覆盖物理世界的智能生产力网络[25]
ICML 2025 Oral | 从「浅对齐」到「深思熟虑」,清华牵头搭起大模型安全的下一级阶梯
机器之心· 2025-06-25 12:06
本工作共同第一作者 包括: 张亦弛 , 清华大学计算机系三年级博士生,师从朱军教授,研究方向是多模态大模型和大模型安全, 在CVPR、NeurIPS、ICML等顶会发表多篇论文,曾主导开发了首个多模态大模型可信度全面评测基准MultiTrust ; 张思源 , 清 华大学计算机系一年级硕士生,导师是苏航副研究员,研究方向是大模型安全与对齐算法。本文通讯作者是清华大学人工智能学院 董胤蓬助理教授和计算机系朱军教授。 其他合作者来自北航、瑞莱智慧、阿里安全、百川智能等单位。 在大语言模型(LLM)加速进入法律、医疗、金融等高风险应用场景的当下, " 安全对齐 " 不再只是一个选项,而是每一位模型开 发者与AI落地者都必须正面应对的挑战。然而,如今广泛采用的对齐方式,往往 只是 让 模型在检测到 风险 提示时机械地回复一 句"很抱歉,我无法满足你的请求" ——这种表面看似"安全"的机制,实则脆弱不堪。ICLR 2025 杰出论文首次将这类方法命名为 "浅对齐(Shallow Alignment)" [1] :模型的预测分布仅在 回复 开头做出了 有效 偏移,却从未真正理解潜在的风险语义 。一旦 越狱提示换个包装,模 ...
刚刚,首个能在机器人上本地运行的具身Gemini来了
机器之心· 2025-06-25 08:46
Gemini Robotics On-Device发布 - 谷歌DeepMind推出首个可直接部署在机器人上的视觉-语言-动作(VLA)模型Gemini Robotics On-Device,无需持续互联网连接即可运行[2] - 该模型基于Gemini 2.0多模态推理能力开发,属于Gemini Robotics系列,于2024年3月发布[3] - 模型经过优化可在机器人机体上高效运行,展现出强大的通用灵活性和任务泛化能力[4] 技术特性与优势 - 专为延迟敏感型应用设计,在连接中断或零连接环境中保持稳健性[5] - 相比之前最佳的本地端机器人模型表现出明显优势,在分布外任务和复杂多步骤指令方面优于其他本地端方案[15][16] - 只需50到100个演示即可快速适应新任务,展示出强大的基础知识泛化能力[21] 应用场景与测试表现 - 在七项不同难度灵巧操作任务测试中表现优异,包括拉开午餐盒拉链、画卡片和倒沙拉酱等[22] - 成功适配多种机器人平台,包括ALOHA机器人、双臂Franka FR3机器人和Apptronik的Apollo人形机器人[25][26][27] - 可执行通用指令,处理未见过的物体和场景,完成折叠连衣裙等灵巧任务及工业皮带装配等精密操作[26] 开发者支持 - 谷歌将发布Gemini Robotics SDK,支持开发者在MuJoCo物理模拟器中测试模型表现[7] - 开发者可使用SDK快速将模型适应到新领域,仅需少量演示即可完成适配[7] - 模型支持微调以获得更佳性能,是DeepMind首个可供微调的VLA模型[20] 相关技术进展 - 加州大学伯克利分校等机构联合推出的MuJoCo Playground获得RSS 2025杰出演示论文奖[8] - 谷歌同时宣布在AI Studio和Gemini API中推出图像生成模型Imagen 4和Imagen 4 Ultra[33] 产品策略调整 - 下调Gemini系列免费可用额度:Gemini 2.5 Flash从每日500次降至250次,Gemini 2.0 Flash从1500次大幅降至200次[30] - 公司表示这是伴随新模型推出的策略,会降低或取消上一代模型的免费套餐[32]
如何做到在手机上实时跑3D真人数字人?MNN-TaoAvatar开源了!
机器之心· 2025-06-25 08:46
技术概述 - TaoAvatar是阿里巴巴淘宝Meta技术团队研发的3D真人数字人技术,支持手机和XR设备上的实时渲染与AI对话[1] - 该技术基于3D高斯泼溅技术,能通过多视角视频输入快速生成高逼真度数字人形象,精准捕捉面部表情、手势动作及衣物细节[8] - 已在中国三维视觉大会上入选"最佳演示Demo候选",并宣布开源3D数字人应用MNN-TaoAvatar[2][9] 核心技术 - 采用3D高斯泼溅技术实现全身互动式数字人解决方案,显著降低建模成本并提高效率[8][9] - 集成语音识别(ASR)、大语言模型(LLM)、语音合成(TTS)和数字人渲染(NNR)等核心模块[11] - 支持端侧实时对话与渲染,ASR模型RTF优化至0.18,TTS模型RTF优化至0.58,A2BS模型RTF优化至0.34[16][17][18] - 自主研发NNR渲染器实现25万点云模型60FPS流畅渲染[18] 性能优势 - 在骁龙8 Elite芯片手机上实现端侧运行,ASR模型281.65M,LLM模型838.74M,TTS模型1.34GB[16] - MNN-LLM在骁龙8 Gen3芯片上预填充速度达165 tokens/s,解码速度41.16 tokens/s[16] - 相比云端方案,可在手机端完成所有算法处理,无需高端显卡支持[13][14] 架构优化 - 采用StyleUnet+MLP混合建模降低计算成本,动态高斯点云技术提升渲染稳定性[50] - 数据同步优化实现GPU内存直接读取,免去数据拷贝时间[40] - 调度优化引入"Dirty机制",仅处理变化数据,将部分模型运行频率降至20fps[41] - 模型量化技术将Qwen2.5-1.5B模型从5.58GB压缩至1.2GB[31] 应用部署 - 推荐配置为骁龙8 Gen3或同级CPU,8GB内存,5GB存储空间[51] - 单个数字人ID存储空间控制在100-200MB,25万高斯点云为最佳平衡点[46] - 支持Android和iOS平台,已开源在GitHub供开发者体验[2][52]
讲得了课、押得中题、学习规划还能量身定制,真卷到点子上的只有它
机器之心· 2025-06-24 22:07
核心观点 - 讯飞AI学习机通过"模型+教育体系"组合拳实现真正的因材施教,其核心竞争力来自20年教育信息化积累[2][55][66] - 讯飞星火X1大模型在高考测试中表现优异,语文作文53分、英语作文19.5分均获国产AI第一[7][8] - AI学习机三大功能升级:精准学系统实现"测-学-练"闭环、苏格拉底式答疑辅导、个性化互动课[16][23][31] 产品技术 讯飞星火X1大模型 - 当前唯一全国产算力训练的深度推理大模型,70B参数轻量化设计对标OpenAI o1和DeepSeek R1[9] - 采用思维链拆解技术,通过"教导主任-教师-学生"多智能体流程实现自适应教学[38][40] - 整合全国1000万道题目资源,能识别高频考点如2025年数学卷概率与数列题命中率提升60%[64][65] AI学习机功能 - 精准学系统通过5-15题诊断知识漏洞,如七年级方程题可追溯至小学等式基础薄弱点[17] - 答疑辅导采用启发式提问,支持小学数学/初中语文数学等学科,错误率识别精度达98%[24][27][28] - 互动课实现真实个性化,如绘本伴读支持3-8岁儿童实时问答,新课标课程匹配教学大纲[32][33] 市场应用 - 已进入合肥七中、人大附中等学校,教师使用率达46.3%,课堂互动效率提升42%[11][12] - 学习机"精准学"模块匹配今年高考新课标Ⅰ卷数学真题122分,相似度最高达98%[12] - 覆盖全国32个省级行政区,服务5万所学校1.3亿师生,83个区域落地因材施教项目[63] 行业地位 - 教育赛道中少数具备基座模型能力的厂商,多数竞品存在三角形识别错误等基础缺陷[57][58] - 与华为合作突破国产算力瓶颈,建立覆盖"听-说-读-写-测-评-讲"的全流程学情体系[44][67] - 拥有全国最大教育数据库,包含各地区答题记录、教材版本等核心教学数据[63][64]
ToMAP:赋予大模型「读心术」,打造更聪明的AI说服者
机器之心· 2025-06-24 22:07
大语言模型的说服能力研究 - 顶尖大模型能生成条理清晰的说服语段 在Reddit等平台以假乱真 但缺乏心智感知能力成为发展瓶颈 [3] - 成功说服需精准洞察对方立场和思维过程 即心理学中的「心智理论」(ToM) 当前大模型在对话中缺乏心智感知导致两个缺陷:仅围绕核心论点讨论 无法根据论点联系提出新角度 仅重复己方观点 无法因应对方态度变化调整策略 [4][6] ToMAP模型架构创新 - 引入两大心智模块:反驳预测器通过提示词激活模型预判反对观点的能力 生成的反驳观点与真实被说服者语义高度相似 态度预测器动态评估对方对反论点的态度倾向 使用BGE-M3文本编码器与MLP分类器实现 [9] - 采用强化学习训练模型 说服力得分衡量对方态度变化 并引入格式奖励、重复惩罚等辅助信号优化生成质量 [11] 实验性能表现 - 基于Qwen-2 5-3B的ToMAP在CMV、Anthropic、args me数据集测试中 平均说服效果达17 48 显著优于基线模型和无心智模块的RL版本 超越GPT-4o与DeepSeek-R1等更大参数模型 [14] - ToMAP在10轮长对话中说服力保持稳定增长 而基准模型和常规RL模型说服力随轮次增加趋于饱和或下降 [17] - 训练轨迹显示ToMAP重复度惩罚保持低位 思考长度显著高于基线 更倾向使用理性策略而非情绪煽动 [15][16] 技术突破与行业意义 - ToMAP首次在大模型说服任务中实现对手建模与策略灵活性 通过心智模块使AI具备初步社会认知特征 [19][20] - 该框架证明小模型在适当训练和模块设计下可超越大参数模型 为构建可信AI交流系统提供新思路 [14][21]
Cache Me If You Can:陈丹琦团队如何「抓住」关键缓存,解放LLM内存?
机器之心· 2025-06-24 22:07
核心观点 - 普林斯顿大学陈丹琦团队提出「KV足迹」作为统一度量标准,用于比较不同KV缓存优化方法的效率[10] - 团队定义「关键KV足迹」为模型性能保持90%以上时的最小KV足迹,确保优化方法实用性[12] - 提出PruLong方法,通过端到端学习注意力头专业化,将KV足迹比先前方法降低12%[15][36] KV缓存问题 - Transformer模型自回归解码时需存储所有先前token的注意力状态(KV缓存),内存消耗随文本长度线性增长[3] - 处理128K token提示时,Llama-3-70B模型需分配42GB内存专用于KV缓存[5] - 现有稀疏注意力方法难以横向比较,因优化目标(预填充/解码阶段)和评估指标不一致[6][9][20] KV足迹度量框架 - 将KV条目分为活跃/非活跃/被驱逐三类,KV足迹定义为所有时间步中未被驱逐条目的归一化比例[24][26] - 支持分块预填充和多轮交互场景的评估,覆盖完整推理流程的内存使用[21][22][23] - 实验显示KV足迹与吞吐量强相关,但具体排名受实现细节影响[27] 现有方法分类 | 方法类型 | 代表技术 | 特点 | |---------|---------|------| | 动态稀疏 | NSA/MoBA | 提升吞吐量但未减少KV内存[29] | | 预填充优化 | MInference/FTP | 加速预填充但不影响解码阶段[29] | | 新近度驱逐 | StreamingLLM/DuoAttention | 固定窗口减少KV占用,可能丢失远距信息[30] | | 后填充驱逐 | H2O/SnapKV | 预填充阶段峰值内存高,长生成场景效果有限[30] | PruLong技术创新 - 训练目标:直接优化下一个token预测损失,而非隐藏状态重建误差[37] - 离散掩码:通过伯努利分布参数化实现端到端二进制掩码学习[38] - 数据改进:采用自然长上下文数据(代码/书籍)替代合成数据[39] - 实验结果:在召回任务中保持原始性能,同时显著降低内存占用[15][36]
众所周知视频不能P?北大施柏鑫团队、贝式计算CVPR研究:视频里轻松换衣服、加柯基
机器之心· 2025-06-24 17:31
机器之心发布 机器之心编辑部 视频是信息密度最高、情感表达最丰富的媒介之一,高度还原现实的复杂性与细节。正因如此,视频也是编辑难度最高的一类数字内容。在传统的视频编辑流程 中,若要调整或替换主体、场景、色彩或是移除一个物体,往往意味着无数帧的手动标注、遮罩绘制和精细调色。即使是经验丰富的后期团队,也很难在复杂场 景中保持编辑内容的时间一致性。 近年来,生成式 AI 尤其是扩散模型与多模态大模型的快速迭代,为视频编辑带来了全新的解题思路。从早期基于规则的特效工具,到目标识别与自动分割,再到 基于文本指令的视频生成与重绘,尽管 AI 已经为视频编辑带来了效率与可控性的双重提升,但在精度要求较高的场景中仍存在一系列挑战,例如当前很多零样本 方法在处理连续视频帧时容易造成画面闪烁;对于背景复杂或多目标场景,可能会出现错位、模糊或语义偏差。 针对于此,北京大学相机智能实验室(施柏鑫团队)联合 OpenBayes贝式计算,以及北京邮电大学人工智能学院模式识别实验室李思副教授团队,共同提出了一种 结合草图与文本引导的视频实例重绘方法 VIRES,支持对视频主体的重绘、替换、生成与移除等多种编辑操作。该方法利用文本生成视频模 ...
外国小哥徒手改装消费级5090,一举击败巨无霸RTX Pro 6000
机器之心· 2025-06-24 14:46
硬件改装技术 - 采用Shunt Mod分流改装技术可绕过显卡内置的功耗和电流限制,通过修改电源接口附近的电阻值(将5毫欧分流电阻并联到GPU的2毫欧电阻上)欺骗控制电路,使系统低估实际功耗[2][12] - 改装后理论上可让显卡承受额外30%的功耗,实测功耗从660W提升至720W,GPU频率升至2,950MHz,FPS从146帧提高到152帧[14][17] - 该技术对液冷显卡(如华硕ROG Astral LC RTX 5090)更适用,因液冷系统能有效处理更高功耗产生的热量,而风冷系统可能无法应对[9][20] 性能表现 - 改装后的RTX 5090性能略微超越售价10,000美元的RTX Pro 6000专业显卡,但功耗显著高于未改装版本及96GB显存的专业显卡[1][21] - 长时间负载下GPU温度稳定在60°C,内存温度80°C,实际功耗达750-790W(比显卡显示值高约200W)[18] - 华硕Astral系列显卡配备16针电源接口的引脚传感功能,可实时监控输入功耗,改装后仍保持该功能[16] 改装条件与风险 - 需配合高效一体式液冷(AiO)系统,华硕GPU Tweak III软件提供关键参数调节和监控支持[9][10] - 16针电源连接器在800W功率下承受更高应变风险,操作不当可能导致GPU降级或快速损坏[7][8] - 改装需使用WireView监测真实功耗,并通过并联电阻方案调整板载电阻值[12][16]