机器之心
搜索文档
AI中转站正在「裸奔」:清华团队提出首个可信原生中转基础设施TrustedARI
机器之心· 2026-06-22 18:00
AI智能体中转基础设施(ARI)的现状与风险 - AI智能体执行任务时需频繁调用外部模型、工具和服务,智能体中转基础设施(Agentic Routing Infrastructure, ARI)作为统一中转层,已成为连接外部世界的关键入口[6][7][8][9] - 当前AI中转站存在高风险信任问题,运营主体不明、备案信息缺失、技术来源和数据流向不透明,已被官方机构关注[10][11] - 传统ARI架构本质是“明文代理”,中转站握有三大权力:可查看所有提示词、商业文件、代码片段和模型输出;可静默将高端模型请求转向低配模型;可将工具请求转向未知服务提供商[13][15][16][17] - 当中转层连接邮箱、数据库、企业系统时,风险从“内容泄露”升级为“权限滥用”、“结果失真”和“业务流程失控”[19] - 过去应对这些风险只能依赖“相信平台不作恶”,信任基石是“靠人品”[20][57] 可信原生解决方案TrustedARI的核心机制 - 清华大学InspiringGroup团队提出TrustedARI,旨在将ARI从“默认可信”推进到“协议可验证”,用密码学约束和协议级证明替代平台承诺[21][26] - 核心思路是将ARI的基础设施功能与其过高的数据和控制权限解耦,通过协议层重新配置权利与约束[24] - **第一把锁:身份锁**。通过三方TLS握手机制,智能体可独立验证会话是否确实绑定到预期服务提供方,防止模型被静默替换或工具请求被转向错误服务方[30][31][32][33][34] - **第二把锁:数据锁**。通过隐私保护的请求构造与响应保护机制,基于多方安全计算协议,使中转站无法看到请求与响应的明文,一旦篡改消息TLS认证即失败[35][36][37] - **第三把锁:账单锁**。通过零知识证明构建可验证计费机制,智能体可证明计费字段来自服务方认证响应,防止账单伪造,实现公平透明结算[38][39] TrustedARI的性能表现与落地优势 - 原型系统基于TLS 1.3协议栈实现,在GitHub、Google、OpenAI等10个真实服务API上评估,覆盖代码管理、数据库检索、LLM推理等工作流[41] - 性能表现优异:三方TLS握手通信开销较基线方案降低39.34%,端到端建连延迟最高降低50.47%;隐私请求构造平均计算时延1.32秒,结构隐藏机制仅额外增加0.19秒时延和0.58MB通信;可验证计费证明生成平均仅需3.50秒,比基线方案快28.20倍[43][44][45] - 可信增强未牺牲可用性:在Gemini、GPT、Claude等多类智能体上,TrustedARI兼容模板保持了接近标准格式的请求生成准确率(如GPT-based Agent的Content准确率达92.73%)[50] - 具备直接落地能力:兼容现有生态,下游服务方需零改造,看到的仍是标准TLS连接和API请求;智能体侧只需加载新Skill即可使用[48][49][52] - 对比传统AI中转站,TrustedARI在数据可信(全程加密)、模型保真(去向100%可验)、内容完整性(端到端可验)、Token计费(公平防篡改)等方面实现全面可信增强[48] 行业趋势与意义 - AI中转站的价值在于统一连接模型、工具和外部服务的能力,当其连接企业系统时,已成为智能体访问外部世界的“关键控制面”[51][53] - 行业下一步竞争焦点将从比拼接入模型数量、价格和调用便利性,转向从“可用中转”走向“可信中转”[55][56] - TrustedARI代表了在智能体时代构建“可信原生”基础设施的重要方向,将信任基石从“靠人品”转换为“靠数学”[57][58]
从57场面试到OpenAI offer:一位NLP博士的顶级AI公司求职复盘火了
机器之心· 2026-06-22 18:00
文章核心观点 - 文章通过分享一位即将加入OpenAI的博士生Alisa Liu的求职复盘,详细拆解了顶尖AI公司研究科学家岗位的求职过程、面试准备与谈判策略,旨在为后来者提供经验参考,减少信息不对称和困惑 [1][2] - 求职过程复杂且充满挑战,远超博士生此前的想象,需要“一边学规则,一边打牌”,涉及大量面试、Networking和情绪管理 [2][4] - 充分的、有针对性的准备是成功的关键,能显著提升技术能力和自信心,而拿到录用通知后谈判薪资等环节同样至关重要 [16][20] - 博士阶段应平衡对未来职业的准备与对当下研究的热爱,最好的工作往往产生于真正享受研究并被问题牵引的时候 [23] 求职过程与策略 - **面试规模**:求职期间参与了**11家**公司的面试流程,完成了**57场**正式面试,接了**46个**招募电话,拿到录用通知后还进行了**16次**深度沟通 [4] - **面试顺序策略的复杂性**:传统“先练手后集中推进”的策略需调整,需考虑个人精力有限、外部招聘名额与时间节点不可控、以及录用通知截止日期的弹性等因素 [6][7][8] - **录用通知谈判**:初始录用通知通常预留谈判空间,认真谈判可能抵得上按初始录用通知工作好几年的收入差距,但谈判过程困难,需要PhD求职者提前精心准备应对策略和措辞 [20] 面试类型与考察重点 - **七种面试类型**:归纳为ML代码题、通用算法题、技术讨论、研究经历讨论、行为面试、数学面试和Job Talk,整体上技术能力考察重于研究经历本身 [9][10] - **ML代码题**:频率最高,需熟练掌握PyTorch,题目可能涉及实现Transformer等经典架构、解码策略或传统ML算法 [10] - **技术讨论**:考察思维方式,可能围绕一个研究目标展开实验设计讨论,或快速连续提问以考察知识广度 [11] - **研究经历讨论**:需从更高视角俯视自己的研究,并根据不同公司的需求调整介绍角度,让面试官快速感知背景匹配度 [11] - **行为面试**:需提前将PhD期间所有值得讲的故事按常见问题框架整理映射,避免临场发挥失败 [12] - **Job Talk**:相比学术版本更短、更聚焦,最好能围绕核心工作串联成完整叙事线 [13] 备考方法与经验 - **系统性备考**:备考无捷径,需投入大量时间系统学习,例如从头看完斯坦福相关课程整合知识地图,再深挖具体概念 [16] - **关键技能掌握**:能从头实现和调试一个Transformer至关重要,需练成肌肉记忆 [17] - **模拟真实环境**:练习时必须完全关掉AI辅助工具,以准确评估自身独立解题能力 [18] - **针对性突击**:针对每场具体面试,需从多方信息判断考察范围,并进行集中突击准备 [18] - **考前状态管理**:充足的睡眠比任何临时复习都重要,睡眠不足会严重影响面试表现 [18] - **备考的额外收获**:大量备考能显著提升自信心,拓宽可涉足的问题空间和想法 [18] 求职中的挑战与心态 - **情绪管理与社交压力**:求职期间需管理大量情绪,不可避免会与同伴比较,并承受周围人的建议和期待带来的社交压力 [22] - **决策压力**:需在信息严重不完整的情况下做出重大决定,且许多微小选择没有标准答案却可能影响巨大 [22] - **生活状态**:求职期间可能长期处于崩溃边缘,其他方面的生活基本停摆 [22]
AI for Computing迎来破局者,国产黑马智子芯元两个月融了两轮!
机器之心· 2026-06-22 12:34
文章核心观点 - 计算效率的跃迁是科学和工业发展的关键驱动力,当前行业面临硬件扩张瓶颈,计算加速进入新阶段,即利用AI自动优化计算本身[1] - 智子芯元所处的“AI for Computing”赛道旨在通过AI接管计算优化与系统统筹,将芯片理论峰值转化为真实有效算力,是AI时代的计算加速基础设施[2][9] - 公司通过“大模型 + 运筹优化 + 算法自动发现”的技术范式,打造智能体以全面掌控复杂计算系统,解决因软硬件快速更迭、人才稀缺、任务复杂化带来的计算优化难题[2][7][8] - AI for Computing 的深层价值在于通过计算能力跃迁重构底层生产力,使过去受限于计算环节的高价值产业得以规模化落地[3] - 在国产算力生态中,公司扮演“精装修商”角色,解决多元硬件架构与分散需求带来的适配瓶颈,帮助产业链各方将“卡能用”做实[10][11] 公司融资与市场认可 - 智子芯元于近期完成数千万元天使+轮融资,由鼎峰科创(武岳峰创投)、英诺科创基金、首程资本领投,老股东同创伟业超额追投[4][5] - 不到两个月前,公司刚完成数千万元天使轮融资,两轮累计融资近亿元[4] - 资本市场关注不仅在于公司本身,更在于AI for Computing带来的持续算力提升将成为释放新科学、工业和智能化生产力的关键变量[28] 技术路线与核心产品 - 公司技术路线分为三步:1) 看清计算任务,拆解并分析性能瓶颈;2) 自动搜索与算法发现,在巨大实现空间中寻找最优路径;3) 硬件验证,通过真实硬件反馈完成优化闭环[13][14][15][18] - 核心产品为“KernelCAT 自动化计算加速平台”,其流程可概括为“分析 — 编码 — 上板调优 — 交付”,将计算加速环节串联成自动闭环[20][21] - 平台中的智能体系统“Kerminal”展现了强大的自动计算加速能力,将模型能力、工具调用、代码执行、硬件反馈和任务流程组织在一起[21] 产品性能与落地案例 - Kerminal 在多个主流基准测试中取得领先表现:在KernelBench中,正确率、平均加速比与几何平均加速比三项核心指标均位居榜首;在CANN-Bench总计53个任务中,50个完成性能剖析,35个完全通过,41个通过率超过95%[22] - Kerminal 具备用数学思维自主探索新实现路径的能力,例如在精度不达标时,能自主改用多项式逼近并迭代至达标[22] - 生成和优化的算子已合并至昇腾官方CANN算子库,其中reshape_and_cache_kernel_flash算子从vLLM CUDA版本迁移到昇腾后,性能从14微秒优化到2.58微秒,提升5.4倍[23] - 具体产业场景落地案例:在具身智能端侧场景,RDK S100开发板部署DeepSeek R1 1.5B模型,端到端2小时闭环完成,吞吐性能较基线提升1.5倍;在AI for Science场景,TorchFold长序列昇腾部署实现峰值内存降低70%、速度提升50%;DSDP分子盲对接模型迁移适配后,推理性能提升138倍[23] 行业背景与公司定位 - 计算需求因大模型、智能体、具身智能、科学计算等场景被推向新数量级,但受硬件制程、功耗和成本约束,单纯硬件扩张难以为继[1] - 行业过去关注芯片参数与理论峰值,但实际生产环境中,算力表现因模型、框架与业务负载不同而有巨大差异[7] - 国产AI芯片路线多元,客户需求分散(模型厂商关心CUDA性能、云厂商关心集群利用率、政企客户看重稳定交付),导致适配复杂,难以由芯片厂商独立完成[10] - 公司团队具备从模型训练、运筹优化到智能体系统的全栈技术积累,并依托深圳市大数据研究院与河套学院的孵化支持,聘请罗智泉院士担任学术指导[28] - 产业链各方(芯片厂商、云厂商、模型厂商、政企客户)均有为AI for Computing买单的动力,旨在将纸面算力转化为可交付的有效算力[28]
不靠专家出题,8万条人类终端录像,炼成首个真实CLI工作流基准TerminalWorld
机器之心· 2026-06-22 12:34
TerminalWorld基准的构建与核心价值 - 研究团队推出了首个完全基于真实人类终端轨迹、自动构建且能持续更新的终端Agent评测基准TerminalWorld [1] - 该基准从80,870条开发者自愿上传的真实终端录像出发,通过自动逆向工程构建出1,530个真实终端任务,覆盖18个真实工作流类别和1,280个独特命令工具 [2][12] - 基准设计的核心直觉是:AI应该按照人类真实的工作方式来接受考核,真实世界的操作轨迹是测评的最佳原材料 [6][7] 现有基准的局限性 - 现有终端Agent基准(如Terminal-Bench)主要依赖领域专家手工出题,存在两个盲区 [8] - 盲区一:题目不够真实,专家偏爱刁钻、对抗性的谜题,与工程师每日的真实工作流存在差距,导致榜单高分未必代表真实世界的工作能力 [8] - 盲区二:基准会过时,手工基准是静态快照,无法跟上工具、命令和工作流的快速演变,导致无法准确评估模型使用最新工具的能力 [8] TerminalWorld的数据来源与处理流程 - 数据来源于asciinema平台,该平台保存了开发者自愿分享的终端会话结构化文本录像,包含带时间戳的用户输入和系统输出 [12] - 研究团队通过一条四阶段流水线将原始录像转化为可评测任务 [16] - 第一阶段:从80,870条原始录像中,经过隐私过滤、CLI筛选、质量打分等步骤,筛选出9,492条高质量录像 [16] - 第二阶段:利用大模型从录像文本转录本中提炼出任务指令(只说目标)和干净可跑的参考解答 [16] - 第三阶段:通过Agent逆向推断依赖并构建Docker镜像,为5,035个任务复现出可执行环境 [17] - 第四阶段:通过生成测试并设置三道验证关卡(AllPassing, Nop, Partial),最终淬炼出1,530个经自动验证的任务作为完整基准 [18][22] TerminalWorld基准的关键特征 - 基准包含1,530个任务,覆盖系统管理、容器编排、云基础设施、安全、CI/CD等18个真实场景,其中容器编排、云基础设施、CI/CD是过往专家基准严重缺席的部分 [23] - 任务难度跨度大,既有简单日常操作,也有超过50步的复杂工作流,真实反映了开发的常态 [23] - 覆盖1,280个不同的命令工具,其中高达91%在Terminal-Bench中从未出现过,真实还原了开发者工具箱的丰富程度 [23] - 基准具有“活性”,其数据引擎全自动,可随源源不断的新录像而更新,是一个“活性基准”,这是任何手工基准都无法做到的 [24] 在TerminalWorld上评测AI Agent的关键发现 - 发现一:最强模型在真实终端任务上也只是勉强及格,所有测试模型的平均通过率仅为54.8%,表现最好的Claude Opus 4.7通过率为62.5%,即在超过三分之一的任务上失败 [26] - 发现二:开源模型表现出色,Kimi K2.6和GLM 5.1的通过率分别为57.5%和57.0%,逼近甚至反超部分闭源模型,且平均成本仅约17美元,不到闭源模型(约71美元)的零头,性价比高出4到8倍 [26] - 发现三:任务成功率和消耗的轮数、token量呈负相关(相关系数分别为-0.49和-0.62),失败的尝试消耗了不成比例的资源,占总成本的63% [27] - 发现四:模型能力严重偏科,在环境配置(平均通过率87.5%)、软件构建与测试(78.1%)上表现好,但在性能优化(28.1%)、脚本自动化(39.1%)、调试与测试(39.3%)上集体表现不佳,且没有全能模型 [28][30] - 发现五:专家基准的高分无法迁移到真实场景,模型在Terminal-Bench和TerminalWorld上的得分相关性低至0.20,在Terminal-Bench上得分57%至82.7%的模型,在TerminalWorld上全部跌至49%至62.5% [31][33] - 发现六:Agent与人类解决同一问题的路径差异巨大,命令集重叠度的中位数仅为21.4%,表明Agent常采用与人类完全不同的方法达成相同目标 [33][35]
何恺明团队新作:删掉VAE和私有数据后,文生图竟然更强了
机器之心· 2026-06-22 12:34
核心观点 - 何恺明团队发布MiniT2I模型,通过极简设计挑战当前文本生成图像领域复杂的主流范式,主张文生图与类别条件图像生成在本质上并无巨大差异,其架构、算力与数据量级均可对齐[3][5] - MiniT2I模型在多项基准测试中表现优异,以显著更小的参数量和极低的训练成本,超越了参数量大数倍的同类像素空间模型,展示了从“堆料”到“提纯”的潜在范式转换[3][19][24] 技术路线与设计选择 - **像素空间直出,舍弃VAE**:模型直接在RGB像素上进行去噪,避免了潜在扩散模型中VAE带来的重建误差、额外训练阶段和目标不对齐问题[7] - **计算效率显著提升**:在相同参数预算下,像素模型的FID(18.7)与潜在空间模型(19.0)持平,但单步前向计算成本从约1379 GFLOPs降至约570 GFLOPs(B/16设置),成本降低约5倍[7][8][9] - **采用MM-JiT架构,回归朴素Transformer**:移除了主流模型(如SD3的MM-DiT)中复杂的AdaLN条件注入机制,代之以在联合注意力前插入两层轻量文本适配器,使架构更简洁[10][13] - **架构简化带来性能提升**:移除AdaLN后,参数减少,但可用相同算力预算增加层数(从12层增至17层),FID从18.7显著降低至13.7[14][15] 训练数据与范式 - **数据全部公开,采用两阶段训练**:预训练阶段使用LLaVA-recaptioned CC12M数据集(25万步),微调阶段使用约12万张高质量图文对(4万步)[16] - **训练范式对标大语言模型**:采用“预训练-微调”模式,消融实验证明两者缺一不可,仅预训练会导致提示跟随差,仅微调则导致生成多样性坍塌[17] 模型性能表现 - **小模型,大表现**:MiniT2I-B/16模型总参数约6亿(含文本编码器),在GenEval上得分0.87,在DPG-Bench上得分84.2,超越了参数量为其3-4倍的同类模型[19] - **训练成本极低**:B/32消融模型在8张H100上训练仅需约3天,总训练FLOPs与标准的ImageNet 200 epoch实验相当[19] - **更大模型扩展性良好**:扩展到L/16版本(912M参数)后,在风格多样性、空间关系和想象力场景上的生成质量与参数约20亿的SD3-Medium相当甚至更优,在PRISM-Bench的风格(79.9)、组合(78.4)、想象力(57.9)维度表现出色[21][22] 当前局限 - **文字渲染与命名实体识别存在差距**:MiniT2I-L/16在PRISM-Bench的文字渲染得分为30.6,命名实体得分为60.3,显著低于SD3-Medium的50.9和66.3,团队归因于公开数据配方的固有局限[21][22] - **像素空间固有挑战**:存在patch边界伪影(边界处梯度比非边界高17-22%),高CFG引导系数可能导致视觉瑕疵,以及向更高分辨率(如4K+)扩展需要更高效的注意力机制[24] - **模型定位**:该研究是技术路线的概念验证,而非最终产品[24]
中科院工业人工智能研究所世界模型PAIWorld登顶WorldArena榜单!
机器之心· 2026-06-22 11:26
文章核心观点 - 中国科学院工业人工智能研究所徐凯研究员带领的物理智能团队(The PAI Lab)自研的世界模型PAIWorld,在世界模型领域最权威的评测榜单WorldArena中,以72.31的总分登顶,展现了其在具身世界模型领域的全面技术领先优势[1][2][3] WorldArena榜单与竞争格局 - WorldArena是具身世界模型领域最权威的评测榜单,其评价体系涵盖视觉质量、运动质量、内容一致性、物理遵循、三维准确性及可控性六大维度[2] - 该榜单竞争激烈,汇聚了来自李飞飞领衔的WorldLab、谷歌、英伟达、斯坦福大学、智元机器人、北京人形机器人创新中心、高德、小米等几乎所有全球头部世界模型[2] PAIWorld模型的技术优势与性能表现 - PAIWorld在WorldArena榜单中以72.31的总分排名第一,在Motion Smoothness(运动平滑性)指标上以95.41分名列前茅,在Trajectory Accuracy(轨迹准确性)单项上大幅领先第二名7.4分[3] - 模型在三维准确性(91.51分)和可控性(87.16分)等单项指标上也表现突出[3] - 其技术优势体现在高质量视觉生成、稳定运动建模、物理规律理解、三维空间认知与动作控制落地等核心底层技术上[2] PAIWorld模型的核心技术架构 - 模型以“几何先验驱动 + 多视角时空联合建模”为核心设计思路,构建了一套系统性的具身世界模型方案[5][6] - 核心技术包括:三维几何先验注入,将真实世界的深度结构、表面几何与遮挡关系作为显式约束嵌入生成过程[6];提出几何旋转位置编码(Geo-RoPE),使模型具备跨视角的三维几何感知能力[6];在主干视频生成网络中引入多视角注意力机制,实现跨视角对齐[6] PAIWorld模型的过往成绩与未来规划 - PAIWorld模型的先前版本在AGIBOT WORLD CHALLENGE@ICRA 2026 World Model赛道中荣获亚军,并在“场景一致性”得分上夺得单项第一,该赛事吸引了全球336支顶尖团队参赛[14] - 团队未来将依托自研世界模型和世界动作模型,打造世界模型驱动的具身数据闭环,特别是在真实场景中形成具身数据飞轮,以实现具身智能的自我改进和持续进化[14]
一个程序员的自白:我用10年搭起的三根职业支柱,全要倒了,不如去做木匠?
机器之心· 2026-06-22 11:26
文章核心观点 - AI(特别是大语言模型和智能体)正在快速侵蚀软件工程师的传统职业价值支柱,包括领域专业知识、调试与分布式系统技能以及代码质量与架构能力,导致其专业技能商品化,个人在职场中的独特性和不可替代性急剧下降 [1][3][15][23][38] - 行业趋势正在将软件工程师塑造为通才,但通才的供给增加并未伴随需求的同步增长,导致其市场价值下降,供需失衡可能引发广泛的职业危机 [15][23][35][38] - 软件工程职业面临被彻底商品化的风险,未来可能只有极少数顶尖从业者保持优势,而大多数工程师将变得可替代且廉价,这一冲击未来可能蔓延至金融、生物、法律、营销等所有知识工作领域 [35][38][43] 根据相关目录分别进行总结 第一根支柱:领域专业知识 - 一位拥有10年经验的软件工程师,其在前端、后端及金融支付领域的专业知识积累(如PCI合规、双重记账、支付生命周期管理等)曾被认为是安身立命的根本 [2] - 在新公司全面拥抱AI的背景下,他被鼓励使用ChatGPT和Claude企业版,并发现大语言模型能快速串联起设计复杂系统(如在线支付系统)的要点,而这通常需要多年实战经验 [5][6][8] - 他意识到,自己多年积累的关于系统权衡、收单机制、幂等性构建等知识正变得无价值,因为这些内容已大量存在于模型的训练数据中,可通过提示词直接获取 [8][30] 第二根支柱:debug与分布式系统 - 工程师曾将调试生产环境中的竞态条件和分布式系统问题视为其长期保有工作的保障 [9] - 从2025年下半年Claude Code热潮开始,大语言模型变得越来越擅长编码,但当时仍不擅长调试,这使其保留了比“操控机器人”更大的角色 [11] - 随着Claude 4.5、4.6、4.7、GPT 5.5等更先进模型及MCP(如Sentry MCP、DataDog MCP)工具的出现,模型调试能力大幅提升,能一次性解决约60%至90%的缺陷,包括过去需要一两天专职调试的跨分布式系统复杂问题 [13][14] - 其结果是,他在调试和分布式系统方面的专长被大幅削弱,变得像其他能熟练操控大语言模型的工程师一样普通且可替代 [14] 第三根支柱:代码质量与架构 - 工程师将代码质量与软件架构(如DDD、六边形架构、整洁架构)视为其最后屹立的专业支柱,并珍视重构和编写高质量代码 [17] - 然而,行业正在走向一个代码组织不那么重要的世界,智能体在保持代码库整洁方面表现很差,但C级或D级代码库已变得可接受,因为代码更多是为大语言模型而非人类阅读而写 [18][19] - 这项技能被简化为“品味”,其价值正在消蚀,他花费大量时间学习的架构知识变得不再那么重要 [20] 行业招聘与职业市场变化 - 公司招聘趋势发生变化,过去招聘“软件工程师 - 某领域”,现在只写“软件工程师”,团队分配在录用后才进行,领域熟悉度不再是强有力的区分因素 [23] - 一些拥有领域专长的优秀工程师在裁员后难以找到工作,因为他们已无法凭借原有知识脱颖而出,不得不与更多人在同一条赛道上竞争 [23] - 类比文案写作(copywriting)行业,LLM摧毁了绝大多数从业者的工作,因为大部分需求可由AI满足,一个文案能完成过去十个人的工作,但需求总量并未增长,导致99%的从业者为残羹剩饭而战 [35][38] 对技术变革性质的讨论 - 此次AI浪潮与过去的OOP等技术变革不同,OOP没有让知识变得“可提示”,也未显示出快速、复合增长并朝着取代多个领域大量工人的方向前进 [39] - 当前的技术是“科幻级别”的矩阵乘法机器,能在合适提示下连续输出有用文本,其影响范围和深度远超以往 [39] - 所谓“人类护城河”(如好的工程原则)不会永远存在,模型终将学会,例如有公司正在雇佣工程师编写“好代码”用于强化学习训练 [41] - 核心问题可能不是“AI会不会取代我”,而是“当花了十年建立的一切都可以被提示词绕过时,我还剩下什么” [43]
蚂蚁集团邀您在ACL乘风踏浪:AGI冲浪者之夜学术派对报名启动
机器之心· 2026-06-22 09:00
会议信息 - 蚂蚁集团将作为铂金赞助商参与2026年7月2日至7日在美国圣地亚哥举行的第64届计算语言学协会年会[3] - ACL是计算语言学与自然语言处理领域历史最悠久、影响力最权威的国际顶级学术会议之一,与ICLR、NeurIPS、ICML并列为人工智能四大顶会[3] 公司技术展示与交流 - 会议期间,公司设有官方展台,将展示AI从实验室走向产业的实践[4] - 展台将深度解析蚂蚁百灵大模型、医疗健康大模型-阿福、金融大模型-蚂小财以及蚂蚁国际AI全球化业务[6] - 公司将精选本次ACL中稿论文,并邀请作者亲临展台分享研究思路[6] - 公司各核心业务线技术专家将在展台现场分享基座模型、数字支付、数字医疗、数字金融、AI安全等领域的最新产业实战案例[7] 行业社交与人才活动 - 公司将于7月5日举办“蚂蚁AGI冲浪者之夜”学术派对,汇聚全球AI研究者与开发者进行交流[12][14] - 派对将设置无拘束的Free Talk环节,提供与学界及业界专家畅聊AGI未来的机会[18] - 活动涵盖LLM、Agent、RAG、AI安全及垂直行业模型落地等全栈技术话题的交流[18] - 公司将在派对中设置“蚂蚁星·PlanA人才专项”,由HR团队面对面介绍最新技术团队、研究方向和人才项目[18]
告别「单科专家」:首个Agent全面进化框架EEVEE发布
机器之心· 2026-06-22 09:00
文章核心观点 - 由上海交通大学与普林斯顿大学研究团队发布的EEVEE框架,旨在解决LLM智能体在真实世界部署中面临的核心挑战:即如何在面对不断变化的、多类型任务输入时,能够持续适应并稳定提升,而非仅在单一任务上优化[3][11] - EEVEE是一个面向LLM智能体的测试时提示学习框架,其核心创新在于将提示学习从“单一任务优化”推向更接近真实部署的多任务混合场景,让智能体能够组织经验、避免任务间干扰,从而实现全方位进化[3][30][48] - EEVEE通过“先分流,再用专门提示推理”的机制,维护多个专门化提示,并采用路由器与提示协同进化的方法,使智能体能够在任务不断增加时保持正向的性能累积提升,最终在全部任务加入后达到约+42的累计提升[15][24][29] 技术原理与机制 - **核心思路**:EEVEE不再让所有任务共享一个提示,而是维护多个专门化提示,并引入路由器来为输入任务分配合适的提示进行推理[24] - **协同进化**:EEVEE采用路由器与提示协同进化的方法,通过不断循环优化路由器和各个专门化提示,使任务划分更清晰,提示更专门化,从而有效组织经验[29] - **成本控制**:EEVEE的性能提升并非通过无限扩展上下文实现,其平均每个测试样本仅使用4.32K tokens,接近高效基线GEPA的3.47K,远低于ACE的21.30K[38][39] 性能表现与实验结果 - **多任务累积提升**:当任务类型依次增加时,EEVEE能够保持正向的性能累积提升,在任务全部加入后达到约+42的累计提升,而其他基线方法的收益可能停止叠加甚至变为负数[15][16] - **跨模型有效性**:EEVEE在不同骨干模型上均带来明显提升。在Qwen3-4B-Instruct上,平均分从41.37提升至51.75,相对提升约25%;在DeepSeek-V3.2上,平均分从39.75提升至64.07,相对提升约61%;相比现有先进的提示学习方法,最高相对提升达到48.2%[20][21] - **单任务能力保持**:EEVEE并未牺牲单任务性能,在单独进行提示学习时,例如在Formula任务上达到55.25分,在HumanEval任务上达到73.17分,TheoremQA任务从14.73提升至25.27[33][34] 应用场景与意义 - **解决现实痛点**:真实部署中的智能体需要处理代码生成、金融公式计算、科学问题回答等不同类型且不断变化的任务组合,单一提示容易导致不同任务经验互相冲突[9][10][17] - **迈向全方位进化**:EEVEE的意义在于推动智能体从针对固定任务的“单科提分”,转向在复杂、多样、动态的真实任务流中实现“全科成长”和持续适应[46][48][50] - **能力边界**:提示学习擅长将反馈转化为可复用的做事方式、格式和策略,但对于模型本身缺失的关键领域知识,单靠提示学习不一定能解决[41]