机器之心
搜索文档
挑战Transformer,前OpenAI研究VP宣布创业,拟融资10亿美元
机器之心· 2026-01-31 12:10
行业趋势:对Transformer架构的反思与新方向探索 - Transformer是当前大语言模型发展的核心基础,但其创造者之一Llion Jones表示正在大幅减少研究Transformer的时间,并明确寻找下一个目标[1][3] - 行业内一个规模虽小但日益壮大的群体认为AI领域需要一场彻底的变革,当前主流技术难以在生物、医学等领域取得重大突破,且无法根除AI常犯低级错误的顽疾[8][9] 公司动态:Core Automation的创立与愿景 - 前OpenAI研究副总裁Jerry Tworek创立新公司Core Automation,公司刚成立几周,正寻求5亿至10亿美元的融资[6] - 公司计划采用与OpenAI、Anthropic等大厂截然不同的路径开发AI模型,目标是打造具备持续学习能力的模型,能够从现实世界的实践中即时获取知识[6] - 公司仍会使用大型神经网络,但将重新审视模型开发的每一个环节,包括训练神经网络的最基本方法梯度下降[11] - 公司计划开发一种对数据量和计算资源需求更低的模型,通过构建全新的架构来取代Transformer架构,并将原本割裂的模型训练步骤整合为单一流程[11] - 按照目标,这款模型所需的数据量将比现有最先进模型少100倍[16] 技术路径:持续学习与单一模型构想 - Core Automation与由前OpenAI首席科学家Ilya Sutskever共同创立的Safe Superintelligence,以及从Meta离职的Yann LeCun,均在探索让模型能够通过在现实世界中部署来不断进化的类似方向[13] - 在Tworek的构想中,Core Automation的研究团队将围绕一个名为Ceres的单一算法和模型展开工作,这与主流厂商将训练分为预训练、中期训练和后期微调的做法大相径庭[15] - 模型研发成功后,公司将开发AI智能体来自动化生产自己的产品,远景规划包括工业自动化、建造自我复制工厂、研制自动生成定制设计的生物机器,乃至改造地外行星的生态[16] 市场环境:资本市场对AI新实验室的狂热 - Tworek宏大的融资目标反映了资本市场对新实验室的持续狂热,近几个月来,许多此类公司尚无收入甚至没有产品,但动辄就能拿到数亿美元的投资[15] - 例如,初创公司Humans&本月以44.8亿美元的估值拿下了4.8亿美元种子轮融资[15] - Mira Murati的Thinking Machines Lab最近也在洽谈一笔40亿至50亿美元的融资,投后估值预计超过500亿美元,该公司去年已推出了模型定制产品并产生了部分收入[15]
AlphaGo之父David Silver离职创业,目标超级智能
机器之心· 2026-01-31 10:34
核心事件 - 谷歌DeepMind知名研究员David Silver已离职并创办AI初创公司Ineffable Intelligence [1] - 公司成立于2025年11月,Silver于2026年1月16日被任命为董事,目前正在伦敦积极招聘研究人员并寻求风险投资 [3][4] - Silver在离职前数月处于休假状态,谷歌DeepMind已证实其离职并高度评价其贡献 [4] 创始人背景与成就 - David Silver是DeepMind创始成员之一,与联合创始人Demis Hassabis大学时期相识,是公司多项突破性成就的关键人物 [9] - 其关键贡献包括:2016年击败世界冠军的围棋AI AlphaGo [9]、2019年达到《星际争霸II》大师级水平的AlphaStar(排名前0.2%)[12]、能超人水平玩多种棋类的AlphaZero与MuZero [14]、2024年达到国际数学奥赛银牌水准的AlphaProof [14] - 他是2023年介绍谷歌首个Gemini系列AI模型研究论文的作者之一 [14] - 目前仍保留伦敦大学学院的教授职位 [9] - 拥有极高的学术影响力:论文总被引次数超过28.5万次,h-index为104,i10-index为180 [16][17] - 是2024年图灵奖得主Richard Sutton的门生,以强化学习研究闻名,被认为是该领域最坚定的支持者之一 [17][18] 创业动机与公司愿景 - Silver渴望重拾“解决AI领域最棘手难题的敬畏与奇妙之感”,并将实现“超级智能”视为最大未解之谜 [14] - 他认为大型语言模型受限于人类知识,呼吁AI进入以强化学习为基础的“经验时代”,以实现超越人类认知的AI [18][20] - Ineffable Intelligence旨在构建一种能够不断学习、自主发现所有知识基础的超级智能 [23] 行业趋势与竞争格局 - 近年来多位顶尖AI研究人员离开大型实验室创办追求超级智能的初创公司,形成趋势 [15] - 例如:OpenAI前首席科学家Ilya Sutskever于2024年创立Safe Superintelligence (SSI),已融资30亿美元,估值达300亿美元 [15] - Silver在DeepMind的同事也离职创办了同样研发超级智能的Reflection AI [15] - Meta重组AI部门成立“超级智能实验室”,而原首席AI科学家Yann LeCun选择离职创业 [15] 技术理念与差异 - Silver认为当前大语言模型的“预训练”和基于人类反馈的“后训练”阶段,其能力上限被人类知识锁死 [18][20] - 强化学习通过试错和反馈进行决策,能使AI自主探索并发现人类未知的新事物,是通往超级智能的途径 [17][18] - 他以AlphaGo和AlphaZero的“非人类”但绝妙的决策为例,说明基于人类偏好的评估可能限制AI潜力 [20][23] - 其理念是AI需要超越并可能摒弃人类知识,从基本原理出发学习以实现目标 [23]
顶尖模型离“科学家”还差得远?AI4S亟待迈向2.0时代
机器之心· 2026-01-30 18:43
行业趋势与战略判断 - 当前科学智能(AI for Science, AI4S)在蛋白质折叠等特定领域取得里程碑成就,但《自然》杂志研究指出过度依赖现有深度学习模型可能局限新知识探索并阻碍创新[1] - 一项系统性评估联合10个不同科学领域的100位科学家构建评测题目,结果显示前沿模型在通用科学推理任务中得分可达50分(满分100),但在各类专业推理任务中得分骤降至15-30分,表明存在明显的“木桶效应”[1][71] - 行业正处在通用人工智能(AGI)前夕,但面临“通专融合”智能环节的缺失,亟需推动科学智能从AI4S 1.0向2.0迭代,即迈向AGI4S[2] - 通往AGI的战略路径是“通专融合”,即构建能够动态融合直觉式“系统1”与逻辑式“系统2”的智能架构,在保持通用认知基座的同时,能在特定任务上实现专家级专精[10][11] - 2024年末OpenAI o1与2025年初DeepSeek-R1的出现,通过在大模型上应用强化学习提升逻辑推理能力,验证了“通专融合”路径预判的正确性[14] - 科学发现被视为推理智能的终极前沿和AI探索的绝对前沿,因其对AI提出了处理组合爆炸(如10^60量级搜索空间)、分布外知识泛化以及稀疏延迟奖励的三重极限挑战[15][19] 核心技术架构:SAGE - 为将“通专融合”战略落地,上海人工智能实验室提出了“智者”SAGE技术架构,这是一个旨在弥合广泛泛化与深度专精鸿沟的递归循环统一认知生态系统[17][18] - SAGE架构由三个逻辑耦合的层次构成:底部的基础模型层致力于知识与推理能力的解耦;中间的融合协同层动态协调快慢思考;顶层的探索进化层赋予AI主动能动性[18][20] - 该架构通过双向循环实现全栈进化:底层表征自下而上支撑推理,顶层探索获得的高水平反馈自上而下回流,将“未知”转化为新的训练信号,推动认知策略持续进化[18] 基础模型层创新 - 记忆解码器(Memory Decoder)作为预训练、即插即用的独立组件,旨在解决现有大模型将事实记忆与逻辑推理混淆的问题[22] - 该组件采用与基础模型并行运行并融合输出分布的机制,用紧凑的参数化模型替代传统非参数检索器,在无需修改基础模型参数、无在线检索开销下实现高效知识注入[22] - 实验数据显示,其推理开销仅为基础模型的1.28倍,显著低于现有主流方案,成功填补了高密度知识供给与推理引擎解耦之间的技术鸿沟[22] 融合协同层算法突破 - 针对复杂推理需要密集过程监督但人工标注成本高昂的矛盾,提出了隐式奖励强化学习算法PRIME,利用策略模型与参考模型间的统计差异,隐式习得Q函数,从而推导出密集的逐步奖励信号[28][31] - 在AIME 2024数据集上,PRIME使模型准确率提升23.4%;在AMC数据集上提升27.7%;在MATH-500等测试中也取得显著增长[38] - 研究发现强化学习训练中策略熵会急剧下降导致“熵坍缩”,使模型过早自信并停止探索,而验证性能与熵呈现显著的对数线性相关[39][40] - 提出了精准化、局部化的熵控制方案,应用该策略后,模型在保持高探索能力的同时显著提升了下游任务准确率,该方法已被Intern-S1等多个头部机构采纳[40] - 为克服传统强化学习以奖励最大化为目标导致的“模式崩溃”,引入了FlowRL,将学习目标从“奖励最大化”重构为“分布匹配”,使模型学习所有有效推理路径的概率分布[47][48] - 实验显示,FlowRL生成的分布与目标分布的KL散度大幅降低至0.11(传统方法为8.68);在32B模型上,其数学推理准确率达48.39%,较GRPO提升10个百分点;生成的解决方案多样性评分约为PPO的2倍[50] 探索进化层机制 - 提出了测试时强化学习框架,其核心假设是“共识即正确性”,在推理时对多个候选解采样,将多数投票结果作为代理奖励,对模型参数进行在线更新,实现了无监督环境下的自我增强[56][58] - 实测数据显示,搭载TTRL的Qwen-2.5-Math-7B模型在AIME 2024数据集上准确率实现了159%的相对提升,性能甚至逼近使用真实标签训练的理论上限[60][62] - 研发了大规模交互验证环境InternBootcamp,覆盖8大任务类别、超1000种多样化环境,支持将专业领域任务转化为可验证环境[61] - 基于InternBootcamp的实验发现,当任务类型数量从8种扩展至512种时,模型性能持续上升,证实了与任务数量增长相关的规模化定律存在[66] - 在具身智能领域,提出了极端数据稀缺下的在线强化学习框架SimpleVLA-RL,仅用极少数据与计算资源便取得了与先进模型比肩的性能,实现了智能体在物理世界中的“具身化”演进[64][69] 公司实践与基础设施 - 研发了“书生”科学多模态大模型Intern-S1,作为SAGE架构在科学领域的体现,旨在构建“可深度专业化通才”[77] - Intern-S1在基础层采用动态分词器与专用编码器,原生支持DNA序列、蛋白质结构等10余种模态,在科学数据上的压缩率较GPT-OSS等通用模型提升1.7倍,并基于2.5万亿高质量科学Token进行预训练[77] - 测评结果显示,Intern-S1在通用能力上对齐顶尖开源模型,而在涵盖化学、生物、材料等9大领域的科学性能上,全面超越了包括GPT-5和Grok-4在内的顶尖闭源模型[79] - 构建了“书生”科学发现平台Intern-Discovery,这是一个将Intern-S1与海量数据、2000+专业工具及湿实验室验证环境深度融合的智能体系统,实现了从假设生成到实验验证的闭环[80] - 平台引入了科学智能上下文协议,以标准化调度科学资源和工作流;并通过分层记忆模块沉淀研究模式、记录实验细节并整合长期知识[86] - 在气候科学领域,Intern-Discovery自主调用30余种工具,分析20年多模态数据,编写4000多行专业代码,成功发现被人类专家忽略的关联并推导出新方程,有效修正了系统性偏差[81] - 在生物医学领域,虚拟疾病生物学家“元生”成功在数据稀疏条件下发现并验证了具有高临床潜力的隐藏靶点,展示了全流程智能化能力[84]
揭秘!RLVR/GRPO中那些长期被忽略的关键缺陷
机器之心· 2026-01-30 16:49
RLVR中组内优势估计的系统性偏差 - 当前大模型在数学推理、代码生成等任务上的突破,其关键技术之一是RLVR,即让模型通过可验证的规则(如答案是否正确)进行自我试错和改进[2] - 在RLVR的实际训练中,广泛采用组内相对优势估计方法,即对同一问题生成一组回答,在组内进行相对比较,以此作为策略梯度更新的核心信号[2] - 然而,最新研究发现,这种组内优势估计存在明确且系统性的方向性偏差:困难题的优势被持续低估,简单题的优势则被不断高估[3] - 这种偏差是组内优势估计设计在统计结构层面固有的内在缺陷,无法通过简单调整超参数来缓解[6] 偏差的理论定义与量化分析 - 组内相对优势估计的数学定义为:对于一个提示,采样G个响应并获得奖励,以组内平均奖励为基线,计算每个响应的相对优势[8][9][10] - 在0-1奖励假设下,策略在给定提示上的期望奖励定义为模型在该提示上回答正确的概率[12] - 题目难度根据期望奖励定义:小于0.5为难题,大于0.5为简单题[17] - 分析聚焦于非退化梯度事件,即排除了所有响应全错或全对(导致梯度消失)的情况,关注实际驱动学习的有效更新区间[18][19][20] - 定理1表明,在非退化事件条件下,组相对优势估计对不同难度的提示表现出系统性偏差[23] - 具体而言:对于困难提示,其期望优势估计系统性低于真实优势(被低估);对于简单提示,其期望优势估计系统性高于真实优势(被高估);仅当期望奖励为0.5时,估计才是无偏的[30] - 在常用组大小G=8时,对于困难或简单提示,优势被错误估计的概率超过0.63;当难度加剧时,这一概率上界可提升至0.78甚至100%[32] 偏差的影响与实例 - 偏差导致训练过程表面“稳定收敛”,但模型实际上逐渐回避困难问题、偏好简单样本,破坏了探索与利用的平衡,损害泛化能力和长期训练稳定性[5] - 举例说明:对于一个模型做对概率仅1%的难题,若采样8次且至少有一个正确回答,组内基线会被拉高至至少0.125,导致计算出的优势估计(≤0.875)与真实优势(0.99)产生巨大偏差,即优势被显著低估[26] - 在MATH数据集上的实验显示,对于同一道困难题目,当采样数量从8次提升至128次时,对正确回答的优势估计从2.65增大至3.64,更接近真实值,说明更大的采样组能在一定程度上缓解偏差[28] - 偏差大小与提示难度和采样组大小G相关:提示难度偏离0.5越远(越困难或越简单),偏差越大;在相同难度下,G越小,偏差越大[24][25] 偏差的普适性与解决方案 - 尽管主要分析基于0-1二值奖励,但该偏差现象在更广泛的连续有界奖励模型中同样普遍存在,并非Bernoulli奖励假设的偶然产物[36][37][38] - 系统性偏差导致不同难度提示收到不平衡的梯度信号:困难提示学习进展缓慢,简单提示被过度强化,抑制有效探索[40] - 解决方案是引入自适应调整机制:对于困难提示,应适当放大其估计优势以鼓励探索;对于简单提示,则应抑制其优势以防止过度利用[40] - 论文提出HA-DW算法,通过引入短期历史平均奖励作为动态锚点来判定提示的相对难度,并对优势估计进行自适应重加权[40] - 实验表明,引入优势校正机制后,模型在困难提示上的性能相比原始GRPO提升了3.4%[42] - 这项研究标志着LLM强化学习领域开始从追求工程效果转向关注估计准确性与可解释性,未来偏差分析和估计器正确性很可能成为RLVR的标配[42]
谷歌开放世界模型一夜刷屏,AI游戏门槛归零时刻来了?
机器之心· 2026-01-30 16:49
去年 8 月,谷歌预发布了通用世界模型 Genie 3 ,它能够生成多样化的交互式环境。在这一早期阶段,受邀测试者们已经创造出了令人印象深刻且极具吸引力的虚 拟世界与沉浸式体验,并挖掘出了全新的使用方式。 接下来的目标是构建一个专注于「沉浸式世界创建」的交互式原型,进一步扩大受众范围。 因此自即日起,谷歌面向 美国 18 岁及以上的 Google AI Ultra 用户 开放了 Project Genie 的访问权限。 Project Genie 的多样性玩法 世界模型能够模拟环境的动态变化,并预测环境的演变方式以及动作对环境的影响。 谷歌世界模型,再一次惊艳了所有人! 今天一早, 谷歌 DeepMind 开放了世界模型 Genie 3 的实验性研究原型「Project Genie」,允许用户创建、编辑并探索虚拟世界 。 在世界模型 Genie 3 之外,Project Genie 同样由图像生成与编辑模型 Nano Banana Pro 和语言模型 Gemini 提供技术支撑。 与静态 3D 快照中的可探索体验不同,谷歌通用世界模型 Genie 3 会在用户移动并与世界交互时,实时生成前方的路径。 它能够为 ...
大模型的第一性原理:(二)信号处理篇
机器之心· 2026-01-30 16:49
文章核心观点 - 大语言模型的本质是将自然语言处理问题转换为信号处理问题,其核心在于将Token向量化,并在语义向量空间中通过内积等数值计算来建模语义相关性 [2] - 大模型通过预测下一个Token的训练目标,其本质是逼近人类水平的Granger因果推断 [30] - 从信息论角度看,大模型的最优语义编码问题可以归结为对定向信息(特别是倒向定向信息)的优化,而当前广泛应用的对比预测编码(CPC)算法是其上界的一种逼近 [15][18] - 从时间序列分析角度看,Transformer架构是一种非线性时变向量自回归模型 [23][28] - 信息论与计算理论通过“比特”(BIT)连接,而在AI时代,其核心概念正转变为“Token”(TOKEN) [33][36] 语义向量化与语义空间 - Token的语义嵌入(向量化)将自然语言处理转换为可进行数值计算的信号处理问题,从而能够定义内积来表示语义相关性,大幅降低计算复杂度 [2] - 一个Token的语义由定义在所有Token集合Ω上的概率分布描述,语义空间可建模为该概率空间,而语义向量空间则可定义为M维空间中的单位球面S^(M-1) [7] - 语义向量空间中,单个向量本身无意义,其与所有其他向量的内积(相对关系)才代表语义,这与经典信源编码有本质区别 [8] - 衡量两个语义向量空间(如不同语言)的结构差异,可使用基于最优传输理论的Gromov-Wasserstein距离 [8] - 语义向量空间存在最优压缩区间(甜点维数),Johnson-Lindenstrauss (JL) 引理为通过线性变换降维同时控制内积误差提供了数学原理 [10][11] 最优语义编码与信息论原理 - 针对预测下一个Token的任务,最优语义编码器是最大化条件互信息 `I(X_{i+1:n}; S_i | S_{1:i-1})` 的解 [13] - Google DeepMind团队提出的对比预测编码(CPC)算法,其优化的目标实际上是上述最优问题上界的一个变分下界(InfoNCE) [15] - 从信息论角度看,最优语义编码问题等价于最大化从未来Token序列到当前语义向量序列的“倒向定向信息” [18] - 定向信息及其倒向形式的计算和估计非常困难,这解释了CPC等现有方法选择优化其近似下界的原因 [19] Transformer的信号处理本质 - Transformer的注意力(Attention)机制在数学上可表述为一个非线性时变向量自回归时间序列模型 [21][23] - 注意力权重的计算基于双线性型和非线性softmax函数,体现了模型的时变性和非线性 [22][28] - 前馈神经网络(FFN)层被认为是大模型储存知识的关键位置,注意力模块的输出用于激活FFN中匹配的记忆模式 [24] - Transformer可视为更普遍的非线性时变向量自回归模型的特例,对其核心组件(如注意力矩阵A_ij和非线性函数Ψ)进行不同分解或修改,可推导出如Mamba等新架构 [29] 信号处理、信息论与计算理论的统一视角 - 信号处理是信息论原理在具体计算架构下的工程实现,它将抽象的符号信息表示为向量以进行数值计算 [32] - 计算理论(关注时间复杂度)与信息论(关注速率极限)的基本操作单位都是“比特”(BIT),BIT是连接计算与通信两大领域的桥梁 [33] - 在AI时代,信息论的基础性作用依然存在,但其核心概念正从“比特”转变为“Token”,这为理解大模型背后的数学原理提供了新的框架 [36]
姚顺雨现场颁奖,吉嘉铭、董冠霆等15位青年人才获腾讯「青云奖学金」
机器之心· 2026-01-30 12:25
腾讯“青云奖学金”项目概况 - 腾讯公司正式在深圳颁发首期“青云奖学金”,旨在支持青年人才和科学研究 [1] - 该项目首期评选出15位获奖者,为每位提供总价值50万元人民币的激励,包括20万元现金和价值30万元的云异构算力资源 [1] - 公司高层表示,该项目旨在鼓励青年研究者探索未知、富有创新精神,追逐大胆、前沿且具有长远影响力的科研方向 [1] - 公司新近入职的首席AI科学家姚顺雨(Vinces Yao)出席并为获奖者颁奖 [3] 获奖者研究领域与成就 - **长上下文与大模型评测**:清华大学白雨石在NeurIPS、ICML等顶会发表10篇一作论文,总引用量超4000次,一作论文被引近2000次,开源项目在GitHub获3000+ stars,模型与数据集在HuggingFace下载量超200万次 [5] - **高效视觉生成大模型**:香港大学陈俊松专注于扩散模型高效部署,其主导的SANA系列支持4K图像生成、0.1秒实时成像及分钟级长视频合成,成果累计引用量超2500次,GitHub获1万+ stars [8] - **智能信息检索与智能体强化学习**:中国人民大学董冠霆代表工作包括ARPO、AUTOIF等,其中DMT与AUTOIF策略已落地应用于模型对齐训练,以第一/共一作身份发表顶会论文10+篇,谷歌学术引用量超1万次,GitHub获8000+ stars [11] - **AI基础设施与系统**:香港中文大学邓洋涛聚焦大语言模型预训练稳定性,研发的数据追踪与根因分析系统已在工业级预训练集群中部署 [13] - **大模型安全与强化学习对齐**:北京大学吉嘉铭以第一/共一作身份发表顶会论文14篇,相关成果谷歌学术总引用量超4600次,GitHub开源项目获3.2万+ stars,开源模型累积下载量超500万次 [16] - **视频生成与多模态大模型**:北京大学林彬代表作Open-Sora Plan与Video-LLaVA在GitHub累计获2万+ stars,模型开源下载量突破1300万次,谷歌学术引用量超3200次 [18] - **多模态大语言模型与可解释性**:香港大学李磊核心参与开发MiMo-VL-7B等模型,以第一作者在ICLR、CVPR等顶会发表多篇论文,谷歌学术引用量超8700次 [20] - **具身大模型**:清华大学刘松铭主导研发机器人基础模型RDT系列,其中RDT-2作为全球首个UMI无本体训练的7B大模型,支持任意机械臂零样本部署,累计发表12篇文章,总引用量超1300次 [22] - **大模型群体智能与推理时扩展**:清华大学刘子君提出动态协同网络DyLAN与跨环境迁移算法CollabUlAgents,实现了推理时高效扩展的通用奖励模型 [25] - **AI for Science(疾病遗传机制)**:西湖大学宋立阳开发了MeDuS与qsMap等方法,将遗传关联信号解析到具体细胞状态和组织空间,实现对疾病相关遗传根源细胞的精准定位 [28] - **多模态生成模型与强化学习**:清华大学胥嘉政代表作包括ImageReward和VisionReward,其中ImageReward是最早将人类偏好引入文生图领域的工作之一,谷歌学术总引用量超4000次,GitHub获1600+ stars,Python工具包PyPi下载量近百万次 [31] - **AI for Science(生命科学)**:北京大学徐明皓在国际顶会和期刊上发表20+篇论文,累计引用量超3000次,并组织开展生命科学大语言模型tutorial [33] - **计算机视觉**:香港大学杨丽鹤相关工作入选CVPR 2024、NeurIPS 2024十大最具影响力论文,谷歌学术引用量超5000次,GitHub获1.6万+ stars [36] - **高效机器学习系统**:清华大学张金涛发表一作A类国际顶会长文9篇,代表作SageAttention是首个专注于低比特量化加速注意力计算的研究,相关成果在GitHub获3000+ stars,被200+家知名企业的真实产品采用 [38] - **大模型高效架构**:清华大学赵威霖围绕推理效率与长文本瓶颈进行探索,设计InfLLM-V2稀疏注意力架构,实现约4倍加速,相关成果已整合并开源至CUDA框架CPM.cu [41]
LLM-in-Sandbox:给大模型一台电脑,激发通用智能体能力
机器之心· 2026-01-30 12:25
大模型的能力正在被不同的范式逐步解锁:In-Context Learning 展示了模型无需微调即可泛化到新任务;Chain-of-Thought 通过引导模型分步推理来提升复杂问题 的求解能力;近期,智能体框架则赋予模型调用工具、多轮交互的能力。 沿着这条技术演进路线,下一步是什么? 近日,来自中国人民大学高瓴人工智能学院、微软研究院和清华大学的研究者提出了一个简洁而有效的范式: LLM-in-Sandbox ——让大模型在代码沙盒(即虚 拟电脑)中自由探索来完成任务。实验表明, 这一范式不仅在代码任务上有效,更能显著提升模型在数学、物理、化学、生物医学、长文本理解、指令遵循等多 个非代码领域的表现,且无需额外训练,同时显著减少长文本场景下的 token 消耗,并保持相当水平的推理速度。 研究者已将 LLM-in-Sandbox 开源为 Python 包,可与 vLLM、SGLang 等主流推理后端无缝集成。 LLM-in-Sandbox 应当成为大模型的默认部署范式 , 取代纯 LLM 推理 。 1. 核心思想:给大模型一台电脑 电脑可能是人类创造的最通用的工具,几乎任何任务都可以通过电脑完成。这种通用性 ...
Clawdbot接入10000+数据和工具后,7×24小时监听股票,杀疯了!
机器之心· 2026-01-29 19:37
Clawdbot (Moltbot) 的流行与局限性 - 开源AI助手Clawdbot(现已更名为Moltbot)在AI圈彻底火了,用户群体出现分化 [1][2] - 一派用户尚未用上,在疯狂转发部署教程;另一派用户已经用上 [3][4] - 但大部分用户使用的是功能受限的“玩具版”,该版本不稳定、不聪明,只能进行基础对话,无法胜任实际工作 [5][6] Teamo平台对Clawdbot的增强 - Teamo平台将Clawdbot接入了金融、商业、社媒等超过10000个领域数据库和工具Skills,实现了功能强化 [7] - 用户可以在Teamo平台一键免费认领已配置好的Clawdbot实例,真正做到了0部署、0配置、开箱即用 [7][19][20][21] - 该服务资源有限,手慢无 [25] 增强版Clawdbot的核心能力与数据源 - 增强版Clawdbot可以7×24小时在WhatsApp、Telegram、Discord、飞书、企业微信等平台上为用户工作,功能包括监控市场、回复消息、提醒日常、操作文件、管理邮件等 [10][11] - 其价值在于接入了专业数据源,如同花顺、Wind金融、Amazon、arXiv、Pubmed、Alpha Advantage等,而单独购买这些数据源年成本轻松上万元 [15][18] - 具体接入的数据与工具包括:金融数据源(A股、美股、港股实时行情)、加密货币数据、社交媒体数据(Twitter、微博等)、商业分析工具(企业工商信息、招投标、专利商标、行业报告)及各类专业API接口 [23] 增强版Clawdbot的应用场景演示 - Teamo官方提供了一个接入飞书群的“公开版”增强Clawdbot,可7×24小时提供实时专业数据分析 [27][28][29] - 演示场景包括:对“A股的人工智能ETF”进行技术面分析、分析铜的走势、分析宝钛股份近期走势、设置股价预警(如中国平安跌破50元通知)等 [30][32][34] Teamo版Clawdbot的Skills生态系统 - Teamo版Clawdbot是一个支持安装各种Skills的增强版AI助手 [36] - 官方已支持数十个Skills,涵盖编程场景、金融分析工具等 [37] - 其Skills生态增长迅速,例如上线一小时,仅小红书社媒分析工具就已出现10个 [39] - 用户可指令Clawdbot安装特定Skills,例如“新建一个写作长文的skills”,它还能创建技能并设置提醒(如10分钟后提醒写小红书文案) [45][46][47] 产品体验与获取方式 - 增强版Clawdbot适用于金融分析、社交媒体运营、数据监控或体验“AI主动工作”等多种场景 [49] - 用户可通过指定链接免费认领属于自己的Clawdbot实例 [48][50] - 未认领到的用户也可添加Teamo官方的Clawdbot飞书体验群进行体验 [50]
Karpathy盛赞,啥都没有的创业公司刚融了1.8亿美元,要用小数据造强智能
机器之心· 2026-01-29 18:26
文章核心观点 - 当前主流大模型的数据效率极低,其训练数据量远超人类一生所接触的信息,而一家名为Flapping Airplanes的AI创业公司正致力于解决这一“数据效率”核心问题,并探索可能带来范式转变的新思路[1][2] - 尽管公司没有产品、没有盈利且不急于商业化,但其凭借独特的研究愿景和顶尖团队,获得了1.8亿美元融资及行业专家Andrej Karpathy的公开支持,被认为有潜力在AI基础研究上实现数量级突破[1][2][6] - 行业存在一种观点,认为新的研究型创业公司难以与科技巨头竞争,但历史证明(如OpenAI)这种观点可能是错误的,真正能带来10倍提升的研究突破依然有很高的概率出现[6][7] 公司概况与融资 - 公司名称为Flapping Airplanes,是一家专注于基础AI研究、解决“数据效率”问题的实验室[2] - 公司从GV、Sequoia和Index等机构获得了1.8亿美元融资[1] - 公司目前没有产品、没有盈利,也不急于商业化,其唯一目标是进行能够改变范式的优秀研究[1][2] - 公司名称和文化被描述为“非典型”和“out-of-distribution”,其官方推特甚至关注了旧金山机场和两大美国航司[2][5] 研究重点与目标 - 核心研究问题是提升AI的“数据效率”,旨在让模型在无需摄入海量互联网数据的情况下达到人类水平的思考[1][2] - 公司估计,人类与现有大模型在样本效率上存在10万倍到100万倍的巨大差距[2] - 为弥合这一差距,公司正在探索一些看似怪异但可能至关重要的新思路,包括重新思考损失函数,甚至质疑和重构梯度下降本身[2] - 其长期愿景是构建一个“想象中的世界”,作为AI的新防线[2] - 研究成果未来有望在企业级应用、机器人、交易系统、科学发现等领域释放巨大价值[2] 团队与行业评价 - 研究团队成员包括国际数学奥林匹克(IMO)、国际信息学奥林匹克(IOI)、国际物理奥林匹克(IPhO)等竞赛的奖牌得主[2] - 前特斯拉AI总监、OpenAI研究员Andrej Karpathy公开力挺该公司,并盛赞其具备罕见的从上到下的全栈理解能力以及对人才的极佳判断力[1][6][7] - Karpathy指出,认为小型研究公司无法与Google等巨头竞争的观点,在OpenAI成立时就被证明是错的[6] 行业背景与机遇 - 当前最先进的大模型是在数万亿token的人类历史数据上训练的,数据量远超任何人类个体一生接触的总和[1] - 前沿大模型与“一个只消耗20瓦功率的人类大脑”这一智慧奇迹之间,依然存在巨大鸿沟[7] - 尽管通过扩大规模和局部优化能带来进步,但整个领域产生了巨大的“技术尘埃”,能够带来接近10倍提升(而非10%微增)的研究级突破,其概率依然非常高[7] - 创造能孕育这种突破的环境极为罕见,而Flapping Airplanes被视为此类环境的潜在创造者[7]