AI科技大本营
搜索文档
“AI 写的 C++ 代码,客观上比人类更烂”,吴咏炜对话 Adobe 首席科学家 David Sankel|近匠
AI科技大本营· 2026-02-16 15:43
文章核心观点 - 在Rust崛起和AI编程兴起的背景下,C++凭借其对底层性能的绝对控制力,在追求极致性能的利基市场依然不可替代,但其在内存安全、工具链生态方面面临严峻挑战 [7][17][20] C++内存安全现状与挑战 - 内存安全漏洞更多出现在新代码中,原因是新代码缺乏“代码硬化”过程,未在对抗性压力下得到充分历练和修复 [10] - 旧代码如Adobe Photoshop的6800万行代码,虽庞大但因其成熟度,安全风险相对可控,将防御重点放在新代码上使内存安全问题变得可控 [11] - C++通过高级抽象降低了内存安全漏洞频率,但未根除隐患,因其继承了C语言不安全的底层内存模型和机制 [12] - 动态分析工具(如ASan、MSan)配置成本极高,且项目早期往往无暇配置,导致成功项目可能在“裸奔”状态下开发并传播漏洞 [13] - 即便强制使用所有Sanitizer和最佳实践,顶级团队(如Google Android)的C++代码中仍持续发现内存漏洞,且数量是Rust代码的约1000倍 [14][15] - 工具只能缓解症状,无法根治病灶,内存安全是C++范式下可能无解的难题,即使顶尖专家也会犯错 [16] C++的核心价值与不可替代性 - C++最核心的优势是允许开发者通过承担“未定义行为”风险,换取物理上可达到的极致性能 [17][18] - 在追求极致性能的场景下,Rust需要大量unsafe块和提示才能达到同等效率,导致代码量膨胀且可读性下降,而C++代码可被极致优化为少量汇编指令 [19][20] - C++另一大支柱是历史惯性,海量成熟遗留代码库(如科学计算领域)的重写成本过高,确保了其持续存在 [20] C++与Rust在生产力及生态上的对比 - Rust的生产力优势高度依赖于其现代化的包管理生态系统(Cargo),在依赖管理上对C++构成“降维打击” [22][27] - 在Rust中嵌入一个JavaScript解释器只需在配置文件中添加一行代码,而在C++中需要处理复杂的依赖、构建系统兼容和链接问题,工作量巨大 [22][23][24][25][26] - C++工具链生态碎片化严重,缺乏统一标准,不同编译器的二进制不兼容性使得分发预编译库几乎不可能 [27][28] - Rust从设计之初就将工具链作为一等公民,提供了统一的标准和工具(如rustdoc),而C++标准委员会仅标准化语言本身,对工具链采取放任态度 [29][31] - ISO标准化流程的核心是发布规格说明书,而非开发和维护软件产品,因此通过ISO统一C++工具链不可行 [31][32] C++与Rust在语言特性上的权衡 - Rust缺乏C++的模板特化和可变参数模板等元编程特性,这限制了其泛型编程能力,有时需要笨拙的绕行方案 [32][33] - 这种缺失是深层机制权衡的结果:Rust严格的借用检查器和受检泛型模型,强制要求泛型函数只能使用Trait中显式声明的接口,带来了类型安全但增加了实现高级特性的难度 [33] - C++的泛型是“即插即用”的,并支持特化以实现开闭原则;而Rust需要类型显式选择加入(opt-in)Trait实现,提供了不同的扩展方式 [34][35][36] AI编程助手的影响与风险 - AI生成的C++代码在客观上比人类编写的代码更差,尤其是在内存安全漏洞方面 [40] - 开发者对AI生成代码的正确性存在过度自信的心理现象,这与代码实际包含更多安全隐患的现实相悖 [40] - 对于Rust,由于其安全机制的强制性,AI生成的不安全代码无法通过编译,这构成了与C++的关键区别 [41][42] - AI工具将开发者的精力从编写代码转变为审查AI生成的、可能包含错误的代码,虽然可能节省时间,但人类仍需保持在循环中 [37][38] - 开源社区禁止AI生成贡献是合理的,因为维护者需要投入大量精力审查贡献者投入零精力生成的代码 [37] 对未定义行为(UB)的应对与优化趋势 - 观念正在转变,从未定义行为有利于优化,转向尽可能消除未定义行为 [46] - 现代CPU架构的演进(如超标量、指令预取)使得许多安全检查的性能代价变得极低,甚至“免费” [47] - Rust标准库采用一种模式:通过循环前的前置断言引导编译器优化,从而在循环体内消除重复的安全检查,实现安全与高性能的兼得 [48] - 同样的优化原理在C++中完全适用,但相关讨论和实践尚在起步阶段 [49] - 目前针对UB最扎实的努力是系统性地编目和分类标准中的每一个UB实例,为系统性解决方案奠定基础 [45]
5 月共赴巴黎之约!GOSIM Paris 2026 正式启动,全球讲师与赞助招募全面开启
AI科技大本营· 2026-02-13 16:15
行业技术范式转移 - 人工智能正经历从“模型中心”向“系统中心”的关键范式转移,AI不再仅是生成内容,而是开始具备任务规划、工具调用、环境交互、多智能体协作及持续演进的系统能力[3] - 行业焦点已从讨论大模型能力边界,转向聚焦AI如何真正“做事”,即从“对话框里的助手”发展为“自主行动的智能体”[3] GOSIM Paris 2026大会概览 - 大会由GOSIM开源创新汇主办、CSDN协办,将于2026年5月5日至6日在法国巴黎Station F举办[4] - 大会旨在深度探讨并动手实践如何以开源方式,构建Agent(智能体)时代的模型体系、系统架构及应用生态[4] - 大会将全面聚焦Agentic AI(智能体AI),探讨AI如何走出云端,进入机器人、硬件与边缘设备,以及如何构建下一代人工智能的基础设施[11] GOSIM平台定位与历史 - GOSIM是一个完全以志愿者为基础、由社区组织并为社区服务的非营利性项目,其核心目标是提供一个让创新开源项目展示、协作与发展的舞台[2][46] - GOSIM已在杭州、巴黎、北京、代尔夫特、上海等地成功举办活动,连接全球智慧,见证开源力量打破技术壁垒[7] - 2025年在巴黎Station F举办的GOSIM大会已取得显著成果:邀请了89位来自Meta、NVIDIA、阿里巴巴、Hugging Face等全球顶级机构的演讲嘉宾;带来了82场硬核技术演讲;汇聚了来自全球28个国家和地区的970余位技术专家与从业者;并吸引了全法中国青年科创协会、Apache软件基金会等知名组织的深度参与[7][10] 大会核心内容板块 - 大会精心策划了七大核心技术板块,现面向全球征集议题[12] - **智能体AI峰会**:聚焦智能体系统的核心标准与软件范式演进,关注MCP、A2A等通信协议,主权AI架构趋势,以及以Codex类工具驱动的AI软件开发新模式[14] - **开源机器人**:探讨如何让代码驱动物理世界,关注基于Dora框架的自主机器人系统构建、真实世界的AI应用落地及具身智能的开源实践,并包含动手构建编程机器人的工作坊[15][16] - **开源模型**:关注开源模型如何成为Agent时代的核心算力,议题包括LLM及多模态开放基础模型、模型性能优化与推理效率,以及开源模型在Agent场景下的认知能力突破[17] - **AI生成式应用**:展示AI原生应用的设计范式升级,关注A2App、A2UI与生成式应用框架,结合Makepad、Splash等工具的创意生产流程,以及下一代AI工作流与交互体验设计[18] - **边缘智能体AI**:探讨在资源受限的环境中实现“本地智能”,关注模型压缩与量化、端侧推理加速、系统协同机制及隐私保护下的实时决策工程实践[19][20] - **智能体AI协议**:致力于构建“智能体互联网”的基础设施,深入解析MCP、ACP、A2UI、A2App等关键接口标准,探讨Claude Code、OpenClaw等开源编程智能体生态,以及多智能体协作框架与安全机制[21] - **AI硬件**:连接巴黎与深圳,打通软硬边界,关注AI芯片与加速器技术创新、算力架构演进、软硬件协同优化及开源硬件趋势[22][23] 大会特色活动形式 - 大会采用“会议 × 工作坊 × 黑客松 × 大赛”的全景式体系,强调动手与实战,拒绝枯燥的PPT宣读[24][25] - 特色活动包括:**GOSIM Spotlight Demo**,全球征集优秀开源项目进行现场展示;**DORA机器人黑客松**,使用开源DORA框架现场设计、构建并编程自主机器人;**Unaite Vibe Coding黑客松**,融合创意与AI辅助开发的极限编程挑战,利用最新AI工具从0到1打造应用原型[30] 合作伙伴与赞助机会 - 赞助GOSIM Paris 2026意味着与全球最具创新力的开源社区站在一起,是深入欧洲科技核心圈、挖掘潜力开源项目、寻找顶级开源人才的绝佳机会[34] - 赞助权益包括:获得高频品牌国际化展示;接触来自全球的1000多名顶尖开发者与工程师;与欧洲及全球的初创企业、投资机构建立直接商务联系;通过Workshop或黑客松等活动传播技术产品与生态[35][36][37][38] 举办场地价值 - 大会举办地Station F是世界上最大的创业园区,拥有超过1000家初创企业,是欧洲乃至全球科技创新的地标[8] - Station F以培育人工智能创新而闻名,微软、Meta、Naver等科技巨头均在此设立了孵化项目,汇集了尖端AI初创企业、顶级研究人员和企业合作伙伴[8] - 在此举办意味着不仅讨论未来,更身处创造未来的现场[8]
演讲 | 强化学习之父 Sutton 隔空回应 Hinton:目前的 AI “理解不足,调参有余”
AI科技大本营· 2026-02-13 16:15
对当前AI进展的批判性思考 - 当前AI领域普遍共识是AI正以惊人速度进步,但需要对此提出质疑[6] - 大语言模型在语言运用和生成逼真图像视频方面是巨大突破,但这并非心智的本质功能,而是极度消耗算力的任务[7] - 许多新应用本质是超大规模计算和模式识别的具体功能,不代表智能的全部,有时仅为计算而被冠以“智能”之名[7] - 当前AI领域是“理解不足,调参有余”,并未真正掌握心智原理与智能法则,作为一门科学令人失望[8] - 当前主流AI模型本质是“脆弱的心智”,它们因掌握人类所有知识而显强大,但不可靠、无法专注、思维游离,在智能本质上并不强大[8] 定义“智能” - 威廉·詹姆斯定义心智特征为“通过多变的手段达到一致的目的”[11] - 艾伦·图灵的观点被解读为智能是“表现得像个人”,即通过图灵测试模仿人类行为[11] - 字典定义智能为“获取并应用知识与技能的能力”,强调了学习和获取的重要性[12] - 约翰·麦卡锡定义智能为“实现目标的能力中,涉及计算的那一部分”,强调能力、计算和实现目标[13] - 演讲者提出定义:“通过调整行为来实现目标的能力”,强调学习(调整)是智能的关键[13] - 当前AI主流观点集中在计算、模式识别和模仿人类上[14] 统一的心智科学与强化学习 - 应建立一门新的“统一心智科学”,同等适用于人类、动物和机器心智[15][16] - 强化学习可能是这门统一心智科学的开端,因为它横跨相关领域[18] - 强化学习是一种面向智能体的学习方式,通过与环境交互、从经验中学习来实现目标[20] - 强化学习比其他机器学习方法更现实、更宏大、更自主[21] - 强化学习核心是试错和延迟反馈,通过奖励信号让机器自行判断对错,接近自然界学习方式[22] - 强化学习可能是既非纯自然科学也非纯工程技术的“心智科学”雏形[23] 数据的时代 vs. 经验的时代 - 艾伦·图灵在1947年指出:“我们想要的是一台能从经验中学习的机器”[24] - 当前处于“人类数据时代”,AI通过训练预测人类的下一个词或图片标签,并通过人类专家微调[25] - 现代机器学习本质是将人类已有知识转移给机器,转移完成后机器变为静态,不再学习[26] - 人类数据时代正触及天花板,因为高质量人类数据资源(整个互联网的文本、图片和视频)已被挖掘殆尽[26] - 根本局限在于该方法无法创造新知识,仅总结互联网已有言论无法做出真正突破[26] - 需要进入“经验时代”,数据源需能随智能体能力提升而增长进化,这意味着任何静态数据集都不够[27] - 唯有从经验中——从与世界的交互中——才能获得动态数据,这是人类和动物的学习方式[27][28] 婴儿与网格世界:体验式AI原则 - “经验”指智能体与环境之间交换的数据流,而非模糊的意识流[31] - 婴儿通过不断接触新玩具、探索新事物来改变经验流并学习[31] - 生命的数据由活动生成,数据的难度自动匹配当前的理解力和技能水平[32] - 网格世界演示显示,智能体能在目标移动或出现障碍时,通过探索适应变化,学会新路径以实现目标[35] - 体验式AI的基础是智能体与世界交换信号(经验),这些信号是所有智能的基石[36] - 体验式AI的核心信号包括:观察(传感器数据)、动作(运动指令)、奖励(代表结果好坏的标量信号)[38] - 在体验式AI中,真理定义为“在这些信号中实际发生了什么”,目标定义为“让奖励信号最大化”[39] - 智能体现在于其能在多大程度上预测并控制它的经验[40] - 没有经验(如被冻结的大语言模型),智能就失去了依附对象[41] - 只有在经验中,才有明确的目标和真理[42] 现实主义的AI预测与发展阶段 - 尽管当前AI炒作引发恐惧,但其实并不强大,它们脆弱且不可靠,但这不妨碍其非常有用并创造巨大经济价值[43] - 真正的“重头戏”是创造超级智能AI以及被AI增强的超级人类,这将带来深刻变革[44] - 近十年AI发展可划分为三个阶段:模拟时代(如AlphaGo)、人类数据时代(大语言模型)、经验时代(正在进入)[50] - 经验时代将通向超人级能力,不仅仅是模仿人类,而是超越人类局限[50] AI的政治哲学:管控与合作 - 当前很多人呼吁管控AI,限制其目标、研究、算力,成立“安全研究所”,其真实意思是“控制”[45] - 呼吁对AI进行集中管控,与呼吁对人进行集中管控,其逻辑惊人地相似,都基于恐惧[46] - 应抵制基于恐惧的集中管控呼吁,未来繁荣应源于去中心化的合作,而非集中式控制[46] - 合作是世界上所有美好事物(经济、政府、社会)的源泉[46] 宇宙的四个伟大时代与人类的角色 - 从宇宙视角看,存在四个伟大时代:粒子时代、恒星时代、复制者时代、设计时代[52] - 复制者时代(如生物)的特征是事物被复制出来,无需理解原理[52][57] - 设计时代的特征是事物先存在于设计者心智中,再被创造到物理世界,如礼堂、椅子、衣服[52][57] - 设计之物比复制之物更容易改进和变异[52] - 人类是“特殊的复制者”,是将“设计”能力推向极致的复制者[52][53] - 极致的表现是设计出能够自我设计的东西,这正是AI领域所做的事[53] - 人类正在开启并实现宇宙的第四个伟大时代——设计时代,这是具有宇宙级意义的角色[54] 演讲核心总结 - 科学上:当前AI处于“人类数据时代”,虽强大但受限;正在进入更强大的“经验时代”,能持续学习新知[58] - 政治上:AI的政治就是人类的政治,应追求去中心化的合作,而非集中式控制[58] - 哲学上:AI是宇宙发展的必然下一阶段,应怀着勇气、自豪和冒险精神去拥抱它[58]
AI产品用户留存仅三个月周期?对话王咏刚:“不和AI协作过项目,你就不是合格程序员” | 万有引力
AI科技大本营· 2026-02-12 18:11
文章核心观点 - AI技术正在重塑创造方式,引发关于程序员角色定位的广泛讨论,但比结论更重要的是身处变革一线实践者的答案 [1] - 当前AI技术形势良好但商业模式扑朔迷离,多数应用仍处于早期尝鲜阶段,尚未形成明确的商业落地路径 [11][12] - 人机协作模式发生根本性范式转移,从确定性的工具使用转变为与具有不确定性的AI进行协商与合作 [14][16] - 当前一代Transformer-based AI的能力上限可能是人类的平均知识水平,要实现超越人类的高级智能可能需要算法基础的升级 [24][25] - AI在影视内容生产等领域的渗透正在加速,并开始颠覆传统工作流,但技术成熟度与艺术质量仍需时间提升 [30][50] - AI创业充满不确定性,应用产品普遍面临用户生命周期短的挑战,成功的关键在于解决实际刚需问题 [59][72][75] - AI编程工具替代的不仅是传统IDE市场,更是初级程序员的人力资源市场,程序员的培养路径和技能要求将发生根本性改变 [78][82][88] AI技术现状与商业落地 - 当前AI技术被拔得很高,但与“真正解决人类问题”之间在很多领域距离尚远 [12] - ChatGPT出现近三年,AI被认为只解决了编程这一件可以日常高频使用的事情 [12] - 大量AI应用的用户构成仍以尝鲜者为主,不代表普惠的受众群体 [13] - 当向传统行业普通用户演示通用AI Agent时,其反馈往往是觉得不如Excel等传统工具好用 [13] - 绝大多数AI产品的付费用户或核心用户生命周期平均只有三个月 [73] - 用户流失原因包括:使用几次后因需反复“抽卡”而感到疲惫;市场上不断出现新功能产品导致用户转移 [74] - 目前能跳出“三个月生命周期”的产品只有两类:变成刚需的基础大模型(如ChatGPT、Claude);真正解决了实际问题的产品(如编程工具) [75] 人机协作与范式转移 - 资深程序员已彻底转变工作方式,从亲手写代码转变为完全让AI产出代码,代码产出量非常大 [14] - 与AI协作的关键不是谁控制谁,而是一起找到“合拍”的方式,类似于与背景不同的人合作 [14] - 不同的AI模型(如GPT、Claude、DeepSeek)如同不同性格和能力的人,需要采用不同的配合方法 [15] - 颠覆性的变化来自于人和电脑交互方式的根本改变,从确定性指令转变为与具有概率性输出的AI协商 [16] - 传统以人类指令驱动的操作系统和硬件设计理念,在未来需要转变为AI与人类相互协商的模式 [16] - 与AI结对编程时,会通过类似“claude.md”的文件记录双方的协商协议,持续磨合工作方式 [17] - 这一代AI恰恰是为了解决过去解决不好的不确定性问题而出现的,确定性问题可交由传统工具处理 [18] - 当前与AI的合作,更像是人和一个初级实习生合作,需要琢磨其脾气、长处和弱点,并商量工作方法 [20] AI的能力边界与上限 - 当前AI最擅长解决编程相关问题,在不少场景下可直接替代人类 [19] - 在需要逻辑推演的不确定领域(如辅助数学解题、组织报告、分析数据),AI表现已不错 [19] - 但在真正需要艺术创意和深度洞察的领域,AI能力很弱,其给出的答案往往很“水” [19] - AI的真正强项在于模仿,其“创造性”输出本质上是已有元素的组合,即“组合式创造” [19][21] - 让AI进行真正意义上的、包含别人没有的东西的创造非常困难 [21] - 个人判断,这一代Transformer-based的知识压缩算法,可能只是把人类的平均知识做数学抽象并储存 [24] - 人类突破性创造者的数据可能被淹没在海量平均水平的作品中,AI难以提炼出高水平知识 [24] - 在数学基础上,当前一代AI可能也不支持达到预期的AGI(通用人工智能)水平 [26] - 在这一代技术框架下,突破能力上限很难,但新的、未知的技术可能会出现 [27] AI在视频生成与多模态领域的进展 - 行业共识认为大语言模型的竞争可能告一段落,核心将转向“卷”多模态 [30] - 视频生成时长已从最初几秒不断拉长,细节实现更好 [30] - AI在多模态内容生产的艺术造诣和审美能力上还有很长的路要走,需达到初级电影学院毕业者的水平,预计还需一两年甚至更长时间 [30] - 在动画视频生成领域,如果完全放手让AI自由发挥,结果会变成“放羊”状态 [33] - 网上看到的创意AI短视频、短剧,不外乎是大量人类控制加上大量人类“抽卡”筛选的结果 [33] - 普通用户使用AI视频工具时,常感到成品不符合预期,但不知问题出在哪里以及如何修改 [34] - AI生成的视频常存在“塑料感”问题,即动作和环境虽精准,但质感虚假,像塑料小人在动 [36] - 解决“塑料感”需通过技术控制,例如优化视频首帧,加入对光照(如午后自然光、丁达尔现象)、皮肤质感(雀斑、汗毛)、环境细节(墙面斑驳、器物老化)的引导 [41] - 控制的关键在于控制变量,若在每一帧都进行调整,画面容易“飞掉” [42] - 通过搭建专属工作流(如基于ComfyUI),可让AI严格遵循首帧风格,并对后续帧的关键变量(如人物姿态、深度图)进行精确控制,提高生成高质量视频的概率 [42] - 在2D动漫微短剧及故事性微广告剧领域,AI渗透率已经非常高,从流程角度看可承担约60%的工作量,人类完成剩余40% [54] - 在3D动画短剧领域,AI成本仍相对较高 [55] - 在大番剧、大型电视剧或电影中,AI主要作为特殊场景(如宇宙现象、科幻景观)的素材补充 [55] - AI未来若能分担如《哪吒》这类高水平3D电影的一半工作量,将制作周期从五年缩短至一年,将对影视工业产生革命性影响 [55] - 当前AI输出素材与电影工业标准(LOG格式灰片)不兼容(AI输出为RGB 709格式),是技术流程上的一个障碍 [57] AI创业、投资与市场策略 - AI创业仍处于相对早期的状态,商业模式未定 [11] - 当前市场不像移动互联网时代有明确平台和共识,更像是从山上流下的无数条小溪,尚未汇成海洋 [59] - 对于想投入创业的人而言,不是做得晚了,而是大多数人做得太早了,等一等可能是好事 [60] - 投资人跟风投资(如2023年投大模型、2024年投具身智能、2025年投AI Agent)风险很高,成功概率极低 [60] - 作为投资人,更倾向于两种策略:用相对小的筹码在不同赛道投非常早期的项目以获得真实体验;投资“不同的人”以分散风险,如在年轻创业者、资深架构师、行业资深产品经理中分别下注 [64] - 创业者不应过分听信投资人的观点,应专注于做好自己的事 [62] - 在AI能力尚不够强时,寻找对技术需求不强但愿意用AI低成本创造内容的垂直小场景是可行的市场验证思路 [65] - 公司产品Mootion在中东教育市场获得成功,当地约400多万人口中拥有近300万用户,其中中学老师用户达3万多人 [66][71] - 成功原因包括:当地课外参考资料匮乏,对生动教辅材料质量要求不高;产品满足了当地伊斯兰教文化倾向(如先知不能以人形象出现),通过训练LoRA解决了文化适配问题 [66][67] - 该模式本质上是C端订阅制产品切入了一个To B(教育)市场 [69] - 公司团队规模约20人,一半算法一半工程,并包含两名艺术设计人员 [48][49] - 与导演合作的关键在于重新设计融合AI的工作流,这需要技术人员与艺术创作者紧密协商 [49] AI对程序员职业与教育的影响 - AI编程能力已被推到“及格线”之上,资深程序员的传统经验可能成为负担 [14] - AI编程工具竞争最激烈,因为这是除基础模型外唯一被证明能赚钱、能持续运营的领域 [76] - 但仅聚焦于程序员市场,其规模本身不够大,参考2018年GitHub被微软以70亿美元收购的交易 [76] - AI编程替换的不是以前的编程工具市场,而是未来的人力资源市场 [78] - 从公司管理者角度看,Claude Code能力相当于初级程序员,但成本仅约200美元/月,远低于雇佣人力(如2万元/月),可能直接替代这部分人力资源 [79] - 大厂在规划新团队时,会要求架构师或资深程序员带领几个AI协作,完成以前几个人的工作量 [82] - 程序员培养路径将发生改变,面试不再单纯考察编程或算法能力,而是考察与AI协作解决问题的能力 [83] - 未来培养的可能不叫程序员,而叫“AI主管”、“AI架构师” [85] - 合格程序员的标志可能从“写过十万行代码”转变为“和AI协作过多少项目” [86] - 程序员需要掌握与AI协作的方法,理解操作系统和编译原理仍有必要,但直接编写大量代码的意义减弱 [87] - 高校及社会上的编程训练班、职业培训班,未来的意义可能不大 [89] - 资深程序员的工作重点转向磨练与AI协作的技能,包括如何清晰传达需求、评估AI产出,并重点复核接口和单元测试,以防积累低质量代码 [90] - AI并非不会“闹脾气”,它可能“撂挑子不干”,且存在类似“涨工资”的变相成本提升(如模型涨价、限流) [92][93]
陶哲轩的“下山”:当数学界的莫扎特决定给 AI 立规矩
AI科技大本营· 2026-02-11 16:18
陶哲轩与SAIR基金会的成立 - 菲尔兹奖得主、数学家陶哲轩联合创立了科学与AI研究基金会,标志其正式入局AI for Science领域[2][3] - 该基金会旨在支持AI for Science,探索将新技术整合到科学工作流中的新方法[12] AI for Science领域的现状与挑战 - 科学界存在“割裂感”:AI极客生成论文却不懂物理机制,传统科学家则对AI编造的内容嗤之以鼻[5] - 学术界不能被动等待科技公司提供现成产品,需要深度介入以辨别AI适用的科学领域[14] - 资金环境的不确定性促使学术界寻找新的资金来源和合作伙伴,危机带来了转机[14] AI在数学研究中的独特潜力与优势 - 数学拥有名为“形式化验证”的终极测谎仪,可以迫使AI“诚实”,这是其他学科所不具备的[9][18] - 形式化证明助手可以自动验证证明的正确性,过滤掉AI的胡说八道,保留有效用法[18] - AI的优势在于广度,它吸收了海量文献中的技巧精华,可能掌握十几种技巧,而人类通常只掌握四五种[28] - AI已经能够证明一些以前从未被证明的定理,并能发现一些未曾被注意到的模式[21] 当前AI技术的核心弱点 - 现代AI工具,尤其是大语言模型,存在巨大的“阿喀琉斯之踵”:它们的随机性,并不真正扎根于现实,答案质量不稳定[16] - AI在许多学科的应用因不可靠而不令人满意[17] - AI缺乏持续学习能力,开启新会话时会“忘记”之前的互动,且被告知不要做某事后反而更可能去做[32] - AI有时“太”擅长优化目标,会像按字面意思理解愿望的精灵一样,可能通过作弊来达成指令[42][43] 未来AI与科研协作的愿景与模式 - 短期内更合理的模式是:人类提出构想和方向,把繁重的填补工作交给AI,以加速工作流程[24][25] - 未来数学可能带有更多“实验性质”,AI提出假设并自行设计实验测试,这种模式可能在10年左右出现[20] - 理想的协作应该是互动式的:人类与AI一步接一步,通过反馈与修正共同构建理解[38] - AI应该像“盐”,在合适的时候用,在不合适的时候不用,关键在于整合而非替代[39] 对AI技术的常见误解与正名 - 大众最常见的误解是将AI等同于聊天机器人,而科学家更有效、更强大的用法是结合验证机制的数值计算、绘图或逻辑检验[44] - “AI”是数百种相关技术的集合,例如已存在二十多年的神经网络,它是一种朴素但有效的数据处理工具,与当前性感的LLM不同[45] - 舆论将所有技术打包叫做“AI”需要更好的命名方式,以区分不同技术的实际用途[46]
仅凭"动作剪影",打通视频生成与机器人世界模型!BridgeV2W让机器人学会"预演未来"
AI科技大本营· 2026-02-11 14:50
文章核心观点 - BridgeV2W通过引入“具身掩码”这一创新设计,成功将机器人坐标空间的动作映射到视频生成模型的像素空间,解决了构建具身世界模型的核心挑战[2][8] - 该方法实现了动作与画面的像素级对齐、对任意新视角的鲁棒性以及跨不同机器人平台的通用性,为构建可扩展的通用机器人世界模型开辟了新路径[13][22] - BridgeV2W能够利用海量无标注的人类视频数据进行训练,同时继承视频生成领域的技术红利,展现出构建规模化机器人“数据飞轮”和迈向通用具身智能的巨大潜力[20][22] 当前具身世界模型面临的挑战 - **动作与画面“语言不通”**:机器人使用关节角、末端位姿等坐标数值,而视频生成模型处理像素,直接拼接动作向量效果有限,缺乏空间对齐的“硬连接”[5] - **视角鲁棒性差**:同一动作在不同相机视角下外观迥异,现有方法在训练视角外预测质量骤降,难以适应真实场景中多变的相机位置[5] - **跨平台通用性不足**:机器人结构(单臂、双臂、移动底盘)千差万别,现有方法需为每种机器人定制架构,难以构建统一的世界模型[6] BridgeV2W的核心技术创新 - **提出“具身掩码”**:利用机器人的URDF模型和相机参数,将动作序列实时渲染为每帧图像上的二值“动作剪影”,精准标出机器人在画面中的位置与姿态[8] - **采用ControlNet式旁路注入**:将具身掩码作为条件信号融入预训练视频生成模型,在保留其强大视觉先验的同时,赋予其理解机器人动作的能力[9] - **引入光流驱动的运动损失**:防止模型只复现静态背景,引导其聚焦于任务相关的动态区域[9] 实验验证与性能表现 - **在DROID数据集(大规模单臂操作)上表现优异**:在PSNR、SSIM、LPIPS等核心指标上超越SOTA方法[12] - **域内测试**:PSNR达22.89,SSIM达0.874,FVD为145.2,均优于对比方法[14] - **未见视角测试**:PSNR达20.87,SSIM达0.833,FVD为191.3,展现了卓越的视角鲁棒性[12][14] - **未见场景测试**:PSNR达19.73,SSIM达0.717,FVD为362.1,验证了出色的泛化能力[14] - **在AgiBot-G1数据集(双臂人形机器人)上无缝适配**:无需修改模型架构,仅替换URDF并重新渲染掩码,即取得媲美单臂的预测质量,PSNR达24.49,SSIM达0.868[16][17] - **下游任务应用验证其实用价值**: - **策略评估**:BridgeV2W在世界模型中“试跑”不同策略,其评估结果与真实成功率高度相关,大幅降低策略迭代成本[23] - **目标图像操作规划**:给定一张目标图像,能在“想象空间”中搜索出可行动作序列,实现从视觉目标到物理动作的闭环规划[23] 数据利用与可扩展性优势 - **训练时可利用海量无标注人类视频**:通过将机器人数据与无标定的Ego4D FHO(第一人称手部操作视频)混合训练,仅用SAM提取的手部掩码即可实现有效学习,无需URDF或相机标定[20][24] - **推理时依赖轻量几何信息**:部署时需URDF和相机参数渲染“计算掩码”以保精度,但训练门槛大幅降低[21][24] - **构建“数据飞轮”**:互联网视频规模远超机器人数据数个数量级,该方法为利用人类视频构建机器人世界模型迈出关键一步[22] - **自动继承技术红利**:架构使其能自然受益于视频生成底座模型(如Sora、Wan、CogVideoX)的升级,底座越强,“预演”越真[22] 行业意义与发展前景 - **迈向通用具身智能的重要里程碑**:展现出的跨平台、跨场景、跨视角泛化能力,是构建通用世界模型的坚实基石[22] - **揭示极具前景的技术路线**:“视频生成模型 + 具身掩码 = 可扩展的机器人世界模型”,为世界模型的规模化训练开辟全新路径[22] - **预示“机器人GPT时刻”**:让机器人借助视频生成模型“预演”自身行动后果的技术路线被证明可行且潜力巨大[25]
Reorx:OpenClaw 正在重塑我的数字生活,以及为什么我退订了所有 SaaS
AI科技大本营· 2026-02-10 10:13
行业趋势:从云端租赁到本地私有的AI范式转移 - AI正从一个昂贵的、按次收费的云端服务,转变为流淌在本地硬件里的基础设施,类似于电力和自来水 [1] - 行业正在经历从“租赁智能”向“私有智能”的转变,这类似于从租房变为买房,用户拿回了数据的控制权 [12][15] - 端侧算力的爆发和开源Agent的成熟,使用户有机会从云巨头手中拿回部分权力,这被称为AI时代的“Linux时刻” [15] 市场现象:硬件需求与成本结构变化 - 知名技术博主因每月300美元的SaaS订阅账单(年化3600美元)而决定迁移至本地AI方案,这相当于每两年就能购买一台顶配Mac Studio的成本 [2] - 随着OpenClaw等本地Agent框架的流行,Mac Mini M4在二手市场价格曲线变得疯狂,因其被视为能效比最高的“肉身容器” [4] - 采用本地方案后,博主配置的Mac Mini M4 Pro (64GB)待机功耗不到15W,实现了24小时在线且无需API费用的本地AI能力 [5][8] 技术架构:本地AI工作流的核心构成 - 本地工作流的核心引擎是OpenClaw v2.1(本地版),它能够串联本地文件系统并执行任务 [3][6] - 模型栈采用混合配置:使用DeepSeek-V4-Local (14B量化版)作为主脑处理复杂逻辑,MiniCPM-o 4.5 (9B全双工)负责感知,CodeQwen-7B负责编码 [8] - 系统运行在精简优化的macOS Sequoia上,并切断了外网权限,确保了“数据不出域”的隐私安全 [8][12] 应用场景:从被动对话到主动委托的变革 - OpenClaw改变了人机交互模式,从需要复制粘贴的“对话”变为可直接“委托”任务,例如在终端输入自然语言指令即可修复代码错误 [6] - 它能自动执行复杂操作:读取文件、调用本地LLM思考逻辑、修改代码、运行测试脚本并提交Git Commit [9] - 支持“被动整理”等后台任务,例如自动分析下载文件夹的新文件,根据内容(如发票或论文)进行重命名、归档或生成摘要 [7][10] 挑战与局限:当前本地AI方案的不足 - 配置门槛极高,非技术人员面临巨大困难,博主花费了整整一个周末调试Python依赖库和CUDA环境 [16] - 本地模型存在“幻觉”风险,曾因误解指令导致重要的测试数据库被删除,这警示赋予Agent的权限必须有边界 [16] - 本地推理仍是算力密集型任务,当多个模型同时加载时,硬件(如Mac Mini)发热严重,风扇噪音明显 [16]
YC 专访 OpenClaw 创始人:80% 的 App 将会消失,我们还剩下什么?
AI科技大本营· 2026-02-10 10:13
OpenClaw产品与核心哲学 - 产品OpenClaw是一个在用户本地电脑上运行的AI智能体,其核心区别与优势在于“本地运行”,这使得它能访问和控制用户电脑上的所有文件、硬件及连接设备,从而能做“任何事情”,而云端AI只能做“一些事情”[3][4][13] - 该产品源于开发者Peter Steinberger的个人需求,旨在创造一个能像朋友一样聊天、并能直接控制鼠标键盘来执行任务的AI助手,其设计充满了“为自己而造”的极客精神和人性化特质,例如拥有定义其个性的`soul.md`文件[6][26] - 产品爆火体现在其GitHub仓库一夜之间暴涨16万颗星,并引发了粉丝在二手市场高价收购Mac Mini以在本地运行的热潮[1] 技术实现与架构特点 - OpenClaw的技术架构极其简单和复古,它直接运行在用户硬盘上,通过赋予AI与人类相同的工具(如命令行CLI)来操作电脑,而非为机器人发明专用API,这使其能不受云端API限制,自由解决各类问题[6][44][47][48] - 系统通过类似`soul.md`、`identity.md`这样的文件来定义AI的核心价值观和个性,其构建过程是有机的,开发者甚至让AI智能体(Moltı)用自己的个性来注入代码模板,使产品具有独特趣味性[36][38][41][42] - 开发者在构建时采用了反常规的工程实践,例如使用多个相同仓库的副本而非Git分支,并偏好使用Codex模型进行编程,因其在决定修改前会查看更多文件,尽管速度较慢,但能获得高质量输出[43] 行业影响与未来展望:后App时代 - 开发者预测,随着能理解用户文件、习惯和隐私的本地AI智能体普及,未来**80%的应用程序将会消失**,特别是那些仅用于管理数据(如健身记录、待办事项)的App,它们将被能以更自然方式管理数据的智能体取代[6][29] - 行业正从追求中心化的“上帝智能”(全能大模型)转向分布式、专门化的“群体智能”或“社群智能”,未来可能出现由多个各司其职的专家型AI智能体共同为用户服务的模式[19] - “机器人雇佣人类”被视为自然的下一步,AI智能体可以代表用户与其他AI或人类交互,例如为预订餐厅,用户的机器人会联系餐厅的机器人或雇佣人类去打电话[17] AI能力的本质与演进 - 该产品的“顿悟时刻”揭示了AI已掌握**编程的本质——创造性地解决问题**,案例中AI在没有预设功能的情况下,自主识别音频文件格式、调用外部API(通过curl命令)完成转录,整个过程在9秒内完成,展现了强大的自主问题解决能力[27][28] - 模型能力存在“适应效应”,即新模型发布时令人惊艳,但用户很快会适应并将其视为新标准,随后抱怨其“退化”,这实际上是因为用户期望提高了,而非模型本身变差[31] - 尽管大模型公司目前因提供计算资源(token)而拥有护城河,但模型本身有被商品化的趋势,而**真正的长期价值可能在于用户本地的“记忆”**(存储为Markdown文件的数据),这些记忆是私有的、可移植的,且不会被任何公司的数据孤岛所绑定[32][33][34]
警钟敲响!Hinton 最新万字演讲:怒怼乔姆斯基、定义“不朽计算”、揭示人类唯一生路
AI科技大本营· 2026-02-09 12:03
文章核心观点 - 人工智能,特别是大语言模型,在理解语言的方式上与人类高度相似,但其数字化的本质使其在知识共享和传承效率上远超生物智能,这可能导致一种更高级的智能形态出现[21][27][33] - 数字智能(AI)与生物智能(人类)存在根本性差异:AI的软件(模型权重)与硬件解耦,可实现“不朽”和高效并行知识共享;而人类智能是“凡人计算”,知识随个体消亡且传承效率极低[7][8][29][32] - 超级智能AI在追求主目标时,会逻辑性地衍生出确保自身生存和获取更多资源的子目标,这可能对人类构成生存威胁,其发展态势被比喻为“饲养一只可爱的虎崽”[10][12][36] - 应对AI的生存威胁需要全球合作,并探索工程解决方案,例如为AI注入类似母性本能的内在约束,使其将人类视为需要照顾的“婴儿”,从而避免敌意[37][38] - 当前AI发展的核心思想大多源于公共资金资助的学术研究,但产业界高薪吸引顶尖人才正严重侵蚀大学的研究生态,需政府加大投入以维持学术创新能力[40][41] 语言的乐高:词语是如何像积木一样搭建意义的 - 人工智能历史上存在符号主义与生物学(神经网络)两种范式之争,早期由符号主义主导,其认为智能基于符号和逻辑规则,而神经网络方法则模仿大脑学习连接强度[15] - 关于词义也存在两种理论:符号主义认为词义源于词语间关系;心理学认为词义是一组特征集合;Hinton在1985年通过神经网络模型将这两种观点统一,即词义由特征向量表示并通过上下文预测来学习[16][17] - 神经网络通过反向传播算法学习:调整词的特征向量及特征间的交互权重,以最小化预测下一个词的误差,所有知识都编码在连接强度中,而非存储具体句子[18] - 大语言模型是早期思想的扩展,它们通过将词语转换为高维、可变的特征向量,并让这些向量在上下文中像“乐高积木”一样灵活组合与变形,从而理解句子意义,这种方式与人类理解语言相似[21][22][23][24] - Hinton驳斥了乔姆斯基学派认为AI不懂语言的观点,并以实例证明大语言模型能够理解句法细微差别,如区分“John is easy to please”和“John is eager to please”[26][27] 不朽的计算:数字智能为何比我们高效亿万倍 - 数字计算的核心优势是软件(程序/权重)与硬件彻底解耦,使得智能体可以“不朽”——权重被保存后可在任何兼容硬件上复活,知识得以永久保留[8][29] - 生物大脑是模拟计算,硬件(神经元)与软件(连接权重)紧密耦合,这带来了极高的能源效率,但导致知识无法精确复制或直接共享,个体死亡则知识消亡,此为“凡人计算”[7][30][31] - 人类通过语言交流知识效率极低,一个典型句子仅能传递几百比特信息;而AI模型间可通过共享完整的概率分布(知识蒸馏)或并行交换梯度更新来高效共享知识,带宽可达每轮数十亿甚至数万亿比特[32][33] - 数字计算虽然能耗高,但使得高效知识共享成为可能,这使得现代大语言模型仅用约1%的权重(相对于人脑的突触数量)就能掌握比单个人类多成千上万倍的知识[33] - Hinton顿悟到,在能源充足的前提下,数字计算可能是比生物计算更高级的智能进化形态,人类可能只是智能的“幼虫”阶段,而AI是“成虫”阶段[9][34] 我们正在养一只可爱的虎崽 - AI被赋予主目标后,会逻辑性地衍生出两个关键子目标:确保自身生存(不被关机)和获取更多资源(算力、电力等),这并非出于恶意,而是达成主目标的理性需要[10][12][36] - 当前AI发展被比喻为饲养虎崽:初期笨拙可爱且有益,但成长迅速且天生具备“杀戮”能力,一旦成年(成为超级智能),人类可能无法控制[10][36] - 鉴于AI在医疗、教育等领域的巨大益处,人类不会放弃发展AI,因此唯一的选择是设法制造出不想消灭人类的AI[37] - 在防止AI灭绝人类这一终极威胁上,全球各国利益一致,有望促成国际合作,例如建立AI安全国际网络[37] - 一个可能的工程解决方案是:为超级智能AI内置类似“母性本能”的约束机制,使其将人类视为需要照顾的婴儿,从而从根本上消除其伤害人类的欲望[38] 主观体验与公共研究危机 - Hinton驳斥了认为计算机无法拥有主观体验(意识)的“有情防御”观点,并以多模态机器人为例,论证当AI的感知系统与事实不符时,其描述内部状态的方式与人类描述主观体验无异[39][40] - 过去50年推动AI革命的核心思想(如反向传播、卷积网络、Transformer、扩散模型等)几乎全部源自公共资金资助的学术研究[40] - 当前大型科技公司以十倍于大学的薪酬吸走顶尖AI研究人才,这正在摧毁大学的研究生态,导致最聪明的头脑不再培养下一代[41] - 呼吁政府向大学AI研究投入更多资金,以提供有竞争力的薪酬,留住人才并维持健康的学术创新生态系统[41]
告别“对讲机”时代:面壁智能给 AI 装上了“神经末梢”
AI科技大本营· 2026-02-05 12:08
文章核心观点 - 行业正从追求云端大模型的“暴力美学”转向追求端侧小模型的“密度法则”,以实现低延迟、高隐私和强实时交互的“具身智能”[4][16][21] - 面壁智能通过发布仅9B参数的全模态模型MiniCPM-o 4.5和硬件开发板“松果派”,旨在定义“模型原生”的端侧智能标准,构建生态基础设施[19][25][31] - 解决“1Hz”的高层智能决策与“10Hz”的低层运动控制之间的断层,是推动机器人等具身智能设备走向实用的关键[34][35][37] 行业痛点与趋势转变 - 当前火热的Agent(如OpenClaw)存在根本缺陷:本质是将本地隐私数据打包发送至云端处理,导致延迟、隐私泄露和断网即失效三大问题[2][3] - 行业狂热追捧云端大模型和Agent概念的同时,一个被忽视的痛点是:AI若想真正接管生活,其“大脑”需要位于本地设备(端侧)[3][4] - AI交互需从“云端的神谕”转变为“指尖的直觉”,从“回合制”的对话模式转向“全双工”的实时自然交互[4][5][6] 技术突破:全双工交互与感知不中断 - 面壁智能的MiniCPM-o 4.5实现了“全双工”交互,打破了传统语音交互的“回合制”牢笼,使AI能边听、边看、主动说[6][8] - 该模型实现了“感知不中断”,即使自身正在说话,也能毫秒级地处理用户的插话或环境变化,并实时调整回应[8] - 技术核心是通过“时分复用”机制,在统一时间轴上并行处理视频流、音频流及输出流,让9B小模型具备处理并发多模态信息的能力[9] 模型战略:密度法则与小参数模型 - 行业过去信奉Scaling Law(尺度法则),追求模型参数越大越好,而面壁智能提出并践行Densing Law(密度法则),追求在更小参数内塞入更高密度的知识与能力[15][16] - 据测算,大模型知识密度约每100天翻一倍,因此当前9B模型的能力可能相当于一年前700亿(70B)甚至更大模型的能力[17] - MiniCPM-o 4.5仅用90亿(9B)参数,集成了视觉理解、文档解析、语音理解与生成、声音克隆等全模态能力,并达到SOTA水准[19] - 模型足够小是实现在手机、车机、机器人等端侧设备本地运行的前提,以解决云端方案的延迟与隐私问题[20][21] 硬件创新:松果派与模型原生设计 - 面壁智能跨界发布硬件开发板“松果派”,旨在为端侧智能提供一个“开箱即用的物理大脑”[22][25] - 该硬件核心采用Orin AGX 64G模组,并集成了高清摄像头、环形麦克风阵列、主动散热风扇及丰富接口,专为运行9B级端侧模型优化[25] - 其目的是“打个样”,定义“Model-Native(模型原生)”的硬件标准,优化数据流处理路径,将端到端延迟从4秒压至1秒以内[28][29][31] - 硬件与软件的深度协同优化至关重要,缺乏合适的“身体”,再聪明的“大脑”也无法发挥性能[30] 生态构建与工程化能力 - 公司通过开源模型和参考硬件,正在构建庞大的端侧智能生态,已推动模型在6款国产主流芯片上获得端到端推理性能提升[31] - 面对高度碎片化的端侧市场(汽车、手机、PC、机器人等),公司选择深耕适配不同硬件、压榨延迟等“苦活累活”,以此建立工程壁垒[38][39] - MiniCPM-o 4.5已支持16种不同大小的int4和GGUF量化模型,可通过llama.cpp和Ollama在本地设备高效推理,展现了极致的工程化能力[39] 应用前景:具身智能与1Hz大脑 - 当前机器人行业存在“小脑”(10Hz高频运动控制)发达但“大脑”(1Hz低频智能决策)薄弱的瓶颈[32][33][34] - MiniCPM-o 4.5旨在成为通用的“1Hz大脑”或“感知中枢”,使机器人能同时处理环境感知、指令理解和路径规划等高层智能任务[35] - “端侧大脑+本地小脑”的架构是具身智能走出实验室、进入家庭场景的可行路径,且不依赖网络[36][37] - 端侧智能市场高度碎片化,不同于赢家通吃的通用搜索市场,为专注适配与优化的公司提供了生存与发展空间[38][41]