AI科技大本营 - 财报，业绩电话会，研报，新闻

AI科技大本营

搜索文档

退隐3年后回归，周末写的AI一夜刷屏、一周拿下10万Star增速超Linux，Clawdbot之父首次长谈：如今几乎不看自己发布的代码

AI科技大本营· 2026-02-04 18:07

OpenClaw (Clawdbot) 项目概况 - 项目在不到一周内获得10万颗GitHub Star，Fork数迅速攀升至2.2万，增长曲线超越了Linux内核、Vue、React等经典项目[1] - 项目最初名为WhatsApp Relay，后更名为Clawdbot，因侵权投诉改为Moltbot，最终定名为OpenClaw，并以其“龙虾”Logo闻名[3][5][6] - 该项目几乎完全由一人主导开发，是开发者Peter Steinberger利用周末时间在两个月内构建的个人项目[8] 创始人背景与PSPDFKit创业历程 - 创始人Peter Steinberger曾创办并打造了PSPDFKit，这是一款专业的PDF开发工具套件，被广泛应用于超过10亿台设备[9][16] - 其开发iOS应用的契机源于2009年一次糟糕的移动网页体验，促使他开发了一款交友客户端并上架App Store，第一个月收入约1万美元[19][20][21][24] - 在帮助他人重写一个崩溃的杂志App后，他正式进入PDF阅读器开发领域，并从中抽离出PDF组件进行商业化，最初以每份约200美元的价格售出三份[25][26][27] - PSPDFKit的名字在五分钟内确定，公司运营了13年，其市场策略专注于开发者社区，通过优质产品、技术博客和会议进行推广[30][31] - 公司采用远程优先模式，在创始人出售股份时团队约70人，现已发展至约200人[33] 软件开发理念与商业模式 - 公司认为软件体验比功能数量更重要，致力于像苹果一样用爱和精致打磨产品[29] - 将产品定位在“困难且不有趣”的象限，认为解决开发者不想做的难题才是好的商业利基市场[36][37] - 企业销售采用定制化定价模式，因为不同规模公司（如自由职业者与财富500强）的使用方式和价值不同，统一价格会排除某一方客户[36] - 重视客户支持，采用“list in reverse”策略，力求在五分钟内回复工单，创始人曾亲自花费两个月重构架构以解决客户遇到的性能问题[39] AI赋能下的新开发范式 - 在Claude、Codex等大模型工具加持下，创始人Peter Steinberger在2024年1月一个人提交了超过600次代码[10] - 其工作方式已转变为“智能体工程”，利用AI代理进行开发，自身角色更像“建造者”或“架构师”，关注系统架构而非逐行代码审查[58][63][66] - 开发流程强调“闭环”，即让AI代理能够自己调试、编写测试并验证输出，这被认为是效率大幅提升的关键[68][72] - 使用AI工具后，文档和测试的生成质量非常高，创始人通过向模型阐述设计思路和权衡来让其自动生成文档和测试，这已成为流程的一部分[74] - 在AI辅助下，重构和尝试新方向的成本极低，例如Clawdbot从单Agent、单Provider架构改为多Agent、多Provider架构仅用了约三小时，而手动编码可能需要两周[85][86] Clawdbot的产品愿景与特点 - 项目的核心愿景是创建一个高度个人化、数据本地的AI助手，能够深度理解用户上下文并主动提供帮助，类似于电影《Her》中的概念，被认为是Siri未来形态的雏形[89][90][108] - 产品始于一个简单的“WhatsApp Relay”想法，让用户能通过WhatsApp从手机触发电脑操作，在真实使用中其能力不断扩展，让开发者本人也感到上瘾[92][94] - 项目通过极致的体验设计隐藏技术复杂性，为用户提供“魔法”般的初次体验，包括自动环境检测、引导配置、以及为AI助手创建独特身份和灵魂的启动仪式[114][115][117][118] - 系统支持多种通讯平台（如WhatsApp、Discord、Slack等），并即将支持电话呼叫功能，其背后是一个能够自我更新、修改配置的智能体系统[112][120][135] 对行业及开发模式的深远影响 - 采用当前AI工具，可以用原来30%的资深人员规模运营起类似PSPDFKit这样的公司，但要求人员具备深厚的系统理解能力和“放权”给AI代理的思维[80] - 传统代码审查已经过时，Pull Request更应被视为“Prompt Request”，其价值在于帮助理解功能目标，而非代码本身，合并时经常基于PR的意图由AI代理重新设计和实现[12][124][125] - 大公司难以高效采用AI，因为这不仅是工具升级，更需要彻底重构公司的运作方式和代码库，以适配“对Agent友好”的新范式[122][124] - 未来的优秀工程师需要具备强烈的产品视角、系统级理解能力和架构品味，并通过持续实践（“玩”和“拼命干”）来掌握驾驭AI代理的隐性技能[127][138][139] - 新一代开发者有机会以全新的、未被旧经验束缚的方式使用AI代理，建立系统理解的方式可以是通过AI深度分析复杂的开源项目设计[140]

Artificial Intelligence

Artificial Intelligence

2026 奇点智能技术大会上海站来袭，解码AI Agent、世界模型与氛围编程等新范式

AI科技大本营· 2026-02-02 16:46

文章核心观点 - 行业正经历一场规模为工业革命十倍、速度更快的“十倍速”范式转移，AI正从赋能工具进化为变革企业流程与组织范式的力量[1] - 传统的“前端”、“后端”、“全栈”等开发职位概念将消失，未来将只有“AI Agent工程师”[1] - 为应对此变革，由CSDN与奇点智能研究院联合举办的全球机器学习技术大会已升级为“奇点智能技术大会”，旨在推动从“传统研发”到“Agent工程师”的代际跃迁[2][3] 大会概况与目标 - 2026奇点智能技术大会·上海站将于4月17-18日召开，汇聚50多位技术领袖与1000多位来自金融、智造、汽车、通信等行业的精英听众[3] - 大会聚焦AI从技术突破走向规模化落地的核心逻辑，即如何利用Agent范式驱动企业增长，并将算力投入与万亿级Token消耗转化为组织的正向投资回报率[5] - 大会基于“AI原生软件研发成熟度模型 AISMM”设立了十二大专题，作为“Agent工程师”在2026年的认知地图[5][6] 技术专题方向 - **大语言模型技术演进**：关注大语言模型的技术发展路径[5] - **多模态与世界模型**：涉及多模态理解及对物理世界的建模[5] - **AI计算平台与性能优化**：聚焦底层算力基础设施与效能提升[5] - **AI原生软件研发与氛围编程**：探讨以AI为核心的新型软件开发范式[5] - **智能体系统与工程**：专注于AI Agent的系统化构建与工程实践[5] - **AI原生应用创新与开发实践**：涵盖基于AI原生产品与应用的创新开发[5] - **智能体使能的DevOps**：研究智能体如何赋能开发运维一体化流程[5] - **大模型系统架构**：关于大型模型系统的架构设计[5] - **AI Infra基础设施与运维**：涵盖人工智能基础架构的搭建与维护[12] - **具身智能与智能硬件**：涉及智能体与物理实体结合的技术[12] - **开源模型与框架**：关注开源生态中的模型与工具框架[12] - **AI+行业落地实践**：聚焦人工智能在各垂直行业的实际应用案例[12] 专题出品人阵容 - **段楠（京东集团副总裁、探索研究院副院长）**：原微软亚洲研究院资深首席研究员，研究方向包括自然语言处理、代码智能、多模态基础模型、智能体[9][11][13] - **李永彬（阿里巴巴通义实验室对话智能&代码智能负责人）**：负责通义星尘、通义灵码、通义晓蜜、通义听悟等产品的大模型技术，发表90余篇国际顶会论文[14][16] - **汪晟杰（腾讯云开发者AI产品负责人）**：负责腾讯CodeBuddy产品，拥有丰富的软件架构设计、产品管理与AI研发提效经验[17][19] - **何万青（清程极智副总裁）**：曾任燧原科技高级总监、英特尔首席工程师、阿里云高性能计算负责人，专注高性能计算与AI应用性能调优25年[20][22][23] - **陈景东（蚂蚁集团基础智能部技术总监）**：负责多模态大模型技术研发，其项目曾获CCF科技进步二等奖，论文引用量超过5300次[25] 首批演讲嘉宾 - **李建忠（奇点智能研究院院长，CSDN高级副总裁）**：大会主席，提出科技创新的“范式转换立方体 ParaShift Cube”[29][31] - **王炳宁（腾讯微信搜索AI算法研究方向负责人）**：前百川智能预训练负责人，主导发布的模型在GitHub上超过1万Star，HuggingFace下载量超过2000万次[32][34] - **张俊林（新浪微博首席科学家及AI研发部负责人）**：中国中文信息学会理事，技术书籍作者[36][38] - **邓金秋（京东定价算法负责人）**：曾任Uber和Bloomberg算法专家，其团队荣获2024年INFORMS Prize，是该奖项设立34年来首个获奖的亚洲团队[39][41][42] - **陆承强（小红书AI搜索生成算法负责人）**：研究方向包括大模型预训练/后训练、Agent、RAG等，谷歌学术被引用次数约六千余次[43][45] - **许辰人（北京大学博雅长聘副教授）**：研究领域为超视智能（具身智能物联网与多模态驱动科学与工程智能），其研究成果获CCF技术发明一等奖（2025）并已在华为鸿蒙、阿里物流等系统大规模商用[46][48] - **宫叶云（微软亚洲研究院人工智能推理组负责人）**：发表超过80篇顶级会议论文，其研究成果广泛应用于微软广告业务和Bing搜索服务[50][52] - **王佳琦（京东探索研究院研究总监）**：多模态理解大模型研发团队负责人，发表论文60余篇，Google Scholar引用次数超过20,000次[54] - **刘树杰（微软亚洲研究院（MSRA）香港首席研究员）**：研究方向包括口语语言处理、多模态大语言模型以及医疗人工智能，发表论文100余篇，研究成果应用于Microsoft Translator、Skype等多款产品[55][57][58] - **黄浩洋（京东集团多模态基础模型团队负责人）**：曾主导微软亚洲研究院多语言与多模态基础模型研发，推出覆盖100种语言的Unicoder及全球首个多语言多模态预训练模型M3P[59][61] 目标受众与合作 - 大会欢迎在AI原生软件研发、多模态世界模型、具身智能、AI Infra性能优化等领域攻坚，且其AI Agent已为企业带来实际增长的团队领导者参与分享[63] - 大会同步开放技术生态合作伙伴、企业专场共建、行业解决方案联合展示等多种合作形式[65][68]

人工智能

Agent范式

Artificial Intelligence

Artificial Intelligence

GPT - 5

通义星尘

通义灵码

谷歌AI掌门人、诺奖得主Demis：AGI 需要打破“金鱼记忆”，而谷歌无论泡沫破裂与否都将是赢家

AI科技大本营· 2026-01-29 18:05

文章核心观点 - Demis Hassabis认为AI进步从未停止，行业“撞墙论”是基于对数据枯竭的误解，现有技术仍有巨大优化空间[4] - 通往AGI可能需要一两个全新架构的突破，而非仅靠扩大现有模型规模，但大模型将是未来AGI系统的核心基石[5][6] - AGI应有科学定义，即能执行人类所有认知任务的系统，包括达到人类创造力巅峰和具备物理智能，预计距离实现还有5到10年[10][12][13][14] - 智能眼镜是AI交互的终极形态，能实现解放双手的“通用数字助理”，成熟产品可能很快面世[3][18][19][22] - AI商业模式需谨慎，维护用户信任至关重要，广告模式若损害信任将摧毁产品价值[22][23][24] - 对于行业竞争与“泡沫论”，拥有深厚技术栈和庞大业务底座的公司无论行业周期如何都将处于有利位置[3][26][27] - 从哲学视角看，信息是宇宙最基本单元，AI是宇宙信息处理过程的加速器，将帮助人类解决重大科学问题[29][30][31] - AI不会取代人类，而是承担繁重信息处理工作，赋能人类专注于更高级的创造与探索，类似望远镜对天文学家的作用[31][32] 对AI发展现状与未来的看法 - 一年前行业质疑AI进步停滞，但DeepMind内部从未质疑，一直看到性能在稳步、巨大的提升[4] - 通过预训练、后训练、思维链等现有技术的微调与组合创新，仍能从现有架构和数据中“榨取”出巨大提升空间[5] - 当前大语言模型存在“金鱼记忆”的根本性局限，会话结束便“失忆”，持续学习能力是当前短板[5][8] - 解决持续学习问题已有线索，关键在于让模型在“出厂”后与用户交互中继续学习并改变自身，而不仅是将数据放入上下文窗口[8] - 真正的AGI需具备持续学习、高效记忆机制以及为长远目标进行多步推理的长期规划与推理能力[11] - AGI需包含物理智能，即与物理世界交互的灵巧性，这是当前机器人的短板[13] - 超级智能是指能完成人类生理结构无法做到之事（如在14维空间思考），是AGI之后的话题[14] - 多模态模型（如视频生成模型）因构建了物理世界模型、理解因果关系，在通往AGI的道路上可能比纯语言模型更关键[15] 对产品形态与商业化的思考 - 当前举着手机使用多模态AI的体验笨重，智能眼镜才是解放双手、实现无缝“通用数字助理”的最佳形态[16][17][19] - 谷歌正与Warby Parker、Gentle Monster及三星等伙伴合作打造下一代智能眼镜设备，成熟产品可能今年就能看到[22] - 目前没有在Gemini App中加入广告的计划，维护用户信任是首要原则[22] - 在某些特定场景（如旅行推荐）下，广告可作为有用信息整合，但必须建立在用户完全知情且可控的前提下[23] - 商业模式创新应是“原生”的，不能损害用户对AI助理的核心信任[24] 对行业竞争与可持续性的评估 - 认可Anthropic的Claude是优秀模型，尤其在编程领域，但Gemini 3的编程能力同样有信心[25] - AI的竞争是更广泛的战场，包括多模态搜索、YouTube创作工具、安卓系统整合等，谷歌正将AI深度整合进其庞大产品线中[25][26] - 关于行业崩溃的理论（训练回报率下降、推理成本趋近免费导致基建过剩）是合理推演，但并非最可能发生的情况[26] - 行业存在泡沫现象，尤其是一些仅凭PPT融资的初创公司，其狂热不可持续[26] - 像Alphabet这样拥有深厚技术积累和庞大业务底座的公司，无论泡沫是否破裂都将处于有利位置，因为现有技术已足以驱动其核心业务的效率提升与体验变革[3][27] 对AI本质与人类未来的哲学观点 - 信息是宇宙最基本的单元，而非能量或物质，宇宙演化可被视为信息处理过程[29] - 生命系统本质上是信息处理系统，在抵抗熵增，进化是筛选能稳定保存和复制信息结构的过程[29] - AI是宇宙信息处理过程的加速器，帮助人类更高效地解构、理解和重组信息[29] - AlphaFold解决蛋白质折叠问题是“信息论”视角的胜利，通过数据的信息拓扑结构找到了规律[30] - AI将帮助人类破解物质、能量、生命背后的信息密码，从而发现新材料、设计新药、解决气候变化[31] - AI不会使人类变得多余，它将承担繁重枯燥的信息处理工作，让人类腾出时间进行更高级的科学思考与艺术创造[31][32] - AI的赋能类似工业革命，人类将重新定义“有意义的工作”，并适应新的角色[32]

AGI（通用人工智能）

超级智能

信息论

Artificial Intelligence

Artificial Intelligence

Gemini

AlphaFold

空间智能爆发只需24个月？群核科技首席科学家唐睿预言：具身智能才是AGI终极形态 | 万有引力

AI科技大本营· 2026-01-28 19:01

文章核心观点 - 人工智能正经历从“对话系统”向“行动智能”的根本性转变，而“空间智能”被视为实现这一转变及通往AGI的关键拼图[1][2][3] - 空间智能是具身智能的基础设施，通过生成3D场景和仿真数据，解决后者训练数据严重不足的核心痛点[10][11] - 行业正走向2D/视频生成与3D生成的融合演进，而非路线之争，旨在利用各自优势解决时空一致性与多视角重建等问题[11][61][64][65] - 空间智能的下一个行业爆点将依赖于硬件突破，预计在24个月内，当个人能低门槛捕获和还原现实空间时，行业将迎来质变[11][76] - 群核科技（酷家乐）凭借在计算机图形学与海量空间数据的长期积累，自2017年起锚定空间智能方向，致力于构建“3D界的ImageNet”及开源生态[4][13][34][36][73] 空间智能的定义、价值与行业定位 - **空间智能的核心**：旨在赋予机器观察、理解并在三维世界中行动的能力，是具身智能的“眼睛”和“训练场”[3][10][11] - **与具身智能的关系**：空间智能服务于具身智能，通过生成3D可交互场景和仿真数据，为具身智能与物理世界交互提供训练和验证基础[10][11][58] - **通往AGI的路径**：若AGI需在物理世界中行动，则空间智能或世界模型至关重要；若AGI仅存在于屏幕空间，则对空间智能的依赖度降低[59][60] 技术发展路径与行业共识 - **数据获取的挑战与方案**：室内空间数据获取比室外自动驾驶更困难，涉及隐私、任务多样化及高成本问题[41][42][43] - 当前解决方案主要依赖“正向设计”（设计师创作）和“逆向捕获重建”（合成数据），但这仍是“从蛋里孵蛋”[11][71] - **终极解决方案**在于感知硬件的普及，当眼镜、手机、手表等设备能无感采集空间数据时，数据瓶颈将被彻底打破[11][71][72] - **2D/视频与3D技术的融合**： - **视频辅助3D**：利用Video Diffusion模型生成多视角视频帧，作为3D重建的中间素材[63] - **3D反哺视频**：引入3D表征或隐空间作为媒介，利用3D的结构稳定性来约束视频生成，解决长视频的时空一致性问题[64] - 融合是受当前计算资源（如GPU显存）限制下的务实选择，未来若有“Killer concept”出现（如3D版Transformer），技术范式可能翻篇[67] - **空间智能的四个进化层次**： 1. **空间感知泛化**：感知设备从军工、航天下沉至消费级，未来将普及到个人可穿戴设备[45] 2. **空间理解质变**：从处理2D图像转向直接处理3D点云/高斯数据，实现精准的几何与物理属性感知[47] 3. **空间推理与决策智能化**：通过仿真和合成数据产生高质量交互数据，使智能体学会在物理世界中行动[48] 4. **空间行动** - **合成数据的层级需求**：根据应用场景，对合成数据的要求分为三层：“视觉级”（静态逼真）、“游戏级”（基础交互）、“物理仿真级”（Sim-Ready，需高精度物理属性）[52][53][54][55][56][57] 群核科技的战略与实践 - **技术路线转折点**：公司于2017年受AlphaGo启发，从用GPU“模拟物理世界”（渲染）转向“模拟智能体”，结合自身海量空间数据探索空间智能[12][13] - **核心研究重点**： - 空间内几何体和材质的高质量生成[37][38] - 空间内物体的合理摆放与布局[38] - 与浙江大学合作研究“光的布局”，甚至探索用AI大模型拟合光线物理传播过程[39][40] - **商业化与行业影响**：其开源及闭商业数据集已成为众多头部具身智能或3D空间生成团队的客户基础，并已与字节跳动、Adobe、谷歌、浙江大学等机构展开深度论文合作[36][37] - **开源生态建设**： - **目的**：在领域标准未定之时，通过开源数据和模型（如Spatial-LM）抛砖引玉，集结社区智慧共建生态，降低创业门槛[73][74] - **策略**：提供API及预训练模型，使更多团队能在其基础上微调，参与空间智能与具身智能的探索[74] - **规划**：预计在年底发布与空间生成相关的大模型[74] 市场前景与未来预测 - **关键突破点**：下一个真正爆点在于硬件突破，预计在未来24个月内，当个人能便捷地对现实空间进行捕获和还原时，行业将发生质变[11][76] - **发展驱动力**：“AI开发AI”的循环已经开启，软件迭代速度极快，但硬件感知能力的进化是补齐短板的关键[45][75] - **行业现状**：领域仍处前沿探索期，存在大量论文和商业机会，共识是普遍缺乏数据，非共识（或探索方向）在于技术路径的具体选择[70][72]

用人类脑电波教 AI 开车，这位清华 90 后学者直言隐式信号里藏着 AGI 的关键 | 万有引力

AI科技大本营· 2026-01-26 18:03

文章核心观点 - 清华大学智能产业研究院（AIR）团队开发了一项名为E³AD的创新技术，首次尝试利用人类驾驶员的脑电波（EEG）信号来增强端到端自动驾驶模型的规划能力，旨在将人类“老司机”基于经验的、潜意识的风险预判“直觉”赋予人工智能，以解决自动驾驶在罕见但关键的复杂场景中缺乏预判能力的痛点 [3][4][36][38] 研究背景与动机 - 当前自动驾驶系统虽能识别多种物体和规则，但缺乏人类驾驶员基于经验形成的、能预判潜在风险的“驾驶直觉”或“车感”，在遇到未见过或视线受阻的复杂情况时容易不知所措 [2][3] - 人类驾驶员事故率低的关键在于“提前预判”和风险规避，而非事后补救，但这类隐性的认知过程难以用语言描述和标注 [35][38] - 研究团队旨在通过采集人类在风险发生前的隐式认知信号（如脑电波），将其作为监督信息，教会自动驾驶模型识别风险苗头并提前调整策略 [35][38] 技术方案：E³AD - **核心方法**：同步采集驾驶员在模拟复杂路况下的脑电信号，发现其在驾驶员尚未意识到或无法言说时，已能更早地“暴露”大脑对潜在风险的预警，团队将此隐式预警信号转化为对自动驾驶规划有用的监督信息 [38] - **技术选择**：采用**非侵入式脑电**技术进行信号采集 [41] - **系统架构**：选择**端到端自动驾驶（E2E-AD）范式**进行融合，而非传统模块化方案，原因在于端到端能更充分利用原始信息，减少因信息压缩和传递导致的误差放大，且更符合大脑执行任务时全脑协同、感知与决策高度整合的工作方式 [43] - **融合策略**：实验表明，将人类认知信号与自动驾驶系统在**任务层（即最终的规划与决策层）进行对齐和融合，效果最好**，收益最稳定，这为未来模型设计提供了启示 [44][45] - **底层模型支持**：研究引入了上海交通大学的**Large Brain Model（大脑大模型，LaBraM）**，该模型有助于处理脑电信号信噪比低、个体差异大的难点，提升从脑信号中提炼共性规律的能力，从而增强模型的泛化性能 [53][54][61] 成果与价值 - **解决痛点**：该方法为解决传统自动驾驶模型在训练数据中极端事件样本少、难以学习可靠安全行为的难题提供了新思路 [35][36] - **泛化能力**：在训练阶段利用脑信号教会模型识别风险线索后，在推理阶段仅使用视觉等常规输入，模型仍能保持“类脑认知”的风险预判能力，实现了能力的迁移 [54] - **开源计划**：作为高校科研团队，该项工作的代码、模型、权重及数据将尽可能完全开源，但涉及道路与影像的敏感数据会设置合规访问门槛 [75] 行业趋势与跨学科融合 - **领域融合**：人工智能研究正从数字世界（如大模型）与物理世界（如机器人）泾渭分明的状态走向“汇流”，具身智能（让AI在物理世界中行动）成为关键方向，但面临物理世界复杂度高和安全可靠性要求高等硬挑战 [33][34] - **范式创新**：该研究代表了一种范式转变，即**绕过传统的“概念翻译”，尝试在原始数据层面直接建立脑科学与AI的连接**，利用人类隐式认知信号作为新型监督信息源，这可能是构建更通用、更安全智能系统的关键路径 [46][49][56][73] - **信号扩展**：除了脑电，其他生理信号如**眼动信号（反映注意力分配）** 也被证明融合后能带来稳定提升，表明利用人类隐式认知线索是提升AI系统性能的重要方向 [73] 未来展望 - **发展愿景**：未来的具身智能或AGI更可能被理解为人类的“**认知伙伴**”，其核心在于更好地理解人类并与人类协同，为此需要在机制上与人类共享某些“可对齐”的逻辑框架，以降低社会协作成本 [60][61] - **技术终局**：让系统更接近“所想即所得”、更自然地读懂人的意图是一个长期演进方向，但需考虑相关的风险与伦理约束 [58][59] - **当前瓶颈**：该技术路径的**核心瓶颈在于数据**，包括多模态生理信号的采集难、对齐难、建库难和分析难，软件工程层面相对成熟 [70][74] 研究者背景与启示 - **研究风格**：主导该研究的龚江涛博士拥有从计算机科学到人机交互、再到脑科学和产业研究的交叉背景，其研究风格深受博士导师影响，强调**从问题的“根”出发，先理解底层机制（如生物智能如何工作），再进行创新设计** [8][19][21] - **产业结合**：在联想研究院的产业经历使其深刻理解如何将研究想法在产业中孵化，并认识到研究与产业更好连接有助于研究者找准社会定位，避免迷茫 [23][24][28][29] - **对开发者的建议**：在AI时代，**编程能力和计算机基础方法论（数据结构、算法、系统思维）是重要根基**，而真正的差异化优势在于**跨学科能力**，即深入理解目标领域的问题语境，并与领域专家深度协同，将技术落到真实场景中 [75][76]

具身认知增强

脑电大模型

具身智能

Artificial Intelligence

E³AD

Large Brain Model（LaBraM）

具身认知增强

脑电大模型

具身智能

Artificial Intelligence

E³AD

Large Brain Model（LaBraM）

从 DeepMind 到投身具身智能，王佳楠：算法最终还是要服务真实世界｜万有引力

AI科技大本营· 2026-01-23 18:09

文章核心观点 - 通往AGI的终极路径是具身智能，其目标是让大模型进入物理世界，成为可用、可落地、可持续演化的智能体[1] - 具身智能并非AI的新分支，而是各类AI技术在现实世界中的统一落地点[6] - 实现具身智能需要从纯粹的算法研究转向与硬件、数据和真实场景不确定性正面交锋的全流程定义与开发[2][21] 从DeepMind到投身具身智能 - 嘉宾王佳楠的职业路径从牛津大学到DeepMind，再回国加入IDEA研究院进行生成式AI研究，最终于2024年加入星尘智能，投身于大模型与机器人结合的具身智能领域[1][7][18] - 在DeepMind期间，其研究方向是追求通用的强化学习框架，并亲历了AlphaStar等标志性项目的诞生[1][12] - 从DeepMind到创业公司的转变，本质是从“定义好问题”的纯算法研究，转向需要“定义问题本身”的解决真实世界问题的过程[6][14] 对具身智能的认知与信念 - 对嘉宾而言，AGI的终极形态就是智能机器人，这是其投身该赛道的根本信念[8][9] - 机器人是当前AI技术的一个重要终端平台，CV、NLP、大模型等领域的从业者都在此汇聚，以实现开放环境中与人交互的智能机器人目标[7] - 机器人研发涉及复杂的软硬耦合，与纯粹的AI开发逻辑完全不同，开发者需从“解题者”转变为“全流程定义者”[21] 技术架构：快慢系统（大小脑） - “快慢系统”（或称大小脑、System 1/System 2）是具身智能的核心系统观，其核心在于区分决策深度[6][25] - 快系统（小脑）负责无需语言中介、由直觉驱动的基础运动能力，其核心任务是通过海量动作片段数据预训练，构建机器人的“动作基元库”[28][29] - 慢系统（大脑）作为指挥官，通过高层指令精准调用快系统的原子技能，实现从“意图”到“执行”的闭环[29] - 该架构是一种功能定义，既可通过单一模型切换实现，也可通过多模型协作完成，并具备高度可扩展性[25] 关键瓶颈与解决方案探索 - **数据是当前最硬的瓶颈**，高质量的真机数据不可替代[6][33] - 解决数据瓶颈的探索包括：1）**数据增强**：在仿真中对真实采集的数据进行背景、光照等调整以扩充数据量；2）**纯仿真生成**：适用于交互不复杂的任务；3）**互联网数据积累**：用于解决上层语义理解和长时序任务规划等痛点[34][35] - 在模型架构上，常见方案包括使用单一Transformer的VLM框架，或外接世界模型（如DiT）提供预测提示，系统需要开放地接受不同形式的提示[31][32] - 让机器人理解人类非预设的复杂需求，核心在于意图表达的颗粒度，需结合“语言指令+多模态提示”（如勾勒运动轨迹、设定空间约束）[31] 对世界模型与VLA的看法 - 世界模型是一个有潜力的方向，但**不需要等待其完美**，能提供预测与提示价值即可，其本身并非银弹[6][38] - 如果已经能完美仿真一个问题所处的环境，那么该问题其实已经解决，这是一个哲学上的循环问题[38] - VLA是通往通用机器人的**关键一步和重要里程碑**，它为机器人配备了通用能力，但下游应用仍需要特定的设计或改动[6][41] 通用机器人的发展路径与时间表 - 通用机器人“走到人身边”可能只需**2到3年**，但实现完全自主还需要长期演化[6][43] - 更现实的路径是“可用先行、人类接管、逐步升级”，类似自动驾驶的发展节奏[6][43] - 若目标是在定义好的大量任务上达到高正确率，主要是一个数据和模型训练问题，若有足够快的数据采集和行业共创，**3到5年**可能积累覆盖日常各种场景的完整数据[44][45] 公司实践与发展现状 - 星尘智能团队具备多元化的行业长期积累，并通过紧密的多团队协作与创业精神实现了产品的快速发展[19] - 公司在数据方面进行了大量优化，并采用仿真进行数据增强，同时与MIT等高校合作探索多模态数据应用[33][47] - 公司目前处于“打磨”和推向科研、高校合作伙伴的阶段，门槛已有所降低，但商业化落地（让客户能自主验证和二次开发）是下一步关键挑战，整体进度估计在**50%左右**[50][51] 未来关键方向与行业建议 - 未来关键探索方向包括：1）**人机交互**：定义机器人理解意图、沟通及发出求助信号的交互方式；2）**多模态数据**：收集和应用触觉、力觉等更多模态数据以提升模型能力[47] - 具身智能是一条漫长但值得坚持的道路，需要开发者具备信念感和耐心[55] - 行业需要**共创共赢**的心态，集合个人、公司、社区的力量共同积累与反馈，以推进边界[6][55]

OpenAI CFO 摊牌：算力即营收，而 90% 的企业正被卷死在“能力鸿沟”里

AI科技大本营· 2026-01-20 17:10

2026年AI行业发展趋势与核心观点 - 2026年被视为AI智能体走向成熟的一年，特别是多智能体系统将成熟并产生显著影响[11] - 当前存在巨大的“能力鸿沟”，即AI工具能力强大但用户尚未掌握充分利用它们的方法，如同将法拉利钥匙交给了刚学车的人[5][6][7][12] - 行业处于范式转移中，AI是真实的增长动力，其需求受限于算力可用性而非其他因素[22][23] AI技术发展现状与挑战 - “凭感觉编程”在2025年已成熟，但能让AI像靠谱员工一样处理复杂任务的智能体技术尚不完善[5][11] - 大语言模型在记忆力、持续学习能力和降低幻觉等方面仍有提升空间[11] - 目前只有个位数百分比的用户用到了AI 30%的能力，充分挖掘AI潜力将是一个长达10年的旅程[14] - 谷歌报告显示50%的先行企业已将AI投入生产，但极少有公司将核心业务完全交给AI[5] 企业应用与生产力变革 - 采用AI的公司生产力显著上升，麦肯锡研究显示前四分之一的公司生产力提高了27%到33%[30] - AI能接管组织中的枯燥任务，例如通过智能体阅读合同、分析非标准条款并提供业务洞察，使团队规模更小、绩效更高[25] - 出现“一人加AI顶十人”的案例，例如一家公司用一个销售开发代表加AI替换了10个销售开发代表[27]，另一家公司会计部门仅有一人[26] - 目前约14%的客户在使用某种智能体技术，但很多CEO表示其60%的生产代码由智能体编写，显示巨大增长潜力[36] OpenAI的战略与运营 - OpenAI认为其在企业级竞争已经获胜，90%的企业表示正在使用或计划在未来12个月内使用OpenAI，公司是历史上最快达到100万企业用户的平台[35] - 公司将算力投资视为增长核心，算力与营收增速强相关：2023年底算力200兆瓦对应年度经常性收入20亿美元，2024年底600兆瓦对应60亿美元，2025年底2吉瓦对应超过200亿美元[21] - 公司采用“魔方”战略，在基础设施、产品和商业模式层创造可选性，以支持实现通用人工智能所需的算力投资[23][29] - 每周有超过8亿消费者使用ChatGPT，其中每周有2.3亿人咨询健康问题[16][19] 医疗健康领域的AI应用 - 66%的美国医生在日常工作中使用ChatGPT[19] - AI有潜力变革医疗健康领域，普及医疗专业知识，但面临FDA监管和美国医学会等既得利益者的制度阻力[17][18] - AI在健康领域可作为医生的强大辅助，帮助掌握最新研究成果，并为消费者提供研究症状和获取第二诊疗意见的能力[19] 算力需求与行业投资 - 算力需求巨大且几乎无限，目前需求只受限于算力的可用性，存在价格弹性[23] - 过去一年，全球AI硬件投资总额增加约2200亿美元，芯片预测增加约3340亿美元[22] - 确保未来算力供应需要提前多年规划和投资，例如为2028至2030年的需求做准备[21] 商业模式与消费者市场 - OpenAI 95%的用户免费使用其服务，公司考虑引入广告等商业模式，但坚持模型永远提供最佳答案的“北极星指标”，并保证存在无广告的付费层级供用户选择[31] - 未来用户可能订阅多个AI服务，但切换平台会损失连贯性体验[32] - AI未来将像电力一样融入一切，成为无处不在的基础设施，而非需要刻意调用的工具[33] 创业公司与投资机会 - 创业公司机会在于拥有独特数据访问权、结合复杂工作流以及在基础模型之上构建垂直解决方案[37] - 仅仅智能本身并非解决方案的全部，围绕数据权限、定制模型、智能体身份验证和智能体商业等领域存在大量机会[37] - 现在可能是比以往任何时候都更有趣的创业时期[37] 长期展望与社会影响 - 预测15年后机器人产业规模将超过今天的汽车产业[39] - 家庭机器人潜力巨大，不仅在于处理家务，更在于提供陪伴以应对孤独感这一全球流行病[39] - 在下一个十年的末期，可能出现大规模的通货紧缩经济，劳动成本和专家服务成本将趋近于零，政府保障的最低生活标准将大幅提高[40] - 免费的初级医疗和每个孩子拥有AI私人导师的教育可能成为现实[40]

那个固执的法国老头走了，带走了硅谷最后的理想主义

AI科技大本营· 2026-01-05 18:12

公司战略与文化变迁 - 2013年，公司为探索智能本质，打破商业公司规矩，以优厚条件聘请Yann LeCun并成立FAIR研究部门，营造了不计成本、不问产出的纯研究象牙塔环境 [4][8][9][12][13] - FAIR的黄金时代在2025-2026年宣告终结，标志是LeCun离职以及Alexandr Wang空降，公司战略转向强调商业变现、算力堆叠和暴力美学的实用主义路线 [2][4][5][44][47][56] - 公司内部文化发生剧烈碰撞，从LeCun推崇的工程师直觉优于KPI、开放开源的“保护区”文化，转变为由年轻管理层主导、强调保密协议和KPI考核的商业化文化 [14][23][44][49][50] 关键人物贡献与影响 - Yann LeCun作为首席AI科学家，其核心贡献并非直接写代码，而是利用政治资本为PyTorch等研究项目提供保护伞，并坚持默认开源策略，最终使PyTorch反噬TensorFlow，成为学术界主流框架 [17][20][21][22][24] - LeCun在2023年公司AI战略落后时，推动Llama大模型采用开源策略，成功让公司重回AI竞争中心，但其技术路线（世界模型）与主流大语言模型路线存在根本分歧 [40][41][52] - Alexandr Wang于2025年空降成为公司首席AI官，其哲学是“规模就是一切”，代表硅谷新一代强调数据、算力堆叠和快速商业化的技术路线 [5][44][48][49] 技术路线分歧与竞争格局 - LeCun是坚定的“物理主义者”，认为智能基石是理解物理规律和因果关系的“世界模型”，并多次批评大语言模型只是基于统计预测下一个词，并未真正理解世界 [29][30][32][33][36] - 以Transformer架构和预测下一个词为核心的大语言模型路线，自ChatGPT发布后成为行业主流和资本焦点，与LeCun主张的路线形成鲜明对立 [31][34][35][37][55] - 2025年行业竞争白热化，焦点集中于AGI竞赛，开源优势被稀释，行业讨论重点从“AI向善”、“可解释性”转向纯粹的AGI竞赛和商业化 [44][45] 标志性产品与项目 - PyTorch起源于FAIR内部研究员对灵活研究工具的需求，在LeCun的保护和开源策略下，最终在顶级学术会议上占据80%的论文使用率，击败了Google的TensorFlow [18][19][22] - Llama大模型系列是公司应对竞争的关键产品，尽管其技术基础与LeCun的理念相悖，但凭借开源策略成功吸引了全球开发者，帮助公司重获市场地位 [40][41] - LeCun在任期间还推动了如RoBERTa、DINO等体现科研严谨性和前瞻性（如自监督学习）的项目 [63] 行业象征与历史意义 - FAIR的十三年被视为AI时代的贝尔实验室或施乐帕罗奥多研究中心，代表了不计商业回报、追求科学发现的理想主义时代，其产出的开源火种和生态影响了整个行业 [4][58][59][60] - LeCun的离职被视为一个时代的终结，象征硅谷最后理想主义的消退，其留下的关于智能本质的不同路径思考，可能在未来行业遇到瓶颈时被重新审视 [4][57][60][62]

Meta Platforms(US:META)

不要死磕CUDA，国内首个Triton技术大会官宣，AI芯片编程迎来新范式

AI科技大本营· 2025-12-26 13:42

文章核心观点 - 编程语言是定义技术可能性的“元语言”，而AI时代对释放芯片算力提出了新的编程需求 [1] - CUDA作为主流GPU编程模型存在学习曲线陡峭、门槛高的问题，行业需要更友好的AI芯片编程方式 [1] - Triton作为一种创新的编程语言/平台，能够以类似Python的友好语法实现接近CUDA的高性能，并紧密集成PyTorch生态，正在降低AI芯片编程门槛并推动其普及化 [2][3] - 行业正通过举办“Triton Next技术大会”来聚集生态力量，共同探索Triton技术的现状与未来，定义AI芯片软件的新未来 [4][5][6] 大会概况与目标 - 大会名称为“Triton Next技术大会（TritonNext 2026）”，将于2026年1月9日在北京举办 [4] - 大会由众智FlagOS社区和北京智源人工智能研究院联合主办 [4] - 大会旨在探讨Triton技术的现状与未来演进，包括其编译器发展、应用场景拓展等 [5][6] - 大会面向全球AI研究员、高性能计算工程师、编译器专家、编程语言爱好者及广大开发者 [6] - 大会目标是为参与者提供从思想到实践的完整旅程，构建关于Triton技术的全景图 [6] 上午议程：顶层思想与前沿趋势 - 议题涵盖Triton诞生的第一性原理与未来蓝图、AI编译器学术报告、FlagOS社区生态进展 [7] - 具体演讲包括基于扩展Triton的DLCompiler全栈优化实践（上海人工智能实验室）[9] - 具体演讲包括AI编译器学术报告（中国科学院计算技术研究所）[9] - 具体演讲包括FlagTree v0.4版本及新的语言TLE发布（北京智源人工智能研究院）[9] - 具体演讲包括Triton-Distributed框架（字节跳动）[9] - 具体演讲包括大模型飞桨原生Triton支持方案详解（百度）[9] - 具体演讲包括摩尔线程在FlagTree中的优化实践（摩尔线程）[9] - 具体演讲包括Triton算子自动生成探索及实践（北京智源人工智能研究院）[9] - 上午议程将以FlagOS全球大赛的启动仪式收尾 [9] 下午议程：具体实践与生态拓展 - 议题聚焦Triton的具体实践，分享一线团队如何用其构建下一代AI模型 [11] - 议题关注如百度飞桨等主流AI框架如何原生支持Triton并解决软硬件适配难题 [11] - 议题展示Triton生态超越NVIDIA，拓展至如华为昇腾等其他硬件平台 [11] - 具体演讲包括Ascend NPU对Triton的开源开放支持（华为）[13] - 具体演讲包括面向Triton编译器的编译优化实践（先进编译实验室）[13] - 具体演讲包括FlagTree多层级编程语言设计讲解（北京智源人工智能研究院）[13] - 具体演讲包括C++ Runtime多后端联合开发（北京澎峰科技）[13] - 具体演讲包括FlagOS on RISC-V的现状及规划（上海苦劳科技有限公司）[13] - 具体演讲包括基于Triton的高性能分布式算子实现及编译优化（湖南卡姆派乐公司）[13] - 具体演讲包括基于FlagOS的Megatron-LM统一训练后端与分布式算子库（北京智源人工智能研究院）[13] 技术工作坊与实践环节 - 大会特设三场技术工作坊，让开发者从听到实践，将知识“变现” [15] - 工作坊1：人机协作的Triton算子培训班，指导使用Triton Copilot进行开发 [18] - 工作坊2：FlagOS-AI编译器培训班，以通俗方式讲解并现场指导编译算子 [18] - 工作坊3：基于FlagOS的具身一站式平台/FlagOS-Robot培训班，体验快速搭建具身智能应用 [18] - 大会旨在构建一个能听、能聊、能动手的交流场，而不仅是一场会议 [15] 会议地点与参与方式 - 会议地点位于北京海淀区中关村国家自主创新示范区展示中心 [16] - 参与者可通过扫码报名，大会也被定位为Triton探索者们的冬日聚会 [18]

全面梳理 VLA 20大挑战的深度综述，方向清晰可见，每周更新，助力时刻掌握最新突破！

AI科技大本营· 2025-12-25 09:18

文章核心观点 - 一篇名为《An Anatomy of Vision-Language-Action Models: From Modules to Milestones and Challenges》的综述论文发布，旨在为快速演进但结构复杂的视觉-语言-动作模型研究领域提供一个清晰、系统的参考框架 [4] - 该综述的核心贡献在于不再简单罗列研究工作，而是致力于理清问题结构，将五大核心挑战作为全文分析主线，并按照从基础到前沿的自然认知顺序构建学习路线 [6][9] - 综述被设计成一份长期可用的工具型资源，不仅提供系统知识梳理，还配套一个持续更新（每周一上午）的在线参考框架，以帮助研究者和从业者建立整体认知、定位能力短板并判断未来方向 [5][10] 综述的目标与价值 - 旨在解决领域内新入门者不知从何学起、从业者难以系统性提升能力的结构性困惑 [1][3] - 其价值在于帮助读者快速梳理核心技术脉络与关键问题，高效定位VLA系统当前受限的能力环节，并对“下一步如何改进”形成可靠判断 [10] - 对于从业者而言，其价值在于以更低的认知成本，持续、有效地定位和提升VLA系统的关键能力，提升科研工作的聚焦度和效率 [16][17] 综述的结构与内容 - **基础模块解析**：首先在Basic Modules章节系统拆解VLA系统的基础构成，包括视觉编码、语言理解、跨模态融合、规划机制与动作生成等关键设计，旨在建立一套统一的“模块级词汇表” [18][19] - **里程碑回顾**：沿时间轴系统回顾VLA的关键演进阶段，覆盖了从对齐、大模型、开源框架到强化学习与世界模型等多条核心技术路线，勾勒出VLA从概念验证走向可持续、可扩展具身智能体的范式迁移 [20][21][24] - **五大挑战分析**：将当前技术难点系统收敛为五大核心挑战，并将其作为全文主线，而非文末展望，这五大挑战覆盖了VLA系统从“感知世界”到“真实部署”的完整路径 [25][26][29] VLA领域面临的五大核心挑战 - **挑战1：表征**：在真实物理环境中，语言表达的抽象意图难以被稳定、精确地映射为连续动作，视觉、语言与动作的统一涉及空间结构、时间一致性与物理因果关系的长期建模 [30] - **挑战2：执行**：在长时序、多约束任务中，系统需要在任务拆解、规划决策与底层控制之间保持高度一致，并应对环境扰动与不确定性，这决定了VLA是停留在演示层面还是具备工程可用性 [33][34] - **挑战3：泛化**：现实世界的变化远超训练数据覆盖，许多方法在跨任务、跨场景乃至跨机器人时性能显著下降，实现跨分布迁移和快速适应是VLA走向通用能力必须跨越的门槛 [35][36] - **挑战4：安全**：安全不仅意味着避免危险动作，还包括决策过程的可解释性、对不确定性的感知能力以及请求人类介入的机制，这些能力决定了VLA是否具备被信任与规模化部署的前提 [37] - **挑战5：数据与评测**：缺乏高质量、多样化的数据来源以及统一、细粒度的评测标准，导致领域难以客观衡量系统在过程质量、鲁棒性、失败恢复等维度的能力 [37] 未来发展方向 - 未来可能的方向包括“原生多模态架构”、融合物理与语义的因果世界模型，以及具备“自我觉察”能力、能在闭环中反思与纠错的智能体 [43] - 这勾勒出下一代具身智能体的雏形：不仅会做事，还能在真实世界里做得稳、做得对、做得可控 [44] - 总体目标是推动VLA从开环执行走向闭环自治 [42]