Workflow
大语言模型
icon
搜索文档
数学界无视「30年漏洞」,GPT-5一眼看穿,陶哲轩:AI科研革命开始了
36氪· 2025-11-05 18:52
文章核心观点 - 新闻核心观点是GPT-5在数学研究领域展现出实质性应用价值,通过辅助生成形式化证明和发现反例,推动了科学进步 [6][13][22][24] GPT-5在数学证明中的应用 - 两位数学家利用GPT-5在Lean中生成形式化证明并成功验证,最终证明超过6000行代码,包含26个定义、169个引理和4个定理 [13][16] - 人类研究者需不断提供反馈以完善论证,过程耗时约一周,在普通笔记本电脑上代码验证耗时不足半分钟 [16] - 陶哲轩认可此次AI辅助证明,认为这是在研究论文中负责任地使用LLM输出的罕见用例,强调Lean形式化仅是对人类证明的补充 [14][17] GPT-5在发现反例和解决开放问题中的贡献 - 加州大学欧文分校数学教授Paata Ivanisvili与合作者请GPT-5 Pro在公开未解问题中寻找反例,GPT-5提出了一个关于带擦除的非交互相关蒸馏问题的反例 [18][19][21][22] - UCLA数学教授Ernest Ryu借助GPT-5 Pro解决了一个凸优化领域的开放问题,尽管模型约80%的证明尝试错误,但提出了多条新颖思路,整个工作耗时约12小时 [24][27][29] - GPT-5的具体贡献包括给出最终可行的证明思路与论证框架,并通过快速排除无效路线大幅加速探索进程 [29] 行业影响与未来展望 - 此次GPT-5的应用被视为理论计算机科学中AI的“星星之火”,以往大语言模型多用于文献检索或数值辅助,而此次真正生成了具体、有限且可验证的反例 [24] - 研究者认为,如果大语言模型的接口能与Lean深度整合并进行微调,许多人机协作证明的问题将大大缓解,体验会更加流畅自然 [16] - OpenAI科学家Sebastien Bubeck复现了类似场景,表明GPT-5可以证明有趣的数学结论,并能筛选不正确论点、识别新推理思路以及决定探索方向 [43][44]
倪光南:发展“AI+机器人”,向新质生产力加速跃迁
环球网资讯· 2025-11-05 07:17
文章核心观点 - 人工智能是推动科技和产业发展的强大引擎,中国正通过“人工智能+”行动推动机器人产业向新质生产力跃迁,目标是构建“AI+机器人产业”以创造更大的经济和社会效益 [1] - 机器人产业发展的核心是提升机器人智能等级,实现从自动化工具到“AI+机器人”的范式转变,关键在于“脑、眼、行动”三大核心智能的协同 [4][5] - 机器人是拓展人类能力以提升生产力的工具,其发展应聚焦于人机协同和工作任务的重构,而非简单替代人类 [2][3] - 构建基于RISC-V架构的开源生态系统对“AI+机器人”的未来发展至关重要,行业需共同努力构建人机共融的世界 [8] 机器人产业定位与发展方向 - 行业处于从传统工业化向新型工业化发展阶段,企业将从自动化向智能化过渡,生产模式从刚性标准化发展为柔性定制化兼备 [4] - 机器人将从自动化工具过渡为“AI+机器人”,具体表现为:控制者从实时操作系统发展为智能系统,交互方式增加语音,依赖大模型而非人工编程,实现多工位自主移动、即插即用以及人机协同 [4] - “AI+机器人”是行业未来发展方向,机器人形状将多样化,并根据场景需求以最经济合理的方式完成任务 [4] 机器人智能系统的三大核心能力 - 机器人智能系统由环境感知能力(“眼”)、运动控制能力(“行动”)和交互决策能力(“脑”)三大核心能力协同构成 [5] - 目前行业对运动控制的投入较大,而对环境感知和交互决策的投入不足,迫切需要提升 [5] 机器人之脑:大语言模型的作用 - 大语言模型构成了“机器人之脑”,推动了从“机器人操作系统”到“机器人智能系统”的技术架构性变革 [5] - 在大模型加持下,机器人能自主实施知识积累、接受指令、动作实施和人机交互,大模型将提供工作流程引导机器人完成任务 [6] - 一个典型的大语言模型在约10的14次方字节信息量基础上训练,几乎是互联网所有公开文本的总和 [3] 机器人之眼:AI与空间计算 - AI+空间计算作为“机器人之眼”,开启机器人认识世界的新范式,其采用普通单目摄像头加神经网络学习,以“类人眼”方式预先对环境进行学习训练 [6] - 该技术能提升对物理世界的感知和理解,具有自适应和持续学习能力,实现机器人“睁开眼睛看世界”,具备好用、易用、实用特点 [6] - 空间计算是面向三维世界的计算模式,正重塑人、机器和世界的交互方式,是推动机器人落地的关键核心技术,它是对物理世界的“重构”,生成式AI并不能替代 [6] - AI+空间计算的融合创新有望打破物理世界和数字世界的界限,是支撑低空经济、机器人等产业发展的关键技术 [7] 机器人之行动:开源操作系统与生态 - 开源AGIROS操作系统支撑“机器人行动”,由中国科学院软件所支持并拟定为标准,其开源社区旨在凝聚产学研用力量,推进智能机器人领域的开源开放与协同创新 [7] - 已有大批产学研用单位和开发者加入AGIROS社区,借助开源力量将增强“脑、眼、行动”协同系统的竞争力,成为传统机器人跃升为AI+机器人的主要推动力量 [7] 未来生态系统构建 - 未来面向“AI+机器人”可能形成类似“Wintel”的庞大生态系统,例如“基于RISC-V架构的AI+机器人”生态系统(即RV芯片+脑、眼、行动智能系统) [8] - 行业希望中国机器人业界为构建“基于RISC-V架构的AI+机器人”生态系统作出更大贡献,共同构建人机共融的世界 [8]
强化学习AI系统的设计实现及未来发展
36氪· 2025-11-04 20:52
强化学习在大语言模型中的核心作用 - 强化学习是推动大语言模型提升智能程度的核心且复杂的训练环节,其复杂度体现在算法和系统整体要求上 [1] - 强化学习系统算法的工程化成熟度使大语言模型与强化学习得以很好融合,Agent既是强化学习算法的载体,也是大语言模型作为行动模型的载体 [3] - 从简单的聊天机器人向Agent进化的重要分水岭是模型能够自主选择合适行为并根据这些行为采取最优策略 [6] 强化学习算法演进与实践 - 人类反馈强化学习是早期引爆大模型热潮的关键技术,Instruct GPT利用人类反馈强化学习信号在GPT-3基础上研发出了能很好遵循指令并具备理解能力的学习系统 [8] - 业界实践采用人类反馈与机器反馈相结合的方式,DeepSeek的生成式奖励模型在输出分数前会以文字形式输出对分数的解释,提升模型能力 [9] - 算法探索走向两条道路:一是基于偏好对的DPO算法避免奖励模型训练和Critic函数使用,二是在编程等纯推理类场景中应用的GRPO算法 [16][20] - GRPO算法在进行Critic估计时没有采用模型估计方法,而是将推理过程重复多次,通过与均值和标准差的关系来估计优势 [20] 超大规模强化学习系统挑战 - 强化学习系统包含推理、评估和训练三部分,不是单纯的训练系统,在迈向超大规模时每个维度都面临升级挑战 [29] - 推理引擎需要支持权重的动态更新和高效传递,例如670亿参数模型的权重需要广播到整个集群是巨大挑战 [36] - 推理过程必须可以被打断,当模型更新时需要中断推理,暂停当前进程,等待权重更新后再重新计算KV Cache [43] - 训练部分需要在框架兼容性和效率之间权衡,选择Megatron等高效框架会牺牲与Hugging Face生态系统的兼容性 [47] 行业开源生态发展 - 中国厂商在强化学习框架领域非常勤奋,推出了许多高质量开源框架包括Open RLHF、VeRL、AReaL、Roll、Slime等 [53][55][57] - 这些框架都是从RLHF时代逐渐演进而来,主要区别在于采用的调度引擎、训练引擎和推理设计 [57] - 未来开源系统需要在推理效率、评估系统算力提升以及训练性能与生态平衡方面进行共建 [58] 强化学习应用趋势 - 强化学习应用范围从简单对齐人类指标转变为追求模型智能上限即推理能力,今年许多大模型在高考场景中取得接近985大学生的成绩 [25] - 下一阶段将探索端到端强化学习在业务场景中的应用,希望模型能深入研究某一领域,这是开放型长期决策问题 [28] - 评估环节的价值和耗时占比正变得越来越高,需要更全面综合的方法来全方位评估模型能力 [12]
想法流CEO沈洽金:AI驱动的下一代互动内容应该怎么做?|「锦秋会」分享
锦秋集· 2025-11-04 19:01
过去两年,AI内容的演进经历了两个阶段: 从"可生成"到"可共情",从"自动化创作"到"个性化互动", 内容产业正在从效率革命走向情感革命。 由想法流打造的"造梦次元"正是走在这条新曲线上的产品。他们不追求让AI更像工具,而是让AI更像"存在"。 这支团队从AI互动故事起家,如今正在搭建一个AI共创的内容宇宙: 用户不再只是观看者,而是和AI共同创造 角色、世界与故事的人。 AI也不再是执行命令的模型,而是能持续成长、不断进化的"内容人格"。 在这个生态中,AI具备了三种罕见的能力—— 互动性、想象力与陪伴感 。 它能理解人、回应人,甚至在持续共 创中生成新的情感连接。 2025年11月1日,锦秋基金首期锦秋会@2025 Experience With AI大会上,想法流CEO沈洽金也分享了造梦次元 的最佳实践经验。 AI 驱动的下一代互动内容应该怎么做? 如何让 AI 生成的内容更有个性、更具情感、更能与人建立持续关系? 如何让 AI 生成的内容形成 IP ? 这是当下AI应用方向经常被讨论与提及的问题。 2024年,锦秋基金已完成对想法流的投资。 基于沈洽金和想法流过去两年的实践: 第一阶段,是AI证明自 ...
苏州英伟达开发者日即将召开!科创人工智能ETF华夏(589010) 早盘震荡下探,短线在1.40元支撑位附近企稳
每日经济新闻· 2025-11-04 13:05
科创人工智能ETF(589010)市场表现 - 截至10点09分,科创人工智能ETF下跌0.85%,最新价报1.408元,早盘最低触及1.396元,分时走势围绕均线下方震荡 [1] - 成分股涨跌参半,上涨14只、下跌16只,星环科技涨幅居前达11.87%,海天瑞声、福昕软件表现稳健,而石头科技、恒玄科技、天准科技跌幅较大 [1] - 持仓结构中软件与硬件权重股表现分化,科技成长风格承压,成交维持活跃,盘中换手顺畅,显示多空资金仍在博弈 [1] - 近五个交易日净流入放缓,最新单日流入约1271万元 [1] 人工智能行业动态与前景 - 英伟达中国开发者日2025将于11月14日在苏州开启,活动将聚焦大语言模型、机器人、物理AI、开发工具等领域的前沿创新与落地实践 [1] - 科创人工智能ETF华夏(589010)紧密跟踪上证科创板人工智能指数,覆盖全产业链优质企业,兼具高研发投入与政策红利支持 [2] - DeepSeek的突破是市场重估中国创新能力的触发因素之一,提升了投资者的风险偏好 [2] 宏观经济与双循环新动向 - 内循环方面,实体经济呈现供给改善、需求疲弱态势,但股市显著上涨,主要源自风险溢价下降,金融周期下半场去杠杆带来超额储蓄,资金在市场预期改善驱动下向风险资产倾斜 [2] - 外循环闭环新模式初露端倪,从过去向美国出口消费品并持有美国国债,转变为向新兴市场和带路国家出口资本品和中间品,对应的对外资产通过银行贷款、企业出海投资等形成 [2] - 实现内外部循环相互促进的关键点是创新发展和提振内需,以充分发挥中国的规模经济优势 [2]
让LLM不再话痨,快手HiPO框架来了
机器之心· 2025-11-03 14:40
如今, 快手 KwaiKAT 团队与南京大学刘佳恒老师 NJU-LINK 实验室 、张煜群教授实验室 ARiSE 合作重磅推出 HiPO(Hybrid Policy Optimization)框架,为 LLM 装上了智能的「思考开关」。 该框架通过创新的混合数据冷启动与混合强化学习奖励系统,使模型能够自主、动态地决策何时该启动详细推理(Think- on),何时该直接给出答案(Think-off)。 当用户向大语言模型提出一个简单问题,比如「单词 HiPPO 里有几个字母 P?」,它却正襟危坐,开始生成一段冗长的推理链:「首先,让我们分析 HiPPO 这个 词,河马的英文单词为 hippo,河马是一种半水生哺乳动物,这里用户用了大写字母,可能有特殊的含义,对于单词 HiPPO,我们可以将其拆分为 H-i-P-P-O,字 母 P 出现在第 3 与第 4 个位置,因此有 2 个字母 P... 让我们简化问题,HiPO 可以拆分为...」 面对这样的「严谨」,用户难免哭笑不得,既浪费了计算资源,也增加了等待时间,甚至更坏的情况是模型被自己冗长的推理链「绕晕了过去」,最终给出了错 误的答案,用户只得捶胸顿足地大喊:「 ...
美团LongCat-Flash-Omni正式发布并开源
新浪科技· 2025-11-03 10:46
公司产品发布 - 公司于11月3日开源全模态模型LongCat-Flash-Omni并同步在官方App上线公测 [1] - 公测版本可供用户体验模型的联网搜索和语音通话等功能 [1] 产品技术特点 - 新模型是业界首个集“全模态覆盖、端到端架构、大参数量高效推理”于一体的开源大语言模型 [1] - 模型在开源范畴内实现了对标闭源模型的全模态能力 [1] - 凭借创新的架构设计与工程优化,使大参数模型在多模态任务中实现毫秒级响应 [1]
a16z将3000万开发者标价3万亿,等于法国GDP!网友:几个初创公司+大模型就想取代我们,疯了吧?
AI前线· 2025-11-01 13:33
AI编程市场价值与机遇 - 全球约3000万名开发者,假设每位创造10万美元价值,合计约3万亿美元,相当于法国GDP [1][6] - AI编程是人工智能第一个真正意义上的大规模应用市场,已吸引大量投资涌入 [6] - 专业开发者创造3万亿美元价值,若计入设计师、产品经理等非专业编码人员,影响范围更大 [6] AI对软件开发流程的颠覆 - 传统编程IDE正集成编程辅助工具(如Cursor、Devins、GitHub Copilot),带来IT创业史上最快的收入增长 [8] - 基础开发循环(规划、编码、审查)每个环节都在经历颠覆,价值链上每位参与者均受影响 [8][9] - 重点大学计算机科学课程可能成为“过往时代的遗留”,初创公司开发循环与学校教学完全不同 [9] AI智能体的技术演进与应用 - 智能体可编写CUDA内核等高难度代码,甚至能用训练数据稀缺的语言抽象出代码形态 [13] - 智能体具备代码审查能力,可指出安全漏洞、规范违规,有企业已将两位专职审查员减至一位 [13][14] - 智能体需专属运行环境,未来可能支持并行运行100个智能体,需协调机制避免文件编辑冲突 [15][16] 开发者角色与生产力变革 - 开发者工作内容将完全不同,可能更多观察规划执行周期,而非直接编码 [9] - 软件开发能力从“人工薪酬”转为持续消耗Token的“基础设施成本”,单任务可能花费几十至几百美元 [21] - 传统提交量、代码行数等指标不足以衡量价值,未来或转向应用程序数量、Token消耗量等新标准 [19][20] 定制化软件与新兴创业机会 - “氛围编程”提升定制化程度,业务团队可直接用API构建定制层,非技术人员可通过自然语言添加功能 [22][23] - 当前是创办开发类初创公司的最佳时机,AI颠覆使初创公司可能与传统巨头竞争 [24] - 创业方向包括重塑传统工作流程、为智能体创建产品(如低延迟查询工具、代码应用模型) [25] 遗留代码迁移与工具创新 - 遗留代码移植是投资回报率最高的AI用例,如将Cobol、Fortran转换为Java,大幅降低迁移难度 [12] - 智能体优化文档工具可进行语法解析,帮助定位代码库中特定函数的使用位置 [17] - 智能体可生成代码文档和描述,加速基于现有文档创建新子类的流程 [14]
英诺李竹:一个酝酿已久的决定
投资界· 2025-10-31 16:15
公司战略升级 - 英诺天使基金进行关键升级,内部正式分为英诺天使基金和英诺科创基金两个独立品牌运作,各自团队规模为10到15人,覆盖不同项目需求,专注早期科技投资[3] - 此次转型酝酿六年之久,源于2018年底内部复盘发现科技项目回报普遍更高,且团队多为清华等高校理工科背景,因此于2019年成立英诺科创基金一期,规模3.6亿元,目标明确只投科技[5] - 升级后英诺科创基金将作为独立品牌运作,投资金额上出手更大,拟设定的科创基金三期目标规模达15亿元[3][5][8] 品牌运作模式 - 英诺天使基金由祝晓成、刘怀宇两位管理合伙人负责,继续早期投资策略,推出“111机制”:1亿以内投前估值,1000万以下单笔投资额,1次过会[8] - 英诺科创基金由李竹和周全负责,更专注新一代信息技术和智能制造赛道,讲究重投重管,聚焦大天使小A轮,单笔投资额1500万以上,70%投向早期,30%投向成长期项目[8] - 天使基金奠定了公司基础,科创基金则将决定公司未来空间[8] 投资案例与回报 - 2019年天兵科技成立不到三个月,英诺天使基金领投其天使+轮融资,投资1500万元,当时估值三个多亿,该项目本月完成近25亿元Pre-D轮和D轮融资,最新估值已超200亿元,为公司带来数十倍回报[7][8] - 英诺科创基金一期参与珂玛科技上市前唯一一轮大额融资,该公司去年8月登陆创业板,最新市值超260亿[11] - 2020年投资云深处,当时估值仅数千万,随着估值水涨船高,公司已实现部分落袋为安,并针对此类优质项目设立接续基金以陪伴企业上市[11][12] 行业生态变迁 - 国内早期投资生态发生变化,更多机构在往早期走,投早投小投科技已成为一级市场共识,导致早期竞争加剧,天使轮已数亿元起步,传统数百万元投资金额的打法难以为继[14] - 早期投资门槛越来越高,中小天使投资机构生存空间被挤压,扩充资金量已成为早期投资机构心照不宣的策略[14] - 早期投资更重要的是对窗口期的判断,例如2022年投资深言科技,但在OpenAI发布GPT3.5后判断早期机构投资大语言模型的窗口期已过,因动辄数亿美金让许多早期机构难以下手[14] 投资策略进化 - 公司投资标准既考量项目的创新性、成长性、持续性,用VC的方式做天使,向下对行业进行详细分析,找到最关键创新点,同时对团队也要有足够重视[15] - 公司主动求变:在募资端完成从个人LP到机构LP的转变;在退出端从被动退出转为一级市场为主、二级市场为辅的多元化主动退出途径[11] - 未来两年公司预计有十多家公司申报IPO[12]
OpenAI首个GPT-5找Bug智能体:全自动读代码找漏洞写修复
量子位· 2025-10-31 08:58
OpenAI Aardvark产品发布 - OpenAI发布由GPT-5驱动的AI安全研究员Agent Aardvark,旨在自动发现并修复代码安全漏洞 [2][3] - Aardvark在基准测试中识别出92%的已知与人工注入漏洞,并能定位复杂条件下出现的问题 [4][19] - 该产品通过威胁建模、漏洞发现、沙盒验证、Codex修复等流程工作,可集成GitHub和现有开发流程 [9][11][15] Aardvark技术能力与测试成果 - Aardvark运用大语言模型驱动的推理能力理解代码行为,不依赖传统程序分析技术 [10] - 内部测试显示其能识别安全漏洞、逻辑缺陷、不完整修复及隐私风险 [16] - 产品已应用于多个开源项目,发现并披露的漏洞中有10个已获得CVE编号 [20] 行业竞争格局 - 2024年10月,Anthropic、谷歌、微软相继发布类似AI代码安全产品,OpenAI此次发布相对较晚 [7][24][31] - Anthropic于10月4日将Claude Sonnet 4.5应用于代码安全,其性能超越Opus 4.1且价格更低、速度更快 [25][28] - 谷歌于10月6日发布基于Gemini Deep Think模型的CodeMender,微软于10月16日发布Vuln.AI [29][31] 市场驱动因素 - 人工Debug与传统自动化方法已无法满足大规模代码库的漏洞发现与修复需求 [32] - 企业级网络设备、服务、代码库数量巨大,同时AI技术也被用于快速寻找漏洞,导致漏洞数量激增 [33] - 借助AI自动化发现与修复漏洞成为确保软件安全和降低企业风险的关键手段 [34]