大语言模型

搜索文档
大语言模型离“数学证明高手”还有多远?斯坦福、伯克利、MIT 团队提出 IneqMath 评测标准
AI前线· 2025-07-17 12:47
大语言模型数学推理能力评估 - 不等式问题可作为检验AI数学推理能力的理想工具,因其结构简单且易暴露逻辑漏洞[1] - 形式化数学系统(如Lean/Coq)虽能验证证明严谨性,但存在门槛高、自动化程度低等局限性[1] - 大语言模型在自然语言环境下表现优于形式化证明,适合开展"非正式推理"研究[4] IneqMath创新研究方法 - 斯坦福等团队提出将不等式证明拆解为"界限估计"和"关系预测"两个可验证子任务[4] - 构建包含1,252道训练题+200道奥赛级测试题的IneqMath数据集,建立自然语言与形式逻辑的桥梁[8] - 采用自然语言+LaTeX表达方式,平衡可证明性与易用性,答案具有唯一可验证性[6][7] AI裁判系统性能 - 四维度评审器(Toy Case/Logical Gap/Numerical Approximation/Computation)实现F1=0.93的高准确率[15][16] - 系统可检测71.5%答案正确但仅6%过程严谨的案例(Grok 3 mini),揭示模型"蒙答案"现象[18] - 评审器类型中Logical Gap Judge表现最佳(F1=0.96),计算验证类相对较弱(F1=0.80)[17] 模型规模与推理能力关系 - 参数增加仅提升答案准确率,对推理严谨性无显著改善[20] - 延长推理token数量对质量提升有限,存在明显瓶颈效应[23][24] - Gemini 2.5 Pro通过自我批判机制提升5%准确率,定理提示方法最高可提升10%[25] 行业应用与展望 - IneqMath框架为AI数学推理能力提供标准化评估工具[4][8] - 研究证实单纯扩大模型规模无法解决推理严谨性问题,需结合反思机制与工具使用[21][25] - 该方向发展将推动AI从"答案生成"向"过程验证"的范式转变[28][29]
ICML 2025杰出论文出炉:8篇获奖,南大研究者榜上有名
自动驾驶之心· 2025-07-16 19:11
ICML 2025最佳论文奖项总结 - 本届ICML共评选出8篇获奖论文,包括6篇杰出论文奖和2篇杰出立场论文奖,南京大学研究者位列获奖名单[3] - 大会共收到12107篇有效投稿,接收3260篇,接收率26.9%,相比2024年9653篇投稿数量持续大幅增长[5] - ICML是全球人工智能领域三大顶会之一,与NeurIPS、ICLR并列,本届为第42届,在加拿大温哥华举行[3] 杰出论文奖主要研究成果 - 论文1提出自适应Token解码顺序策略,将掩码扩散模型在数独解题准确率从7%提升至90%,超越7倍参数量的自回归模型[8][10] - 论文2研究机器学习在政府项目中的应用,通过德国失业案例评估预测技术对福利分配的影响,为政策制定提供分析框架[11][13][14] - 论文3提出CollabLLM框架,通过多轮感知奖励增强人机协作,任务表现提升18.5%,用户满意度提高17.6%,减少10.4%用户时间[15][17][18][19] - 论文4分析语言模型创造性极限,证明多Token方法在生成多样性方面优于下一Token学习,提出噪声注入输入层的新方法[20][22][23] - 论文5从贝叶斯视角改进共形预测,提出基于贝叶斯求积的实用方案,提供更全面的损失范围表示[24][25][26][27] - 论文6调整分数匹配方法处理缺失数据,提出重要性加权和变分两种方法,分别在小样本低维和高维场景表现优异[28][30][31] 杰出立场论文奖核心观点 - 论文1建议改革AI会议评审系统,建立双向反馈机制和审稿人奖励系统,应对投稿量激增带来的评审质量挑战[35][36][39][40] - 论文2指出当前AI安全研究忽视对未来工作影响,主张建立以人为中心的全球治理框架,解决收入不平等和技术债务问题[41][44] 行业动态 - 自动驾驶领域技术社区已聚集近4000人,300+企业和科研机构参与,覆盖30+技术方向包括大模型、BEV感知、多传感器融合等[47] - 专业课程涵盖端到端自动驾驶、大模型应用、BEV模型部署、轨迹预测等前沿方向,提供系统学习路径[48][49]
7 周一款新产品,OpenAI 到底有多卷?离职员工长文复盘内部真实情况
Founder Park· 2025-07-16 15:07
公司文化 - OpenAI采用高度分散的集群式工作模式,由多个小团队并行推进项目,缺乏统一路线图,研究方向多为自下而上推动[2] - 研究人员被视作"迷你CEO",拥有极高自主权,项目推进依赖个人兴趣驱动的"技术激将法"[2][12] - 公司扩张速度极快,员工规模从1000人增至3000人仅用1年,导致资历满1年者即进入公司前30%元老行列[9] - 内部沟通几乎全部通过Slack完成,邮件使用量极少(约10封/任职期),形成独特的即时通讯协作文化[9] 研发机制 - 采用"行动优先"原则,允许相似项目并行开发(如曾同时存在3-4个Codex原型),后期再集中优势资源[12][27] - 研究推进呈现"渐进式探索"特征,季度计划常不存在,优秀想法可来自任何层级员工[11] - 决策链条极短,从Codex项目首行代码到产品上线仅用7周,包含容器运行时、Git操作处理等复杂功能开发[2][34] - 技术架构呈现Meta系风格,核心基础设施团队多来自Meta/Instagram,自建TAO类系统和边缘认证方案[24][25] 产品特性 - 消费级产品思维主导,Codex等开发者工具仍优先考虑个人用户体验而非团队协作[2][29] - ChatGPT的对话体系深度嵌入技术架构,新功能开发需适配现有会话消息结构[27] - 采用"限时掉落"商品分发模式,首次开放导致Shopify商店因抢购崩溃,引发内部技术破解热潮[19] - 模型训练形成连续谱工作流,从小规模实验逐步扩展至分布式系统级调试[29] 行业竞争 - 公司视AGI为终极目标,同时面临Meta、Google和Anthropic的三方技术竞赛[15][40] - 资源投入向GPU计算严重倾斜,小众功能的GPU成本即超过Segment全部基础设施支出[19] - Twitter舆情直接影响内部决策,产品团队高度关注社交媒体声量[20] - 当前形成OpenAI(消费产品)、Anthropic(企业服务)、Google(基础设施)的三足鼎立格局[40] 技术架构 - 采用Python主导的单体代码库(monorepo),包含FastAPI+Pydantic技术栈,但缺乏统一代码规范[22] - 全部服务部署于Azure,主要依赖AKS、CosmosDB和BlobStore三核心服务[24] - 工程实践呈现"重行动轻规划"特点,存在至少6套重复的队列管理/代理循环实现方案[27] - 持续集成流程面临挑战,主分支测试在GPU环境需30分钟,反映快速扩张带来的技术债[28] 人才管理 - 高管团队保持高度可见性,包括Sam Altman(sama)等多位领导者在Slack直接参与技术讨论[21] - 招聘呈现Meta人才流入趋势,基础架构团队多来自Meta/Instagram系[24][25] - 组织处于"相变期",大量引入外部高级管理者以补充管理基因[42] - 核心团队组建灵活,Codex发布时8名工程师+4名研究员+2设计师的精英组合实现高强度冲刺(日均工作16小时)[36]
持续释放民企活力,稳固经济向好态势
第一财经· 2025-07-16 09:10
中国经济表现 - 上半年GDP同比增长5.3%,CPI同比下降0.1%,6月CPI同比上涨0.1%,核心CPI同比上涨0.4%,超出市场预期 [1] - 高科技和装备制造业占比提升,创新药、泡泡玛特、大语言模型和人工智能等领域表现突出,展现民营经济生命力 [1] 政策与民营经济 - 北京和东莞等地简化审批流程,如文艺演出和外摆摊位无需消防审批,酒吧驻唱实施"应批尽批",释放经济自由空间 [2] - 改革开放经验表明,清除人财物流动桎梏(如迁徙自由、公平竞争)是经济繁荣的关键 [2] 经济刺激与需求 - 社融和M2高企推动GDP增长,但居民有效消费不足(社零增长5.0%,人均可支配收入名义增长5.3%),可能导致低效资产风险 [3] - 超长期特别国债需动态调整,优先用于缓解有效需求不足,如社保福利领域,以提升居民消费信心 [3][4] 民营经济活力 - 当前经济稳中向好,需通过简政放权、轻税薄赋进一步释放民营经济活力,避免过度干预 [4] - 泡泡玛特在韩国市场受热捧,但因门店秩序问题中止线下销售,反映其国际影响力 [6]
一财社论:持续释放民企活力,稳固经济向好态势
第一财经· 2025-07-15 20:51
经济表现 - 上半年GDP同比增长5.3%,CPI同比下降0.1%,6月份CPI同比上涨0.1%,核心CPI同比上涨0.4%,超出市场预期 [1] - 高科技、装备制造业在经济中占比提升,创新药、泡泡玛特、大语言模型和人工智能领域表现突出,展现民营经济生命力 [1] 政策与改革 - 北京取消文艺演出和外摆摊位审批,东莞实施商业性演出活动"应批尽批",简化审批流程 [2] - 改革围绕清除妨碍人财物自由流动的桎梏,如人的迁徙自由和公平竞争市场秩序 [2] - 建议通过全国统一大市场建设,根植法治化营商环境,避免过度干预经济内生力 [3] 消费与需求 - 上半年社零同比增长5.0%,居民人均可支配收入同比名义增长5.3%,但居民有效消费能力不足 [3] - 超长期特别国债应动态评判资金使用方向,舒缓有效需求不足,避免低效风险资产 [3] - 建议将部分超长期特别国债用于社保福利领域,提升居民消费信心和市场供需匹配能力 [4] 民营经济 - 民营经济展现顽强生命力,政策"松手"可释放其增长潜力 [2] - 简政放权、轻税薄赋是释放民营经济活力的关键 [4]
ACL 2025|自我怀疑还是自我纠正?清华团队揭示LLMs反思技术的暗面
机器之心· 2025-07-14 12:08
反思技术失败现象 - 大语言模型在反思技术提示下会出现将正确答案改错的现象,即使是最先进的推理模型ChatGPT o4-mini-high在简单事实问题如"地球是不是平的"上也会出错[2][3] - 反思技术在多种任务(简单事实问答、复杂推理等)中失败案例多于成功案例,且随着模型进步失败率虽有减少但未根本解决,部分任务中更严重[8] - 最新ChatGPT模型(4.5-preview/4.1/o4-mini/o3)反思失败率显著,其中o4-mini初始准确率81.6%但反思后下降22.1个百分点,改错率高达41.5%[9] 失败原因分析 - 内部答案波动:多轮对话中LLMs会频繁更改答案,如GPT-3.5-turbo对81.3%的问题更改答案超6次,表现出"自我怀疑"倾向[12][13] - 提示语偏差:失败时LLMs在76.1%情况下过度关注反思指令而忽略问题本身,成功时对指令和问题的关注度相近(50.8% vs 49.2%)[16][18] - 认知偏差:在复杂任务中LLMs会表现出类似人类的三种认知偏差模式——过度思考、认知过载、完美主义偏差[20][21] 缓解策略 - 问题重复:在反思提示语后附上初始问题,引导模型维持对问题的关注[25] - 少样本微调:使用4-10个样本进行微调可纠正反思失败的异常行为,效果优于问题重复且能泛化到复杂任务[23][25]
宇树科技王兴兴、强脑科技韩璧丞首次出席香港特首顾问团会议
每日经济新闻· 2025-07-14 02:36
香港特首顾问团会议 - 杭州宇树科技创始人王兴兴和浙江强脑科技创始人韩璧丞作为新一届特首顾问团成员首次参会,会上强调香港具有"内联外通"优势、教育科研资源及国际金融中心地位,是内地企业上市和出海的理想窗口 [1] - 顾问团讨论三大主题:香港经济高质量发展、创新与创业、区域与环球协作,涉及巩固金融中心地位、推动产业升级、开拓新兴市场等内容 [2] - 特首李家超表示顾问团成员均为各领域翘楚,其建议将为香港发展战略和《施政报告》提供重要参考 [2] 杭港创科合作 - 李家超4月访问浙江时曾与"杭州六小龙"企业代表会面,重点关注大语言模型、机器人、AI、脑机接口等领域发展,并实地考察强脑科技和宇树科技 [3] - 李家超指出杭州创科生态圈发展迅速,香港将推动两地企业合作,利用香港开放优势助力内地企业国际化 [3] - "杭州六小龙"中的群核科技已于2024年2月14日向港交所递交IPO申请,成为该群体首家拟上市企业 [3] 企业动态 - 宇树科技和强脑科技作为"杭州六小龙"代表企业,其创始人在香港特首顾问团会议中扮演重要角色,凸显两地科创合作深化 [1][3] - 强脑科技专注于脑机接口技术,宇树科技涉及机器人领域,两家公司均受到香港特区政府高度重视 [3]
“杭州六小龙”,两人加入特首顾问团!
第一财经· 2025-07-13 22:18
香港特首顾问团成员变动与战略意图 - 第二届特首顾问团新增三位成员:经济学家朱民、强脑科技创始人韩璧丞、宇树科技创始人王兴兴,均来自"杭州六小龙"企业 [1] - 首届顾问团中李泽钜、傅育宁、汤晓鸥三人退出,保持34人总规模不变 [1] - 顾问团分为经济高质量与持续发展、创新与创业、区域与环球协作三个小组,成员包括唐英年、白德利、蔡崇信、迈克尔·斯彭斯等政商学界领袖 [2] 香港资本市场吸引力建设 - 港交所新增18A和18C章节为生物科技、特专科技公司开辟上市通道,2024年9月进一步下调18C市值门槛 [3] - 2024年上半年港股完成42宗IPO募资1070亿港元,同比增长22%,暂列全球第一 [4] - 恒指上半年累计上涨20%(超4000点),创历年最大上半年涨幅 [4] - 宁德时代以355亿港元募资额成为2024年全球最大规模IPO [4] - 南向资金上半年净流入逾7300亿港元,接近2023年全年水平 [4] 内地企业赴港上市趋势 - "杭州六小龙"中群核信息已递交港交所招股书,宇树科技计划先A后H股上市 [3] - 207家公司正在港交所排队等待上市,集中在科技、新消费和医药医疗行业 [6] - 李家超2023年《施政报告》明确推动内地大型企业赴港上市,争取更多标志性IPO [3] - 香港财政司司长陈茂波提出"香港集资支持国际拓展"将成为内地企业出海新趋势 [5] 香港与内地科技企业联动 - 李家超2024年4月率团访问杭州,与"杭州六小龙"探讨大语言模型、机器人、AI等领域合作 [5] - 强脑科技和宇树科技创始人认为香港具备"内联外通"、教育科研及国际金融中心优势 [2] - 特区政府通过优化上市流程、降低交易成本增强对科技企业吸引力 [3]
“杭州六小龙”两人加入特首顾问团:李家超的“阳谋”|湾区观察
第一财经· 2025-07-13 20:14
香港特首顾问团动态 - 李家超与第二届特首顾问团举行首次会议,新增三位成员包括经济学家朱民、强脑科技创始人韩璧丞和宇树科技创始人王兴兴,替换了首届成员中的李泽钜、傅育宁和汤晓鸥[1] - 顾问团分为经济高质量与持续发展、创新与创业、区域与环球协作三个小组,成员包括唐英年、白德利、蔡崇信、迈克尔·斯彭斯等政商学界领袖[1] - 新成员表示香港具有"内联外通"优势,是国际金融中心,资金自由流动,吸引内地企业在港上市和作为"出海"窗口[4] 香港股市发展策略 - 李家超在《施政报告》中明确要吸引国际企业和内地大型企业赴港上市,争取更多标志性IPO[5] - 港交所新增18A和18C章节为生物科技和特专科技公司开辟上市通道,2024年9月进一步下调18C市值门槛[5] - 港交所优化上市批核流程,降低交易成本以增强对IPO企业的吸引力[5] 港股市场表现 - 2024年上半年港股完成42宗IPO,募资1070亿港元,较去年全年增长22%,暂列全球第一[6] - 上半年恒指累计上涨20%(4000点),创历年来最大上半年涨幅[6] - 宁德时代以355亿港元募资额成为2024年迄今全球最大规模IPO[6] 内地企业赴港上市趋势 - 杭州群核信息技术已向港交所递交招股书,宇树科技计划先上A股再赴H股[5] - 2024年多家内地科技企业通过18C章程赴港上市[5] - Wind数据显示截至7月7日有207家公司在港交所排队等待上市,集中在科技、新消费和医药医疗行业[7] 政府与企业互动 - 李家超2024年4月访问杭州并与"杭州六小龙"会面,探讨新技术生态圈和政府企业合作[7] - 陈茂波表示"香港集资以支持国际拓展"将成为内地企业出海新趋势[7] - 南向资金上半年净流入港股逾7300亿港元,接近去年全年水平[6]
Cell综述:生成式AI,开启医学新时代
生物世界· 2025-07-13 16:16
人工智能在生物医学领域的应用 - 生物医学领域的技术创新如药物研发、外科技术、生物通路理解和成像技术进步推动了生活质量和健康寿命的提升 [2] - 现代人工智能的进步得益于Transformer架构、生成对抗网络和diffusion模型等关键架构创新,推动了生成式人工智能系统的发展 [2] 人工智能在医学领域的变革性潜力 - 大语言模型(LLM)和多模态人工智能通过改进诊断、患者互动和医疗预测改变医学领域 [6] - 大语言模型实现对话式界面、简化医疗报告并协助临床决策,多模态人工智能整合图像和基因数据在病理学和医疗筛查中表现优异 [6] - AI驱动的工具通过持续监测和多尺度预测有望实现主动、个性化的医疗保健 [6] 医疗实践的变革 - AI赋能的医疗实践将临床护理从偶发性互动转变为持续监测和定期随访 [8] - 医疗事件可在熟悉环境中更早得到持续关注,新医学知识更易融入护理模式并借助AI技术开发新药物 [8] 多尺度医疗预测 - AI算法基于动态输入预测未来医疗事件,应用于从分子层面到群体层面的多个层面 [10] 医疗AI的未来与挑战 - AI在医疗健康领域的进展使工具能处理海量信息,显著提高诊断准确性和改善患者治疗结果 [11] - AI进步如高级筛查、创新成像技术、预测分析和个性化管理计划有望将患者护理从被动模式转变为主动系统 [11] - AI工具在临床的全面接受仍面临挑战,大多数工具处于开发阶段,临床应用是主要障碍 [11] 医疗AI实施路线图 - 基础科学研究催生概念验证模型,大规模模型和早期临床应用为最终临床部署和优化奠定基础 [14]