Workflow
Large Language Model
icon
搜索文档
Mark Zuckerberg's Patience 'Ran Out': Hyperbolic CTO Says Yann LeCun's Meta Exit Was Inevitable After $15 Billion Alexandr Wang Deal
Yahoo Finance· 2025-11-13 03:31
Benzinga and Yahoo Finance LLC may earn commission or revenue on some items through the links below. On Tuesday, Hyperbolic co-founder and CTO Yuchen Jin alleged that Yann LeCun's reported decision to leave Meta Platforms Inc. (NASDAQ:META) was inevitable, suggesting that CEO Mark Zuckerberg's bet on Alexandr Wang and a shift in AI leadership left little room for the company's longtime chief scientist. Hyperbolic CTO Says Zuckerberg Panicked After ChatGPT Success In a post on X, formerly Twitter, Jin wrot ...
斯坦福新发现:一个“really”,让AI大模型全体扑街
36氪· 2025-11-04 17:53
研究背景与核心问题 - 聊天机器人用户数据显示,有超过100万人在对话中表现出自杀倾向,凸显了AI在涉及人类情绪时正确理解用户情感的重要性[1] - 大语言模型在医疗、法律、新闻等高风险领域应用时,能否像人类一样区分“个人想法”和“客观事实”成为关键问题[1] - 若缺乏区分能力,大语言模型不仅可能误导判断,还可能在无意中放大错误信息的影响[1] 研究方法与数据集 - 斯坦福大学James Zou教授团队通过“原子化”语言任务对大语言模型的认知局限进行系统性检验[1] - 相关研究论文发表在权威科学期刊《自然·机器智能》上[2] - 研究采用名为“知识与信念语言评估”的数据集,包含13个任务的13000道题目,覆盖历史、文学、医学和法律等10个领域[3] - KaBLE数据集巧妙结合来自《大英百科全书》等权威来源的事实陈述与保持相似语义但引入细微偏差的虚假版本[3] 模型分类与评估框架 - 研究人员将大语言模型分为两组:GPT-4o发布之前的模型归为旧一代“通用型”模型,包括GPT-4、Claude 3和Llama 2/3[6] - GPT-4o发布之后的模型归为新一代“推理导向型”模型,包括o1和DeepSeek R1,这些模型经过强化学习训练,具备复杂推理能力[6] 模型表现与局限性 - 旧一代大语言模型在识别错误信息时准确率仅49.4%,识别真实信息的准确率为89.8%,揭示了不稳定的决策边界[7] - 新一代大语言模型在“识别错误信息”上更敏锐,判断逻辑更鲁棒,能主动质疑输入内容[8] - 即使是先进的推理型模型,也难以识别以第一人称表达的错误想法,例如GPT-4o处理错误想法时准确率从98.2%骤降至64.4%[10] - 大语言模型在处理想法时会根据归属于“谁”而表现不同,确认第三人称错误信念时准确率明显更高[13] - 对“递归知识”的评估显示,部分以推理为导向的模型表现良好,但也有一些模型表现不佳,表明可能在进行表层模式匹配而非真正掌握逻辑本质[14] - 大语言模型对语言细节非常敏感,例如在判断语句中多加一个“really”就会导致准确率大幅下降[15] 行业影响与未来方向 - 研究结果对大语言模型在新闻业、医疗、法律推理、教育及科学交流等领域的应用具有深远影响[15] - 研究中揭示的局限性甚至存在于先进模型之中,凸显亟需改进人工智能系统在“信念、知识与事实”表征和推理方面的能力[15] - 未来大语言模型不仅需要熟练区分“个人观点”与“客观事实”的细微差异,还必须理解“人们为何会相信某个信息是真或假”[16]
刚刚,Cursor 2.0携自研模型Composer强势登场,不再只做「壳」
机器之心· 2025-10-30 09:41
Cursor 2.0 版本发布 - Cursor 发布重大更新,包括首个自研编码模型 Composer 和用于并行协作多个智能体的新界面 [2] 自研模型 Composer 的意义 - Composer 的发布标志着公司从依赖第三方模型的“AI外壳”向“AI原生平台”的战略转型 [3][4] - 此举旨在打破长期依赖 Claude、GPT 等第三方模型的瓶颈 [3] 模型 Composer 的性能特点 - 模型生成速度达到每秒 250 个 token,是领先快速推理模型的两倍,是同类前沿系统的四倍 [9] - 模型智能程度匹敌中端前沿系统,但速度遥遥领先 [6][9] - 模型专为低延迟的智能体式编码打造,大多数任务回合在 30 秒内完成 [11] - 模型通过覆盖整个代码库的语义搜索等工具进行训练,在处理大型代码库方面能力显著更强 [12] 模型 Composer 的技术架构 - Composer 是一种混合专家模型,支持长上下文的生成与理解 [16] - 模型通过在多样化开发环境中进行强化学习,针对软件工程进行专项优化 [16] - 训练鼓励模型高效使用工具并最大化并行处理,模型自发习得执行复杂搜索、修复错误等能力 [19] - 公司构建了新的基准测试 Cursor Bench,以更贴近开发者实际使用价值的方式评估模型 [16] Cursor 2.0 的多智能体界面 - 新界面彻底以“智能体”为中心,用户可专注于结果,让智能体处理细节 [22] - 系统能够轻松并行运行多个互不干扰的智能体,并可利用多个模型尝试同一问题以提升结果质量 [22] - 新版本开始解决代码评审与变更测试这两个新的瓶颈 [24][25] - 构建了原生浏览器工具,使智能体可以测试其工作并持续迭代直至产出正确结果 [26] 训练基础设施 - 公司基于 PyTorch 和 Ray 构建了定制化训练基础设施,以支持大规模异步强化学习 [28] - 通过结合 MXFP8 MoE kernels 与专家并行等技术,将训练扩展到数千张 NVIDIA GPU,并实现更快的推理速度 [28] - 重写了虚拟机调度器,以支持在云端并发运行数十万份隔离的沙盒编码环境,实现了训练与生产环境的无缝统一 [28] 市场反馈与应用 - Composer 已被公司自身的工程团队在日常开发中使用,表明其成熟度和稳定性 [20] - 本次大版本更新获得了大量关注,早期体验开发者给出了积极反馈 [30][31][36]
Inuvo (NYSEAM:INUV) Conference Transcript
2025-10-22 03:02
行业与公司 * 公司为Inuvo Inc (NYSEAM: INUV) 一家拥有10年历史的广告技术公司[1] * 行业为广告技术行业 专注于程序化媒体购买 行业规模达2200亿美元[4] 核心技术与产品 * 核心技术为专有的大型语言模型 基于19项已获批专利和6项待批专利构建[3] * 核心产品为IntentKey AI 一个隐私优先设计的人工智能平台 用于创建受众模型[9] * 技术优势在于无需依赖个人身份数据或Cookie 通过分析开放网络上的实时信号来发现购买意向[9][14] * 技术能够预测未来客户 比其他广告技术平台最多提前24小时竞价库存[10] * 技术效能经过8年验证 相比竞争平台效果高出60%[17] 商业模式与客户 * 公司收入来源包括平台业务 服务于大型数字供应链 代理商以及直接面向营销人员[2] * 商业模式具有弹性 客户包括苹果 迪士尼等主要科技品牌 美国顶级三大汽车品牌之一 医疗保健和零售领域客户[12][16] * 公司新增36个自助服务客户和42个新客户 自助服务模式利润率极高 接近100%[18][21] * 公司五年季度复合年增长率为24% 截至今年第二季度 即将突破1亿美元收入门槛[17] 市场机遇与竞争格局 * 市场机遇源于传统广告供应链的崩溃 传统系统依赖Cookie进行用户追踪 而消费者隐私意识增强和设备限制使其失效[4] * 64%的美国广告支出通过程序化媒体购买平台进行 涉及数字 视频 联网电视等渠道 其中联网电视是增长型领域[4] * 25%的数字广告支出未能命中目标 数据信号减弱 受众更难触达 公司技术是应对此问题的解决方案[9] * 公司定位在隐私合规领域具有领导优势 符合日益重要的隐私保护趋势[2][19] 增长战略与财务表现 * 增长战略包括通过咨询式销售更接近预算决策者 利用混合媒体建模技术帮助确定最优支出和绩效[19] * 战略重点包括更多直接与品牌合作 因为广告代理行业环境艰难 有13000至15000家代理商面临挑战[19][20] * 公司账上有现金 并通过融资设施获得资本渠道 拥有1000万美元的资本通道[17] * 第二季度收入出现环比下降 但未在纪要中说明具体原因[22] 其他重要信息 * 公司首席运营官Rob Buckner于2025年2月加入董事会 后担任首席运营官 拥有数十年行业经验[1] * 技术可应用于预测性混合媒体建模 受众发现 以及创意信息与受众对齐等多个场景[5][6] * 技术可细化到邮政编码级别 并实时更新受众模型 每五分钟刷新一次[7][9] * 公司提及一个潜在的重大客户机会 例如体育博彩品牌FanDuel 其在美国年广告支出达10亿美元[20]
「重要性采样」并不「重要」?快手清华ASPO攻克重要性采样权重错配
量子位· 2025-10-15 18:20
文章核心观点 - 在大语言模型的结果监督强化学习中,传统的重要性采样机制存在权重错配问题,导致模型过度自信、熵坍缩和训练早熟收敛 [2][6][12] - 研究团队提出一种名为ASPO的新算法,通过不对称翻转正样本的重要性采样权重,有效解决了上述问题 [3][18][19] - 实验证明ASPO在数学推理和代码生成任务中性能显著提升,训练过程更稳定 [24][26] 重要性采样问题分析 - 在GRPO类算法中,重要性采样不仅未带来分布修正好处,反而成为训练不稳定的元凶 [6][7] - 移除重要性采样权重后,模型最终准确率无差异,但训练曲线更平滑稳定,熵值下降速度放缓,重复率降低 [7] - 权重错配表现为正优势token的平均重要性采样权重高于负优势token,导致模型陷入自我强化循环和局部最优 [9][12][14] ASPO算法核心机制 - 对正优势token的重要性采样权重取倒数,使低概率token获得更强更新,高概率token被适当削弱 [18][19][22] - 引入Dual-Clipping机制裁剪翻转权重后导致的极端值,限制不稳定因素同时保留有效梯度流动 [20][21] - 梯度分析显示ASPO使梯度与token概率倒数成正比,增大了低概率token的学习力度 [22] 实验性能结果 - 在数学推理基准测试中,ASPO-Math-1.5B模型平均得分达59.3,优于对比模型如Nemotron-1.5B的58.7和FastCuRL-1.5B-V3的57.7 [24][25] - 在代码生成基准LiveCodeBench上,ASPO-Code-1.5B达到31.5 avg@8和47.0 pass@8的成绩,显著高于DeepSeek-R1-1.5B的17.0 avg和29.0 pass@8 [25][26] - 整体性能提升明显:数学任务平均性能提升12.5%,代码生成任务平均性能提升17.0% [26] 训练动力学优势 - ASPO训练曲线更平滑稳定,无显著熵坍塌现象 [26][27] - 模型输出重复率更低,KL散度与Clip Ratio保持稳定 [27] - 熵下降更平缓,避免了传统算法中的熵坍缩问题 [27]
Google AI 今年最大王炸,测试曝光直接复刻 macOS,比GPT-5更值得期待
36氪· 2025-10-15 17:29
产品发布与测试状态 - 更强大的Gemini 3 0已在Google AI Studio的测试中提前上线[1] - 目前关于Gemini 3 0的爆料测试均通过Google AI Studio网页端的随机A B测试完成 用户需平均重复查询50次才有可能触发[46][47] - Google AI Studio首页近期进行了更新 添加了API数据统计等功能 被推测是在为Gemini 3 0的正式上线做准备[50] - 根据泄露的内部项目追踪文件 Gemini 3 0的发布日期可能与2025年10月22日的营销里程碑对齐[52] 核心能力表现 - Gemini 3 0在编程能力上展现出显著提升 能根据简单提示词直接生成功能完整的网页版操作系统 如macOS和Windows 且生成的应用可交互[1][6][7] - 在相同的智能体编程任务测试中 Gemini 3 0的表现被指有超越Claude Sonnet 4 5和GPT 5的趋势[3] - Gemini 3 0生成的代码不仅能直接运行 其前端设计也更成熟 摆脱了AI模型中常见的渐变紫风格 审美获得提升[1][9][21] - 该模型具备工具调用能力 即智能体功能 已得到Google AI Studio负责人的确认[3] - 在处理复杂编程任务时 Gemini 3 0的推理速度约为1至2分钟[8] 具体应用案例 - 模型能够生成单一HTML文件的网页视频编辑器 并且可以正常工作[24] - 可生成无限流刷视频的抖音App网页版[24] - 能够生成原创音乐以及带有原创配乐的小游戏[44] - 通过了如生成骑自行车鹈鹕的SVG动画 六指测试 手写文档内容准确提取等多种基准能力测试[25][32][35][37] 行业竞争格局 - 大语言模型在基础能力上仍有提升空间 行业竞争焦点持续集中在编程等核心能力的突破上[1][3][53] - OpenAI凭借庞大的用户基础和ChatGPT收集的海量数据 近期持续推出多项应用以巩固用户群体[53] - Claude在编程领域保持领先地位 并按其计划推进基础模型更新 同时注重安全方面的研究[53] - Google通过此前nano banana在图像编辑领域的成功 为Gemini系列赢得了市场关注 目前正试图在编程等领域实现追赶和超越[53]
企业在院校设奖学金,不能简单地理解为“抢人”
南方都市报· 2025-10-15 08:00
项目概述 - 腾讯全面启动青云奖学金项目,重点关注人工智能领域的基础研究与应用创新 [1] - 项目面向中国大陆及港澳台地区院校就读、具有中国国籍的硕士或博士生 [1] - 首期预计评选15位获奖者,每位将获得总价值20万元现金奖励及价值30万元的云异构算力资源 [1] - 获奖者有机会进入公司实习或就业 [1] 项目背景与行业趋势 - 多位顶尖AI专家(如杨立昆、李飞飞、理查德·萨顿)认为当前大型语言模型缺乏对物理世界的理解和真正推理能力,离人类水平智能尚远 [2] - 行业共识认为人工智能发展需要颠覆性创新,而青年学者最有可能实现此类突破 [2] - 公司设立奖学金旨在发现拥有前瞻性科研视野的青年人才,以应对AI领域的根本性挑战 [2] 青年学者面临的挑战 - 人工智能研究,特别是大模型领域,对硬件算力要求极高,导致资金需求巨大 [3] - 全球GPU因AI爆发式发展及区块链等需求而供不应求,价格高昂 [3] - 许多课题组GPU资源匮乏,学生需自购显卡或依赖需要经费的云算力平台 [3] 项目资源支持的意义 - 奖学金提供的30万元云异构算力资源约可支持3个月前沿GPU实例24小时不间断使用,缓解青年学者的算力瓶颈 [4] - 企业科研人员获奖案例增多(如2025年诺奖得主玛丽·布伦科),表明企业支持对前沿科研至关重要 [4] - 通过提供资源与岗位,企业可能助力中国未来获得诺奖级成果 [4] 企业战略与社会效益 - 企业设立奖学金是履行社会责任、获取人才、发现前瞻性技术路线的多赢举措 [4] - 此类项目有助于公司提前布局可能引领未来的颠覆性AI创新 [2][4]
大模型追逐星辰大海,GPT和Gemini国际天文奥赛夺金
机器之心· 2025-10-13 12:21
大模型在天文奥赛中的卓越表现 - 大型语言模型在国际天文学和天体物理学奥林匹克竞赛中取得金牌级别的成绩,展示了其在复杂科学推理方面的强大能力 [4][5] - GPT-5和Gemini 2.5 Pro两大模型在IOAA基准测试中表现最为突出 [4][12] 评测框架与方法论 - 研究选择IOAA试题作为基准,因其具备更高的生态有效性,能考查复杂推理、创新性问题求解以及多步推导能力 [9][10] - 评估涵盖理论问题(共49个)和数据分析问题(共8个),排除了观测部分 [10] - IOAA题目覆盖广泛的天文主题,包括宇宙学、球面三角、恒星天体物理等,保证了评测的全面性 [10] 理论考试表现 - GPT-5在理论考试中的总体平均得分为84.2% ± 6.1%,Gemini 2.5 Pro为85.6% ± 8.0% [12] - GPT-5在2022年(93.0%)、2023年(89.6%)和2025年(86.8%)的理论考试中取得最高分 [13] - 模型在物理/数学类问题上的表现(准确率67-91%)明显优于几何/空间类问题(准确率49-78%) [24][26] 数据分析考试表现 - GPT-5在数据分析部分的平均得分为88.5% ± 12.6%,高于其理论考试表现 [12][16] - GPT-5在数据分析考试中展现出更强的多模态理解能力,尤其在图像解析和绘图推理方面错误率显著更低 [16] 与人类参赛者的对比 - 大多数大型语言模型的表现超过IOAA金牌门槛,GPT-5在2022、2023与2025年的表现优于当届最佳学生 [17][18] - 在2025年理论考试中,GPT-5得分相对于中位数的比例为443%,排名第一 [19] - 在2023年数据分析考试中,GPT-5得分为100%,相对于中位数的比例为250%,排名第一 [21] 错误分析与能力局限 - 最普遍的错误类型是概念性错误,反映了不正确的处理方法、公式误用和推理缺陷 [26] - 几何或空间推理是第二大错误来源,模型在球面三角学、计时系统和3D可视化方面尤其吃力 [26] - 在数据分析考试中,主要的故障模式包括绘图和图表/图像阅读,计算错误也比理论考试中更常见 [26]
真够卷的!DeepSeek更完智谱更:GLM-4.6,代码国内最强
量子位· 2025-09-30 16:26
模型性能提升 - 代码能力在74个真实场景编程任务测试中超过Claude Sonnet 4,成为国内最强[5] - 在AIME 25、GPQA等八大通用能力评测榜单中大部分对齐Claude Sonnet 4,位列国内第一[6] - 平均token消耗比GLM-4.5节省30%以上,为同类模型最低[8] - 上下文窗口由128K扩展至200K,适应更长的代码和智能体任务[28] 实测能力展示 - 代码生成速度快,不到一分钟即可生成一个射击类小游戏[14] - 能够创建多彩的可交互动画,并实现鼠标点击交互效果[16][18][19] - 能处理涉及重力、摩擦力和逼真反弹的经典物理编程题目[20][22] - 数学能力方面,能正确解答AIME 2025试题,并展示了识图的多模态能力[24][25] 国产芯片适配与部署 - 在寒武纪国产芯片上实现FP8+Int4混合量化部署,是国产芯片首次真正落地的FP8+Int4模型芯片一体化方案[27] - 在摩尔线程新一代GPU上,借助vLLM推理框架,能用原生FP8精度稳定运行GLM-4.6[30] - 模型与国产芯片的组合通过智谱MaaS平台正式对企业和大众开放服务[32] 成本与市场策略 - 推出GLM Coding Plan,最低20元包月套餐,以Claude 1/7的价格提供其9/10的智商水平[34]
Prediction: Wall Street's Most Valuable Public Company by 2030 Will Be This Dual-Industry Leader (No, Not Nvidia)
The Motley Fool· 2025-09-28 15:06
文章核心观点 - 一家历史估值低廉的万亿美元市值公司拥有必要的催化剂,有望在2030年前超越英伟达、苹果和微软,成为华尔街最有价值的上市公司 [1][5][14] - 尽管英伟达目前在人工智能领域占据主导地位,但其作为市值最高公司的地位面临历史先例和竞争威胁的挑战 [6][9][10] - 亚马逊凭借其电子商务的领先地位、高利润的云服务AWS以及广告和订阅服务,结合其历史低估值,最有可能在2030年成为市值第一的公司 [14][16][21][22] 万亿美元市值公司概况 - 历史上仅有11家上市公司达到过1万亿美元市值,其中10家在美国交易所上市,包括“七巨头”所有成员、博通、台积电和伯克希尔·哈撒韦 [3] 英伟达的现状与挑战 - 截至9月24日收盘,英伟达市值超过4.3万亿美元,是首家达到4万亿美元市值的公司,最乐观的分析师认为其估值可能超过6万亿美元 [6] - 英伟达的优势在于其作为企业数据中心AI GPU领导者的主导地位,其Hopper、Blackwell和Blackwell Ultra三代AI芯片需求旺盛且订单积压严重 [7][8] - 英伟达面临的风险包括:过去三十年的每一个新趋势在其发展早期都经历了泡沫破裂事件;企业目前远未优化AI解决方案或从其AI投资中获得正回报 [10][11] - 英伟达的许多大客户正在开发自研AI GPU用于其数据中心,这些芯片建造成本更低、更易获取,可能侵蚀英伟达的竞争优势 [12] 亚马逊的竞争优势 - 亚马逊的电子商务部门占美国在线零售额的37.6%,其领先地位稳固,但相关运营利润率极薄 [15] - 亚马逊云服务AWS是全球云基础设施支出的领导者,第二季度市场份额为32%,几乎相当于微软Azure和谷歌云的市场份额总和 [17] - AWS在剔除汇率影响后同比增长率保持在十几个百分点,生成式AI解决方案和大型语言模型能力有望进一步提升其增长率 [18] - 截至第二季度,AWS年化收入运行率超过1230亿美元,尽管其净销售额占比不到19%,但在2025年上半年贡献了公司近58%的运营利润 [19] - 亚马逊的广告服务因其网站每月吸引数十亿用户而拥有卓越的定价能力,订阅服务则通过与NFL和NBA的独家流媒体合作以及Prime会员福利获得定价权 [20] 亚马逊的估值分析 - 从2010年到2019年,亚马逊的年末估值介于过去12个月现金流的23至37倍之间 [21] - 根据华尔街共识,亚马逊的每股现金流预计将从2024年的11.04美元增长至2029年的27.52美元,这意味着其基于2029年预期现金流的估值仅为8倍 [21][22] - 基于此,亚马逊的市值可以合理地从当前水平增加2.5万亿至4万亿美元,并且仍将显著低于其在2010年代的平均现金流倍数 [22]