Workflow
Artificial Intelligence
icon
搜索文档
Z Tech|独家解读Meta朱泽园开源新基线,用10%算力跑赢Llama3-8B,科学方法引领新范式,语言模型物理学迈入新时代
Z Potentials· 2025-08-02 10:19
01 物理学式的 AI 科学革命 即便是最顶尖的大模型,依然会在简单推理和常识问题上犯错。这是算法极限,还是训练范式出了问题? 我们能否像物理学家一样,用客观、可控的实验 揭示"AGI"本质? 《Physics of Language Models( 语言模型 物理学)》 ,正是将AI研究带入"物理学范式"的项目,由Meta FAIR研究院的朱泽园概念化发起 ,并统筹设 计。朱泽园是LoRA技术合作者、Katyusha优化算法发明者、清华本科,麻省理工博士、Google Codejam全球编程大赛第二名、IOI两届国际金牌,论文引 用超三万。他从优化理论深耕多年,现专注于AI基础理论和智能本质的科学探索。 02 用物理学方法追寻智能的普适规律 将"智能"拆解为 原子化 、可控的任务维度(推理、知识、结构理解等) ,为每个维度设计合成实验,最大限度减少"现实世界数据"的噪音; 用可控实验,揭示不同模型架构的极限与短板 ,不仅看"刷分",更追溯"为何如此""如何突破"; 坚持客观、可验证的科学精神和学术思想传承 ,推动AI从工程走向基础科学。 本次开源, 是Physics of Language Models自诞 ...
谷歌IMO金牌模型可以用了!推理性能秒了o3、Grok 4
量子位· 2025-08-02 09:33
产品发布与更新 - 谷歌DeepMind推出Gemini 2 5 Deep Think模型 已在Gemini App中上线[3] - 发布版本与IMO金牌版本略有不同 速度更快但实力稍逊 仅达铜牌水平[4][5][6] - 模型仅对Ultra订阅用户开放 月费249 99美元 约合人民币1803元[7] 性能表现与对标 - 推理性能超越OpenAI的o3和马斯克的Grok 4[8] - 在LiveCodeBench V6和Humanity's Last Exam测试中均取得最佳成绩[10] - 擅长编码 科学 知识和推理能力[9] 技术原理与优势 - 采用并行思维技术 拓展思维能力边界 可一次性生成众多想法并修正结合[14][15] - 延长推理时间 探索不同假设 找到创造性解决方案[16] - 迭代式开发能力突出 提升网页开发任务的美观性和功能性[12] 应用场景 - 可深度阅读论文 融合不同论文观点 非简单复述[17] - 协助数学猜想探索和科学文献推理 加速科研发现[18] - 擅长算法开发与代码编写 能精细考量问题表述和时间复杂度[18] 行业影响 - 模型展示谷歌在AI推理领域的领先技术实力[8][10] - 高性能订阅模式可能重塑AI产品商业化路径[7] - 在科研和工程领域的应用潜力显著[17][18]
Kimi K2高速版发布;OpenAI将“星际之门”项目引入欧洲丨AIGC日报
创业邦· 2025-08-02 09:09
OpenAI欧洲AI数据中心项目 - OpenAI宣布启动"星际之门"挪威项目 这是其在欧洲的首个AI数据中心项目 合作伙伴包括Nscale和Aker 站点由Nscale负责设计和建设 预计由Nscale与Aker成立的50/50合资企业共同拥有 [2] 阿里通义千问编程模型 - 阿里通义千问推出编程模型Qwen3-Coder-Flash 该模型在代理式编程 浏览器使用 工具调用等领域超越当前顶级开源模型 仅略逊于顶配版Qwen3-Coder-480B-A35B-Instruct Claude Sonnet-4 GPT4 1等领先闭源模型 [2] Deepseek大语言模型部署专利 - Deepseek关联公司杭州深度求索人工智能基础技术研究有限公司公布"一种大语言模型的部署方法及系统"专利 该专利涉及人工智能领域 通过将预填充阶段和解码阶段分别部署在不同性能的机器上 实现负载均衡 提高硬件利用率 减少闲置算力 降低延迟 提高吞吐量 增强系统扩展性和容错性 [3] Kimi K2高速版发布 - Kimi K2高速版kimi-k2-turbo-preview发布 模型参数与kimi-k2一致 但输出速度从每秒10 Tokens提升至每秒40 Tokens [4] 行业数据服务 - 提供人形机器人 商业航天 AGI等热门赛道的行业图谱和报告 包含2万+LP数据 10万+基金数据 1万+专精特新小巨人企业等 [4][5]
多模态后训练反常识:长思维链SFT和RL的协同困境
机器之心· 2025-08-02 08:55
在语言模型领域,长思维链监督微调(Long-CoT SFT)与强化学习(RL)的组合堪称黄金搭档 —— 先让模型学习思考模式,再用奖励机制优化输出,性能通常 能实现叠加提升。 但 华为与香港科大的最新研究 发现了一个出人意料的现象: 在多模态视觉语言模型(VLM)中,这对组合难以实现协同增益,甚至有时会互相拖后腿。 推动这项研究的一个关键见解是认识到多模态推理评测与纯语言评测存在微妙差异。虽然文本推理任务通常侧重于逻辑要求高的问题,但多模态评测通常包含简 单基于感知的问题和复杂的认知推理挑战。作者假设,这种异质性是 Long-CoT SFT 和 RL 在多模态设置中表现出不同现象的核心原因。 为探索各种后训练技术如何影响不同类型问题性能,作者们引入了一个简单有效的难度分类方法,并基于此构建了 难度层级细化后的多模态推理榜单数据集 (包 括新的 MathVision、MathVerse、MathVista、MMMU val 和 MMStar val)。该方法根据基线模型 Qwen2.5-VL-Instruct-7B 在五个数据集的每个问题上 16 次独立运行 的成功率,将题目分为五个级别(L1-L5),分别代表 ...
一个模型超了DeepSeek R1、V3,参数671B,成本不到350万美元
机器之心· 2025-08-02 08:55
公司概况 - Deep Cogito是一家鲜为人知的AI初创公司,总部位于旧金山,由前谷歌员工创立,近期开源了四款混合推理模型[2] - 公司于2025年4月正式走出隐身状态,此前已默默耕耘一年多时间,早期发布的基于Llama 3.2训练的模型已展现出颇具前景的表现[8][9] - 联合创始人兼CEO Drishan Arora曾是谷歌大语言模型核心工程师,公司长期目标是构建能像AlphaGo那样通过迭代不断自我提升的模型[10] 技术突破 - 核心方法是迭代蒸馏与增强(IDA),不依赖手工提示词或静态教师模型,而是利用模型自身不断演化的洞察力引导训练[3] - 最大规模的671B MoE模型是全球最强大的开源模型之一,性能接近DeepSeek v3、DeepSeek R1等闭源前沿模型[3] - 推理链比DeepSeek R1缩短60%,训练总成本不足350万美元(含合成数据生成和1000+次实验)[6] - 通过将推理步骤蒸馏回模型参数,使模型拥有更强的智能先验,而非依赖延长推理链条[11][15] 模型性能 - 671B MoE模型在MMLU基准测试达87.6%,较Deepseek-v3 671B提升1.6个百分点;GPQA-Diamond测试达69.7%,提升14.65个百分点[36] - 70B稠密模型在MMLU-Pro基准达75.65%,较Llama 3.3 70B高5.38个百分点;GPQA-Diamond测试达55.05%,提升6.06个百分点[32] - 405B稠密模型在Simple QA基准达37.29%,较Llama 3.1 405B提升19.05个百分点[35] - 109B MoE模型在MMLU基准达91.6%,较Llama 4 109B高6.53个百分点;MGSM测试达92.52%,提升6.14个百分点[33] 创新特性 - 展现出未经专门训练的多模态涌现能力,能对图像进行复杂逻辑推理(如分析鸭子与狮子图片的构图/色彩/情感等)[21][27] - 采用类似AlphaGo的两步循环机制:推理时计算+策略迭代优化,实现智能闭环提升[26] - 模型提供标准LLM模式和自我反思模式,后者在多项基准测试中表现更优(如70B模型MMLU-Pro推理模式达81.33%)[32] 商业化进展 - 模型已开源并在Huggingface发布,支持通过Together AI/Baseten/RunPod等平台API调用,或使用Unsloth本地运行[7] - 当前发布的是8个模型中的4个,包含2款中型(70B/109B)和2款大型(405B/671B)模型[14]
OpenAI,估值已达3000亿美元
财联社· 2025-08-02 08:41
融资与估值 - 人工智能初创公司OpenAI已融资83亿美元,估值达3000亿美元,这是其今年400亿美元融资计划的一部分 [1] - 本轮融资提前完成,获得了5倍的超额认购 [2] - Dragoneer投资集团以28亿美元领投本轮,Blackstone、TPG、T. Rowe Price、Fidelity、Founders Fund、红杉资本、Andreessen Horowitz、Coatue、Altimeter、D1 Capital、Tiger Global及Thrive Capital等机构跟投 [2] 财务表现 - OpenAI年化经常性收入从6月份的100亿美元跃升至130亿美元 [2] - 公司年化经常性收入有望在年底前突破200亿美元 [2] 用户增长 - ChatGPT的付费企业用户数量从300万增至500万 [2] - ChatGPT的周活跃用户超过7亿 [2]
算力使用费,单家企业最高给2000万
每日商报· 2025-08-02 06:15
人工智能产业政策支持 - 杭州高新区(滨江)推出"数据、算力、模型"三位一体人工智能政策体系,每年安排最高1亿元"算力券"补助,给予算力使用费用最高60%补助,单家企业最高2000万元 [1] - 支持企业和机构开源人工智能计算平台、模型等,给予最高500万元奖励,促进产业集聚 [1] - 成功落地并获评标杆示范项目最高可获得250万元区级奖励,入围省市标杆项目最高可获得500万元奖励 [1] 人工智能产业布局 - 高新区(滨江)发布人工智能典型场景需求,涵盖生产制造、金融贸易、医疗健康、民生服务、社会治理五大领域 [1] - 启动杭州数谷数据创新中心和浙江省人形机器人未来产业先导区建设,探索数据资源化与资产化路径 [1] - 推动打造人形机器人技术创新核心区、具身智能引领区、训练熟化加速区和场景方案示范区 [1] 人工智能产业发展现状 - 高新区(滨江)初步形成覆盖计算芯片、AI框架、服务器、算力基础设施、行业大模型等完整产业链 [2] - 2024年全区人工智能核心产业实现营收超2000亿元,占杭州市比重超40% [2] 行业活动 - "中控杯"工业AI创新挑战赛开赛,旨在发掘工业AI领域创新力量 [2]
Meta dishes out $250M to lure 24-year-old AI whiz kid: ‘We have reached the climax of ‘Revenge of the Nerds'
New York Post· 2025-08-02 05:38
人才竞争与薪酬 - Meta向24岁AI研究员Matt Deitke提供总额达2.5亿美元的薪酬方案,创下企业史上最高薪酬记录之一,初始报价1.25亿美元被拒后CEO扎克伯格亲自将报价翻倍[1][2] - 该薪酬包含首年可能支付的1亿美元,凸显AI顶尖人才的稀缺性[2][4] - Meta为组建AI精英团队已支付超10亿美元,包括以超2亿美元薪酬从苹果挖角AI模型团队前负责人Ruoming Pang[9][15] 技术背景与行业动态 - Deitke曾主导开发多模态AI系统Molmo,能处理图像、声音和文本,与Meta技术方向高度契合[5] - 其研究成果包括3D数据集、具身AI环境和多模态模型,获NeurIPS 2022杰出论文奖(获奖率约0.1%)[7] - 离职博士项目后创立AI代理公司Vercept,获1650万美元融资,投资者含谷歌前CEO埃里克·施密特[6] 公司战略与资本投入 - Meta宣布2025年资本支出将增至720亿美元,同比增加约300亿美元[10] - 扎克伯格明确表示将"不惜代价"争夺50-70名顶级研究人员,强调"人才密度"战略[16] - 公司正建设千兆瓦级计算集群,硬件投入与人才招募形成协同效应[16] 行业影响与社会争议 - MIT经济学家David Autor指出"程序员薪酬堪比职业运动员"标志技术人才价值重估[4] - 行业出现两极分化:顶级研究者获数亿薪酬,而内容审核等岗位面临裁员且无正式员工待遇[11][13] - UCLA专家指出AI发展模式依赖底层劳动者产生的数据,但未给予相应补偿,可能加剧经济不平等[11][13][15]
Merging AI and Quantum Computing: Here's the Stock to Watch
The Motley Fool· 2025-08-02 05:24
人工智能与量子计算融合趋势 - 科技行业领导者正加速整合人工智能与量子计算技术以革新计算能力[1] - 英伟达作为AI行业领军者同时推动量子计算发展成为同时布局两大新兴领域的稀缺标的[2][9] 英伟达AI领域核心竞争力 - 通过Nvidia AI Foundry提供端到端生成式AI模型构建平台覆盖大语言模型和AI聊天机器人[4] - Nvidia AI Enterprise软件工具套件支持云原生AI开发[4] - Blackwell架构GPU成为数据中心AI计算核心 已获CoreWeave和Nebius等超大规模客户部署[5] 量子计算领域布局 - 在波士顿建立研究中心 将GB200 Grace Blackwell超级芯片与量子硬件结合以解决量子比特噪声等关键问题[6] - 向日本产业技术综合研究所提供2,020块H100 GPU 支撑全球最大量子研究超算ABC1-Q[7] - 通过Quantum-2 InfiniBand网络平台和CUDA-Q开源混合计算平台推动量子应用开发[7][8] 估值与市场定位 - 当前市盈率56倍低于五年平均70倍 反映其半导体与AI双领域龙头溢价[10] - 作为少数同时深度参与AI和量子计算的基础设施提供商 具备独特配置价值[9][11]
破晓之光:2025 ChinaJoy AIGC大会圆满召开 | ChinaJoy2025
36氪· 2025-08-02 02:07
大会概况 - 2025 ChinaJoy AIGC大会以"破晓之光"为主题,聚焦AI基建、人形机器人、数字娱乐新范式及智能技术产业融合四大板块 [1] - 大会采用"主题演讲+圆桌论坛"形式,探讨技术驱动产业从"追随者"迈向"定义者"的路径 [1] 多模态大模型技术 - 清华大学朱军团队开发的Vidu Q1视频模型实现"高可控性"与"高一致性",已应用于泛互联网、广告营销及智能硬件领域 [2] - 多模态技术推动数字与物理世界融合,AI能力从虚拟内容生成扩展到物理世界的感知、决策与执行 [2] Agentic AI与基础设施 - 微软预测Agentic AI到2028年将承担15%企业日常工作决策,中国市场年均复合增长率达72.7% [5] - 微软Azure AI Foundry平台整合LLM Models和Agents工具,AI数据中心采用NVIDIA GB200 GPU和液冷系统,性能达最快超算10倍 [5] AI算力与硬件协同 - 无问芯穹通过软硬件协同优化实现终端性能2-5倍提升,自研推理IP加速AI终端落地 [7] - 公司构建"云端一体"生态,推动算力标准化服务和AI算力国产化 [7] 生活空间机器人 - 维他动力定义生活空间机器人为自主化助人机器人,将在世界机器人大会推出行业首个智能伴随机器人 [9] - 智能终端发展遵循从垂直应用到系统整合的路径,类似Walkman到智能手机的演进 [9] 具身智能人形机器人 - 青心意创Orca机器人聚焦拟人交互陪伴,在多模态交互能力上处于领先水平 [10] - 星动纪元认为具身智能可替代高危环境作业,推动传感器等硬件升级,解决劳动力短缺问题 [13] AI游戏与应用创新 - 世纪华通"数龙杯"大赛评选11支团队,推动AI技术规模化商业化应用 [17] - 腾讯混元AIGC工具提升游戏美术资产开发效率,但风格一致性等问题仍需优化 [23] - VAST的Tripo 3D大模型服务3.5万中小客户,支持语义分割和部件级编辑 [25] 影视与视频生成技术 - 爱奇艺用AI重构影视生产流程,开发剧本工坊、虚拟制作等智能制作产品 [19] - 爱诗科技PixVerse视频大模型迭代至V4.5,实现5秒生成高质量视频,服务全球6000万用户 [21] AI Agent发展 - 扣子平台被上万家企业用于开发Agent,如抖音电商智能客服和和府捞面点评分析系统 [27] - 新智慧游戏推出GameSkill陪练AI,覆盖MOBA/FPS/RPG等主流游戏品类 [29] - 圆桌讨论预测Agent将具备自主决策能力,办公场景或实现80-90%无人化操作 [31]