大语言模型

搜索文档
只要科学任务能打分,AI就能实现SOTA结果 | 谷歌最新论文
量子位· 2025-09-15 13:57
文章核心观点 - 谷歌开发了一种结合大语言模型和树搜索的AI系统 能够自动创建专家级科学实证软件 在多个科学领域实现超越人类专家的SOTA性能 [1][10][17] 技术方法 - 系统使用LLM重写代码提升质量评分 首先生成大量候选解决方案 再通过树搜索算法筛选优化方案 [17] - 通过注入外部研究思想增强代码变异能力 思想来源包括高被引论文 专业教科书和搜索引擎结果 [21] - 用户可直接注入思想或通过搜索引擎自动获取文献研究成果 LLM在编码过程中充分利用这些指导信息 [22][23] 性能表现 - 生物信息学领域发现40种单细胞数据分析新方法 在公开排行榜上超越人类顶尖方法 [10][25] - 流行病学领域生成14个COVID-19住院预测模型 全部超越CDC集合模型及所有其他个体模型 [10] - 地理空间分析领域三个新方法在DLRSD基准测试mIoU指标均突破0.80 显著优于近期学术论文结果 [26] - 神经科学领域斑马鱼活动预测方案训练速度比最佳视频模型快几个数量级 [28] - 在时间序列预测和数值积分求解领域达到或超越人类顶级方法水平 [10][30] 系统特点 - 专门针对可评分任务设计 这类任务以最大化可度量质量指标为目标 在科学界无处不在 [12][13][14] - 能够系统性地自动创建实证软件 解决科学软件开发过程缓慢艰难的痛点 [15][17] - 通过大规模彻底搜索发现高质量解决方案 实现超人类性能 [24] 社会反响 - 论文在X平台获得2.6K赞和283.4K浏览量 引发广泛讨论 [7][11] - 部分网友认为这标志着任何可量化领域都将被AI征服 [5] - 存在关于AI接管科学研究合适性的争议 有观点认为结果需要人类核查可靠性 [32][34]
没有专业背景,但他搞出了一家7亿美元估值的公司
虎嗅· 2025-09-15 12:49
在垂直 AI 领域,法律科技一直是最受瞩目的赛道之一。 Legora 可以说是这个赛道里增长最快的创企。 和 Lovable 一样,Legora 起源于瑞典,在成立不到两年的时间里,先是拿下了欧洲市场,再向美国市场 扩张,与全球 250 家律所达成了合作,其中不乏Cleary Gottlieb、Goodwin 等顶级律所。 近期,Legora 获得了由 ICONIQ 和 General Catalyst 领投的 8000 万美元 B 轮融资,估值达到 6.75 亿美 元。成为 Harvey 的强劲竞争对手。 而 Legora 的创始人 Max Junestrand 年仅 25 岁,且没有任何法律背景。怎么做成的?创始人的认知是很 关键的。 Max Junestrand 表示,"保持极度的谦逊,谦逊地承认我们不了解这个行业。然后借此机会,与早期合 作伙伴建立关系,每天都进行反馈交流。在一个正在经历巨变的行业中,带着一种更天真的视角反而是 有益的,你会思考,为什么事情要这么做?" Max Junestrand 最近接受了 YC 合伙人 Gustaf Alströmer 的专访,深入分享了 Legora 背后的思考 ...
告别ROS的繁琐, 易用易学的机器人学习系统: 华为诺亚面向机器人学习的开源Python框架
机器之心· 2025-09-15 12:00
图 1: Ark 的整体框架 近年来,机器人技术在硬件领域取得了显著突破 —— 无论是 DARPA 机器人挑战赛,还是首届人形机器人自由搏击表演,都展示了令人瞩目的进展。然而,机器 人的自主能力仍明显落后于机器学习的发展步伐。 造成这一差距的 关键瓶 颈在于软 件层面 :现有的机器人技术栈学习门槛较高,仍大量依赖 C/C++ 进行底层开发,工具链分散且硬件集成复杂。相比之下,推动 现代人工智能发展的生态系统以 Python 为核心,文档完善、易于使用 —— 两者形成了鲜明对比。 为应对这些挑战,来自 华为诺亚方舟实验室,德国达姆施塔特工业大学,英国伦敦大学学院,帝国理工学院和牛津大学的研究者 们联合推出了 Ark —— 一个基 于 Python 的机器人开 发框架,支持快速原型 构建,并可便捷地在仿真和真实机器人系统上部署新算法 。 Ark 与主流机器学习工作流深度兼容,能够从仿真环境或实际机器人中采集和预处理数据,并支持使用如 ACT、Diffusion Policy 等前沿模仿学习方法进行策略训 练。该框架采用类似 OpenAI Gym 风格的主接口设计,极大降低了机器学习研究者的上手门槛,便于集成与实验 ...
作为研究,VLA至少提供了一种摆脱无尽corner case的可能性!
自动驾驶之心· 2025-09-15 11:56
VLA绝对是今年自动驾驶的主流关键词,下半年新势力都在抢滩VLA的高地,工业界快速量产上 车,学术界不断刷新比赛榜单。 以往,业内迭代的方案都是增加issue case删除issue case的循环,而 这种方案显然是无穷无尽的,哪怕这个方案迭代的再成熟,也难以达到我们理想中那种自驾的水 准。 相比于端到端, 利用大模型更强的泛化能力, VLA至少提供了一种摆脱无尽corner case的可能性! 然而VLA并不是那么好做的,对于一个新手或者转行的同学,开展研究蛮难受的。踩了一年坑,也 不一定能有效果。这时候,峰哥给他推荐了自动驾驶之心的1v6论文辅导。 ⼀、VLA科研论文辅导课题来啦⭐ 端到端(End-to-End)自动驾驶旨在构建一个统一的智能模型,直接将传感器原始输入(如摄像头图 像)映射到车辆的驾驶控制指令(如转向、油门、刹车),从而替代传统的多模块、级联式架构 (感知、预测、规划、控制)。这一演进过程大致可分为以下几个阶段,而VLA模型的出现正是为 了解决前序阶段的瓶颈,标志着一个新范式的开启。 刹车",而不是理解"前车减速,所以要刹车"。 泛化能力受限: 对于训练数据中未出现过的长尾 场景,模型表 ...
将KV Cache预算降至1.5%!他们用进化算法把大模型内存占用砍下来了
机器之心· 2025-09-14 13:16
核心技术创新 - 提出EvolKV进化框架 仅使用完整KV cache预算的1.5%即可实现超越完整模型的性能表现 大幅降低大语言模型推理成本 [1][6][11] - 采用任务驱动的进化算法优化KV cache分配 通过下游任务性能反馈自适应调整每层缓存预算 突破传统基于规则启发式方法的局限性 [4][6][13] - 将层分组优化与黑盒进化搜索结合 在减少搜索空间的同时实现细粒度性能感知分配 支持多样化评估标准包括准确率和F1分数 [6][9][16] 性能表现 - 在Needle-in-a-Haystack基准测试中比最佳基线提升多达13% 在RULER基准测试中提升多达3.6% [11][31] - LongBench评估显示在128到2048的KV cache预算范围内持续优于所有基线 在GSM8K数学任务中128预算下比最强基线准确率提升7个百分点 [11][25] - Mistral-7B-Instruct模型在多个子数据集(MultiFieldQA-en/2WikiMultihopQA/MuSiQue等)上不仅保持完整模型竞争力 甚至在某些预算下实现超越 [22] 方法架构 - 设计缓存效率评分机制CacheScore ∈ [0,1] 通过平滑折扣函数确保方案平均预算接近目标值c 超参数λ平衡原始性能与缓存效率 [14][15] - 采用层分组策略将L个transformer层划分为J=⌈L/n_g⌉个连续组 显著降低搜索维度并优化稳定性的同时保持细粒度控制 [16] - 通过迭代进化算法逐组优化 固定已优化组参数并动态更新未优化组 最终通过比例补全机制确保总预算精确匹配目标值 [17][20] 实验结果 - 在Llama-3-8B-Instruct上TREC子集128预算时比最强基线高7.69个百分点 在GSM8K任务中512预算下达到完整模型95.7%性能 显著优于基线84.5% [23][25] - 可视化显示不同预算下KV cache分配呈非均匀模式 验证了模型不同层级在信息处理中的功能差异性 [7][27][28] - RULER基准测试表明优化策略具备强泛化能力 迁移到其他评估场景仍保持性能优势 在Mistral-7B-Instruct上提升0.99分 Llama-3-8B-Instruct提升3.6分 [31]
AI解数学题只靠最后一个token
量子位· 2025-09-14 13:05
henry 发自 凹非寺 量子位 | 公众号 QbitAI 大语言模型在解心算题时,只依赖最后一个token? 最近,来自加州大学圣克鲁兹分校、乔治·梅森大学和Datadog的研究人员发现:在心算任务中,几乎所有实际的数学计算都集中在序列的 最后一个token 上完成,而不是分散在所有token中。 这意味着,相较于在Transformer和多层感知机(MLP)中常见的 全局信息访问 ——即每个token在预测时都能查询并利用整个上文信息 ——在诸如心算这样的特定任务中,全局访问其实并不是必需的。 这是怎么一回事? 心算只要最后一个token?! 总的来说,研究人员采用了 上下文感知平均消融(Context-Aware Mean Ablation, CAMA) 和 基于注意力的窥视(attention-based peeking) 技术对 Llama-3-8B 等Transformer架构的模型进行了一系列的消融实验。 这些实验通过系统性地移除或改变模型的一部分,探究能让模型依然表现良好的 "最少计算量" 。 在这一过程中,研究人员发现模型内部会形成一个稀疏子图(sparse subgraph)——他们把它称 ...
Meta开源MobileLLM-R1模型,不到1B参数,用1/10的训练就超越了Qwen3
机器之心· 2025-09-13 16:54
产品发布 - Meta AI团队正式发布MobileLLM-R1高效推理模型系列 包含基础模型和最终模型版本 参数规模包括140M、360M和950M [4][5] - 该系列模型专门针对数学、编程和科学问题进行监督微调训练 并非通用聊天模型 [6] - 公司同时发布完整训练方案和数据源以确保可重复性 支持进一步研究 [8] 性能表现 - 950M参数模型仅使用约2T高质量token进行预训练 总训练token量少于5T 但性能与使用36T token训练的Qwen3 0.6B相当或更佳 [8] - 在MATH基准上准确率比Olmo 1.24B模型高出约五倍 比SmolLM2 1.7B模型高出约两倍 [10] - 在编码基准测试中表现远超Olmo 1.24B和SmolLM2 1.7B 在完全开源模型中创下新最高水平 [10] 技术规格 - 模型采用文本输入输出模态 上下文长度基础版为4k 最终版为32k 词汇表大小128k 共享嵌入 [15] - 140M模型配置为15层、576维、2048隐藏维度 360M模型为15层、1024维、4096隐藏维度 950M模型为22层、1536维、6144隐藏维度 [14] 研发团队 - 项目由三位华人研究科学家领衔 研发时间长达一年 [17][18] - Zechun Liu专注于大模型高效部署与优化 在顶级会议期刊发表20多篇论文 引用量达数千次 [21][22][23] - Ernie Chang专注于自然语言处理和多模态学习 参与开发代理评估方法和移动设备优化研究 [24][26] - Changsheng Zhao专注于模型量化和神经网络架构 参与开发极低比特量化研究和Llama Guard变体 [30][31][33] 行业影响 - 小参数模型训练成本较低 便于尝试最新技术 模型体量下降可覆盖更多端侧设备 实现更大面积落地 [15] - 机器学习社区欢迎通义和Meta等顶尖团队基于小体量模型的探索 [15] - 随着训练成本普遍下降 行业将获得更好的模型 [16]
100轮工具调用,8B小模型也能做复杂长搜索,MiniMax&港科大最新开源
36氪· 2025-09-12 20:25
研究背景 - 大语言模型快速发展推动网络搜索智能体能力边界扩展 能够自主从广泛在线资源中检索信息 长视野网络智能体需在多个网站间进行复杂推理和搜索[5] - 现有开源网络智能体处理复杂搜索任务表现有限 商业模型缺乏透明训练细节 超过一半BrowseComp-en基准测试问题人类标注者两小时内无法解决[6] 核心问题 - 优质训练数据稀缺成为制约因素 开发高能力网络搜索智能体关键在于提升训练数据质量而非增加模型参数[1][6] - 常见方法存在局限性 导致不自然查询表达和有限合成灵活性 无法满足复杂推理需求[6] 解决方案 - 研究团队提出两阶段方法WebExplorer 采用探索-演化框架创建多步推理和复杂网络导航的高难度QA对[8] - 第一阶段模型驱动探索 从种子实体开始通过迭代搜索和浏览操作模拟图构建 形成初步QA对[10] - 第二阶段迭代查询演化 通过移除显著信息 引入战略性模糊化和寻找替代描述三个方向提高查询难度[12][13] 数据集构建 - 通过探索-演化过程构建WebExplorer-QA数据集 包含约4万个演化后问答对[13] - 演化过程使强性能商业模型准确率从86.6%下降至67.1% 平均工具调用次数从7.9次增加至9.9次[15] 模型性能 - 基于Qwen3-8B训练WebExplorer-8B模型 支持128K上下文长度和100次工具调用长视野推理[3][16] - 8B参数模型在BrowseComp-en/zh基准上超越WebSailor-72B 在WebWalkerQA和FRAMES数据集取得小于100B参数模型中最佳性能[17] - 在学术前沿基准HLE上取得17.3%成绩 超越之前32B模型 展现良好泛化能力和可转移性[19] 行业意义 - 证明通过精心设计数据合成方法和训练策略 较小模型可在复杂任务上超越更大模型[19] - 参数效率对AI技术在资源受限环境中应用和部署具有重要意义[19] - 为训练高级网络智能体提供实用路径 模型驱动探索方式比传统图谱方法使浏览行为更灵活[3][19]
博实结(301608) - 301608投资者关系活动记录表2025年9月12日
2025-09-12 19:23
财务表现 - 2024年营业收入14.02亿元,同比增长24.85% [1] - 2024年归母净利润1.76亿元,同比增长0.81% [1] - 2025年上半年营业收入8.05亿元,同比增长20.17% [2] - 2025年上半年归母净利润1.08亿元,同比增长19.07% [2] 业务模式与技术架构 - 采用"模组+平台+终端"业务体系 [2] - 核心技术聚焦通信、定位、AI技术应用 [1][2] - 自研无线通信模组支撑物联网智能终端开发 [1] - 云管理平台通过模块化重组实现多行业定制化开发 [2] 云平台创新应用 - 完成Deepseek大语言模型本地化部署 [2] - 实现通义千问视频分析模型平台集成 [2] - 云平台赋能终端产品销售并提升用户体验 [2] - 标准化平台解决物联网行业碎片化痛点 [2] 智能睡眠终端发展 - 采用ODM模式且不改变家庭装修环境 [2] - 通过AI算法自适应调节温度优化睡眠体验 [2] - 主要销往北美、欧洲、中东、东亚地区 [2] - 正在推进国内产品认证并筹备市场进入 [2] 战略定位 - 定位为物联网智能化应用解决方案专家 [1] - 深耕车联网领域并广泛布局物联网 [1] - 高新技术企业及专精特新"小巨人"企业资质 [1]
Claude 官方发文:如何给 Agent 构建一个好用的工具?
Founder Park· 2025-09-12 18:06
文章转载自「锦秋集」 Claude 最近的新功能可以直接创建和编辑包括 Excel、文档、PPT 乃至 PDF 在内的多种主流办公文件,进一步拓展了 AI 在实际任务中的应用场景。 Anthropic 很早就推出过很多小而美但切中用户需求的客户端工具例如artifact,其目标始终是将 AI 从"聊天机器人"转变为能解决实际问题的强大伙伴。 最近 Anthropic 撰写了一篇文章,分享了其在开发和优化智能体工具方面的经验与方法论。 转变思维:为 AI 智能体设计,而非为代码封装 核心是为不确定的、会推理的 AI 设计直观易用的工具,而不是像传统编程那样只考虑输入输出。 评估驱动:用真实且复杂的任务来衡量和迭代 工具好不好,要靠系统性的评估来验证。评估场景必须接近真实世界,足够复杂,才能发现真正的问题。 少即是多:构建整合工作流的工具,而非零散的功能点 与其提供一堆零散的 API 功能,不如创建一个能处理多步骤任务的强大工具,这能极大减轻 AI 的推理负担。 精心设计描述:工具的"说明书"和功能本身同样重要 工具的名称、描述和参数定义是 AI 理解其用途的唯一途径。清晰、准确的描述是提升工具调用成功率最有效的 ...