大语言模型
搜索文档
具身智能还需要一个「五年耐心」
36氪· 2025-09-17 16:12
上个月又飞了一趟硅谷,与具身智能领域的科学家和创业者们进行了一些交流。总结起来一个核心的体 感是:具身智能这个宏大的故事,还需要我们有个「五年耐心」。这个判断,源于对它当下所处阶段、 核心瓶颈以及未来演进路径的拆解。 火热的「产线故事」与冰冷的现实 具身智能赛道最热的毫无疑问是人形机器人。 而人形机器人进产线,是国内很多具身智能公司都在讲的故事和前景。但我和几位国内外不少具身智能 领域的创始人深聊过,大家普遍的担忧是:拿一个尚不成熟的通用机器人,硬塞进一个以精准和效率为 核心的工业产线里,这件事现在的挑战其实非常大。 具身智能领域,特别是人形机器人至少目前还更像一个不断成长的孩子。其每一点进步,都能点燃我们 对未来的想象和信心。但问题是,「家长」要有正确的认知,即便一个孩子显示出了惊人的潜力和超预 期的进步,长身体、见世面依旧是这个阶段的重心。这时候过早地就去考核其是否能扛起养家的重担可 能就有问题了。如果「家长」把 Demo 里的信心,当成了商业部署的决心,过度透支它的未来,那很可 能,对这个孩子的赞许就会变成批判。比如,到明年当很多「产线故事」无法兑现时,行业可能会迎来 一定程度的顿挫。 那什么是可能正确 ...
早报|刘强东:近期又约过王兴见面;校方回应男留学生与女生混住;“车顶维权”女车主首赢特斯拉;太二回应门店活鱼现杀争议
虎嗅APP· 2025-09-17 08:20
微软英国投资计划 - 微软将在未来四年内在英国投资超过300亿美元 [2] - 其中155亿美元用于资本扩张 包括在2023年宣布的32亿美元英国数据中心基础上进行扩建 [3] - 另外151亿美元将投入英国业务 包括伦敦人工智能实验室和游戏等业务板块 [4] 小鹏汇天eVTOL事故 - 长春航展发生两架小鹏汇天eVTOL相撞坠机事故 至少一名乘客受伤送医 [5] - 小鹏汇天回应称正在确认信息 表示自媒体消息来源非官方 [6] - 业内专家初步推断可能是电池管理系统出现问题 [6] 特斯拉产品安全与法律纠纷 - 美国国家公路交通安全管理局对约17.4万辆2021款特斯拉Model Y展开调查 因电动车门把手可能存在失灵隐患 [8] - 问题可能与车辆低压电池供电不足有关 若确认存在严重安全隐患或将要求召回 [8] - 北京法院判令特斯拉向"车顶维权"女车主提供事故前30分钟完整行车数据 [15] - 车主将在获得数据后申请司法鉴定 以验证数据真实性和进行刹车系统鉴定 [16] 谷歌AI应用进展 - 谷歌Gemini应用在苹果App Store免费应用排行榜上超越ChatGPT位列第一 [9] - Gemini AI模型近期推出更新吸引了新用户 [10] 京东业务拓展计划 - 刘强东宣布将公布全新酒店发展计划 强调不会卷入价格战 [7] - 刘强东表达进军外卖和酒旅业务的决心 计划推出类似"七鲜小厨"的创新项目 [19] - 刘强东提及曾约见王兴但被拒 称美团正与滴滴在巴西等海外市场展开竞争 [18] 奢侈品行业数据安全 - 古驰、巴黎世家和亚历山大·麦昆客户数据遭窃取 涉及数百万顾客 [20] - 被盗数据包括姓名、电子邮件地址、电话号码、地址和消费总额 但财务信息未受影响 [20] - 开云集团已向数据保护机构披露此事并向受影响客户发送邮件 [20] 餐饮行业运营模式 - 太二酸菜鱼回应预制菜争议 表示以"活鱼、鲜鸡、鲜牛肉"为核心食材 [21] - 目前已有68家鲜活门店 预计2026年完成所有门店调改 [21] 安踏集团内部治理 - 安踏集团前8个月辞退74名严重舞弊员工 [13] - 移交司法机关处理46人(内部21人外部25人)包括总裁级1人、总监级14人和经理级4人 [14] - 追诉3名离职人员职务犯罪 查处案件涉及违法犯罪金额约3000万元 [14] 科技行业发展趋势 - 蚂蚁集团CEO预测大语言模型将取代传统App Agent智能体将承担所有任务 [32] - 指出新软件已开始自主生成Agent执行任务 这一趋势不可逆转 [33] Meta新产品发布 - Meta Connect 2025大会发布AI眼镜新品Hypernova 配备单眼显示屏及神经腕带手势操控 [30] - 产品售价约800美元 聚焦AI眼镜与元宇宙融合 [30] 消费刺激政策 - 国务院新闻办就扩大服务消费政策举行发布会 涉及家电以旧换新和文旅补贴等措施 [31] - 相关政策有望撬动万亿级消费市场 [31]
起售价23.59万元,奥迪E5 Sportback上市
北京商报· 2025-09-16 22:26
产品上市与定价 - 奥迪E5 Sportback正式上市,推出4款配置车型,官方指导价范围为23.59万至31.99万元 [1] 产品技术配置 - 新车搭载全新AUDI OS操作系统,融合高通骁龙8295数字座舱芯片,构建超感互动数智座舱 [3] - 座舱中央搭载的奥迪助手依托深度定制的火山引擎大语言模型"豆包",具备强大的语义理解、多轮对话及车控交互能力 [3] - 中央扶手区的奥迪智慧岛集成50多项可定制快捷盲操功能 [3] - 在辅助驾驶领域,公司与Momenta达成深度合作,共同开发"德系Driving DNA+端到端飞轮大模型"方案,全面覆盖城市、高速与泊车场景 [3] 渠道建设规划 - 公司加速渠道建设,预计今年底将在全国100多个城市建立超过240家集销售和体验于一体的全功能用户中心 [3]
IPO研究 | 中国保险AI科技总可触及市场规模预计2029年将达1.35万亿元
搜狐财经· 2025-09-16 18:32
中国保险市场一直处于快速增长阶段,保费由2020年的人民币4.5万亿元增加至2024年的人民币5.7万亿 元,复合年增长率为5.9%。预计中国保险市场规模将进一步增长,在2029年达人民币9.8万亿元,2024 至2029年间复合年增长率为11.5%。其中,健康险市场规模由2020年的人民币0.8万亿元增至2024年的人 民币1.0万亿元,复合年增长率为4.6%。受公众健康意识提升以及产品、技术及服务不断推陈出新等因 素驱动,中国健康险保费预计将于2029年达到人民币1.7万亿元,2024年至2029年间复合年增长率为 11.6%。 尽管中国于2023年以保费规模位居全球第二大保险市场,但其保险渗透率仅为3.9%,保险密度为516美 元,远低于全球保险渗透率7.0%及保险密度889美元的水平。由此可见,中国保险业不仅具备强劲增长 动力,更蕴藏著广阔的发展潜力。 保险业正经历由技术发展与数据整合驱动的重大转变。AI的普及,特别是基于大语言模型的智能体的 应用,正全面提升保险价值链的营运效率,为产品设计、用户运营、承保、理赔审核及调查,以及健康 管理服务等环节赋能。AI驱动的解决方案使保险公司能建立更精准高效的风 ...
只要科学任务能打分,AI就能实现SOTA结果 | 谷歌最新论文
量子位· 2025-09-15 13:57
文章核心观点 - 谷歌开发了一种结合大语言模型和树搜索的AI系统 能够自动创建专家级科学实证软件 在多个科学领域实现超越人类专家的SOTA性能 [1][10][17] 技术方法 - 系统使用LLM重写代码提升质量评分 首先生成大量候选解决方案 再通过树搜索算法筛选优化方案 [17] - 通过注入外部研究思想增强代码变异能力 思想来源包括高被引论文 专业教科书和搜索引擎结果 [21] - 用户可直接注入思想或通过搜索引擎自动获取文献研究成果 LLM在编码过程中充分利用这些指导信息 [22][23] 性能表现 - 生物信息学领域发现40种单细胞数据分析新方法 在公开排行榜上超越人类顶尖方法 [10][25] - 流行病学领域生成14个COVID-19住院预测模型 全部超越CDC集合模型及所有其他个体模型 [10] - 地理空间分析领域三个新方法在DLRSD基准测试mIoU指标均突破0.80 显著优于近期学术论文结果 [26] - 神经科学领域斑马鱼活动预测方案训练速度比最佳视频模型快几个数量级 [28] - 在时间序列预测和数值积分求解领域达到或超越人类顶级方法水平 [10][30] 系统特点 - 专门针对可评分任务设计 这类任务以最大化可度量质量指标为目标 在科学界无处不在 [12][13][14] - 能够系统性地自动创建实证软件 解决科学软件开发过程缓慢艰难的痛点 [15][17] - 通过大规模彻底搜索发现高质量解决方案 实现超人类性能 [24] 社会反响 - 论文在X平台获得2.6K赞和283.4K浏览量 引发广泛讨论 [7][11] - 部分网友认为这标志着任何可量化领域都将被AI征服 [5] - 存在关于AI接管科学研究合适性的争议 有观点认为结果需要人类核查可靠性 [32][34]
没有专业背景,但他搞出了一家7亿美元估值的公司
虎嗅· 2025-09-15 12:49
公司概况与融资进展 - 法律科技垂直AI领域增长最快的创企之一 起源于瑞典 成立不到两年已与全球250家律所达成合作 包括Cleary Gottlieb和Goodwin等顶级律所[1] - 近期获得8000万美元B轮融资 由ICONIQ和General Catalyst领投 估值达6.75亿美元 成为Harvey的强劲竞争对手[2] - 创始人Max Junestrand年仅25岁且无法律背景 通过保持谦逊态度与早期合作伙伴建立紧密反馈机制实现快速发展[3] 产品功能与技术架构 - 产品分为网页应用和Word插件两部分 直接集成到Microsoft Word中 被称为"律师版Cursor"[4][10] - 网页应用从简单聊天功能发展为独立智能体 能调用应用内功能点和外部工具处理复杂工作流 如自动生成完整备忘录报告[5][6] - 创新表格化审查功能可并行运行10万个查询 通过分块和RAG搜索处理超长法律文件 确保引用准确性[9][10] - 支持基于策略手册的自动化合同审查 提供标准语言修改建议 功能已从法务团队扩展至合规、风险和销售部门[27][28][29] - 采用多模型技术栈 交替使用AWS、Claude、Gemini、GPT和Mistral等模型 建立热插拔机制并根据查询复杂度动态选择模型[50] 市场拓展与销售策略 - 采用从高层切入的销售策略 通过先与明星合伙人团队合作形成示范效应 再向其他部门扩展[32][33] - 针对不同规模律所采取差异化销售:大型律所与创新部门合作 中型律所由合伙人决策[31] - 从欧洲市场起步 已进入芬兰、丹麦、挪威、西班牙、法国、德国、英国等15个市场 最后拓展美国市场[65][69] - 在纽约、伦敦、斯德哥尔摩设立中心 并在西班牙、法国和德国部署本地员工[69] 竞争优势与行业定位 - 以30名工程师团队在开发速度上超越数千人规模的竞争对手 公司100名员工时开发效率仍远超规模百倍的企业[44][45] - 关键竞争优势在于"变化率"而非当前功能 能够快速响应客户从A点到B点的转型需求[48] - 打破传统法律服务的同质化均衡 通过AI技术帮助律所提升效率并重新分配时间到高价值工作[20][24][25] - 与传统法律科技巨头的竞争策略是避免长期合同绑定 利用技术迭代速度优势赢得一年期合同[46][47] 团队建设与组织文化 - 团队从YC毕业时的10人快速增长至100人 平均每周入职两人[45][68] - 优先招聘其他公司的前创始人 注重创业精神和问题解决能力 建立内部多个小公司的运营模式[70] - 组织架构扁平化 强调员工主动性和超越自我的工作态度 利用AI工具实现10倍人效提升[73] - 扩展新中心时派遣斯德哥尔摩最优秀员工进行文化传承 保持核心文化的一致性[72] 行业洞察与发展趋势 - AI技术使法律服务从"执行者"模式转向"审阅者"模式 律师更多承担工作指导和质量管控角色[52] - Token成本下降使大规模查询成为可能 客户不再愿意为简单合同审阅支付高昂费用[16][17] - 法律科技行业正经历从单点解决方案向平台化服务转变 模型实验室提供的基础功能逐渐标准化[56] - 垂直AI创业需明确价值定位 避免与AI实验室直接竞争 专注于行业特定应用场景的深度优化[63][64]
告别ROS的繁琐, 易用易学的机器人学习系统: 华为诺亚面向机器人学习的开源Python框架
机器之心· 2025-09-15 12:00
图 1: Ark 的整体框架 近年来,机器人技术在硬件领域取得了显著突破 —— 无论是 DARPA 机器人挑战赛,还是首届人形机器人自由搏击表演,都展示了令人瞩目的进展。然而,机器 人的自主能力仍明显落后于机器学习的发展步伐。 造成这一差距的 关键瓶 颈在于软 件层面 :现有的机器人技术栈学习门槛较高,仍大量依赖 C/C++ 进行底层开发,工具链分散且硬件集成复杂。相比之下,推动 现代人工智能发展的生态系统以 Python 为核心,文档完善、易于使用 —— 两者形成了鲜明对比。 为应对这些挑战,来自 华为诺亚方舟实验室,德国达姆施塔特工业大学,英国伦敦大学学院,帝国理工学院和牛津大学的研究者 们联合推出了 Ark —— 一个基 于 Python 的机器人开 发框架,支持快速原型 构建,并可便捷地在仿真和真实机器人系统上部署新算法 。 Ark 与主流机器学习工作流深度兼容,能够从仿真环境或实际机器人中采集和预处理数据,并支持使用如 ACT、Diffusion Policy 等前沿模仿学习方法进行策略训 练。该框架采用类似 OpenAI Gym 风格的主接口设计,极大降低了机器学习研究者的上手门槛,便于集成与实验 ...
作为研究,VLA至少提供了一种摆脱无尽corner case的可能性!
自动驾驶之心· 2025-09-15 11:56
VLA技术演进 - VLA成为自动驾驶主流关键词 新势力企业下半年集中抢占VLA技术高地[1] - 传统模块化架构存在错误累积效应和信息损失问题 依赖人工规则难以应对复杂交通场景[4] - 纯视觉端到端方案存在黑箱问题和因果混淆缺陷 泛化能力受限于训练数据覆盖范围[4][5] - VLA范式通过语言中间表征连接感知与行动 赋予模型推理解释和交互能力[5] - VLA模型利用LLM预训练的世界知识理解交通场景 实现更符合逻辑的决策[5] 学术研究课程 - 课程提供12周在线小组科研加2周论文指导和10周论文维护期[7][14] - 覆盖语言模型解释器 模块化VLA模型 统一端到端VLA模型 推理增强VLA模型四大研究方向[7] - 学员将获得经典论文与前沿论文分析能力 掌握创新点baseline和数据集使用方法[12] - 课程提供baseline代码和可用数据集 包括nuScenes Waymo Argoverse等自动驾驶数据集[23] - 配备2+1多师制教学团队 包括主导师副导师和科研论文班主任[23] 技术资源支持 - 提供基于模仿学习的端到端自动驾驶开源代码库包括VAD和UniAD项目[24] - 提供基于扩散模型的端到端自动驾驶项目DiffusionDrive和OccNet[24] - 开放VLA端到端自动驾驶项目OpenDriveVLA SimLingo和Senna[24] - 课程必读论文包括Senna SimLingo OpenDriveVLA和ORION等最新研究成果[25] - 硬件要求最低配置为4张4090显卡 推荐配置为8张4090显卡或更高性能设备[20] 课程体系设计 - 14周课程包含传统端到端自动驾驶介绍 VLA架构详解和模块化模型研究[26][27] - 每周安排1-1.5小时课程 包含课题概览 选题讨论 算法详解和论文写作方法论[26] - 学员需具备深度学习基础 熟悉Python和PyTorch 最好掌握Linux开发环境[16][20] - 课程要求每周课前阅读资料并完成作业 课后自学时间至少1-2小时[20] - 最终产出包括论文初稿 项目结业证书和优秀学员推荐信[23]
将KV Cache预算降至1.5%!他们用进化算法把大模型内存占用砍下来了
机器之心· 2025-09-14 13:16
核心技术创新 - 提出EvolKV进化框架 仅使用完整KV cache预算的1.5%即可实现超越完整模型的性能表现 大幅降低大语言模型推理成本 [1][6][11] - 采用任务驱动的进化算法优化KV cache分配 通过下游任务性能反馈自适应调整每层缓存预算 突破传统基于规则启发式方法的局限性 [4][6][13] - 将层分组优化与黑盒进化搜索结合 在减少搜索空间的同时实现细粒度性能感知分配 支持多样化评估标准包括准确率和F1分数 [6][9][16] 性能表现 - 在Needle-in-a-Haystack基准测试中比最佳基线提升多达13% 在RULER基准测试中提升多达3.6% [11][31] - LongBench评估显示在128到2048的KV cache预算范围内持续优于所有基线 在GSM8K数学任务中128预算下比最强基线准确率提升7个百分点 [11][25] - Mistral-7B-Instruct模型在多个子数据集(MultiFieldQA-en/2WikiMultihopQA/MuSiQue等)上不仅保持完整模型竞争力 甚至在某些预算下实现超越 [22] 方法架构 - 设计缓存效率评分机制CacheScore ∈ [0,1] 通过平滑折扣函数确保方案平均预算接近目标值c 超参数λ平衡原始性能与缓存效率 [14][15] - 采用层分组策略将L个transformer层划分为J=⌈L/n_g⌉个连续组 显著降低搜索维度并优化稳定性的同时保持细粒度控制 [16] - 通过迭代进化算法逐组优化 固定已优化组参数并动态更新未优化组 最终通过比例补全机制确保总预算精确匹配目标值 [17][20] 实验结果 - 在Llama-3-8B-Instruct上TREC子集128预算时比最强基线高7.69个百分点 在GSM8K任务中512预算下达到完整模型95.7%性能 显著优于基线84.5% [23][25] - 可视化显示不同预算下KV cache分配呈非均匀模式 验证了模型不同层级在信息处理中的功能差异性 [7][27][28] - RULER基准测试表明优化策略具备强泛化能力 迁移到其他评估场景仍保持性能优势 在Mistral-7B-Instruct上提升0.99分 Llama-3-8B-Instruct提升3.6分 [31]
AI解数学题只靠最后一个token
量子位· 2025-09-14 13:05
研究核心发现 - 大语言模型在心算任务中,几乎所有实际数学计算都集中在序列最后一个token上完成,而非分散在所有token中[1] - 模型内部形成名为“人人为我”的稀疏子图,通过最少的计算层和最有限的信息传递高效完成运算[4][5] - 该过程将任务通用型计算与输入特定型计算分开,表明在特定任务中全局信息访问并非必需[1][10] 研究方法与实验设计 - 研究采用上下文感知平均消融和基于注意力的窥视技术对Llama-3-8B等Transformer模型进行消融实验[2][20] - 实验通过三阶段操作:在初始层抑制token针对特定输入的计算,在少数层限制跨token信息传递,最后强制所有计算在最后一个token上发生[15][18][19] - 在Llama-3-8B的A+B+C任务中,只需前14层做任务通用计算,然后通过2层信息传输让最后token获取全局信息,剩余层仅进行最后token自计算[24] 模型性能表现 - AF1_llama子图在八个算术任务中总体表现出高忠实度,其中A+B+C任务忠实度达0.995,A-B-C任务达0.995[28][29] - 仅少数注意力头对算术计算关键,移除近60个头部后模型仍能保持约95%准确率,表明大部分注意力头冗余[30] - 在Pythia和GPT-J模型中也发现类似AF1子图,但等待期更短、信息传输层更长,且性能边界不如Llama清晰[35] 任务适用性与局限性 - AF1_llama在不含额外语义上下文的直接算术任务中保持高准确率,但在需要语义理解的应用题和Python代码任务上完全失败[33][34] - 该方法聚焦于心算任务,即涉及两个或三个操作数的算术问题,可通过单个token输出解决而无需链式思维推理[11] - 研究方法论具有创新性,可服务于算术任务之外的更广泛应用,为理解大语言模型中的算术推理机制做出贡献[37]