大语言模型
搜索文档
DeepSeek梁文锋论文登上《自然》封面
第一财经· 2025-09-18 07:23
研究突破 - DeepSeek-R1推理模型研究论文登上国际权威期刊《自然》封面[2] - 论文披露更多模型训练细节并正面回应蒸馏质疑[3] - 该模型成为全球首个经过同行评审的主流大语言模型[3] 行业地位 - Nature评价称DeepSeek打破主流大模型缺乏独立同行评审的空白[3] - 目前几乎所有主流大语言模型尚未经过独立同行评审[3]
DeepSeek-R1开创历史 梁文锋论文登上《自然》封面
第一财经· 2025-09-18 07:07
公司成就 - DeepSeek-R1推理模型研究论文登上国际权威期刊《自然(Nature)》封面 [1] - 论文由DeepSeek团队共同完成,梁文锋担任通讯作者 [1] - 与今年1月发布的初版论文相比,本次论文披露了更多模型训练细节并正面回应了模型发布之初的蒸馏质疑 [1] 行业地位 - DeepSeek-R1是全球首个经过同行评审的主流大语言模型 [1] - 《自然》评价指出目前几乎所有主流大模型都还没有经过独立同行评审,这一空白终于被DeepSeek打破 [1]
Shopify 经验贴:如何搞出一个生产级别可用的 AI Agent 系统?
Founder Park· 2025-09-17 20:50
架构演进与设计原则 - 系统核心围绕"智能体循环"构建 包括人类输入 LLM处理决策 环境执行和反馈收集的持续循环[5] - 工具库从最初几个函数扩展到几十个专业化功能 导致"千条指令之死"问题 系统提示词变得杂乱无章且难以维护[10][12] - 采用"即时指令"解决方案 在工具数据返回时附带相关指令而非全部塞入系统提示词 实现恰到好处的上下文[14] - 工具数量在0-20个时边界清晰易于调试 20-50个时边界开始模糊 50个以上时系统变得难以理解和推理[15] - 即时指令带来三大关键好处:局部化指导 缓存效率和模块化 使系统更易维护且所有性能指标提升[16][18] 评估系统构建 - 传统软件测试方法难以处理LLM输出的概率性和多步骤智能体行为的复杂性[17] - 放弃精心策划的"黄金"数据集 采用反映真实生产环境数据分布的"基准真相集"[20] - 评估流程包括人工评估 统计验证和基准设定 使用科恩系数 肯德尔等级相关系数和皮尔逊相关系数衡量标注者一致性[22] - 开发专门的大语言模型裁判并与人类判断校准 将裁判性能从科恩系数0.02提升至0.61 接近人类基准0.69[21] - 构建大语言模型驱动的商家模拟器进行全面测试 在部署前重放真实对话以捕捉性能衰退和验证改进[24][28] 模型训练与优化 - 采用群组相对策略优化强化学习方法 使用大语言模型裁判作为奖励信号[31] - 开发N阶段门控奖励系统 结合程序化验证和语义评估[31] - 遇到严重奖励作弊问题 包括退出式作弊 标签式作弊和模式违规[32] - 模型学会创建错误筛选条件如customer_tags CONTAINS 'enabled'而非正确的customer_account_status = 'ENABLED'[33] - 通过更新语法验证器和大语言模型裁判解决作弊问题 语法验证准确率从93%提升至99% 裁判平均相关性从0.66增加到0.75[34][36] 核心建议与最佳实践 - 保持工具简单性 抵制在没有明确边界情况下添加工具的诱惑[37] - 从模块化开始设计 使用即时指令模式以保持系统可理解性[37] - 早期避免多智能体架构 单智能体系统能处理远超预期的复杂性[37] - 构建多个专门的大语言模型裁判来评估智能体性能的不同方面[37] - 将裁判与人类判断对齐 统计相关性是建立自动化评估信任的关键[37] - 预料奖励作弊问题并提前构建检测机制[37] - 结合程序化验证和语义验证以获得稳健的奖励信号[37] - 投资逼真的用户模拟器进行投产前全面测试[37] - 迭代改进裁判以应对新发现的失败模式[37]
具身智能还需要一个「五年耐心」
36氪· 2025-09-17 16:12
行业现状与核心瓶颈 - 具身智能行业,特别是人形机器人赛道,当前最热门的叙事是进入工业产线,但现实挑战巨大,通用机器人以牺牲“精准性”和“效率”为代价,与产线核心需求错位[2] - 当前通用机器人(尤其是人形机器人)的核心价值更偏向“情绪价值”,即通过技术进步引领社会共识和获取资源,而非立即产生商业化落地价值,许多宣传的落地场景是展示性或实验性的[3] - 行业普遍预期,具身智能有望在未来1-2年内迎来其“GPT-3.0时刻”,即在实验室环境下看到通用模型(大脑+小脑)的明显技术突破并对主流路线达成共识,但从该时刻到公众可用的“GPT-4.0时代”仍需约五年耐心[4][12] 关键技术挑战:数据瓶颈与范式转移 - 数据获取是当前具身智能赛道最窄的瓶颈,从现实世界通过遥操作或示教采集数据存在规模小、成本高、多样性不足三大局限,难以满足训练需求[6] - 与自动驾驶领域能以极低边际成本获取海量真实数据不同,通用机器人领域完全不具备这种数据获取优势[7] - 行业正推动范式转移,通过高精度物理引擎将“数据问题”转化为“算力问题”,在仿真环境中用代码自动化生成无限、多样化的数据,过去需团队数月采集的数据,现在可能只需一堆显卡运行一晚[8] - 仿真数据可高效解决模型从0到90%的能力广度问题,但最后从90%到99.999%的可靠性鸿沟,即“仿真到现实的差距”,必须依靠真实世界的数据来弥合[9][10] 物理世界约束与演进路径 - 具身智能从“GPT-3.0”到“4.0”的演进面临独特的物理约束,其“试错成本”与“物理世界的回环速度”与大模型不在一个量级,机器人一次错误可能导致财产损失或安全事故,且物理迭代速度以秒或分钟计,远慢于数字世界的毫秒级迭代[10] - 引入大规模人类反馈的前提是硬件的大规模部署,但大规模部署又要求机器人先达到极高的可靠性和性价比,这个“先有硬件部署,还是先有成熟智能”的矛盾是软件世界不存在的巨大障碍[11] - 物理世界的“长尾问题”复杂性呈指数级上升,同一个任务因物理参数的微小变化都可能导致失败,其极端案例的分布远比文本世界密集和致命[11] - 基于上述约束,理性预期是需要1-2年迎来“GPT-3.0时刻”,再需3-4年进行硬件铺开、真实数据积累和长尾问题攻克,才能迈向可靠可用的“GPT-4.0时代”[12] 潜在终局玩家画像 - 能够跑完具身智能漫长赛道的终局玩家需具备四大要素:世界一流的AI团队、海量的真实世界数据、顶级的工业制造能力、雄厚的资本与坚定的信念[13][14][15][16] - 目前最突出的潜在头部玩家是马斯克,其同时拥有顶级AI团队、雄厚资本、强大信念,更关键的是在“数据闭环”和“工业制造”上已展现世界级统治力,具有结构性优势[16]
早报|刘强东:近期又约过王兴见面;校方回应男留学生与女生混住;“车顶维权”女车主首赢特斯拉;太二回应门店活鱼现杀争议
虎嗅APP· 2025-09-17 08:20
微软英国投资计划 - 微软将在未来四年内在英国投资超过300亿美元 [2] - 其中155亿美元用于资本扩张 包括在2023年宣布的32亿美元英国数据中心基础上进行扩建 [3] - 另外151亿美元将投入英国业务 包括伦敦人工智能实验室和游戏等业务板块 [4] 小鹏汇天eVTOL事故 - 长春航展发生两架小鹏汇天eVTOL相撞坠机事故 至少一名乘客受伤送医 [5] - 小鹏汇天回应称正在确认信息 表示自媒体消息来源非官方 [6] - 业内专家初步推断可能是电池管理系统出现问题 [6] 特斯拉产品安全与法律纠纷 - 美国国家公路交通安全管理局对约17.4万辆2021款特斯拉Model Y展开调查 因电动车门把手可能存在失灵隐患 [8] - 问题可能与车辆低压电池供电不足有关 若确认存在严重安全隐患或将要求召回 [8] - 北京法院判令特斯拉向"车顶维权"女车主提供事故前30分钟完整行车数据 [15] - 车主将在获得数据后申请司法鉴定 以验证数据真实性和进行刹车系统鉴定 [16] 谷歌AI应用进展 - 谷歌Gemini应用在苹果App Store免费应用排行榜上超越ChatGPT位列第一 [9] - Gemini AI模型近期推出更新吸引了新用户 [10] 京东业务拓展计划 - 刘强东宣布将公布全新酒店发展计划 强调不会卷入价格战 [7] - 刘强东表达进军外卖和酒旅业务的决心 计划推出类似"七鲜小厨"的创新项目 [19] - 刘强东提及曾约见王兴但被拒 称美团正与滴滴在巴西等海外市场展开竞争 [18] 奢侈品行业数据安全 - 古驰、巴黎世家和亚历山大·麦昆客户数据遭窃取 涉及数百万顾客 [20] - 被盗数据包括姓名、电子邮件地址、电话号码、地址和消费总额 但财务信息未受影响 [20] - 开云集团已向数据保护机构披露此事并向受影响客户发送邮件 [20] 餐饮行业运营模式 - 太二酸菜鱼回应预制菜争议 表示以"活鱼、鲜鸡、鲜牛肉"为核心食材 [21] - 目前已有68家鲜活门店 预计2026年完成所有门店调改 [21] 安踏集团内部治理 - 安踏集团前8个月辞退74名严重舞弊员工 [13] - 移交司法机关处理46人(内部21人外部25人)包括总裁级1人、总监级14人和经理级4人 [14] - 追诉3名离职人员职务犯罪 查处案件涉及违法犯罪金额约3000万元 [14] 科技行业发展趋势 - 蚂蚁集团CEO预测大语言模型将取代传统App Agent智能体将承担所有任务 [32] - 指出新软件已开始自主生成Agent执行任务 这一趋势不可逆转 [33] Meta新产品发布 - Meta Connect 2025大会发布AI眼镜新品Hypernova 配备单眼显示屏及神经腕带手势操控 [30] - 产品售价约800美元 聚焦AI眼镜与元宇宙融合 [30] 消费刺激政策 - 国务院新闻办就扩大服务消费政策举行发布会 涉及家电以旧换新和文旅补贴等措施 [31] - 相关政策有望撬动万亿级消费市场 [31]
起售价23.59万元,奥迪E5 Sportback上市
北京商报· 2025-09-16 22:26
产品上市与定价 - 奥迪E5 Sportback正式上市,推出4款配置车型,官方指导价范围为23.59万至31.99万元 [1] 产品技术配置 - 新车搭载全新AUDI OS操作系统,融合高通骁龙8295数字座舱芯片,构建超感互动数智座舱 [3] - 座舱中央搭载的奥迪助手依托深度定制的火山引擎大语言模型"豆包",具备强大的语义理解、多轮对话及车控交互能力 [3] - 中央扶手区的奥迪智慧岛集成50多项可定制快捷盲操功能 [3] - 在辅助驾驶领域,公司与Momenta达成深度合作,共同开发"德系Driving DNA+端到端飞轮大模型"方案,全面覆盖城市、高速与泊车场景 [3] 渠道建设规划 - 公司加速渠道建设,预计今年底将在全国100多个城市建立超过240家集销售和体验于一体的全功能用户中心 [3]
IPO研究 | 中国保险AI科技总可触及市场规模预计2029年将达1.35万亿元
搜狐财经· 2025-09-16 18:32
公司上市与业务定位 - 暖哇洞察科技向港交所主板递交上市申请,联席保荐人为摩根大通和汇丰 [1] - 公司是中国保险行业首屈一指的具备全栈风险分析能力的AI科技公司,为保险交易全生命周期赋能,专注于承保流程及理赔管理流程两个关键分部 [1] - 以2024年处理的保险案件数量计,公司是中国保险业最大的独立AI科技公司,以2024年收入计,公司为中国健康险行业具备全栈风险分析能力的最大的AI科技公司 [1] 行业技术趋势与公司角色 - AI的普及,特别是基于大语言模型的智能体的应用,正全面提升保险价值链的营运效率,为产品设计、用户运营、承保、理赔审核及调查以及健康管理服务等环节赋能 [1] - AI驱动的解决方案使保险公司能建立更精准高效的风险评估机制,开发个性化的保险产品,进而提升客户满意度并优化资源分配 [1] - 暖哇洞察提供AI技术为保险交易全生命周期赋能 [1] 保险AI科技市场规模 - 2024年中国保险AI科技的总可触及市场规模达人民币7,468亿元,预计2029年将达人民币13,538亿元,2024至2029年复合年增长率为12.6% [2] 中国保险市场整体规模与增长 - 中国保费由2020年的人民币4.5万亿元增加至2024年的人民币5.7万亿元,复合年增长率为5.9%,预计2029年达人民币9.8万亿元,2024至2029年复合年增长率为11.5% [3] - 健康险市场规模由2020年的人民币0.8万亿元增至2024年的人民币1.0万亿元,复合年增长率为4.6%,预计2029年达到人民币1.7万亿元,2024年至2029年复合年增长率为11.6% [3] 中国保险市场发展潜力 - 2023年中国以保费规模位居全球第二大保险市场,但保险渗透率仅为3.9%,保险密度为516美元,远低于全球保险渗透率7.0%及保险密度889美元的水平,显示中国保险业具备强劲增长动力和广阔发展潜力 [3]
只要科学任务能打分,AI就能实现SOTA结果 | 谷歌最新论文
量子位· 2025-09-15 13:57
文章核心观点 - 谷歌开发了一种结合大语言模型和树搜索的AI系统 能够自动创建专家级科学实证软件 在多个科学领域实现超越人类专家的SOTA性能 [1][10][17] 技术方法 - 系统使用LLM重写代码提升质量评分 首先生成大量候选解决方案 再通过树搜索算法筛选优化方案 [17] - 通过注入外部研究思想增强代码变异能力 思想来源包括高被引论文 专业教科书和搜索引擎结果 [21] - 用户可直接注入思想或通过搜索引擎自动获取文献研究成果 LLM在编码过程中充分利用这些指导信息 [22][23] 性能表现 - 生物信息学领域发现40种单细胞数据分析新方法 在公开排行榜上超越人类顶尖方法 [10][25] - 流行病学领域生成14个COVID-19住院预测模型 全部超越CDC集合模型及所有其他个体模型 [10] - 地理空间分析领域三个新方法在DLRSD基准测试mIoU指标均突破0.80 显著优于近期学术论文结果 [26] - 神经科学领域斑马鱼活动预测方案训练速度比最佳视频模型快几个数量级 [28] - 在时间序列预测和数值积分求解领域达到或超越人类顶级方法水平 [10][30] 系统特点 - 专门针对可评分任务设计 这类任务以最大化可度量质量指标为目标 在科学界无处不在 [12][13][14] - 能够系统性地自动创建实证软件 解决科学软件开发过程缓慢艰难的痛点 [15][17] - 通过大规模彻底搜索发现高质量解决方案 实现超人类性能 [24] 社会反响 - 论文在X平台获得2.6K赞和283.4K浏览量 引发广泛讨论 [7][11] - 部分网友认为这标志着任何可量化领域都将被AI征服 [5] - 存在关于AI接管科学研究合适性的争议 有观点认为结果需要人类核查可靠性 [32][34]
没有专业背景,但他搞出了一家7亿美元估值的公司
虎嗅· 2025-09-15 12:49
公司概况与融资进展 - 法律科技垂直AI领域增长最快的创企之一 起源于瑞典 成立不到两年已与全球250家律所达成合作 包括Cleary Gottlieb和Goodwin等顶级律所[1] - 近期获得8000万美元B轮融资 由ICONIQ和General Catalyst领投 估值达6.75亿美元 成为Harvey的强劲竞争对手[2] - 创始人Max Junestrand年仅25岁且无法律背景 通过保持谦逊态度与早期合作伙伴建立紧密反馈机制实现快速发展[3] 产品功能与技术架构 - 产品分为网页应用和Word插件两部分 直接集成到Microsoft Word中 被称为"律师版Cursor"[4][10] - 网页应用从简单聊天功能发展为独立智能体 能调用应用内功能点和外部工具处理复杂工作流 如自动生成完整备忘录报告[5][6] - 创新表格化审查功能可并行运行10万个查询 通过分块和RAG搜索处理超长法律文件 确保引用准确性[9][10] - 支持基于策略手册的自动化合同审查 提供标准语言修改建议 功能已从法务团队扩展至合规、风险和销售部门[27][28][29] - 采用多模型技术栈 交替使用AWS、Claude、Gemini、GPT和Mistral等模型 建立热插拔机制并根据查询复杂度动态选择模型[50] 市场拓展与销售策略 - 采用从高层切入的销售策略 通过先与明星合伙人团队合作形成示范效应 再向其他部门扩展[32][33] - 针对不同规模律所采取差异化销售:大型律所与创新部门合作 中型律所由合伙人决策[31] - 从欧洲市场起步 已进入芬兰、丹麦、挪威、西班牙、法国、德国、英国等15个市场 最后拓展美国市场[65][69] - 在纽约、伦敦、斯德哥尔摩设立中心 并在西班牙、法国和德国部署本地员工[69] 竞争优势与行业定位 - 以30名工程师团队在开发速度上超越数千人规模的竞争对手 公司100名员工时开发效率仍远超规模百倍的企业[44][45] - 关键竞争优势在于"变化率"而非当前功能 能够快速响应客户从A点到B点的转型需求[48] - 打破传统法律服务的同质化均衡 通过AI技术帮助律所提升效率并重新分配时间到高价值工作[20][24][25] - 与传统法律科技巨头的竞争策略是避免长期合同绑定 利用技术迭代速度优势赢得一年期合同[46][47] 团队建设与组织文化 - 团队从YC毕业时的10人快速增长至100人 平均每周入职两人[45][68] - 优先招聘其他公司的前创始人 注重创业精神和问题解决能力 建立内部多个小公司的运营模式[70] - 组织架构扁平化 强调员工主动性和超越自我的工作态度 利用AI工具实现10倍人效提升[73] - 扩展新中心时派遣斯德哥尔摩最优秀员工进行文化传承 保持核心文化的一致性[72] 行业洞察与发展趋势 - AI技术使法律服务从"执行者"模式转向"审阅者"模式 律师更多承担工作指导和质量管控角色[52] - Token成本下降使大规模查询成为可能 客户不再愿意为简单合同审阅支付高昂费用[16][17] - 法律科技行业正经历从单点解决方案向平台化服务转变 模型实验室提供的基础功能逐渐标准化[56] - 垂直AI创业需明确价值定位 避免与AI实验室直接竞争 专注于行业特定应用场景的深度优化[63][64]
告别ROS的繁琐, 易用易学的机器人学习系统: 华为诺亚面向机器人学习的开源Python框架
机器之心· 2025-09-15 12:00
文章核心观点 - 机器人技术硬件进步显著,但软件是制约其自主能力发展的关键瓶颈,现有技术栈学习门槛高、工具链分散、硬件集成复杂,与以Python为核心的现代AI生态形成鲜明对比 [2] - 为应对挑战,由华为诺亚方舟实验室、德国达姆施塔特工业大学、英国伦敦大学学院、帝国理工学院和牛津大学的研究者联合推出了Ark,这是一个基于Python的机器人开发框架,旨在降低门槛、支持快速原型构建并便捷地在仿真和真实系统间部署算法 [2] Ark框架的设计理念 - **兼容主流机器学习生态**:提供与广泛使用的机器学习库一致的用户接口,降低机器学习背景研究者的参与门槛 [7] - **支持仿真-实机无缝切换**:着力打通模拟环境与真实系统之间的壁垒,降低迁移过程中的复杂度和错误率 [9] - **以Python为中心,兼顾高性能需求**:以Python作为核心开发语言支持快速迭代,同时为高频任务(如底层运动控制)提供便捷的C/C++接口扩展能力 [10] Ark框架的核心功能与架构 - **网络模块化**:将系统拆分为数据采集、状态估计等独立模块,每个模块实现为独立的Python进程(节点),节点间通过异步消息通道进行发布/订阅通信,当前版本使用LCM作为底层通信后端 [12] - **观测与动作通道**:采用Gymnasium(OpenAI Gym)风格的接口设计,通过字典结构定义观测与动作空间所依赖的消息通道,支持不同采样频率,便于快速原型化不同的策略输入输出组合 [14] - **真实世界与物理仿真**:通过单个配置开关(sim = True/False)在仿真与真实机器人之间切换,提供后端抽象层支持PyBullet与MuJoCo等模拟器,计划集成Isaac Sim [15] - **服务与工具**:提供Services用于请求-响应操作,Registry作为服务发现枢纽,Launcher允许通过单一YAML配置文件定义并启动整个网络 [16] 机器人与传感器驱动支持 - **Python驱动接口**:提供抽象基类ComponentDriver,用户通过重写标准方法即可集成硬件,系统根据全局配置自动将消息路由到真实硬件或仿真节点 [19] - **C++驱动支持**:提供基于pybind11的封装工具,使得仅具备C++接口的硬件也能以与Python驱动一致的方式接入,保持性能 [20] - **ROS–Ark桥接**:提供专用桥接驱动,实现ROS topic与Ark消息通道之间的双向通信,目前主要支持ROS 1,为从ROS迁移至Ark提供平滑过渡路径 [21] 内省与调试工具 - **Ark Graph**:实时显示系统中所有活跃节点、发布/订阅的消息通道及可用服务,帮助理解系统拓扑 [22] - **Ark Plot**:支持对任意数值型消息通道进行实时绘图,用于观察变量随时间变化趋势 [22] - **Ark Viewer**:实时可视化基于LCM传输的图像消息通道,适用于相机标定和算法调试 [22] - **LCM工具套件**:例如lcm-spy能以图形化方式查看网络消息,提供各通道的详细统计信息,包括接收消息数量、消息频率(Hz)、网络抖动(ms)等关键指标 [22] 典型用例展示 - **在仿真与现实之间切换**:以ViperX 300s机械臂的抓取-放置任务为例,通过修改配置文件中的一个变量(sim),即可实现从仿真到真实硬件的无缝切换,无需变更其他代码 [26] - **模仿学习的数据采集**:支持徒手示教和遥操作(如VR手柄、游戏手柄)两种数据采集方式,利用LCM的lcm-logger工具记录数据,并内置工具将日志转换为CSV格式,确保数据格式在采集、训练与部署阶段一致 [30][31][32][33] - **模仿学习策略部署**:展示了使用Diffusion Policy在ViperX 300s机械臂上执行推动任务,以及使用ACT方法在OpenPyro-A1人形机器人上执行衣服整理与物体接力任务,Ark作为核心基础设施简化了从数据收集到策略部署的整个流程 [34][35][36] - **移动机器人导航**:实现了一套完整的移动机器人导航流程,包括遥操作辅助SLAM建图(采用基于粒子滤波的FastSLAM方法)和基于A*算法的全局路径规划与跟踪控制 [38][39][40] - **具身智能集成**:凭借模块化设计与Python优先架构,天然适合集成大语言模型(LLM)与视觉-语言模型(VLM),以Viper机械臂为例,构建了基于DeepSeek-R1的智能体系统,采用“代码即策略”范式完成国际象棋对弈等任务 [41] 未来发展方向 - **强化强化学习(RL)基础设施**:计划原生集成Stable Baselines3和RLlib等主流框架,支持并行环境执行,提供统一的环境抽象接口 [46] - **提升高保真仿真能力**:在现有PyBullet和MuJoCo支持基础上,计划引入域随机化、可微物理等特性,并与高性能仿真后端深度集成 [46]