大语言模型
搜索文档
谷歌Gemini IMO和ICPC夺金功臣之一被xAI挖走,马斯克直呼:起飞
机器之心· 2025-09-21 13:26
行业人才流动趋势 - 特斯拉Optimus AI团队负责人Ashish Kumar被Meta挖走 [2] - 谷歌DeepMind资深研究科学家Dustin Tran被xAI挖走 [2][5] - 马斯克在社交媒体公开祝贺新成员加入并用火箭符号表示"起飞啦" [3] 核心人才背景与贡献 - Dustin Tran在谷歌DeepMind工作近9年 离职前担任资深首席研究员 [5] - 是谷歌Gemini-0801共同创造者 该模型是谷歌首个在LMSYS登顶的模型 [5] - 作为Gemini 2.5系列模型评测专家 在WebDev Arena和HLE等榜单取得第一名 [5] - 参与Gemini 1/1.5/2/2.5核心开发 涵盖强化学习、评测与数据等基础环节 [5] - 主导Gemini后训练评测 在100天内完成追赶并成功发布 带领团队登顶LMArena并保持一年多 [7] - 参与Gemini推理突破性创新 在IMO与ICPC中夺得金牌 [7] 技术发展历程 - 从LaMDA模型进化到通过RLHF生成长篇有内容回答的聊天机器人 [9] - 通过长链思维训练和全新环境推动推理与深度思考能力 [9] - 初期外界舆论普遍不看好 认为谷歌会因搜索历史包袱和组织政治而失败 [9] - 最终Gemini在用户偏好上稳定占据第一并引领科学突破 [10] 行业竞争格局 - OpenAI曾通过抢先宣布消息方式抢占AI舆论周期 [10] - 目前认为OpenAI的想法储备已经见底 [10] - xAI认为算力、数据及约100位聪明勤奋人员足以训练前沿大语言模型 [12] - xAI人均芯片拥有量超过谷歌 即将投入10万块GB200与30万块芯片 [12] - Grok 4在强化学习和后训练规模化方面做出最大押注 [12] 技术性能表现 - Grok 4 Fast在LMArena排名第8 而Gemini 2.5 Flash仅排第18 [12] - 在AIME等核心推理评测中表现与Grok 4相当 但成本降低15倍 [12] - 根据评测数据 Grok-4-fast得分为1421分 Grok-4-0709得分为1420分 [13] - 模型排名显示OpenAI的gpt-4.5-preview以1441分位居榜首 [13]
70名员工,估值70亿
虎嗅APP· 2025-09-21 12:39
投中网 . 投中网是领先的创新经济信息服务平台,拥有立体化传播矩阵,为创新经济人群提供深入、独到的智识 和洞见,在私募股权投资行业和创新商业领域拥有权威影响力。官网:www.chinaventure.com.cn 以下文章来源于投中网 ,作者黎曼 本文来自微信公众号: 投中网 (ID:China-Venture) ,作者:黎曼,题图来自:AI生成 巨头对顶尖AI人才的极度渴求,促使AI圈内频频发生重金挖人的戏码。 就在过去没多久的7月,硅谷又发生一起AI人才价格创新高的案例。Meta以超过2亿美元将AI奇才庞 若鸣从苹果挖走。这一数字刷新了高管转会的新纪录。有人算过,这个价格远超足球巨星C罗巅峰时 期1.2亿欧元年薪的数字,甚至是苹果CEO库克2024年7460万美元年薪的近乎3倍。 除了"买"下奇才,科技巨头还掀起了巨额"收购AI初创公司创始人"热潮。 2024年3月,估值300亿元的Inflection AI的创始团队加入微软。 2024年6月,亚马逊挖走Adept的核心人才。 2024年9月,亚马逊从机器人AI系统初创公司Covariant挖走了三名联合创始人及约25%的员工。 2024年8月,谷歌开出 ...
重磅!DeepSeek 梁文锋论文登上《自然》封面,正面回应蒸馏质疑
程序员的那些事· 2025-09-20 09:10
模型技术突破与行业地位 - DeepSeek-R1是全球首个经过同行评审的主流大语言模型,打破了主流大模型尚未经过独立同行评审的空白[4] - 模型采用强化学习进行训练,通过正确解答数学问题获得高分奖励、答错受惩罚的方式,学会了逐步解决问题的推理能力[5] - 该技术使模型能够自我验证和自我反思,在给出新问题答案前检查性能,从而提高了在编程和研究生水平科学问题上的表现[5] 学术认可与技术创新 - 研究成果获得《自然》封面推荐,被描述为在极少人工输入下训练出能进行推理的模型[5] - 模型训练方法解决了人工智能需要大量人工干预添加标签和注释的极大挑战[5] - 与今年1月发布的初版论文相比,本次论文披露了更多模型训练细节并回应了模型发布之初的蒸馏质疑[4]
DeepSeek团队梁文锋论文登上《自然》封面
证券时报网· 2025-09-19 12:46
公司研究 - DeepSeek团队共同完成的DeepSeek-R1推理模型研究论文登上国际权威期刊《自然》第645期的封面[1] - 梁文锋担任该论文的通讯作者[1] 行业研究 - 研究表明大语言模型的推理能力可通过纯强化学习来提升 从而减少增强性能所需的人类输入工作量[1] - 大语言模型不必依赖人工示例或复杂指令 也能通过试错式强化学习自主学会生成推理过程[1] - 人工智能会自发进行"自省" 被认为是探索人类之外思维路径的重要迹象[1]
GPT-4o学习“波多野结衣”的次数,比“您好”还多2.6倍
猿大侠· 2025-09-19 12:11
GPT-5出世后,GPT-4o一度 被网友亲切地称为"赛博白月光"。 然而没想到在它的知识体系里,对日本女优"波多野结衣"的熟悉程度,竟然比 "您好" 还要高。 最近,在预印本网站Arxiv上的这篇新论文,引爆了整个AI圈。 来自清华大学和南洋理工大学的几位研究者发现: 我们天天在用的大语言模型,比如 ChatGPT, 都 被某些神秘的东方文字"污染"了。 论文中把这些污染数据定义为"污染中文词元 ", 简称PoC Tokens。 在GPT的长中文词元(超过两个汉字)中,超过23%属于色情或赌博等灰色内容。 这说明,GPT的中文词汇表被严重污染了,这些内容像病毒一样寄生在AI的词汇库深处。 | (▶) | tmp = "" | 1 | count = 0 | 2 | | --- | --- | --- | --- | --- | | for i in sorted(chinese_list, key=lambda x: -len(x[1])): | 3 | ব | if count == 7: | | | print(tmp) | 5 | tmp = "" | б | | | 7 | count = 0 | ...
中国服务业企业500强发布,华为公布AI芯片发展路线 | 财经日日评
吴晓波频道· 2025-09-19 08:30
商务合作▲点击图片 美联储如期降息25个基点 |点评| 我国免签政策不断优化,效果立竿见影,直接体现为入境外国人数的快速增长。在当前内需仍待提振的经济环境下,大量国际游客涌 入,带动航空、住宿、餐饮等服务业产业发展,对刺激消费、激发市场活力有着重要作用。不过,短期内国际游客激增,也给城市管理与服务 能力带来挑战。国内各地可以抓住这一契机,补齐短板,促进整个服务产业链的提升。 免签政策优化,同样降低了国际商务往来的门槛,为我国吸引外资、留住人才打开了窗口,境外投资者、技术人才与国内企业合作将更加便 捷。逆全球化思潮下,我国主动推进免签"扩容",也是向世界传递高水平开放的积极信号。 2025中国服务业企业500强发布 美东时间9月17日周三,美联储在货币政策委员会FOMC会后宣布,联邦基金利率的目标区间从4.25%至4.5%降至4.00%至4.25%,降幅25个基 点。这是美联储今年开年以来九个月内首次决定降息。联储自去年9月到12月连续三次会议降息,本周再度行动后,本轮宽松周期的合计降息降 幅达125个基点。 本次降息决议只有一名FOMC投票委员——特朗普"钦点"的理事米兰反对(主张降息50基点),至少目前看来 ...
远程银行的“跨越山海”与咫尺服务
证券日报· 2025-09-19 00:22
"我们观察到多家银行的AI业务已从'试试看'转为'必须做',其整体战略布局已被重构。远程银行不仅是 银行数字化转型成果的集中展现,更是其关键输出端口。它不再是成本中心,而是新的服务核心、营销 中心和价值创造中心。"蚂蚁数科副总裁余滨在接受《证券日报》记者采访时分享了他的见解。 从业者的直观感受,正是当前银行业数字化转型深入推进的真实写照。在数智驱动下,金融服务提质升 级,有力推动了银行跑出金融为民的"加速度"。作为数字化转型的"桥头堡",远程银行由信用卡中心、 电话银行中心、网络银行部等传统部门整合而成,形成独立的"远程银行部"或"线上客户经营中心",并 提升至与线下网点同等重要的战略层级,成为银行全面数字化转型的重要支点。 随着"数字中国"建设及做好"数字金融"大文章的深入推进,以创新为核心的新质生产力正迅速崛起,成 为推动金融高质量发展的核心动力。在新形势下,银行与用户的关系正在重塑,服务渠道与工具也在不 断更新迭代,一幅"新金融"的蓝图正徐徐展开。 从功能叠加 走向业务重构 余滨长期深耕在业务一线,致力于服务机构的远程银行建设。他向记者讲述:"如今,我们为银行提供 的AI应用已从最初的智能客服、知识问答 ...
当前的自动驾驶VLA,还有很多模块需要优化...
自动驾驶之心· 2025-09-18 19:00
VLA技术发展趋势与行业动态 - VLA成为2024年自动驾驶领域主流关键词,工业界加速量产上车,学术界持续刷新比赛榜单[1] - 相比传统增加/删除问题案例的迭代方案,VLA利用大模型泛化能力提供了摆脱无尽corner case的可能性[1] - VLA技术发展涵盖模块化、一体化、推理增强等多个方向,但仍需优化模块对齐、车端思维链和空间理解等关键问题[1] 自动驾驶技术演进路径 - 端到端自动驾驶将传感器原始输入直接映射到车辆控制指令,替代传统多模块级联架构[2] - 传统模块化架构(L2-L4级)具有逻辑清晰和可解释性优势,但存在错误累积效应和信息损失等瓶颈[3] - 纯视觉端到端模型通过模仿学习实现像素到行为映射,但面临黑箱问题、因果混淆和泛化能力受限等挑战[3][4] - VLA范式将语言作为中间表征,赋予模型推理、解释和交互能力,标志着向通用人工智能驾驶代理的演进[5] VLA技术核心价值 - VLA模型通过视觉-语言-行为的闭环实现可解释决策,能用自然语言解释决策依据[5] - 模型利用LLM预训练获得的世界知识和常识,提升对复杂交通场景的理解能力[5] - 语言抽象和推理能力增强模型泛化性能,使其能更好地处理未见过的长尾场景[5] - VLA实现自然的人机交互功能,用户可通过自然语言下达高级驾驶指令[5] 论文辅导课程体系设计 - 课程采用12周在线小组科研+2周论文指导+10周论文维护期的教学模式[7][14] - 围绕语言模型解释器、模块化VLA模型、统一端到端VLA模型、推理增强VLA模型四大研究方向[7] - 提供经典论文与前沿论文分析、代码实现、创新点挖掘和数据集应用等全方位支持[7][12] - 学员将获得选题方法、实验方法、写作方法和投稿建议等系统化科研能力培养[6] 课程实施与资源保障 - 采用2+1多师制教学团队,主导师负责授课,副导师提供全程辅助,班主任跟踪学习进度[23] - 课程涵盖从传统端到端自动驾驶到VLA范式的完整技术演进内容,共14周系统学习[8][10][26] - 提供公开数据集如nuScenes、Waymo、Argoverse等,以及多个开源Baseline代码库[23][24] - 配备必读论文清单,包括Senna、SimLingo、OpenDriveVLA、ORION等前沿研究成果[25] 学员收获与能力提升 - 学员将掌握经典及前沿论文分析方法,理解重点算法原理与优劣势对比[7][14] - 即使没有自研idea,导师会为每位学员提供定制化研究思路[7][14] - 通过Baseline代码和数据集实践,显著提升Coding能力和实验效率[7][14] - 最终产出论文初稿,形成完整的研究成果输出[15] 招生要求与学术标准 - 课程每期限招6人,最多不超过8人,确保教学质量[11] - 学员需具备深度学习基础、自动驾驶算法了解和Python编程能力[16] - 硬件要求最佳配置为8张4090显卡,最低不少于4张4090显卡设备[20] - 学习要求包括每周课前阅读、按时完成作业、全勤参与和学术诚信[20]
DeepSeek 首登《自然》封面:中国大模型创造新历史,做了 OpenAI 不敢做的事
36氪· 2025-09-18 17:56
核心观点 - DeepSeek的R1模型相关论文登上《Nature》封面,标志着其科研成果获得顶级学术期刊认可[2][6] - 该研究首次证明纯强化学习能有效激发大语言模型的推理能力,训练成本仅为29.4万美元[7][47] - 这是首个经过独立同行评审的大语言模型,为行业树立了科学验证的新标杆[10][11][12] 学术认可与行业意义 - 《Nature》是全球影响力最高的期刊之一,h5-index为490,h5-median为784[9] - 与OpenAI、Anthropic、Google仅发布技术报告不同,DeepSeek将模型送入学术体系接受8位独立专家审查[10] - 公开了11页正文、83页补充材料和64页同行评审记录,透明度极高[7][10] - HuggingFace工程师认为此为重要先例,有助于评估系统风险[13] - 《Nature》官方发文呼吁其他公司也将大语言模型提交同行评审[15] 技术创新与方法论 - 核心贡献是纯强化学习框架,无需人类标注思维路径,模型自主学会推理[19][21] - 仅使用规则化奖励信号:答案正确加分,错误减分,不干预思考过程[21][33] - 训练中出现“自我反思、验证、动态调整”等涌现式推理行为[21][35][38] - 在AIME 2024数学竞赛准确率达77.9%,远超人类平均水平[23][31] - 自研GRPO算法通过“组内竞争”估算优势,简化流程并降低资源消耗[47] 模型开发路径 - 从R1-Zero开始:基于6710亿参数MoE架构,跳过传统监督微调,直接进行强化学习[25][26][27] - 训练成本分解:R1-Zero耗20.2万美元,SFT数据创建耗1万美元,最终RL耗8.2万美元[47] - 四阶段进化:R1-Dev1解决可读性问题,R1-Dev2强化推理能力,R1-Dev3扩展通用能力,最终R1完成偏好对齐[41][42][43][44][46] - 最终模型在AlpacaEval 2.0提升25%,Arena-Hard提升17%[47] 数据与训练细节 - 选择Qwen2-7B作为基础模型以避免数据污染问题,实验显示其推理能力超过同期GPT-4o模型[16] - 强化训练后Qwen2-7B-Zero在AIME 2024得分22.3%,远超原始版本7.9%和GPT-4o的9.3%[16] - 明确否认依赖模型蒸馏,强化学习组件独立训练且不依赖于GPT-4等模型的输出[17][18] - 所有训练数据通过网页抓取,未故意加入OpenAI生成内容[7] 性能表现 - 在LiveCodeBench数据集中,R1最终在简单问题准确率100%,中等问题83.45%,困难问题34.44%[45] - 思考长度从几千token增长到上万个token,表明思考深度增加[31] - 在部分代码和理科推理任务上超过GPT-4[23]
DeepSeek,严正声明!
中国基金报· 2025-09-18 16:37
公司声明与事件 - 深度求索公司发布声明称有不法分子冒充公司或员工实施诈骗 伪造工牌和营业执照等材料 在多个平台以算力租赁和股权融资等名义向用户收取费用 [1] - 公司强调从未要求用户向个人账户或非官方账户付款 任何私下转账要求均属诈骗 冒用公司名义开展算力租赁或融资等行为均属违法 将追究法律责任 [2] - 公司提醒用户通过官网deepseek com及官方认证账号获取信息 官方网页和App产品目前均为免费 API调用服务需前往官网开放平台充值 遇可疑情况可通过官方邮箱联系或向公安机关举报 [2] 公司背景与成就 - 深度求索成立于2023年 由中国知名量化投资机构幻方量化孵化 是一家总部位于杭州的人工智能研究机构 [3] - 创始团队由量化专家梁文锋领衔 集结了多名顶尖高校科研人才及具备国际机构经验的技术专家 [3] - 近期DeepSeek团队共同完成、梁文锋担任通讯作者的DeepSeek-R1研究论文登上国际权威期刊《Nature》封面 引发市场高度关注 DeepSeek-R1成为首个通过同行评议的主要大语言模型 [3]