Workflow
大语言模型
icon
搜索文档
70名员工,估值70亿
虎嗅APP· 2025-09-21 12:39
文章核心观点 - 科技巨头通过巨额资金系统性收编AI初创公司顶尖人才,以消除竞争威胁并增强自身实力[4][5][14][15] - 创始团队被挖走后,CharacterAI由剩余员工接管并成功实现业务转型与收入增长,但最终仍因高昂运营成本等因素面临出售或融资选择[8][16][17][22] AI人才争夺态势 - Meta以超过2亿美元(约合14.2亿元人民币)挖走苹果AI奇才庞若鸣,价格刷新高管转会纪录,相当于苹果CEO库克年薪近3倍[4] - 2024年3月微软收编估值300亿元Inflection AI创始团队,6月亚马逊挖走Adept核心人才,9月亚马逊从Covariant挖走三名联合创始人及约25%员工[6][7][8] - 谷歌于2024年8月以27亿美元(约195.75亿元人民币)挖走CharacterAI创始人及团队,并获得模型非独家许可[8][10] CharacterAI创始人被挖事件分析 - 创始人Noam Shazeer和Daniel De Freitas原为谷歌AI研究员,其中Shazeer是Transformer架构联合发明人,二人因不满谷歌保守策略而创业[12] - 谷歌通过"技术授权+人才引进"模式规避反垄断审查,既消除潜在竞争对手,又增强自身技术实力[10][11][14] - 创始人选择回归谷歌主因包括初创公司难以承担每月数千万美元云服务成本,且回归后可获得无限资金支持并实现个人财富增值(如Shazeer个人获利超1亿美元)[14] 员工接管后的运营与业绩 - 约70名员工在创始人离开后接管公司,任命总法律顾问为临时CEO,并放弃自研模型转向专注消费端产品以降低成本[16][17] - 公司推出社交信息流功能并承接品牌广告业务,月活用户超过2000万人,通过9.99美元月订阅费实现商业化[17][18] - 预计2025年底年化收入达5000万美元(约3.6亿元人民币),高于此前3000万美元,谷歌支付的授权费为运营提供资金缓冲[18] - 2025年6月聘请Meta前高管Karandeep Anand为新CEO,战略从AGI梦想转向AI娱乐领域[19] 公司当前挑战与未来选择 - 即便改用开源模型,每月运营成本仍高达数百万美元,同时面临两起诉讼及多州监管调查,可能影响产品形态与用户增长[21][22] - 赛道竞争激烈,Meta等巨头推出类似服务,Chai等竞争对手以更少内容限制吸引用户[21] - 公司正考虑以超过10亿美元(合人民币71亿元)估值出售或融资数亿美元,出售可能吸引希望加强AI娱乐业务的大型科技公司[8][22]
重磅!DeepSeek 梁文锋论文登上《自然》封面,正面回应蒸馏质疑
程序员的那些事· 2025-09-20 09:10
模型技术突破与行业地位 - DeepSeek-R1是全球首个经过同行评审的主流大语言模型,打破了主流大模型尚未经过独立同行评审的空白[4] - 模型采用强化学习进行训练,通过正确解答数学问题获得高分奖励、答错受惩罚的方式,学会了逐步解决问题的推理能力[5] - 该技术使模型能够自我验证和自我反思,在给出新问题答案前检查性能,从而提高了在编程和研究生水平科学问题上的表现[5] 学术认可与技术创新 - 研究成果获得《自然》封面推荐,被描述为在极少人工输入下训练出能进行推理的模型[5] - 模型训练方法解决了人工智能需要大量人工干预添加标签和注释的极大挑战[5] - 与今年1月发布的初版论文相比,本次论文披露了更多模型训练细节并回应了模型发布之初的蒸馏质疑[4]
GPT-4o学习“波多野结衣”的次数,比“您好”还多2.6倍
猿大侠· 2025-09-19 12:11
大语言模型训练数据污染问题 - 研究发现以ChatGPT为代表的大语言模型被某些神秘的东方文字“污染”,其中日本AV女优波多野结衣的名字是污染数据里最引人瞩目的例子[4] - 论文将这些污染数据定义为“污染中文词元”,在GPT的长中文词元中超过23%属于色情或赌博等灰色内容[6][7] - 这些污染内容像病毒一样寄生在AI的词汇库深处,导致模型中文词汇表被严重污染[8] 污染数据对模型性能的具体影响 - 污染词元的存在会让AI突然开始胡言乱语、答非所问,成为模型知识体系的一部分隐患[9][10] - 在GPT-4o训练数据中,与波多野结衣相关的内容占比可能高达0.5%,该词出现频率是日常问候语“你好”的2.6倍[10] - 此类无营养的营销内容被模型吸收后容易引发幻觉问题,如DeepSeek模型曾莫名其妙写道歉信和编造发布日期[13] 行业训练数据面临的挑战 - 污染中文词元的广泛存在反映了当前用于大语言模型训练的中文网络语料面临严峻挑战[13] - 该问题凸显了人工智能行业在数据清洗和语料质量控制方面存在重大改进空间[13]
中国服务业企业500强发布,华为公布AI芯片发展路线 | 财经日日评
吴晓波频道· 2025-09-19 08:30
美联储货币政策 - 美联储宣布降息25个基点,将联邦基金利率目标区间从4.25%-4.5%降至4.00%-4.25% [2] - 本轮宽松周期合计降息幅度已达125个基点 [2] - 美联储承认就业增长放缓且失业率略有攀升,通胀有所上升但仍略高企,本次降息被视为提振经济的预防式降息 [2] - 美联储内部对利率路径规划分歧加剧,淡化年内连续降息的激进预期,未来将更依赖月度数据做决策 [3] 中国入境消费与服务业 - 前8月免签入境外国人达1589万人次,占入境外国人62.1%,同比大幅上升52.1% [4] - 中国已对47国实施单方面免签、与29国全面互免签证、对55国实施240小时过境免签,政策优化旨在吸引境外人员入境消费 [4] - 2025中国服务业企业500强营业收入总规模达51.1万亿元,平均营业收入首次突破千亿元大关至1022.2亿元 [6] - 服务业500强人均营业收入和人均净利润分别增长至328.1万元和21.5万元,互联网及信息技术服务等现代新兴服务业入围数量达184家 [6] - 服务业企业在中国企业500强中营收占比接近四成,未来有望带动更多经济增长 [7] 人工智能与芯片产业 - 华为公布昇腾AI芯片三年路线图,计划2026年Q1推出采用自研HBM的昇腾950PR,至2028年Q4共推出四款芯片 [8] - 华为昇腾芯片为专用NPU,因代工受限无法采用最先进制程,转而强调多卡联动以堆叠算力 [8] - 阿里、百度等国内企业加速AI芯片自研以降低对英伟达依赖,但国产软件生态追赶速度相对较慢 [9] - DeepSeek团队关于DeepSeek-R1推理模型的论文登上《自然》封面,该模型是全球首个经同行评审的主流大语言模型 [10] - DeepSeek采用强化学习而非人类示例开发推理步骤,为AI训练提供了更廉价高效的新范式 [10] 中国企业海外市场拓展 - 滴滴旗下99公司宣布对其巴西外卖平台99Food追加20亿雷亚尔(约合26亿元人民币)投资,计划到2026年6月全面落实 [12] - 美团计划5年内投入10亿美元将其外卖服务Keeta引入巴西,与滴滴因"二选一"等问题多次在法院交锋 [12] - 巴西外卖市场形成本土巨头iFood与两家中国企业的三方竞争格局 [12] 数字资产监管与金融市场 - 美国证券交易委员会通过规则变更提案,将数字币ETF审批时间从240天以上缩短至最多75天,为各类加密货币现货ETF铺平道路 [14] - 新规则反映出特朗普政府对数字资产更友好的监管态度,旨在促进创新并重塑美国在数字资产ETF领域的竞争优势 [14] - 中国A股市场三大指数冲高回落,沪指跌1.15%报3831.66点,沪深两市成交额3.135万亿元,较上一交易日放量7584亿元,创年内第三 [16] - 市场对美联储转向宽松的预期落空,金融、消费板块调整,芯片产业链逆势上涨 [16]
远程银行的“跨越山海”与咫尺服务
证券日报· 2025-09-19 00:22
银行业AI与远程银行战略地位转变 - 多家银行的AI业务已从“试试看”转为“必须做”,整体战略布局被重构 [1] - 远程银行从成本中心转变为新的服务核心、营销中心和价值创造中心 [1] - 远程银行被提升至与线下网点同等重要的战略层级,成为银行全面数字化转型的重要支点 [1] 远程银行的演进与业务范围扩展 - 远程银行从“电话银行+在线客服”的1.0时代,进阶至“移动银行+初级AI”的2.0时代,目前正迈向“AI原生银行+大模型智能体”的3.0时代 [2] - 截至2024年末,已有37家银行客服中心更名为远程银行中心,占比44%,较2023年提升4个百分点 [2] - 远程银行业务范围大幅扩展,涵盖办理信用卡、申请贷款、购买理财产品甚至开户等传统需“亲临柜台”的业务 [3] AI技术应用深化与价值认知转变 - AI应用从智能客服等单点场景,扩展至全行级、多场景、系统化的AI智能体部署,覆盖营销、风控、投顾、理赔等核心业务 [2] - AI的价值认知已从“可选工具”转变为“核心基础设施”,发展趋势是从“功能叠加”走向“业务重构” [3] - 2024年银行业客服中心与远程银行智能服务占比提升至59.41%,机器人问题识别率与解决率分别达96.19%和92.59% [4] 远程银行的效能与客户服务提升 - 发展远程银行有助于整合多渠道数据,构建统一客户画像,支持精准营销与个性化服务 [4] - 远程银行是推动银行从“交易处理型”机构向“价值运营型”机构转变的关键路径 [7] - 银行建设远程银行的核心诉求是为客户提供便捷、高效、个性化的金融服务 [8] 具体银行实践案例 - 上海银行AI手机银行可通过分析用户资产负债、现金流、风险偏好等信息,从数百款理财产品中快速筛选推荐 [3] - 交通银行手机银行“财富规划”工具融合专家经验和智能算法,为客户提供“一户一策”的大类资产配置功能 [7] - 上海银行AI手机银行显现三大效能提升:业务办理转化率提升、线上问题解决率显著提高、普惠性与安全性双重强化 [6] 远程银行的战略意义与角色进化 - 远程银行已从机构端“手和脚”的延伸,进化为驱动业务流程再造、组织变革和体验升级的核心引擎“大脑” [9] - 一个远程银行中心能无缝服务全国乃至全球客户,对区域性银行突破地域限制具有战略意义 [9] - 远程银行的主要目标是替代线下网点的简单业务,核心特征是“以客户体验为中心”和“数据驱动” [9] 银行对AI能力构建的诉求 - 银行首先关注技术服务客户的能力及产生的业务实效,技术的安全性与合规性 [7] - 银行希望最终能构建和掌控自己的AI能力,实现自主可控,而非完全依赖外部 [7] - 银行希望构建清晰的技术实施路线图和方法论,而非零散的技术点 [7]
当前的自动驾驶VLA,还有很多模块需要优化...
自动驾驶之心· 2025-09-18 19:00
VLA技术发展趋势与行业动态 - VLA成为2024年自动驾驶领域主流关键词,工业界加速量产上车,学术界持续刷新比赛榜单[1] - 相比传统增加/删除问题案例的迭代方案,VLA利用大模型泛化能力提供了摆脱无尽corner case的可能性[1] - VLA技术发展涵盖模块化、一体化、推理增强等多个方向,但仍需优化模块对齐、车端思维链和空间理解等关键问题[1] 自动驾驶技术演进路径 - 端到端自动驾驶将传感器原始输入直接映射到车辆控制指令,替代传统多模块级联架构[2] - 传统模块化架构(L2-L4级)具有逻辑清晰和可解释性优势,但存在错误累积效应和信息损失等瓶颈[3] - 纯视觉端到端模型通过模仿学习实现像素到行为映射,但面临黑箱问题、因果混淆和泛化能力受限等挑战[3][4] - VLA范式将语言作为中间表征,赋予模型推理、解释和交互能力,标志着向通用人工智能驾驶代理的演进[5] VLA技术核心价值 - VLA模型通过视觉-语言-行为的闭环实现可解释决策,能用自然语言解释决策依据[5] - 模型利用LLM预训练获得的世界知识和常识,提升对复杂交通场景的理解能力[5] - 语言抽象和推理能力增强模型泛化性能,使其能更好地处理未见过的长尾场景[5] - VLA实现自然的人机交互功能,用户可通过自然语言下达高级驾驶指令[5] 论文辅导课程体系设计 - 课程采用12周在线小组科研+2周论文指导+10周论文维护期的教学模式[7][14] - 围绕语言模型解释器、模块化VLA模型、统一端到端VLA模型、推理增强VLA模型四大研究方向[7] - 提供经典论文与前沿论文分析、代码实现、创新点挖掘和数据集应用等全方位支持[7][12] - 学员将获得选题方法、实验方法、写作方法和投稿建议等系统化科研能力培养[6] 课程实施与资源保障 - 采用2+1多师制教学团队,主导师负责授课,副导师提供全程辅助,班主任跟踪学习进度[23] - 课程涵盖从传统端到端自动驾驶到VLA范式的完整技术演进内容,共14周系统学习[8][10][26] - 提供公开数据集如nuScenes、Waymo、Argoverse等,以及多个开源Baseline代码库[23][24] - 配备必读论文清单,包括Senna、SimLingo、OpenDriveVLA、ORION等前沿研究成果[25] 学员收获与能力提升 - 学员将掌握经典及前沿论文分析方法,理解重点算法原理与优劣势对比[7][14] - 即使没有自研idea,导师会为每位学员提供定制化研究思路[7][14] - 通过Baseline代码和数据集实践,显著提升Coding能力和实验效率[7][14] - 最终产出论文初稿,形成完整的研究成果输出[15] 招生要求与学术标准 - 课程每期限招6人,最多不超过8人,确保教学质量[11] - 学员需具备深度学习基础、自动驾驶算法了解和Python编程能力[16] - 硬件要求最佳配置为8张4090显卡,最低不少于4张4090显卡设备[20] - 学习要求包括每周课前阅读、按时完成作业、全勤参与和学术诚信[20]
DeepSeek 首登《自然》封面:中国大模型创造新历史,做了 OpenAI 不敢做的事
36氪· 2025-09-18 17:56
核心观点 - DeepSeek的R1模型相关论文登上《Nature》封面,标志着其科研成果获得顶级学术期刊认可[2][6] - 该研究首次证明纯强化学习能有效激发大语言模型的推理能力,训练成本仅为29.4万美元[7][47] - 这是首个经过独立同行评审的大语言模型,为行业树立了科学验证的新标杆[10][11][12] 学术认可与行业意义 - 《Nature》是全球影响力最高的期刊之一,h5-index为490,h5-median为784[9] - 与OpenAI、Anthropic、Google仅发布技术报告不同,DeepSeek将模型送入学术体系接受8位独立专家审查[10] - 公开了11页正文、83页补充材料和64页同行评审记录,透明度极高[7][10] - HuggingFace工程师认为此为重要先例,有助于评估系统风险[13] - 《Nature》官方发文呼吁其他公司也将大语言模型提交同行评审[15] 技术创新与方法论 - 核心贡献是纯强化学习框架,无需人类标注思维路径,模型自主学会推理[19][21] - 仅使用规则化奖励信号:答案正确加分,错误减分,不干预思考过程[21][33] - 训练中出现“自我反思、验证、动态调整”等涌现式推理行为[21][35][38] - 在AIME 2024数学竞赛准确率达77.9%,远超人类平均水平[23][31] - 自研GRPO算法通过“组内竞争”估算优势,简化流程并降低资源消耗[47] 模型开发路径 - 从R1-Zero开始:基于6710亿参数MoE架构,跳过传统监督微调,直接进行强化学习[25][26][27] - 训练成本分解:R1-Zero耗20.2万美元,SFT数据创建耗1万美元,最终RL耗8.2万美元[47] - 四阶段进化:R1-Dev1解决可读性问题,R1-Dev2强化推理能力,R1-Dev3扩展通用能力,最终R1完成偏好对齐[41][42][43][44][46] - 最终模型在AlpacaEval 2.0提升25%,Arena-Hard提升17%[47] 数据与训练细节 - 选择Qwen2-7B作为基础模型以避免数据污染问题,实验显示其推理能力超过同期GPT-4o模型[16] - 强化训练后Qwen2-7B-Zero在AIME 2024得分22.3%,远超原始版本7.9%和GPT-4o的9.3%[16] - 明确否认依赖模型蒸馏,强化学习组件独立训练且不依赖于GPT-4等模型的输出[17][18] - 所有训练数据通过网页抓取,未故意加入OpenAI生成内容[7] 性能表现 - 在LiveCodeBench数据集中,R1最终在简单问题准确率100%,中等问题83.45%,困难问题34.44%[45] - 思考长度从几千token增长到上万个token,表明思考深度增加[31] - 在部分代码和理科推理任务上超过GPT-4[23]
DeepSeek,严正声明!
中国基金报· 2025-09-18 16:37
公司声明与事件 - 深度求索公司发布声明称有不法分子冒充公司或员工实施诈骗 伪造工牌和营业执照等材料 在多个平台以算力租赁和股权融资等名义向用户收取费用 [1] - 公司强调从未要求用户向个人账户或非官方账户付款 任何私下转账要求均属诈骗 冒用公司名义开展算力租赁或融资等行为均属违法 将追究法律责任 [2] - 公司提醒用户通过官网deepseek com及官方认证账号获取信息 官方网页和App产品目前均为免费 API调用服务需前往官网开放平台充值 遇可疑情况可通过官方邮箱联系或向公安机关举报 [2] 公司背景与成就 - 深度求索成立于2023年 由中国知名量化投资机构幻方量化孵化 是一家总部位于杭州的人工智能研究机构 [3] - 创始团队由量化专家梁文锋领衔 集结了多名顶尖高校科研人才及具备国际机构经验的技术专家 [3] - 近期DeepSeek团队共同完成、梁文锋担任通讯作者的DeepSeek-R1研究论文登上国际权威期刊《Nature》封面 引发市场高度关注 DeepSeek-R1成为首个通过同行评议的主要大语言模型 [3]
从 ChatGPT 到 Marble,李飞飞押注的下一个爆发点是 3D 世界生成?
锦秋集· 2025-09-18 15:33
文章核心观点 - 李飞飞创立的World Labs推出空间智能模型Marble 其核心突破在于通过一张图片或文本提示生成持久存在且可自由导航的3D世界 在几何一致性、风格多样性、世界规模和跨设备支持上显著优于同类产品[1][2] - Marble并非孤立产品 而是李飞飞"世界模型-空间智能-三维表征"思路的集中落地 代表从语言理解到世界理解再到AGI的演进路径[3][6] - 世界模型被视为AI发展的第三阶段范式 其核心在于三维表征与时空一致性 而不仅是多模态拼接 这将推动内容生产、机器人和AR/VR领域的变革[6][21][29] 大语言模型边界与空间智能必要性 - 大语言模型在写作、推理等任务中展现强大能力 但其基于一维序列的结构无法原生理解三维世界 语言作为有损编码方式难以传递几何、物理和时序因果信息[5][9][10] - 二维像素和视频输入不会自动生成三维结构 关键在模型内部表征需原生支持三维表达 满足可微渲染、视角一致性和物理一致性要求[11][14] - 空间智能是AGI的必要条件 因为世界本质是三维的 二维观测是不完备投影 且语言训练信号是纯生成的 无法替代对三维结构的直接建模[16] 世界模型的技术实现路径 - 数据策略采用混合路径:真实采集+重建生成+仿真合成 以解决三维数据匮乏问题 同时强调数据质量与一致性约束的重要性[20][26] - 算法层面注重"重建与生成合流" 同一套三维表示既能重建真实场景 也能生成虚拟世界 NeRF等方法让小规模算力也能实现原创突破[20][24] - 算力资源配置体现学术与产业分工:工业界侧重系统工程与产品化 学术界专注表示方法和跨模态原理研究[25] 产业发展与落地节奏 - 内容生产为首要落地场景 目标将3D内容生成成本从AAA游戏级降至创作者可及水平 应用覆盖游戏、虚拟摄影、工业设计和教育领域[6][29] - 机器人被视为天然应用场景 空间智能连接数字脑与物理界面 但需先打磨三维表示与交互能力 再承接高风险实体操作[30] - AR/VR作为后续发展阶段 需实现从静态场景到动态要素、可交互性和场景语义的逐步演进[29] 范式演进与投资逻辑 - AI发展遵循三要素共振规律:数据×算力×算法 ImageNet时代是二维标注数据驱动 世界模型时代是三维表示驱动[18][21][23] - 范式演进分为三阶段:监督学习(ImageNet)→生成式建模(扩散/GAN)→三维世界模型(重建×生成)[21][24] - 投资逻辑围绕"找到时代最被低估的数据形态" 三维表示被视为当前最具潜力的数据形态[21][23]
DeepSeek首次回应“蒸馏OpenAI”质疑
第一财经· 2025-09-18 13:34
核心观点 - DeepSeek-R1研究论文登上《Nature》封面,成为全球首个经过同行评审的主流大语言模型[3][11] - 公司回应了模型发布之初关于蒸馏OpenAI的质疑,强调训练数据仅来自普通网页和电子书,不包含任何合成数据[6] - 研究公开了仅靠强化学习就能激发大模型推理能力的重要成果,提供了一种不依赖大量监督数据的新思路[11][13] 论文发布与行业影响 - DeepSeek-R1研究论文于2025年9月18日登上国际权威期刊《Nature》封面[3] - 该模型已成为全球最受欢迎的开源推理模型,Hugging Face下载量超1090万次[10] - 论文经过独立同行评审,有助于打消AI行业基准测试可被操控的疑虑[11] - 这是全球首个经过同行评审的主流大语言模型,为行业建立了公开分享的规范先例[10][11] 技术成本与效率 - DeepSeek-R1训练总成本仅29.4万美元,折合人民币约200万元[9][10] - 具体成本构成:DeepSeek-R1-Zero训练20.2万美元,SFT数据集创建1万美元,DeepSeek-R1训练8.2万美元[10] - 训练使用64×8张H800 GPU,DeepSeek-R1-Zero耗时约198小时,DeepSeek-R1耗时约80小时[10] - 即便加上训练基础模型V3的约600万美元成本,总金额仍远低于竞争对手模型的数千万美元[10] 技术方法与创新 - 研究证明仅通过大规模强化学习即可显著提升模型推理能力,无需监督微调作为冷启动[11][13] - 采用群组相对策略优化(GRPO)降低训练成本,设计奖励机制引导模型先推理后给出答案[13] - 模型在强化学习中学会自我验证和反思,通过检查性能来提高编程和科学问题的表现[13] - 开发团队使用DeepSeek-R1整理的80万个样本对Qwen和Llama等开源模型进行微调,显著增强了小模型的推理能力[13] 数据来源争议回应 - 公司明确表示DeepSeek-V3-Base训练数据仅来自普通网页和电子书,不包含任何合成数据[6] - 在预训练冷却阶段没有故意加入OpenAI生成的合成数据,所有数据都通过网页抓取[6] - 承认可能有一些网页包含大量OpenAI模型生成的答案,导致基础模型间接受益于其他强大模型的知识[8] - 预训练数据集包含大量数学和编程相关内容,表明模型已接触到大量有推理痕迹的数据[8]