Llama

搜索文档
DeepSeek首次回应“蒸馏OpenAI”质疑
第一财经· 2025-09-18 12:34
"没有故意加入OpenAI生成的合成数据。" 9月18日,DeepSeek再次引发轰动。由DeepSeek团队共同完成、梁文锋担任通讯作者的DeepSeek-R1研究论文,登上了国际权威期刊《Nature》的封面。 今年1月,DeepSeek曾在arxiv公布了初版预印本论文,相较而言,此次发布在《Nature》的版本补充了更多模型细节,减少了描述中的拟人化说明。在补充 材料中,DeepSeek提到了R1模型的训练成本仅29.4万美元,以及回应了模型发布之初关于蒸馏OpenAI的质疑。 今年1月,有报道提到,OpenAI研究人员认为,DeepSeek可能使用了OpenAI模型的输出来训练R1,这种方法可以在使用较少资源的情况下加速模型能力提 升。 在论文的补充资料部分,DeepSeek回应了关于DeepSeek-V3-Base训练数据来源的问题。"DeepSeek-V3-Base的训练数据仅来自普通网页和电子书,不包含任 何合成数据。在预训练冷却阶段,我们没有故意加入OpenAI生成的合成数据,此阶段使用的所有数据都是通过网页抓取的。"DeepSeek表示。 不过,DeepSeek也说明,已观察到一些网页包含 ...
AI产业迎新纪元,万亿级投资风暴来袭!
证券时报网· 2025-09-17 07:57
当人工智能的浪潮席卷千行百业,科创人工智能ETF华夏(589010)及其联接基金所承载的,早已不止于指数的波动,而是在同步一个时代的科技自 强与资本红利。 9月11日,阿尔巴尼亚总理埃迪·拉马宣布任命人工智能"迪埃拉"担任公共采购部长,人类政治史翻开了前所未有的篇章。这不是科幻剧本,而是 现实政治中的一幕——全球首个非人类、无实体的数字部长正式登上国家治理的舞台。 (原标题:AI产业迎新纪元,万亿级投资风暴来袭!) 几乎在同一时间,特斯拉CEO埃隆·马斯克在《All-In》播客中预言:五年之内,人工智能的总体智慧将逼近甚至超越全人类智力之和。技术奇 点,正以前所未有的速度逼近现实。 如果说阿尔巴尼亚的任命是AI突破权力边界的先声,马斯克的预判是技术演进的未来预警,那么,我国国务院印发的《关于深入实施"人工智能 +"行动的意见》(以下简称《意见》),则是大国对AI时代的"战略定调"。这一中国首次以顶层设计形式出台的纲领性文件,将人工智能从产业 热点直接跃升为国家战略,完成了从单点突破到全局融合的历史性跨越。 从有没有、强不强,到用不用、怎么用——中国正在回答的,已不仅是技术问题,更是一个文明如何与AI共生的未来 ...
马斯克深夜挥刀,Grok幕后员工1/3失业
虎嗅· 2025-09-15 08:10
公司动态 - xAI裁减500名通用数据标注员 占团队总人数三分之一[1][2][6] - 裁员后Slack群聊人数从1500人降至1000人[2] - 公司战略转向招募10倍规模的"专业导师"团队替代通用标注员[3][10] 行业运营模式 - 数据标注被认定为训练大语言模型的核心基石 包括Gemini和Llama等主流模型均依赖该流程[4] - 行业存在显著分层薪酬结构 美国AI评估员起薪为16美元/小时 远低于硅谷工程师薪资水平[22] - 标注工作内容包含暴力 色情及仇恨言论等负面信息审核 导致工作人员出现心理压力[5][18][21] 工作流程优化 - 单任务处理时间从30分钟压缩至15分钟以内 每日需处理数百条回答[19] - 谷歌修改内容审核规则 允许模型复述用户输入的违规内容 只要非AI主动生成即不认定为违规[29] - 部分标注员被要求跨领域处理陌生专业问题 引发对模型质量的担忧[20] 行业生态特征 - AI产业被形容为"建立在人类劳动之上的金字塔" 标注员群体处于既关键又可替代的中间层[23] - 企业存在速度优先于安全的倾向 当安全流程影响开发效率时可能被弱化[30] - 标注团队管理层曾通过STEM测试及网络行为评估等方式进行人员筛选[13][14]
马斯克深夜挥刀,Grok幕后员工1/3失业,谷歌AI靠人肉堆起,血汗工厂曝光
36氪· 2025-09-15 07:42
表面上,AI正在狂飙突进;但背后,却是一群「看不见的人」在默默撑起这场科技竞赛。马斯克的xAI大规模裁员转型专家标注,谷歌外包工 人被迫处理负面暴力内容。AI是靠无数普通人的劳动堆出来的。 昨天,马斯克xAI内部曝出最大规模裁员。 标注团队中,500名通用标注员一夜被炒鱿鱼,Slack群聊人数(1500人)骤降至1000人。 与此同时,xAI将招募10倍「专业导师」团队。 数据标注,不仅是xAI押注的训练LLM核心,也是Gemini、Llama等大模型迭代的关键基石。 然而,鲜有人知的是,Gemini霸榜的背后,数据标注员们正承受越来越大的工作与心理压力,甚至开始被迫接触大量涉及暴力等负面信息。 光鲜亮丽的大模型背后,这些在背后默默付出的数据标注员们,正在被无情压榨。 马斯克暴裁500人,要招10倍专业导师 据BI昨日报道,周五深夜,xAI突然裁掉了约500名数据标注员,占团队三分之一。 这些人原本负责教Grok如何理解世界。 公司发邮件宣布战略转型:不再需要大多数「通用导师」,未来将重点扩充「专家导师」。 员工立刻被切断系统权限,只能拿到合同期末或11月底的工资。 值得注意的是,就在裁员前几天,团队管理层也 ...
Bank of America Reaffirms Buy on Meta (META) Ahead of Connect 2025
Yahoo Finance· 2025-09-11 04:17
Meta Platforms, Inc. (NASDAQ:META) is one of the Hot AI Stocks to Keep on Your Radar. On September 9, Bank of America reiterated the stock as “Buy” and noted that it’s bullish heading into the Meta Connect Developer’s Conference next week. The firm holds a $900.00 price target. The firm believes that the focus of the event this year is going to be on glasses hardware innovation and expanding AI capabilities across glasses and Meta’s apps. The company may also offer something for developers, such as new AI ...
80%美国AI初创靠中国开源模型“吃饭”!a16z投资人震惊,全球开源榜前16名全被中国包揽
AI前线· 2025-08-30 13:33
中国开源AI模型在美国初创公司中的普及 - 美国80%的AI初创公司在融资路演时使用中国开源模型而非OpenAI或Anthropic等美国模型[2][4] - 全球范围内使用中国开源模型的初创公司比例可能接近100%[2][4] - 中国开源模型在智能测试中已超越美国类似的开放模型如Meta的模型且能力逼近最强大的专有模型[4] 中国开源AI模型在全球排行榜上的主导地位 - 全球开源大模型排行榜前16名全部来自中国包括DeepSeek、智谱、月之暗面(Kimi)和Qwen等团队[10][11] - 最好的非中国模型GPT-oss-120B仅排名第17位[11] - Design Arena评测平台通过真实用户偏好对战投票中国开源模型在用户体验维度全面压制海外竞争者[12] 开源模型与闭源模型的竞争态势 - 开源模型平均只比最尖端闭源模型落后9个月且在o1模型发布后开源社区仅用4个月就迎头赶上[13] - 行业正经历从开源转向闭源的趋势尽管舆论支持开源但实际生态逐渐收紧[8] - Meta最初开放Llama模型但战略调整后逐渐走向闭源与开源倡导方向背道而驰[5][9] 开源AI模型的商业价值和行业影响 - 开源AI与传统软件不同复现大模型需重建完整数据和训练流水线投入上亿甚至上十亿美元[9] - 历史上开源软件在市场价值中占比约20%而在AI领域比例高得多生态更加健康[9] - 中国模型比西方更具性价比初创公司基于现金流考虑优先选择开源模型[15] 行业专家观点和市场反应 - a16z合伙人Martin Casado认为中国在开源领域更具优势开源扩散是创业公司的必然选择[6][9][15] - 网友评论指出中国几乎一夜之间统治开源领域创业生态对中国依赖已非常深[16] - Casado呼吁业界正视开源重要性并推动自身开源努力而非封闭[9]
扎克伯格,也顶不住了
美股研究社· 2025-08-27 20:08
Meta AI战略调整 - 2025年8月中旬Meta突然冻结AI部门招聘 暂停对外扩编和内部人员流动 官方称为"基础性的组织规划"以定型新架构[5] - 公司通过CEO直接联系、天价薪酬包和反向收购式挖人等方式 在2025年上半年吸纳至少50名竞争对手AI人才 其中40%来自OpenAI 20%来自谷歌[9][11] - 为引入Scale AI联合创始人Alexandr Wang担任首席AI官 付出约140亿美元少数股权投资[11] 组织架构重组 - 将不同AI业务整合为"Meta Superintelligence Labs" 分为AGI研究团队、AI产品团队、基础设施团队和FAIR四个部门[12] - 解散负责Llama系列的大模型团队"AGI Foundations" 因Llama表现不及预期且内部受到尖锐批评[13] - 多名关键人才离职 包括研究负责人Joelle Pineau转投Cohere Llama项目研究员Angela Fan加入OpenAI[13] 资本市场压力 - 2025年资本开支指引上调至最高720亿美元 核心投向AI基建和人才[17] - 摩根士丹利警告AI人才股权激励可能侵蚀回购能力并压缩股东回报[16] - 2025年8月20日前后科技股遭抛售 Meta股价连跌数日 市场担忧AI投入产出比[17] 人才竞争态势 - 向AI研究人员提供四年3亿美元超级薪酬包 个别顶级人选报价据传高达15亿美元[9] - 采用"反向收购式挖人"策略 通过向基金注资方式吸纳Nat Friedman与Daniel Gross等关键人才[11] - OpenAI管理层公开批评Meta挖人行为"疯狂" 形容为"有人闯入我们家偷了东西"[11] 内部管理挑战 - 新老员工之间存在理念冲突 不同团队因计算资源分配和技术路线不和频起摩擦[6] - 一次性吸纳大量顶尖人才被比喻为"把几十位A级球员装进同一个更衣室" 存在位置与打法冲突[12] - 部分员工被边缘化导致士气低落 有的选择离职创业[6]
不调参、不费力,上海交大&上海AI Lab推出“记忆解码器”,任意LLM无缝自适应
36氪· 2025-08-26 17:17
当前,大语言模型(LLM)在医疗、金融、法律等专业领域,常因缺乏深度知识而表现较差,如何让 LLM 在不同特定领域中发挥最佳性能,仍是一大挑 战。 现有主流方案包括领域自适应预训练(DAPT)和检索增强生成(RAG)。然而,DAPT 需要进行耗时的全参数训练,且易产生灾难性遗忘,难以让多个 模型在同一领域中高效适配;而 RAG 也因昂贵的 kNN 搜索和更长的上下文,推理延迟大大增加。 而且,由于 RAG 的即插即用特性与 DAPT 的推理效率之间存在固有矛盾,开发既能跨模型适应,又能在部署时保持计算效率的解决方案,仍为空白。 为此,来自上海交通大学和上海AI Lab 的研究团队提出了一个"即插即用"的预训练记忆模块——"记忆解码器"(Memory Decoder),无需修改原模型参 数,即可适配不同尺寸模型,实现 LLM 的高效领域适应。 论文链接:https://arxiv.org/abs/2508.09874v1 Memory Decoder 的核心创新在于其"即插即用"的特性。经过训练后,单个 Memory Decoder 可无缝集成到任何使用相同 tokenizer 的 LLM 中,而无需进 行模型 ...
苹果AI华人总监跳槽Meta,核心团队再-1,库克被迫求助谷歌
36氪· 2025-08-25 11:50
人才流动与组织变动 - 苹果AI工程总监Frank Chu加入Meta 在MSL Infra新团队负责AI基础设施事务 成为至少第六位从苹果投奔Meta的AI模型领域员工[1] - 此前苹果模型团队创建者庞若鸣被Meta以2亿美元薪酬包挖走 Tom Gunter、Mark Lee、Bowen Zhang、Yun Zhu等AI大牛相继从苹果离职加入Meta[1][2] - Frank Chu在苹果期间主导基础模型AFM及开源大语言模型在公有云上的推理部署 并牵头数据预训练工作 同时领导搜索平台团队为Siri等核心产品提供技术支持[2] - Meta在历时数月豪掷数十亿美元招揽超50名AI研究员和工程师后 已冻结人工智能部门招聘 该禁令还禁止现有员工跨团队调动[6] - 招聘冻结于上周生效 与部门重组同步进行 业务关键性职位需获得Meta首席AI官Alexandr Wang特批[6] - MetaAI重组后形成四个团队:超级智能TBD Lab、AI产品团队、基础设施团队 以及保持原样的基础AI研究部[7] - Meta原AGI基金会团队因Llama模型表现未达预期被解散 在8月15日股票授予日前后至少有三名该团队成员宣布离职[8] 企业战略与竞争格局 - Meta从竞争对手处大规模招募AI人才 截至8月中旬已从OpenAI挖来超20名研究员 从谷歌挖来至少13名 从苹果挖来3名 从xAI挖来3名 从Anthropic挖来2名 新员工总数超50人[8] - 苹果近期与谷歌接洽 商讨构建定制化AI模型作为明年新版Siri的技术基础 谷歌已开始训练可在苹果服务器上运行的模型[10][11] - 苹果曾探讨与Anthropic及OpenAI建立合作 评估Claude或ChatGPT作为Siri新"大脑"的可能性[13] - 苹果在AI领域起步较晚且发展乏力 与第三方AI模型合作的方案已在公司内部酝酿一段时间[12] - Meta首席AI官Alexandr Wang表示公司正在对Meta超级智能实验室进行越来越多投资[6] 技术背景与专业能力 - Frank Chu曾担任Waymo技术主管近4年 从零构建并领导超2000个TPU的训练基础设施平台 该平台被用于大规模训练感知及路径规划模型[3] - Frank Chu曾在谷歌担任搜索软件工程师近9年 并在英属哥伦比亚大学获得数学与计算机科学学士学位 在多伦多大学获得计算机科学硕士学位[3][5]
钢铁侠的AI帝国崛起?马斯克“掀桌”开源Grok 2.5,明年Grok 3!
搜狐财经· 2025-08-24 14:01
公司动态 - xAI开源Grok 2.5模型并计划约六个月后开源Grok 3模型 [1] - 开源内容包括Grok-2的模型权重和架构等核心部分共42个文件总大小约500GB [1] - 开源许可允许非商业与合规商业使用但商业使用仅限年收入低于100万美元的公司且禁止用于训练其他基础模型 [1] - xAI每月运营成本高达10亿美元 [3] - xAI正计划启动新一轮融资目标估值或达2000亿美元若成功将成为全球估值最高人工智能公司之一 [3] - Grok AI面临隐私争议超过37万条AI聊天记录被泄露并被搜索引擎索引 [3] 技术进展 - Grok 2在编码、复杂问题和数学方面表现出色并能生图识图性能比肩GPT-4o [1] - xAI去年已开源Grok1模型 [1] - Grok 4模型已于今年7月推出Grok 5模型计划年底前问世 [1] 行业竞争 - Meta的Llama系列一直是开源模型的先驱之一在开放许可下推出所有四种模型 [2] - OpenAI今年早些时候宣布推出两个新的开源模型 [2] - 中国初创公司如DeepSeek因开源特性声名鹊起 [2] - 马斯克宣称xAI将很快超越除谷歌外的任何公司并最终超越谷歌但中国公司才是最大对手 [2]