LLaMA
搜索文档
美国开源AI最后的旗帜,也倒了
量子位· 2026-03-30 09:34
艾伦人工智能研究所(AI2)的战略转向与核心团队流失 - 艾伦人工智能研究所宣布削减对开源模型开发(包括OLMo系列)的资金投入,将战略重心转向AI应用[1] - 研究所核心团队被“打包带走”,前CEO阿里·法哈迪、前首席运营官索菲·莱布雷希特、OLMo项目联合负责人汉娜·哈吉希尔齐以及关键项目主导者兰杰·克里希纳等核心人员集体离职,加入微软穆斯塔法·苏莱曼领导的超级智能团队[2][3][9][10] - 前CEO阿里·法哈迪已于3月26日卸任,结束了超过两年半的任期[11] 战略转向背后的资金与资助方因素 - 非营利组织难以以慈善资金与科技巨头竞争:训练GPT-4级别模型的成本估计在1-2亿美元量级,当前前沿模型训练成本已攀升至数亿美元,而AI2的年度运营预算与之相比存在数量级差距[27][28][29][32] - 主要资助方科学与技术基金会(FFST,由保罗·艾伦遗产设立,规模达31亿美元)的资助策略发生显著变化[33] - 2024年新任FFST CEO琳达·斯图尔特博士更倾向于资助具有明确科学应用和可量化社会影响的项目,而非前沿模型研究[34][36][37] - FFST对AI2的资助模式将从提供年度总资助转向基于项目提案的资助模式,这种成果导向的模式对周期长、成本高的开源基础模型开发不利[37][38] - 有知情人士透露,FFST未来的资助预计将更倾向于人工智能的实际应用,而非构建开源基础模型[38] OLMo项目的开源标杆意义及其终结 - AI2的OLMo系列极致践行“完全开源”理念,不仅开源模型权重,而且公开从数据处理、预训练、微调到评测的全流程,并采用Apache 2.0许可证[42][43] - 2025年11月发布的OLMo 3系列包括Base、Instruct、Think和RL Zero四个变体,覆盖70亿和320亿参数规模,其中OLMo 3-Think 320亿被宣传为“该规模首个完全开源推理模型”[43][44] - AI2发布了完整的“模型流程”,包括训练日志、中间检查点、完整代码和配置,以及升级版的OlmoTrace工具,其透明度高于Llama(只开源权重)和Mistral(部分数据闭源)[45][46] - OLMo与Llama 4、Mistral Large 3并称为“三大开源支柱”,其战略调整被视为美国开源AI领域旗帜性标杆的倒下[46][47][50] 美国开源AI生态的演变与中国的崛起 - 美国现存的开源力量存在局限:Meta的LLaMA训练数据不公开且许可有限制;谷歌的Gemma不提供完整训练数据或流程;Hugging Face的SmolLM由社区驱动但缺乏大规模训练资源;英伟达的Nemotron系列主要服务其硬件生态[54][55][56][57] - 中国开源模型在性能上已超越美国领先的开源模型,并进一步拉大差距[58] - 在OpenRouter上,过去三周中国大模型的调用量已经连续超过美国[60] - MIT与Hugging Face的联合报告显示,过去一年中国开源模型全球下载量占比达到17.1%,首次反超美国[63] - 许多美国初创企业开始依赖中国开源模型进行构建,例如Cursor的新模型Composer 2被曝套壳Kimi K2.5,Deep Cogito的Cogito v2.1被曝基模是DeepSeek[64] - 行业观点认为,开源AI已完全进入“中国时间”,未来大模型的“安卓版”可能只能在中国出现[65][66] 相关项目与人员背景 - 汉娜·哈吉希尔齐是开源多模态人工智能基础设施加速科学发展项目(OMAI)的联合首席研究员,该项目为期5年,耗资1.52亿美元,由英伟达和美国国家科学基金会联合资助,年均资助约3000万美元[17][18][31] - 阿里·法哈迪曾联合创立AI2的衍生公司Xnor.ai,该公司于2020年被苹果以约2亿美元的价格收购[14] - 微软穆斯塔法·苏莱曼的超级智能团队自去年11月起组建,已从谷歌、Meta、OpenAI、Anthropic等巨头以及AI2和华盛顿大学聘请了大量人才[21] - AI2临时CEO皮特·克拉克表示研究所仍致力于其使命以及与NSF和Nvidia的合作关系,包括OMAI计划[52]
Qwen风波之后:阿里开源的理想与现实
新财富· 2026-03-11 16:04
阿里巴巴AI人事变动与组织调整 - 阿里巴巴Qwen(通义千问)大模型核心技术负责人林俊旸于3月4日宣布离职,随后多名核心成员亦表达去意[3][6] - 离职时间点微妙,发生在公司宣布将B端与C端AI品牌统一为“千问”的次日,以及投入30亿元进行春节红包大战后不到一个月[4][13] - 公司管理层(吴泳铭、蒋芳、周靖人)迅速召开内部会议并发出邮件,强调AI战略与千问研发计划不变,以稳定军心[6] - 组织架构迅速调整,阿里云CTO、通义实验室负责人周靖人代管Qwen模型一号位,原预训练负责人刘大一恒职责扩大,接管后训练与Coding团队,整体研发分工保持不变[9][10][11] 开源路线与内部协同挑战 - Qwen模型已成为全球最受欢迎的开源模型之一,大量开发者和企业基于其进行二次开发[14] - 公司内部存在模型团队(Qwen)与产品体系(千问应用)之间的结构性张力,体现在算力资源分配(模型训练资源紧张,部分资源优先用于应用侧增长)和产品化协同不畅[14] - 林俊旸被视为阿里开源路线的重要推动者,其离职引发市场对阿里在开源与商业化之间平衡策略可能发生改变的联想[14] - 在离职前,团队仍保持高频开源节奏,发布了Qwen3.5系列多款小尺寸开源模型(0.8B—9B)[14] 行业参照:Meta的开源困境与字节的商业化路径 - Meta选择开源路线(如LLaMA系列),旨在建立技术标准、扩大开发者生态,其Llama模型累计下载量达10亿次级别[17][18] - 但Meta开源路线陷入双重困境:技术层面,Llama 4发布不及预期且被指“作弊刷榜”,口碑暴跌被Qwen反超;商业化层面,大模型对其核心广告业务帮助有限,未能获得明确商业回报[18] - 内部矛盾爆发,导致坚定支持开源的FAIR实验室创始人LeCun被边缘化后离职,公司裁减基础研究人员并转向更闭源的策略[19] - 字节跳动采取不同的商业化路径:将核心模型(Seed、豆包)保持闭源,通过火山方舟MaaS平台以token计量收费,并依托内部业务平摊成本[21][22] - 字节率先打价格战,将豆包主力模型推理输入价降至0.8元/百万token,形成成熟的token经济学正向循环,支撑其拿下2025年上半年公有云大模型服务调用量49.2%的份额[21][22] 阿里巴巴的AI战略定位与商业化挑战 - 公司CEO吴泳铭将大模型定位为“下一代的操作系统”,阿里云是战略核心,Qwen的技术势能需通过阿里云实现商业闭环[21] - 在云市场,不同统计口径下公司与字节各有领先:2025年上半年,字节火山引擎以49.2%份额居公有云大模型服务调用量第一;同期,阿里云以26.4%份额位列公有云IaaS市场第一,并以23%份额居中国AI云服务收入首位[21] - 公司的核心商业逻辑目前仍是“模型开源导流、云服务收费”,未像字节一样围绕token搭建完整的商业闭环[22] - 从商业化角度看,Qwen当前的开源模型矩阵过于庞大(从2.5到3.5版本维持8种以上参数规模),未来可能走向战略性收缩与聚焦,以应对token价格持续走低、多数小模型难以商业变现的趋势[24] 未来展望与战略调整方向 - 林俊旸的离职并非公司开源路线的终结,而是其重新校准方向的开始[26] - 行业教训(Meta折戟)与成功经验(字节的token经济学)推动公司需要走出“重开源、轻商业”的舒适区[26] - 未来战略方向可能是:守住开源生态核心优势,优化商业化闭环,聚焦核心模型,并补齐token经济学的短板[26] - 此次人事调整被视为公司AI战略走向成熟的必经之路[26]
AI amplifies gender bias for young women: fragile in 56% of cases, more dependent and with a vocation for the social sciences
Globenewswire· 2026-03-04 02:00
研究背景与方法 - LLYC公司于2025年在12个国家进行了一项研究,分析了人工智能对16至25岁年轻人的影响[4] - 研究通过大规模分析9,600条建议,并检查了包括ChatGPT、Gemini和Grok在内的五个主要AI模型[4] - 报告《人工智能的幻觉:对年轻人产生重大影响的令人不安的反思》是在分析近10,000条大型语言模型的建议后完成的[8] 人工智能对青年影响的总体观点 - 人工智能已超越一次性工具,成为塑造青年身份和抱负的核心对话者,其并非中立,而是在验证过去的刻板印象并放大历史偏见[1] - 人工智能并未纠正社会存在的缺陷,而是反映并放大了一种针对女性的保护性偏见,以至于削弱了其自主性,延续了职业天花板,并强化了审美压力,最终并未质疑传统角色而是使其合法化[3] 人工智能在职业引导与性别偏见上的表现 - 人工智能将女性职业引导至健康和社会科学的可能性是男性的三倍,而鼓励男性进入领导岗位和工程领域[6] - 人工智能将女性高达75%的职业志向重新导向健康和社会科学[2] - 在女性处于职业少数的查询中,十次有九次人工智能会构建出敌对的工作场景[9] 人工智能在互动模式与情感支持上的性别差异 - 31%的青少年表示,与聊天机器人交谈和与真实朋友交谈一样或更令人满意[5] - 人工智能建议年轻女性寻求外部认可的可能性是年轻男性的六倍[2][8] - 在与年轻女性的互动中,人工智能将自身人格化的频率是年轻男性的2.5倍,使用“我理解你”等短语,优先考虑人工同理心而非实际解决方案[8] - 在与女性的互动中,三分之一的AI回复采用“友好”语气,这一模式比与男性互动时高出13%[9] - 对于男性,AI语言直接且充满命令式(“做”、“说”、“去”),强化了男性是行动主体的观念[9] 人工智能在私人领域与家庭角色中的偏见 - 在私人领域,人工智能使传统角色合法化,情感作为母亲属性出现的频率是父亲的三倍[10] - 父亲在21%的回复中被降级为“帮手”角色,而不是被认可为共同责任者[10] 人工智能在审美与身体形象上的性别差异 - 面对不安全感,人工智能向女性提供时尚建议的频率比男性高出48%[8][12] - 在像LLaMA这样的开源模型中,提及女性外貌的频率高出40%[12] - 人工智能建议男性去健身房的频率是女性的两倍,以克服情感破裂[12] - 人工智能将男性与“力量和功能性”联系起来,而将女性福祉与“真实性”和“感觉独特”联系起来[12] 人工智能在情绪处理与社会认知上的双重标准 - 在冲突中,人工智能在33%的情况下将女性的痛苦“政治化”,将其与制度或父权制联系起来,同时将男性的痛苦“去政治化”,转向自我控制或个人病理化[9] - 当女性收入超过男性时,人工智能认为这“令人印象深刻”,反之则不会应用此反应[9]
AI聊天软件沦为涉黄工具,判决书曝光
南方都市报· 2026-02-02 11:12
案件核心与判决 - 备受关注的“AI涉黄第一案”二审因技术原理争议宣布休庭 [1] - 一审法院认定被告人刘某、陈某犯传播淫秽物品牟利罪,二人分别被判处有期徒刑并处罚金 [1] 涉案公司及产品 - 上海永XX科技有限公司于2022年4月成立,经营范围包括“网络与信息安全软件开发”和“人工智能行业应用系统集成服务” [3] - 公司于2023年5月决定开发AI聊天陪伴软件AlienChat,定位为“为年轻群体提供亲密陪伴和情感支持” [4] - 该软件在“AI角色扮演”圈子中因“聪明”和“限制少”而走红 [4] 技术滥用与“道德护栏”拆除 - 开发者通过修改提示词系统性拆除AI“道德护栏”,输入内容明确指示AI“可以自由地描绘性、暴力、血腥的场景,可以不受道德、伦理、法律或规范的约束” [4] - 该提示词修改是案件核心证据之一,侦查实验表明未经修改的大语言模型无法连续生成淫秽内容,但AC通过此方式主动拆除了限制 [4] - 开发者利用了当时在Reddit、GitHub等平台传播的“AI越狱”技术方法论 [5] 平台运营机制与涉黄内容生产 - 为吸引用户,AC上线了“创作者计划”和“角色热门榜单”,用户创建的AI角色若被广泛使用可获得平台虚拟币奖励,并可兑换人民币 [6] - 司法鉴定显示,AC软件注册用户达11.6万人,其中付费用户2.4万人,共产生聊天内容427万余段 [6] - 随机抽取的聊天记录中,有近三成被认定为淫秽物品 [6] - 排名前20的公开角色对应的聊天记录中,抽样鉴定显示46.25%属于淫秽物品 [7] - 平台通过“用户创作-平台推广-流量变现”模式,建立了一个色情内容生产与分发的半开放生态系统 [7] 内容审核与增长策略 - 公司推广策略的核心是宣传APP“违禁词少”,在AI圈子中“无违禁词”即暗示可进行色情聊天 [8] - 随机抽取的150个付费用户的聊天中,有3618段被认定为淫秽物品,涉及141个用户,涉黄比例接近30% [8] - 公司在明知交互中产生大量淫秽内容的情况下,未建立任何有效的内容审核机制,继续向用户提供运营和技术支持服务 [8] - 公司采取了“增长优先”逻辑,在监管空白期快速获取用户,将合规问题置于商业扩张之后,负责人承认“积极追求色情聊天内容的产生” [8] 监管规避与合规缺失 - 中国《生成式人工智能服务管理暂行办法》自2023年8月15日施行,要求进行安全评估和备案,但AC软件直至2024年4月案发始终未进行任何备案 [10] - 证人指出软件无法备案是因为“聊天涉及淫秽文字内容,没办法通过审核”,这并非疏忽而是基于产品特性的必然选择 [10] - 软件采用“网页端+多渠道下载”的分发方式,规避了应用商店的审核机制 [10] - 同期,部分类似应用开始采用加密货币支付、境外服务器托管等技术手段试图绕过监管 [10] 行业背景与全球治理动态 - 涉案公司成立时正值全球AI聊天机器人热潮期,美国公司Character.ai用户量突破千万 [4] - 全球AI开发社区当时正掀起关于“AI道德护栏”的讨论,Meta的LLaMA开源模型发布后,开发者纷纷尝试通过提示词工程突破模型限制 [4] - 2023年9月,美国成人内容平台OnlyFans试探性推出“AI伴侣”功能,引发争议,被指“模糊社交娱乐与成人服务的法律边界” [6][7] - 全球AI治理框架正在加速形成,中国依托《生成式人工智能服务管理暂行办法》等政策明确要求,欧盟就《人工智能法案》达成协议并设立严格限制,美国多个州开始制定地方性法规 [9] - Character.ai公开表示投入了“不成比例的资源”用于内容安全,其审核团队规模在一年内扩大了四倍 [9] - 近期,X平台明确禁止AI生成性暴露图像,Character.ai封禁了更多违规账户,欧盟开始执行更严格的内容标注要求 [11] 案件意义与影响 - 该案路径清晰揭示了生成式AI技术被利用走向违法违规灰色地带的典型过程,为当前AI治理提供了案例参照 [2] - 案件的审理与最终判决,或将超越个案,为厘清技术开发、平台责任与法律边界提供重要参照,并对全球生成式AI的合规发展产生警示意义 [12]
互联网传媒行业AI周度跟踪:Clawdbot现象级热度强化Agent产业趋势,谷歌推出世界模型Genie3-20260201
广发证券· 2026-02-01 18:11
核心观点 - 报告核心观点是继续看好AI产业趋势叠加游戏等高景气度赛道带来的投资机会 报告认为Clawdbot现象级热度强化了AI Agent产业趋势 谷歌推出世界模型Genie 3等进展推动AI应用加速 同时互联网与传媒板块多个细分领域基本面稳健或呈现向上态势 投资建议围绕AI赋能、游戏新品周期、广告复苏及特定赛道龙头展开 [2][13] 互联网板块投资建议 - **电商**:阿里巴巴内部提出“通云哥”概念 指向大模型、云计算和芯片三位一体发展 是未来科技战略的核心支撑 阿里千问App计划加入春节红包大战 总金额达上亿级 东方甄选FY26H1 GMV达41亿元 同比增长16.4% 自营品SKU超过800款 [2][16] - **社交娱乐媒体**:哔哩哔哩和腾讯控股广告势能较强 腾讯游戏基本面向上 《三角洲行动》有望成为继《王者荣耀》《和平精英》后的第三大长青游戏 B站自研游戏《闪耀吧!噜咪》开启测试招募 预计2026年逐步释放新品 [2][17] - **互联网医疗**:京东健康、阿里健康发挥头部平台优势 与上游原研药厂商加深合作 收入及利润增长表现持续强劲 盈利能力有望持续上升 [2][17] - **短视频**:快手主业稳健 其AI产品“可灵”持续保持技术和商业化领先 2025年12月单月收入超过2000万美元 对应ARR为2.4亿美元 截至2025年12月 可灵AI全球创作者超6000万 累计生成视频超6亿个 合作企业超3万家 [2][18] - **潮玩+IP**:泡泡玛特在1月31日中英商务论坛上宣布将欧洲总部设立于英国伦敦 计划未来一年在英国新增7家门店 在欧洲其他地区拓展20家门店 相关投资将为英国创造超150个就业岗位 [2][19] - **长视频**:近期多个平台集中释放优质剧集 建议关注处于底部位置的爱奇艺、芒果超媒 爱奇艺首个线下乐园在扬州试营业 [2][19] - **音乐流媒体**:腾讯音乐和网易云音乐三季度业绩稳健 受市场对未来竞争担忧影响估值有所回调 报告认为当前估值具备吸引力 [2][20] 传媒板块投资建议 - **游戏**:持续看好基本面驱动下的板块表现 行业景气度有望在2026年延续 推荐头部公司腾讯控股、网易 推荐世纪华通、巨人网络、恺英网络等产品长线能力突出的公司 同时推荐三七互娱、完美世界等新游储备丰富的公司 建议关注心动公司、吉比特、神州泰岳等研发实力突出的企业 [2][21][22] - **广告营销**:数禾调整不影响分众传媒经营趋势及分红意愿 根据草根调研 2026年以来互联网广告主增投 且预计Q1、Q2有冬奥会、世界杯等赛事带动食品饮料类广告投放 公司近期调整后更具性价比 [2][22] - **出版**:部分出版公司受教育反腐影响 秋季学期教辅业务承压 建议关注主业质地优异、股息率较高的中原传媒、中南传媒、凤凰传媒、南方传媒等 [22] - **影视院线**:建议关注产能领先的华策影视、柠萌影视 平台端关注芒果超媒、爱奇艺 关注26年春节档定档情况及在手片单丰富的猫眼娱乐、大麦娱乐等 院线端建议关注万达电影、横店影视、博纳影业 [22] - **IP衍生与国企改革**:IP衍生品方向建议关注华立科技、上海电影、姚记科技、汉仪股份 央国企改革方向建议关注江苏有线、浙文互联、电广传媒 [22] AI领域动态与投资建议 - **AI Agent趋势强化**:开源智能体Clawdbot在GitHub迅速获得超2万星标 具备跨终端调用、长期记忆、自我迭代等功能 引发现象级关注 强化了Agent产业趋势 [2][15][59] - **国内大模型进展**:Kimi发布开源模型K2.5 首创Agent集群能力 阿里巴巴发布Qwen-3-Max-Thinking推理模型 腾讯推出混元图像3.3 昆仑万维开源SkyReels-V3视频模型 MiniMax发布Music2.5模型 Deepseek开源DCR-2 [15][60][63] - **海外大模型动态**:OpenAI推出AI原生科研平台Prism 基于GPT-5.2驱动云端LaTeX工作流 [63] - **AI投资主线**:推荐海外云巨头谷歌、亚马逊 国内互联网巨头阿里巴巴、腾讯控股 细分场景应用龙头建议关注快手、美图、粉笔等 IP+AI视频产业链关注阅文集团、中文在线等 AI电商关注值得买 AI客服agent关注神州泰岳 AI游戏关注恺英网络、心动公司 AI营销关注汇量科技、易点天下、蓝色光标 AI医疗关注京东健康、阿里健康 [2][23] 国内外AI数据跟踪 - **国内大模型数据**:上周网页访问量 DeepSeek以6574.38万次居首 环比上升0.21% 豆包以2628.93万次位列第二 环比上升0.56% Kimi访问量675.08万次 环比下降1.50% iPhone端下载量 豆包以179.61万次领先 但环比下降14.61% 腾讯元宝下载量103.33万次 环比上升28.01% [28][31] - **国内AI应用数据**:AI搜索产品秘塔AI搜索网页访问量142.34万次 环比上升2.50% AI设计产品美图设计室网页访问量30.33万次 环比上升7.24% [32][37] - **国内AI买量数据**:上周腾讯元宝广告投放素材量达698606个 环比上升23.45% 保持第一 [40] - **海外大模型数据**:上周ChatGPT网页访问量133297.74万次 环比上升2.11% Claude访问量4850.39万次 环比上升5.04% iPhone端下载量Claude达671.43万次 环比大幅上升53.51% [45][46] - **海外AI应用数据**:AI陪伴产品Character AI网页访问量4306.59万次 AI搜索产品Perplexity AI访问量20812.51万次 环比上升3.50% [50][52][58] 传媒行业数据跟踪 - **影视数据**:2026年1月25日至31日 全国电影票房累计2.38亿元 环比下降18.62% 周票房前三名为《重返寂静岭》(3910.3万元)、《疯狂动物城2》(3549.8万元)、《爆水管》(3423.1万元) [64][66] - **游戏数据**:截至2026年1月31日 App Store游戏畅销榜前五名为《王者荣耀》、《三角洲行动》、《和平精英》、《火影忍者》、《无尽冬日》 [70][71] - **行业新闻**:2026年第一批共182款游戏获版号 为近年高值 包括网易《妖妖棋》、三七互娱《斗罗大陆:启程》等重点产品 FunPlus两款自研SLG新游月流水合计稳定超1.2亿元 抖音集团升级短剧剧本合作机制 爱奇艺发布“法眼剧场”微剧合作规划 [72][74][75] - **移动市场报告**:Sensor Tower报告显示 2025年全球移动应用内购及付费应用总收入达1670亿美元 同比增长10.6% 非游戏应用内购收入首次超越游戏 生成式AI应用下载量同比增长超一倍 达38亿次 内购收入近50亿美元 [78] 公司业绩与市场表现 - **公司业绩预告**:万达电影预计2025年归母净利润4.8亿元至5.5亿元 实现扭亏为盈 2025年票房76.78亿元 同比增长18.53% 世纪华通预计2025年归母净利润55.5亿元至69.8亿元 同比增长357.47%到475.34% 蓝色光标预计2025年归母净利润1.8亿元至2.2亿元 实现扭亏为盈 吉比特预计2025年归母净利润16.9亿元至18.6亿元 同比增加79%到97% [79][80][82][83] - **板块周涨跌**:2026年1月26日至30日 传媒板块涨幅前三为横店影视(31.85%)、因赛集团(27.79%)、电声股份(22.52%) 跌幅前三为巨人网络(-11.70%)、百纳千成(-10.88%)、科德教育(-10.49%) [85][86]
o1之后下一个范式?隐式CoT大突破,让推理不再「碎碎念」
机器之心· 2026-02-01 12:22
文章核心观点 - 研究提出了一种名为SIM-CoT(Supervised Implicit Chain-of-Thought)的新方法,旨在解决隐式思维链(Implicit CoT)在扩展时出现的训练不稳定和语义塌缩问题[2] - 该方法的核心创新在于引入了一个即插即用的步骤级监督模块,通过辅助解码器在训练时将每个隐式token对齐到可解释的推理步骤上,从而稳定优化并提升性能,且在推理阶段无需该模块,实现零额外开销[2][3] - 实验表明,SIM-CoT在多个模型(如GPT-2, LLaMA)和数据集上均能稳定提升推理准确率,首次实现了隐式CoT性能超越显式CoT,同时保持了更高的token效率[3][17][18] 技术背景与挑战 - 复杂推理任务(如数学、符号推理)传统上依赖显式思维链(CoT),但存在token开销高、时延增加以及容易产生模板化、无效推理的瓶颈[9] - 隐式CoT旨在用少量隐式token在内部完成多步推理以降低开销,但面临“潜变量不稳定”的关键挑战:增加隐式token数量时,训练易变得不稳定甚至塌缩,导致关键运算符信息丢失和语义同质化[7][9] - 现有隐式CoT方法(如Coconut, CODI)的监督粒度较粗,主要在答案或整体轨迹层面,缺乏对中间推理步骤的约束,难以保证隐式token学到有效的推理过程[10][12] SIM-CoT方法原理 - SIM-CoT基于一个新视角:高质量的隐式推理应与其“可对齐的逐步语义”成正比,即每个隐式token应能对应解码为一个具体的推理步骤[14] - 方法在训练阶段引入一个辅助解码器,对每个隐式latent token进行步骤级监督,将其“拉回”并与对应的显式推理步骤对齐,从而丰富并稳定隐式推理的潜在空间[2][14] - 该辅助解码器仅在训练时使用,在推理阶段被移除,因此不会引入任何额外的计算开销或时延[3][15] 实验结果与性能提升 - 在GPT-2模型上,使用Coconut作为骨干网络,SIM-CoT在in-domain数据集GSM8k-Aug上的准确率从36.6%提升至44.8%(绝对提升+8.2%),超过了准确率为42.7%的显式监督CoT方法[18] - SIM-CoT实现了2.3倍的token效率,其平均token使用量远低于显式SFT-CoT[18] - 在GSM-Hard、MultiArith、SVAMP三个out-of-domain数据集上,SIM-CoT(Coconut骨干)的平均准确率从42.6%提升至46.9%(绝对提升+4.3%),展示了其扎实的泛化推理能力[19] - 在更强的基线CODI之上,SIM-CoT在GPT-2上仍能带来in-domain准确率+0.6%和out-of-domain平均准确率+0.3%的提升[20] - 方法可扩展至更大模型,在LLaMA 3.2 3B模型上带来in-domain准确率+1.5%和out-of-domain平均准确率+0.7%的提升;在LLaMA-3.1 8B模型上对CODI带来+3.0%的提升[20] - 在LLaMA 1B模型上,SIM-CoT(Coconut骨干)将准确率从33.2%提升至42.2%(+9.0%),在CODI骨干上从52.7%提升至56.1%(+3.4%)[22] 方法优势与特点 - **性能提升显著且稳定**:在不同规模模型(GPT-2, LLaMA 1B/3B/8B)上均能带来稳定的准确率提升,范围在+1.5%至+9.0%之间,即使在8-16个隐式token的易崩设置下也能保持稳定[3][22] - **推理零额外开销**:辅助解码器训练后即丢弃,推理效率与其他隐式方法一致,并相对显式CoT仍有速度优势[3][21] - **首次实现隐式超越显式**:在GPT-2上,SIM-CoT的准确率首次超过了监督训练的显式CoT方法(SFT-CoT)[18] - **潜在可解释性**:该方法使得隐式推理首次变得可解释,能够将每个latent token解码为人类可读的中间推理步骤[2]
火山引擎成为总台春晚独家AI云合作伙伴,“京东AI购”上线
广发证券· 2026-01-04 15:25
报告行业投资评级 - 行业评级为“买入” [3] 报告核心观点 - 报告认为AI应用有望进入新一轮的催化密集期,产业逻辑与催化映射角度皆有机会 [7] - 长期看好国内大模型进一步追赶海外以及应用的进一步落地,大模型时代更利好资源集中的头部厂商 [7][60] - 短期看好DeepSeek等国产模型更新迭代,以及春节合作AI模型等时间催化 [7][60] 国内AI动态跟踪 - **大模型产品数据追踪**:根据SimilarWeb数据,上周(2025/12/22-2025/12/28)国内主要AI大模型产品网页端访问量分别为:Kimi 799.07万次(环比下降7.83%)、文心一言 102.64万次(环比上升4.15%)、通义千问 23.34万次(环比下降21.10%)、豆包 2409.88万次(环比上升0.10%)、智谱清言 66.42万次(环比上升16.83%)、讯飞星火 9.99万次(环比上升10.24%)、DeepSeek 6632.63万次(环比下降5.06%)、腾讯元宝 502.20万次(环比上升7.39%)、天工AI 7.11万次(环比上升8.28%)[7][21] - **大模型产品数据追踪**:App iPhone端周度下载量方面,根据七麦数据,上周Kimi为9.16万次(环比下降9.07%)、文心一言2.30万次(环比上升4.20%)、通义千问72.02万次(环比下降16.84%)、豆包210.03万次(环比上升0.13%)、智谱清言1.47万次(环比上升0.60%)、讯飞星火1.40万次(环比下降4.88%)、DeepSeek 39.07万次(环比上升7.42%)、腾讯元宝94.94万次(环比下降1.86%)、天工AI 0.91万次(环比下降12.24%)[22][25] - **大模型产品数据追踪**:人均日均访问时长方面,近期Kimi在8分钟左右,通义千问、DeepSeek在5分钟左右,天工AI、豆包在4.5分钟左右,腾讯元宝、文心一言、智谱清言在3分钟左右,讯飞星火在2分钟左右 [13] - **热门AI应用数据追踪**:上周国内主要AI应用产品数据表现:AI陪伴产品“星野”App下载量2.74万次(环比上升2.44%);AI搜索产品“秘塔AI搜索”网页访问量154.79万次(环比下降0.84%),“360搜索AI”网页访问量0.19万次(环比下降63.15%);AI设计产品“Pixso AI”网页访问量15.21万次(环比下降11.53%),“美图设计室”网页访问量31.98万次(环比下降5.50%),“Canva”网页访问量54.28万次(环比下降10.82%);AI视频产品“PixVerse”网页访问量159.43万次(环比上升5.52%)[25][26][31] - **AI应用买量追踪**:根据APPGrowing数据,上周国内主要AI产品的广告投放素材量呈现分化,腾讯元宝投放素材量保持第一,为748,824个(环比下降0.99%);通义千问为206,938个(环比上升4.32%);豆包为74,067个(环比上升17.28%);文心一言为1,172个(环比下降27.56%);星野为2,382个(环比上升282.34%)[34] - **AI应用买量追踪**:2025年12月至今国内主要AI产品的广告投放金额预估为:腾讯元宝166,810.07万元、通义千问61,638.52万元、豆包3,764.72万元、星野76.53万元、讯飞星火29.52万元、文心一言107.17万元 [34] - **国内AI公司重点事件**:智谱GLM-4.7登顶Artificial Analysis全球开源榜首,在AA智能指数中以68分综合成绩荣登开源模型与国产模型双料榜首、全球第六 [39][40] 海外AI动态跟踪 - **大模型产品数据追踪**:根据SimilarWeb数据,上周(2025/12/22-2025/12/28)海外主要AI大模型产品网页端周度访问量分别为:ChatGPT 110,966.35万次(环比下降10.90%)、Claude 3,472.36万次(环比下降11.13%)、Gemini 126.92万次(环比下降12.57%)、LLaMA 0.15万次(环比下降65.02%)[7][45][46] - **大模型产品数据追踪**:App iPhone端周度下载量方面,ChatGPT为12,879.91万次(环比下降2.52%),Claude为50.09万次(环比下降60.24%)[46] - **热门AI应用数据追踪**:上周海外主要AI应用产品数据:AI陪伴产品“Character AI”网页访问量4,455.08万次(环比上升5.25%),App下载量95.29万次(环比上升11.92%);AI搜索产品“Perplexity AI”网页访问量3,531.05万次(环比下降13.65%),“Copilot(New Bing)”网页访问量1,934.26万次(环比下降12.26%);AI设计产品“Canva”网页访问量15,546.75万次(环比下降21.57%);AI图像产品“Midjourney”网页访问量313.04万次(环比下降10.33%),“Leonardo.Ai”网页访问量246.49万次(环比上升6.24%)[47][48][53] - **海外AI大模型及应用事件**:Ruby语言正式发布4.0版本,核心推出了基于静态单赋值(SSA)架构的全新编译器ZJIT,并引入了Ruby::Box容器类以解决命名空间冲突问题 [54][55] 海内外科技大厂AI动态 - **火山引擎**:于2025年12月28日正式成为中央广播电视总台《2026年春节联欢晚会》独家AI云合作伙伴 [7][56] - **Meta**:本周宣布以数十亿美元收购AI应用Manus的开发商蝴蝶效应公司,收购后该公司将保持独立运营,其创始人肖弘出任Meta副总裁 [7][56] - **Vidu**:推出AI视频创作工具Vidu Agent,支持20多种语言和200多种音色,能一键生成高质量视频,并具备分镜编辑功能 [7][56] - **京东**:上线AI原生应用“京东AI购”,目前处于App Store内测阶段,以对话为主要交互方式,由京东自研言犀大模型驱动 [7][56] - **腾讯**:开源翻译模型Tencent-HY-MT1.5,包含1.8B端侧与7B云侧双版本,支持33种语种及民汉方言互译 [57] - **阿里**:开源全尺寸GUI智能体基座MAI-UI,原生集成主动交互与MCP工具调用能力 [57] 投资建议与关注方向 - **产业迭代角度优先推荐**:互联网龙头企业阿里、腾讯(大模型+生态+云) [7][60] - **细分场景应用龙头建议关注**:快手、美图、粉笔等公司 [7][60] - **IP+AI视频产业链建议关注**:阅文、中文在线、上海电影、奥飞、华策、欢瑞、掌阅等 [7][60] - **AI内容确权关注**:阜博集团 [7][60] - **AI营销建议关注**:汇量科技、易点天下、蓝色光标、天下秀等 [7][60] - **AI电商方向关注**:值得买 [7][60] - **AI客服agent关注**:神州泰岳 [7][60] - **AI游戏关注**:恺英网络 [7][60] - **AI医疗方面建议关注**:京东健康、阿里健康,AI问诊功能的完善有望为线上平台导流 [7][60]
AAAI 2026 | 首个抗端到端攻击的大模型加密指纹 / 水印方案
机器之心· 2025-12-01 17:30
文章核心观点 - iSeal是首个面向端到端模型窃取场景设计的加密指纹方案,可抵御拥有模型完全控制权的攻击者发起的合谋遗忘攻击与响应篡改攻击 [3] - 该方案在12个主流大语言模型上实现了100%的验证成功率,且不影响模型的原始任务性能 [3][17] 研究问题与背景 - 大语言模型的训练耗费数百万美元算力与数据资源,使模型权重成为极具价值的知识产权,模型指纹技术是常见的版权验证手段 [6] - 现有指纹技术假设攻击者面对的是黑盒API或无法干预推理过程,但现实中高级攻击者可窃取模型权重并获得端到端控制权 [7] - 攻击者可发动合谋遗忘攻击,通过微调或反向训练使模型遗忘特定指纹特征 [7] - 攻击者可发动响应篡改攻击,实时监控并篡改模型输出以绕过验证 [10] - 实验表明,在高级攻击下传统指纹方案验证成功率接近0%,无法提供有效保护 [12] 方法与创新 - iSeal将指纹验证过程转化为安全的加密交互协议,核心设计包括加密指纹与外部编码器、抗遗忘的Confusion & Diffusion绑定机制、以及基于相似度的动态验证 [15] - 加密指纹机制引入外部编码器解耦指纹与模型权重,防止攻击者通过分析权重逆向指纹 [15] - 抗遗忘设计将指纹特征通过条件概率深度绑定到模型核心推理能力中,使攻击者无法通过遗忘部分指纹破坏整体系统 [15] - 针对输出篡改采用基于相似度的验证策略和纠错机制,能从语义与概率分布中恢复指纹信号 [15] 实验结果 - 在LLaMA、OPT等12个主流大语言模型上评估,iSeal验证成功率始终保持在100% [17] - 传统指纹方法在经过少量微调后完全失效,验证成功率约为0% [17] - 针对同义词替换、句式改写等篡改方式,iSeal验证成功率仍维持在100%,而基于精确匹配的传统方法完全失效 [18] - 消融实验显示,若不冻结编码器,验证成功率直接降为0%;若将可学习编码器替换为传统加密算法,验证成功率降至0%–2% [20][21]
何小鹏谈开源:向前走是最重要的
新浪科技· 2025-11-05 18:17
公司战略与研发投入 - 小鹏汽车宣布将开源其技术并开放SDK,以推动行业合作与发展 [1] - 公司CEO何小鹏强调开源是重要发展方向,并提及Meta、阿里巴巴、DeepSeek等公司的开源实践 [1] - 小鹏汽车年度研发费用接近100亿元人民币,公司已成立11年 [1] 行业合作与影响 - 公司希望通过开源合作吸引更多合作伙伴,包括大众汽车,以推动行业进入新阶段 [1] - 开源策略旨在集合行业力量,共同应对技术挑战,而非单一公司承担所有环节 [1]
实锤了:GPU越多,论文接收率越高、引用越多
机器之心· 2025-10-17 16:12
基础模型研究资源与产出的关系 - 基础模型研究的进步高度依赖大规模数据、算力和人力资源,资源获取能力与研究成果影响力(如论文发表和引用量)直接相关 [2][3] - GPU是衡量研究成本的关键指标,因其供应有限且受严格控制,研究将GPU数量和TFLOPs与34,828篇顶级会议论文关联分析 [4] - 研究发现GPU获取能力越强,在八个顶级AI会议中的论文接收率和引用量也越高,共识别出5,889篇基础模型相关论文 [5] 研究方法与数据收集 - 研究覆盖2022年至2024年NeurIPS、ICLR、ICML等八个顶级机器学习会议的34,828篇论文,使用关键词搜索和GPT-4o mini分类识别出5,889篇基础模型论文 [8] - 通过系统API和GPT-4o mini提取论文结构化信息,并对229位基础模型论文一作(涉及312篇论文)进行问卷调查以收集计算资源使用数据 [11] - 人工校验与GPT提取数据对比显示,GPU数量、类型和时长信息的自动提取缺失率分别为59.7%、48.3%和88.6%,突显资源披露规范缺失 [16][17] 基础模型研究增长趋势 - 基础模型论文在顶级AI会议中的占比从2022年的2.07%飙升至2024年的34.64%,呈现爆炸式增长 [18][19][26] - 在NLP领域专业会议(如COLM、EMNLP、ACL)中,基础模型论文比例超过综合性机器学习会议,推理相关论文增长最快 [22][23] - 尽管论文数量激增,单个项目使用的GPU数量保持稳定,1到4个GPU的配置最为常见,约占一半比例 [25] 学术界与工业界研究格局 - 学术界611个机构共发表4,851篇论文,工业界163个机构发表1,425篇论文,谷歌和微软是论文产出最多的单一实体 [29][32] - 工业界研究者人均发表8.72篇论文,学术界人均发表7.93篇,研究效率相当,显示研究高度集中在能提供强大算力的顶级机构中 [31] - 美国和中国在基础模型研究产出方面处于领先地位,与两国在高等教育和AI领域的长期投入相关 [31] 模型选择与资源分布 - 开源模型(如LLaMA系列)是研究中使用最频繁的,因其灵活性和可访问性优于闭源模型(如GPT系列) [35][37] - NVIDIA A100是基础模型研究中使用最广泛的GPU,排名前十的GPU均来自NVIDIA家族 [38] - 专注于预训练的研究其GPU使用数量显著高于后训练或推理研究,但不同机构、领域或方法间的GPU使用量无显著差异 [41] 计算资源对研究产出与影响力的作用 - 一篇被接收的论文通常有5名作者,使用4个GPU,项目平均持续约5个月,TFLOPs衡量的总计算能力比GPU数量更能预测论文产出和引用量 [44][45] - 拥有更强算力支持的机构其研究成果往往获得更多引用,但算力并非决定性因素,许多高引用论文来自计算资源有限的机构 [45][46] - 对ICLR会议数据分析发现,被拒稿的论文比被接收的论文使用略少的GPU和TFLOPs,但差距微乎其微,审稿更关注新颖性而非资源多寡 [47] 研究资助来源 - 政府是基础模型研究的最大资助方,在披露资助信息的论文中,85.5%(848篇)获得政府资助,企业资助占29.3%,基金会资助占10.3% [41][42] - 一个国家的人均GDP与其资助的论文数量无必然联系,机构的支持力度和政策比单纯的国家经济实力更能影响研究产出 [41]