Workflow
LLaMA
icon
搜索文档
AI聊天软件沦为涉黄工具,判决书曝光
南方都市报· 2026-02-02 11:12
案件核心与判决 - 备受关注的“AI涉黄第一案”二审因技术原理争议宣布休庭 [1] - 一审法院认定被告人刘某、陈某犯传播淫秽物品牟利罪,二人分别被判处有期徒刑并处罚金 [1] 涉案公司及产品 - 上海永XX科技有限公司于2022年4月成立,经营范围包括“网络与信息安全软件开发”和“人工智能行业应用系统集成服务” [3] - 公司于2023年5月决定开发AI聊天陪伴软件AlienChat,定位为“为年轻群体提供亲密陪伴和情感支持” [4] - 该软件在“AI角色扮演”圈子中因“聪明”和“限制少”而走红 [4] 技术滥用与“道德护栏”拆除 - 开发者通过修改提示词系统性拆除AI“道德护栏”,输入内容明确指示AI“可以自由地描绘性、暴力、血腥的场景,可以不受道德、伦理、法律或规范的约束” [4] - 该提示词修改是案件核心证据之一,侦查实验表明未经修改的大语言模型无法连续生成淫秽内容,但AC通过此方式主动拆除了限制 [4] - 开发者利用了当时在Reddit、GitHub等平台传播的“AI越狱”技术方法论 [5] 平台运营机制与涉黄内容生产 - 为吸引用户,AC上线了“创作者计划”和“角色热门榜单”,用户创建的AI角色若被广泛使用可获得平台虚拟币奖励,并可兑换人民币 [6] - 司法鉴定显示,AC软件注册用户达11.6万人,其中付费用户2.4万人,共产生聊天内容427万余段 [6] - 随机抽取的聊天记录中,有近三成被认定为淫秽物品 [6] - 排名前20的公开角色对应的聊天记录中,抽样鉴定显示46.25%属于淫秽物品 [7] - 平台通过“用户创作-平台推广-流量变现”模式,建立了一个色情内容生产与分发的半开放生态系统 [7] 内容审核与增长策略 - 公司推广策略的核心是宣传APP“违禁词少”,在AI圈子中“无违禁词”即暗示可进行色情聊天 [8] - 随机抽取的150个付费用户的聊天中,有3618段被认定为淫秽物品,涉及141个用户,涉黄比例接近30% [8] - 公司在明知交互中产生大量淫秽内容的情况下,未建立任何有效的内容审核机制,继续向用户提供运营和技术支持服务 [8] - 公司采取了“增长优先”逻辑,在监管空白期快速获取用户,将合规问题置于商业扩张之后,负责人承认“积极追求色情聊天内容的产生” [8] 监管规避与合规缺失 - 中国《生成式人工智能服务管理暂行办法》自2023年8月15日施行,要求进行安全评估和备案,但AC软件直至2024年4月案发始终未进行任何备案 [10] - 证人指出软件无法备案是因为“聊天涉及淫秽文字内容,没办法通过审核”,这并非疏忽而是基于产品特性的必然选择 [10] - 软件采用“网页端+多渠道下载”的分发方式,规避了应用商店的审核机制 [10] - 同期,部分类似应用开始采用加密货币支付、境外服务器托管等技术手段试图绕过监管 [10] 行业背景与全球治理动态 - 涉案公司成立时正值全球AI聊天机器人热潮期,美国公司Character.ai用户量突破千万 [4] - 全球AI开发社区当时正掀起关于“AI道德护栏”的讨论,Meta的LLaMA开源模型发布后,开发者纷纷尝试通过提示词工程突破模型限制 [4] - 2023年9月,美国成人内容平台OnlyFans试探性推出“AI伴侣”功能,引发争议,被指“模糊社交娱乐与成人服务的法律边界” [6][7] - 全球AI治理框架正在加速形成,中国依托《生成式人工智能服务管理暂行办法》等政策明确要求,欧盟就《人工智能法案》达成协议并设立严格限制,美国多个州开始制定地方性法规 [9] - Character.ai公开表示投入了“不成比例的资源”用于内容安全,其审核团队规模在一年内扩大了四倍 [9] - 近期,X平台明确禁止AI生成性暴露图像,Character.ai封禁了更多违规账户,欧盟开始执行更严格的内容标注要求 [11] 案件意义与影响 - 该案路径清晰揭示了生成式AI技术被利用走向违法违规灰色地带的典型过程,为当前AI治理提供了案例参照 [2] - 案件的审理与最终判决,或将超越个案,为厘清技术开发、平台责任与法律边界提供重要参照,并对全球生成式AI的合规发展产生警示意义 [12]
互联网传媒行业AI周度跟踪:Clawdbot现象级热度强化Agent产业趋势,谷歌推出世界模型Genie3-20260201
广发证券· 2026-02-01 18:11
核心观点 - 报告核心观点是继续看好AI产业趋势叠加游戏等高景气度赛道带来的投资机会 报告认为Clawdbot现象级热度强化了AI Agent产业趋势 谷歌推出世界模型Genie 3等进展推动AI应用加速 同时互联网与传媒板块多个细分领域基本面稳健或呈现向上态势 投资建议围绕AI赋能、游戏新品周期、广告复苏及特定赛道龙头展开 [2][13] 互联网板块投资建议 - **电商**:阿里巴巴内部提出“通云哥”概念 指向大模型、云计算和芯片三位一体发展 是未来科技战略的核心支撑 阿里千问App计划加入春节红包大战 总金额达上亿级 东方甄选FY26H1 GMV达41亿元 同比增长16.4% 自营品SKU超过800款 [2][16] - **社交娱乐媒体**:哔哩哔哩和腾讯控股广告势能较强 腾讯游戏基本面向上 《三角洲行动》有望成为继《王者荣耀》《和平精英》后的第三大长青游戏 B站自研游戏《闪耀吧!噜咪》开启测试招募 预计2026年逐步释放新品 [2][17] - **互联网医疗**:京东健康、阿里健康发挥头部平台优势 与上游原研药厂商加深合作 收入及利润增长表现持续强劲 盈利能力有望持续上升 [2][17] - **短视频**:快手主业稳健 其AI产品“可灵”持续保持技术和商业化领先 2025年12月单月收入超过2000万美元 对应ARR为2.4亿美元 截至2025年12月 可灵AI全球创作者超6000万 累计生成视频超6亿个 合作企业超3万家 [2][18] - **潮玩+IP**:泡泡玛特在1月31日中英商务论坛上宣布将欧洲总部设立于英国伦敦 计划未来一年在英国新增7家门店 在欧洲其他地区拓展20家门店 相关投资将为英国创造超150个就业岗位 [2][19] - **长视频**:近期多个平台集中释放优质剧集 建议关注处于底部位置的爱奇艺、芒果超媒 爱奇艺首个线下乐园在扬州试营业 [2][19] - **音乐流媒体**:腾讯音乐和网易云音乐三季度业绩稳健 受市场对未来竞争担忧影响估值有所回调 报告认为当前估值具备吸引力 [2][20] 传媒板块投资建议 - **游戏**:持续看好基本面驱动下的板块表现 行业景气度有望在2026年延续 推荐头部公司腾讯控股、网易 推荐世纪华通、巨人网络、恺英网络等产品长线能力突出的公司 同时推荐三七互娱、完美世界等新游储备丰富的公司 建议关注心动公司、吉比特、神州泰岳等研发实力突出的企业 [2][21][22] - **广告营销**:数禾调整不影响分众传媒经营趋势及分红意愿 根据草根调研 2026年以来互联网广告主增投 且预计Q1、Q2有冬奥会、世界杯等赛事带动食品饮料类广告投放 公司近期调整后更具性价比 [2][22] - **出版**:部分出版公司受教育反腐影响 秋季学期教辅业务承压 建议关注主业质地优异、股息率较高的中原传媒、中南传媒、凤凰传媒、南方传媒等 [22] - **影视院线**:建议关注产能领先的华策影视、柠萌影视 平台端关注芒果超媒、爱奇艺 关注26年春节档定档情况及在手片单丰富的猫眼娱乐、大麦娱乐等 院线端建议关注万达电影、横店影视、博纳影业 [22] - **IP衍生与国企改革**:IP衍生品方向建议关注华立科技、上海电影、姚记科技、汉仪股份 央国企改革方向建议关注江苏有线、浙文互联、电广传媒 [22] AI领域动态与投资建议 - **AI Agent趋势强化**:开源智能体Clawdbot在GitHub迅速获得超2万星标 具备跨终端调用、长期记忆、自我迭代等功能 引发现象级关注 强化了Agent产业趋势 [2][15][59] - **国内大模型进展**:Kimi发布开源模型K2.5 首创Agent集群能力 阿里巴巴发布Qwen-3-Max-Thinking推理模型 腾讯推出混元图像3.3 昆仑万维开源SkyReels-V3视频模型 MiniMax发布Music2.5模型 Deepseek开源DCR-2 [15][60][63] - **海外大模型动态**:OpenAI推出AI原生科研平台Prism 基于GPT-5.2驱动云端LaTeX工作流 [63] - **AI投资主线**:推荐海外云巨头谷歌、亚马逊 国内互联网巨头阿里巴巴、腾讯控股 细分场景应用龙头建议关注快手、美图、粉笔等 IP+AI视频产业链关注阅文集团、中文在线等 AI电商关注值得买 AI客服agent关注神州泰岳 AI游戏关注恺英网络、心动公司 AI营销关注汇量科技、易点天下、蓝色光标 AI医疗关注京东健康、阿里健康 [2][23] 国内外AI数据跟踪 - **国内大模型数据**:上周网页访问量 DeepSeek以6574.38万次居首 环比上升0.21% 豆包以2628.93万次位列第二 环比上升0.56% Kimi访问量675.08万次 环比下降1.50% iPhone端下载量 豆包以179.61万次领先 但环比下降14.61% 腾讯元宝下载量103.33万次 环比上升28.01% [28][31] - **国内AI应用数据**:AI搜索产品秘塔AI搜索网页访问量142.34万次 环比上升2.50% AI设计产品美图设计室网页访问量30.33万次 环比上升7.24% [32][37] - **国内AI买量数据**:上周腾讯元宝广告投放素材量达698606个 环比上升23.45% 保持第一 [40] - **海外大模型数据**:上周ChatGPT网页访问量133297.74万次 环比上升2.11% Claude访问量4850.39万次 环比上升5.04% iPhone端下载量Claude达671.43万次 环比大幅上升53.51% [45][46] - **海外AI应用数据**:AI陪伴产品Character AI网页访问量4306.59万次 AI搜索产品Perplexity AI访问量20812.51万次 环比上升3.50% [50][52][58] 传媒行业数据跟踪 - **影视数据**:2026年1月25日至31日 全国电影票房累计2.38亿元 环比下降18.62% 周票房前三名为《重返寂静岭》(3910.3万元)、《疯狂动物城2》(3549.8万元)、《爆水管》(3423.1万元) [64][66] - **游戏数据**:截至2026年1月31日 App Store游戏畅销榜前五名为《王者荣耀》、《三角洲行动》、《和平精英》、《火影忍者》、《无尽冬日》 [70][71] - **行业新闻**:2026年第一批共182款游戏获版号 为近年高值 包括网易《妖妖棋》、三七互娱《斗罗大陆:启程》等重点产品 FunPlus两款自研SLG新游月流水合计稳定超1.2亿元 抖音集团升级短剧剧本合作机制 爱奇艺发布“法眼剧场”微剧合作规划 [72][74][75] - **移动市场报告**:Sensor Tower报告显示 2025年全球移动应用内购及付费应用总收入达1670亿美元 同比增长10.6% 非游戏应用内购收入首次超越游戏 生成式AI应用下载量同比增长超一倍 达38亿次 内购收入近50亿美元 [78] 公司业绩与市场表现 - **公司业绩预告**:万达电影预计2025年归母净利润4.8亿元至5.5亿元 实现扭亏为盈 2025年票房76.78亿元 同比增长18.53% 世纪华通预计2025年归母净利润55.5亿元至69.8亿元 同比增长357.47%到475.34% 蓝色光标预计2025年归母净利润1.8亿元至2.2亿元 实现扭亏为盈 吉比特预计2025年归母净利润16.9亿元至18.6亿元 同比增加79%到97% [79][80][82][83] - **板块周涨跌**:2026年1月26日至30日 传媒板块涨幅前三为横店影视(31.85%)、因赛集团(27.79%)、电声股份(22.52%) 跌幅前三为巨人网络(-11.70%)、百纳千成(-10.88%)、科德教育(-10.49%) [85][86]
o1之后下一个范式?隐式CoT大突破,让推理不再「碎碎念」
机器之心· 2026-02-01 12:22
文章核心观点 - 研究提出了一种名为SIM-CoT(Supervised Implicit Chain-of-Thought)的新方法,旨在解决隐式思维链(Implicit CoT)在扩展时出现的训练不稳定和语义塌缩问题[2] - 该方法的核心创新在于引入了一个即插即用的步骤级监督模块,通过辅助解码器在训练时将每个隐式token对齐到可解释的推理步骤上,从而稳定优化并提升性能,且在推理阶段无需该模块,实现零额外开销[2][3] - 实验表明,SIM-CoT在多个模型(如GPT-2, LLaMA)和数据集上均能稳定提升推理准确率,首次实现了隐式CoT性能超越显式CoT,同时保持了更高的token效率[3][17][18] 技术背景与挑战 - 复杂推理任务(如数学、符号推理)传统上依赖显式思维链(CoT),但存在token开销高、时延增加以及容易产生模板化、无效推理的瓶颈[9] - 隐式CoT旨在用少量隐式token在内部完成多步推理以降低开销,但面临“潜变量不稳定”的关键挑战:增加隐式token数量时,训练易变得不稳定甚至塌缩,导致关键运算符信息丢失和语义同质化[7][9] - 现有隐式CoT方法(如Coconut, CODI)的监督粒度较粗,主要在答案或整体轨迹层面,缺乏对中间推理步骤的约束,难以保证隐式token学到有效的推理过程[10][12] SIM-CoT方法原理 - SIM-CoT基于一个新视角:高质量的隐式推理应与其“可对齐的逐步语义”成正比,即每个隐式token应能对应解码为一个具体的推理步骤[14] - 方法在训练阶段引入一个辅助解码器,对每个隐式latent token进行步骤级监督,将其“拉回”并与对应的显式推理步骤对齐,从而丰富并稳定隐式推理的潜在空间[2][14] - 该辅助解码器仅在训练时使用,在推理阶段被移除,因此不会引入任何额外的计算开销或时延[3][15] 实验结果与性能提升 - 在GPT-2模型上,使用Coconut作为骨干网络,SIM-CoT在in-domain数据集GSM8k-Aug上的准确率从36.6%提升至44.8%(绝对提升+8.2%),超过了准确率为42.7%的显式监督CoT方法[18] - SIM-CoT实现了2.3倍的token效率,其平均token使用量远低于显式SFT-CoT[18] - 在GSM-Hard、MultiArith、SVAMP三个out-of-domain数据集上,SIM-CoT(Coconut骨干)的平均准确率从42.6%提升至46.9%(绝对提升+4.3%),展示了其扎实的泛化推理能力[19] - 在更强的基线CODI之上,SIM-CoT在GPT-2上仍能带来in-domain准确率+0.6%和out-of-domain平均准确率+0.3%的提升[20] - 方法可扩展至更大模型,在LLaMA 3.2 3B模型上带来in-domain准确率+1.5%和out-of-domain平均准确率+0.7%的提升;在LLaMA-3.1 8B模型上对CODI带来+3.0%的提升[20] - 在LLaMA 1B模型上,SIM-CoT(Coconut骨干)将准确率从33.2%提升至42.2%(+9.0%),在CODI骨干上从52.7%提升至56.1%(+3.4%)[22] 方法优势与特点 - **性能提升显著且稳定**:在不同规模模型(GPT-2, LLaMA 1B/3B/8B)上均能带来稳定的准确率提升,范围在+1.5%至+9.0%之间,即使在8-16个隐式token的易崩设置下也能保持稳定[3][22] - **推理零额外开销**:辅助解码器训练后即丢弃,推理效率与其他隐式方法一致,并相对显式CoT仍有速度优势[3][21] - **首次实现隐式超越显式**:在GPT-2上,SIM-CoT的准确率首次超过了监督训练的显式CoT方法(SFT-CoT)[18] - **潜在可解释性**:该方法使得隐式推理首次变得可解释,能够将每个latent token解码为人类可读的中间推理步骤[2]
火山引擎成为总台春晚独家AI云合作伙伴,“京东AI购”上线
广发证券· 2026-01-04 15:25
报告行业投资评级 - 行业评级为“买入” [3] 报告核心观点 - 报告认为AI应用有望进入新一轮的催化密集期,产业逻辑与催化映射角度皆有机会 [7] - 长期看好国内大模型进一步追赶海外以及应用的进一步落地,大模型时代更利好资源集中的头部厂商 [7][60] - 短期看好DeepSeek等国产模型更新迭代,以及春节合作AI模型等时间催化 [7][60] 国内AI动态跟踪 - **大模型产品数据追踪**:根据SimilarWeb数据,上周(2025/12/22-2025/12/28)国内主要AI大模型产品网页端访问量分别为:Kimi 799.07万次(环比下降7.83%)、文心一言 102.64万次(环比上升4.15%)、通义千问 23.34万次(环比下降21.10%)、豆包 2409.88万次(环比上升0.10%)、智谱清言 66.42万次(环比上升16.83%)、讯飞星火 9.99万次(环比上升10.24%)、DeepSeek 6632.63万次(环比下降5.06%)、腾讯元宝 502.20万次(环比上升7.39%)、天工AI 7.11万次(环比上升8.28%)[7][21] - **大模型产品数据追踪**:App iPhone端周度下载量方面,根据七麦数据,上周Kimi为9.16万次(环比下降9.07%)、文心一言2.30万次(环比上升4.20%)、通义千问72.02万次(环比下降16.84%)、豆包210.03万次(环比上升0.13%)、智谱清言1.47万次(环比上升0.60%)、讯飞星火1.40万次(环比下降4.88%)、DeepSeek 39.07万次(环比上升7.42%)、腾讯元宝94.94万次(环比下降1.86%)、天工AI 0.91万次(环比下降12.24%)[22][25] - **大模型产品数据追踪**:人均日均访问时长方面,近期Kimi在8分钟左右,通义千问、DeepSeek在5分钟左右,天工AI、豆包在4.5分钟左右,腾讯元宝、文心一言、智谱清言在3分钟左右,讯飞星火在2分钟左右 [13] - **热门AI应用数据追踪**:上周国内主要AI应用产品数据表现:AI陪伴产品“星野”App下载量2.74万次(环比上升2.44%);AI搜索产品“秘塔AI搜索”网页访问量154.79万次(环比下降0.84%),“360搜索AI”网页访问量0.19万次(环比下降63.15%);AI设计产品“Pixso AI”网页访问量15.21万次(环比下降11.53%),“美图设计室”网页访问量31.98万次(环比下降5.50%),“Canva”网页访问量54.28万次(环比下降10.82%);AI视频产品“PixVerse”网页访问量159.43万次(环比上升5.52%)[25][26][31] - **AI应用买量追踪**:根据APPGrowing数据,上周国内主要AI产品的广告投放素材量呈现分化,腾讯元宝投放素材量保持第一,为748,824个(环比下降0.99%);通义千问为206,938个(环比上升4.32%);豆包为74,067个(环比上升17.28%);文心一言为1,172个(环比下降27.56%);星野为2,382个(环比上升282.34%)[34] - **AI应用买量追踪**:2025年12月至今国内主要AI产品的广告投放金额预估为:腾讯元宝166,810.07万元、通义千问61,638.52万元、豆包3,764.72万元、星野76.53万元、讯飞星火29.52万元、文心一言107.17万元 [34] - **国内AI公司重点事件**:智谱GLM-4.7登顶Artificial Analysis全球开源榜首,在AA智能指数中以68分综合成绩荣登开源模型与国产模型双料榜首、全球第六 [39][40] 海外AI动态跟踪 - **大模型产品数据追踪**:根据SimilarWeb数据,上周(2025/12/22-2025/12/28)海外主要AI大模型产品网页端周度访问量分别为:ChatGPT 110,966.35万次(环比下降10.90%)、Claude 3,472.36万次(环比下降11.13%)、Gemini 126.92万次(环比下降12.57%)、LLaMA 0.15万次(环比下降65.02%)[7][45][46] - **大模型产品数据追踪**:App iPhone端周度下载量方面,ChatGPT为12,879.91万次(环比下降2.52%),Claude为50.09万次(环比下降60.24%)[46] - **热门AI应用数据追踪**:上周海外主要AI应用产品数据:AI陪伴产品“Character AI”网页访问量4,455.08万次(环比上升5.25%),App下载量95.29万次(环比上升11.92%);AI搜索产品“Perplexity AI”网页访问量3,531.05万次(环比下降13.65%),“Copilot(New Bing)”网页访问量1,934.26万次(环比下降12.26%);AI设计产品“Canva”网页访问量15,546.75万次(环比下降21.57%);AI图像产品“Midjourney”网页访问量313.04万次(环比下降10.33%),“Leonardo.Ai”网页访问量246.49万次(环比上升6.24%)[47][48][53] - **海外AI大模型及应用事件**:Ruby语言正式发布4.0版本,核心推出了基于静态单赋值(SSA)架构的全新编译器ZJIT,并引入了Ruby::Box容器类以解决命名空间冲突问题 [54][55] 海内外科技大厂AI动态 - **火山引擎**:于2025年12月28日正式成为中央广播电视总台《2026年春节联欢晚会》独家AI云合作伙伴 [7][56] - **Meta**:本周宣布以数十亿美元收购AI应用Manus的开发商蝴蝶效应公司,收购后该公司将保持独立运营,其创始人肖弘出任Meta副总裁 [7][56] - **Vidu**:推出AI视频创作工具Vidu Agent,支持20多种语言和200多种音色,能一键生成高质量视频,并具备分镜编辑功能 [7][56] - **京东**:上线AI原生应用“京东AI购”,目前处于App Store内测阶段,以对话为主要交互方式,由京东自研言犀大模型驱动 [7][56] - **腾讯**:开源翻译模型Tencent-HY-MT1.5,包含1.8B端侧与7B云侧双版本,支持33种语种及民汉方言互译 [57] - **阿里**:开源全尺寸GUI智能体基座MAI-UI,原生集成主动交互与MCP工具调用能力 [57] 投资建议与关注方向 - **产业迭代角度优先推荐**:互联网龙头企业阿里、腾讯(大模型+生态+云) [7][60] - **细分场景应用龙头建议关注**:快手、美图、粉笔等公司 [7][60] - **IP+AI视频产业链建议关注**:阅文、中文在线、上海电影、奥飞、华策、欢瑞、掌阅等 [7][60] - **AI内容确权关注**:阜博集团 [7][60] - **AI营销建议关注**:汇量科技、易点天下、蓝色光标、天下秀等 [7][60] - **AI电商方向关注**:值得买 [7][60] - **AI客服agent关注**:神州泰岳 [7][60] - **AI游戏关注**:恺英网络 [7][60] - **AI医疗方面建议关注**:京东健康、阿里健康,AI问诊功能的完善有望为线上平台导流 [7][60]
AAAI 2026 | 首个抗端到端攻击的大模型加密指纹 / 水印方案
机器之心· 2025-12-01 17:30
文章核心观点 - iSeal是首个面向端到端模型窃取场景设计的加密指纹方案,可抵御拥有模型完全控制权的攻击者发起的合谋遗忘攻击与响应篡改攻击 [3] - 该方案在12个主流大语言模型上实现了100%的验证成功率,且不影响模型的原始任务性能 [3][17] 研究问题与背景 - 大语言模型的训练耗费数百万美元算力与数据资源,使模型权重成为极具价值的知识产权,模型指纹技术是常见的版权验证手段 [6] - 现有指纹技术假设攻击者面对的是黑盒API或无法干预推理过程,但现实中高级攻击者可窃取模型权重并获得端到端控制权 [7] - 攻击者可发动合谋遗忘攻击,通过微调或反向训练使模型遗忘特定指纹特征 [7] - 攻击者可发动响应篡改攻击,实时监控并篡改模型输出以绕过验证 [10] - 实验表明,在高级攻击下传统指纹方案验证成功率接近0%,无法提供有效保护 [12] 方法与创新 - iSeal将指纹验证过程转化为安全的加密交互协议,核心设计包括加密指纹与外部编码器、抗遗忘的Confusion & Diffusion绑定机制、以及基于相似度的动态验证 [15] - 加密指纹机制引入外部编码器解耦指纹与模型权重,防止攻击者通过分析权重逆向指纹 [15] - 抗遗忘设计将指纹特征通过条件概率深度绑定到模型核心推理能力中,使攻击者无法通过遗忘部分指纹破坏整体系统 [15] - 针对输出篡改采用基于相似度的验证策略和纠错机制,能从语义与概率分布中恢复指纹信号 [15] 实验结果 - 在LLaMA、OPT等12个主流大语言模型上评估,iSeal验证成功率始终保持在100% [17] - 传统指纹方法在经过少量微调后完全失效,验证成功率约为0% [17] - 针对同义词替换、句式改写等篡改方式,iSeal验证成功率仍维持在100%,而基于精确匹配的传统方法完全失效 [18] - 消融实验显示,若不冻结编码器,验证成功率直接降为0%;若将可学习编码器替换为传统加密算法,验证成功率降至0%–2% [20][21]
何小鹏谈开源:向前走是最重要的
新浪科技· 2025-11-05 18:17
公司战略与研发投入 - 小鹏汽车宣布将开源其技术并开放SDK,以推动行业合作与发展 [1] - 公司CEO何小鹏强调开源是重要发展方向,并提及Meta、阿里巴巴、DeepSeek等公司的开源实践 [1] - 小鹏汽车年度研发费用接近100亿元人民币,公司已成立11年 [1] 行业合作与影响 - 公司希望通过开源合作吸引更多合作伙伴,包括大众汽车,以推动行业进入新阶段 [1] - 开源策略旨在集合行业力量,共同应对技术挑战,而非单一公司承担所有环节 [1]
实锤了:GPU越多,论文接收率越高、引用越多
机器之心· 2025-10-17 16:12
基础模型研究资源与产出的关系 - 基础模型研究的进步高度依赖大规模数据、算力和人力资源,资源获取能力与研究成果影响力(如论文发表和引用量)直接相关 [2][3] - GPU是衡量研究成本的关键指标,因其供应有限且受严格控制,研究将GPU数量和TFLOPs与34,828篇顶级会议论文关联分析 [4] - 研究发现GPU获取能力越强,在八个顶级AI会议中的论文接收率和引用量也越高,共识别出5,889篇基础模型相关论文 [5] 研究方法与数据收集 - 研究覆盖2022年至2024年NeurIPS、ICLR、ICML等八个顶级机器学习会议的34,828篇论文,使用关键词搜索和GPT-4o mini分类识别出5,889篇基础模型论文 [8] - 通过系统API和GPT-4o mini提取论文结构化信息,并对229位基础模型论文一作(涉及312篇论文)进行问卷调查以收集计算资源使用数据 [11] - 人工校验与GPT提取数据对比显示,GPU数量、类型和时长信息的自动提取缺失率分别为59.7%、48.3%和88.6%,突显资源披露规范缺失 [16][17] 基础模型研究增长趋势 - 基础模型论文在顶级AI会议中的占比从2022年的2.07%飙升至2024年的34.64%,呈现爆炸式增长 [18][19][26] - 在NLP领域专业会议(如COLM、EMNLP、ACL)中,基础模型论文比例超过综合性机器学习会议,推理相关论文增长最快 [22][23] - 尽管论文数量激增,单个项目使用的GPU数量保持稳定,1到4个GPU的配置最为常见,约占一半比例 [25] 学术界与工业界研究格局 - 学术界611个机构共发表4,851篇论文,工业界163个机构发表1,425篇论文,谷歌和微软是论文产出最多的单一实体 [29][32] - 工业界研究者人均发表8.72篇论文,学术界人均发表7.93篇,研究效率相当,显示研究高度集中在能提供强大算力的顶级机构中 [31] - 美国和中国在基础模型研究产出方面处于领先地位,与两国在高等教育和AI领域的长期投入相关 [31] 模型选择与资源分布 - 开源模型(如LLaMA系列)是研究中使用最频繁的,因其灵活性和可访问性优于闭源模型(如GPT系列) [35][37] - NVIDIA A100是基础模型研究中使用最广泛的GPU,排名前十的GPU均来自NVIDIA家族 [38] - 专注于预训练的研究其GPU使用数量显著高于后训练或推理研究,但不同机构、领域或方法间的GPU使用量无显著差异 [41] 计算资源对研究产出与影响力的作用 - 一篇被接收的论文通常有5名作者,使用4个GPU,项目平均持续约5个月,TFLOPs衡量的总计算能力比GPU数量更能预测论文产出和引用量 [44][45] - 拥有更强算力支持的机构其研究成果往往获得更多引用,但算力并非决定性因素,许多高引用论文来自计算资源有限的机构 [45][46] - 对ICLR会议数据分析发现,被拒稿的论文比被接收的论文使用略少的GPU和TFLOPs,但差距微乎其微,审稿更关注新颖性而非资源多寡 [47] 研究资助来源 - 政府是基础模型研究的最大资助方,在披露资助信息的论文中,85.5%(848篇)获得政府资助,企业资助占29.3%,基金会资助占10.3% [41][42] - 一个国家的人均GDP与其资助的论文数量无必然联系,机构的支持力度和政策比单纯的国家经济实力更能影响研究产出 [41]
从 1600 美元单卡到 450 万美元年费:部署大模型到底需要多少钱?
锦秋集· 2025-10-05 19:54
文章核心观点 - 企业在大模型部署上面临商业API订阅成本与本地部署前期投入的两难选择,缺乏清晰的量化参考框架[1] - 卡内基梅隆大学研究团队构建了总拥有成本模型,系统对比开源模型本地部署与商业API的成本结构,为企业决策提供依据[2] - 研究通过盈亏平衡分析发现,本地部署的经济可行性高度依赖模型规模和企业月处理token量,5000万token是关键阈值[2][8][40] - 开源模型性能已接近商业模型,差距在10%以内,使得本地部署成为具有成本效益的替代方案[27][28] - 商业API定价存在10倍价差,直接影响本地部署的盈亏平衡周期,高端服务如Claude-4 Opus促使本地部署快速回本[2][42][43] 成本对比分析 - **本地部署成本结构**: 硬件成本占前期投入超90%,小模型单台RTX 5090(约2000美元)可部署,月电费13.2美元;中型模型需1台A100(1.5万美元),月电费7.92美元;大型模型需4台A100(6万美元),月电费31.68美元[2][21][23] - **商业API定价差异**: 高端服务Claude-4 Opus每100万token输入15美元、输出75美元,而GPT-5和Gemini 2.5 Pro仅输入1.25美元、输出10美元,价差达10倍[2][20] - **极端成本案例**: 月处理5000万token时,高端API年成本超450万美元,成本领先的API年成本仅37.5万美元[2] 盈亏平衡周期 - **小模型**: 对比高端商业API最快0.3个月回本,对比成本领先API最长3个月回本[40][52] - **中型模型**: 盈亏平衡周期在2.3-34个月之间,GLM-4.5-Air对比Claude-4 Opus仅需3.8个月,Llama-3.3-70B对比Gemini 2.5 Pro需31.2个月[40][45] - **大型模型**: 盈亏平衡周期在3.5-108个月之间,Qwen3-235B对比Claude-4 Opus需3.5个月,而对比Gemini 2.5 Pro等成本领先服务则需长达108个月[41][46] 企业部署决策框架 - **小型企业**: 适合部署小模型(如EXAONE 4.0 32B),月处理量低于1000万token,使用消费级GPU(2000美元),盈亏平衡期0.3-3个月[44][52] - **中型企业**: 适合部署中型模型(如GLM-4.5-Air),月处理量1000-5000万token,硬件投入1.5-3万美元,可采用混合策略平衡合规与成本[45] - **大型企业**: 适合部署大型模型(如Qwen3-235B),月处理量超5000万token,前期投资4-19万美元,盈亏平衡期3.5-69.3个月,非财务因素如数据隐私和战略自主性成为关键决策依据[46][47] 商业API竞争力分析 - **高端层级**: Claude-4 Opus平均每100万token收费45美元,推动所有规模模型的本地部署快速回本(小模型0.3个月,大模型3.5-6.9个月)[42] - **中端市场**: Claude-4 Sonnet和Grok-4定价在3.13-9.00美元/百万token,盈亏平衡期延长至1.4-44.1个月[43] - **成本领先层级**: Gemini 2.5 Pro和GPT-5定价最具竞争力,大幅延长盈亏平衡期(小模型3个月,大模型63.3个月),对本地部署经济性构成挑战[43] 技术性能对比 - **开源模型性能**: 在GPQA、MATH-500等企业级基准测试中,开源大模型(如Kimi-K2、GLM-4.5)与商业模型性能差距在10%以内[27][28] - **模型部署差距**: 中等模型(如Llama-3.3-70B)仅需两台A100 GPU(3万美元),性能下降通常在10%以内,实用性高[27] - **小模型实用性**: 参数规模低于300亿的模型在单台消费级GPU上可部署,300亿与700亿参数模型在实际应用中性能差异较小,能满足广泛企业需求[28]
人工智能产业“十四五”复盘与“十五五”展望:“两个变局”下的AI要素化跃
搜狐财经· 2025-09-27 01:47
文章核心观点 - 人工智能产业在“十四五”期间完成了从“技术”向“要素”的五大质变跃迁,为“十五五”期间AI要素的“量价齐升”奠定了坚实基础 [8] - “十五五”期间,AI Agent将成为核心载体,驱动AI要素通过价格发现、规模交易和跨境输出实现全面跃迁,并与实体经济深度融合 [8] - AI产业投资可遵循算力基础设施、AI Agent与MaaS服务、智能终端与机器人、AI+绿色低碳四大主线 [8] 技术演进 - Transformer架构统一了AIGC赛道,成为通用引擎,其自注意力机制提供了无与伦比的灵活性和可扩展性 [12][14][18] - 大模型参数量实现跨越式增长,从2018年GPT-2的15亿参数跃升至2024年GPT-4的1.76万亿参数,参数规模突破临界触发“涌现能力”,奠定通用智能雏形 [2][12][21] - 技术发展呈现“高参数量+轻量化”并行分化态势,超大参数模型处理复杂任务,轻量级模型适用于移动端和实时性要求高的场景 [21] - 视觉技术红利在“十四五”初期终结,ImageNet-1K精度逼近理论天花板,模型参数与算力投入的边际收益急剧递减 [11][13][45] 算力硬件 - GPU在算力硬件中占据主导地位,英伟达市场份额约为70%,同时ASIC、FPGA等异构芯片加速发展 [2] - 国产AI芯片奋起直追,华为昇腾910b、寒武纪思元370等产品单卡算力不断提升,能效比与海外差距逐级收敛 [8][26][32] - 数据中心形态由IDC向AIDC演进,功率密度和散热要求大幅提升,液冷等高效散热方案加速普及 [2][25][27] - 国家通过“东数西算”和“算力券”等机制介入算力定价,使算力具备公共事业属性 [25][28][29] 产业生态与数据要素 - AI要素化进程加快,数据经历资源化、资产化、资本化阶段,数据确权、定价、交易体系逐步完善 [2] - 公共数据完成“政务共享→授权运营→资产入表→财政分成”的跃迁,成为可交易、可分成的财政要素 [8][33][35] - 2024年《企业数据资源相关会计处理暂行规定》正式施行,截至2025年中报,110家A股上市公司数据资源入表总金额达26.52亿元 [33][42][44] - 智能体生态崛起,文心智能体平台、腾讯元器KUNLUN等开发平台涌现,通过调用制、订阅制、结果分成制实现价值捕获 [2][8] 应用场景与市场表现 - 企业服务因ROI明确、数据基础好成为AI优先落地领域,金融风控、制造供应链等场景逐步渗透,医疗、教育等领域探索深化 [2] - “十四五”期间视觉安防市场陷入红海,以海康威视、大华股份为代表的企业传统业务增速放缓,行业面临转型 [45][47][50] - 国内SaaS企业估值经历压缩,云计算SaaS的PS从高双位数回落,行业等待生成式AI原生等下一代平台技术带来反弹 [56][57] - “十四五”期间AI产业营收稳步增长,2025年上半年部分企业营收超900亿元,毛利率维持在42%-45%区间 [2] 政策支持 - 中央顶层设计完成“攻关-筑基-应用-变革”四段跳,AI首次写入社会治理层面,定位由“产业工具”升级为“转型引擎” [8][58][63] - 2024年《政府工作报告》首次在“社会治理”段落提及人工智能,2025年《关于深入实施“人工智能+”行动的意见》设定了2027/2030/2035三阶段量化目标 [63] - 政策体系强调场景落地、产业规模、安全治理三位一体,通过专项基金、税收优惠、政府采购等多措并举支持产业发展 [63][64] 未来展望与投资主线 - “十五五”期间AI Agent将驱动交互范式移至CUI,收费基准从Token计价转向“增量收益分成”,使AI部门由成本中心转为利润中心 [8] - 国产全栈闭环有望实现,通过Agent专用芯片、框架层标准定义和数据层资产化,取得要素定价权并实现规模化交易 [8] - 全球南方市场为AI出海提供广阔空间,其总人口超45亿,占世界总人口近60%,数字经济增长率远超传统经济 [8] - 投资建议聚焦四大主线:算力基础设施、AI Agent与MaaS服务、智能终端与机器人、AI+绿色低碳 [8]
最新综述!扩散语言模型全面盘点~
自动驾驶之心· 2025-08-20 07:32
扩散语言模型(DLMs)与自回归模型(AR)的范式对比 - 扩散模型在图像生成领域表现突出,代表模型包括Stable Diffusion和DALL·E,通过"从噪声中迭代重建"的生成逻辑刷新视觉创作边界 [2] - 自回归模型主导文本生成领域,代表模型包括GPT、LLaMA、Qwen、DeepSeek系列,采用"逐词预测序列"框架但存在效率瓶颈 [2] - 扩散语言模型(DLMs)通过"并行生成+迭代优化"机制实现数倍推理加速,性能已比肩同等规模AR模型 [2] DLM的核心技术优势 - **并行生成能力**:工业界模型如Mercury系列、Gemini Diffusion实现每秒数千token的推理速度,较AR模型提升10倍以上 [11] - **双向上下文理解**:支持双向注意力机制,在文本补全、风格迁移等任务中表现更优,且能实现细粒度控制如情感倾向调整 [12] - **迭代优化机制**:类似人类写作修改过程,可动态修正低置信度token,LLaDA-8B在GSM8K数学基准测试中准确率超过LLaMA3-8B 5% [13] - **多模态适配性**:统一框架支持文本与视觉联合生成,MMaDA模型在图像生成质量上超越SDXL,同时保持语言理解能力 [14] DLM的三大技术范式 - **连续空间DLMs**:将文本token映射到连续嵌入空间完成扩散过程,可直接使用DDPM等成熟框架但存在语义偏差问题 [19] - **离散空间DLMs**:直接在token词汇表上定义扩散过程,主流路线代表包括8B规模的LLaDA、Dream-7B,支持8192 tokens长序列处理 [20][21] - **混合AR-DLMs**:结合AR长程依赖建模与DLM并行生成能力,Diffusion-LM等模型在指令跟随任务上达到GPT-3.5水平 [22][23] 训练与推理优化技术 - **训练策略**:采用迁移学习降低门槛,Dream-7B基于Qwen2.5-7B初始化,训练数据量减少50%但推理速度提升7倍 [30] - **推理加速技术**:包括置信度感知解码(速度提升27.6倍)、辅助模型引导解码、缓存机制(速度提升9倍)等 [38][40] - **质量保障技术**:ReMDM模型的动态修正机制、LaViDa的互补掩码策略使多模态训练效率提升40% [39] 多模态与产业落地应用 - **多模态模型**:LLaDA-V在MME基准超越LLaVA-1.5-7B 12%,D-DiT在文本生成图像任务人类偏好率达85% [44] - **代码生成领域**:DiffuCoder在HumanEval基准pass@1达68%且推理速度快8倍,Mercury Coder语法错误率仅2.3% [46] - **计算生物学**:MeMDLM设计的膜蛋白表达成功率达68%,DPLM2在蛋白质折叠任务RMSD达1.8Å [47] 未来发展方向与挑战 - **核心挑战**:包括并行性-性能权衡(去噪步数减少导致GSM8K准确率从78%降至45%)、工具链不完善、长序列处理复杂度高等 [51][52][53] - **研究方向**:语义关联建模、专用工具链建设、稀疏扩散架构创新、跨模态协同推理等 [54][56]