大语言模型
搜索文档
「AI界淘宝」MuleRun:上线10天涌入21万用户,要做全球最大劳动力外包公司
36氪· 2025-11-27 17:15
公司定位与商业模式 - 公司定位为全球首个AI Agent交易市场,旨在成为AI时代的劳动力外包平台,解决人类重复性电脑操作工作 [2][6] - 商业模式类似淘宝/闲鱼,作为三方平台连接创作者与用户,负责流量、交易和支付,创作者将技能转化为可租用的Agent并实现变现 [2] - 平台采用按需付费模式,例如3D桌面人物创作Agent每次使用费用为50积分(约0.5美元) [2] 市场机会与规模 - 市场被描述为"几乎没有上限",目标是通过标准化应用替代人类高度重复的工作场景(如初级HR招聘) [7][10] - 当前大模型能力尚无法直接解决80%的人类工作,预计时间窗口为2-3年,需结合80%的SOP(标准操作流程)与20%的大模型能力 [8][10] - 引用案例:某自动驾驶厂商通过SOP+大模型生成4000万行代码,替代200人年工作量,节省数千万人民币 [10] 平台运营数据与增长 - 上线10天内注册用户达21万,申请创作者超4000人,审核通过500余人 [3][16] - 创作者审核通过率约40%,需提交详细方案并通过技术稳定性测试(如10次运行验证) [16][19] - 典型成功案例:3D桌面人物创作Agent上线3天为创作者赚取1200美元 [2][14] 产品策略与差异化 - 关键决策为"框架中立",不绑定特定开发工具,支持外部工具创作的Agent入驻平台,与工具方形成合作而非竞争 [11] - 降低使用门槛为核心策略,每减少一个操作步骤可扩大用户覆盖10倍,当前平台仅需上传照片和点击"run"两步完成操作 [14][15] - 竞争壁垒分两阶段:短期靠基础设施易用性,长期依赖生态规模(用户与创作者网络效应) [24] 团队背景与技术路径 - 创始人陈宇森为前网络安全领域连续创业者(长亭科技被阿里收购),团队核心成员均具创业经验 [5] - 技术路径强调高比例SOP(80%)与低比例大模型(20%)结合,确保任务执行稳定性和可复用性 [5][10] - 采用"小步快跑"策略,接受早期产品不完善,通过快速迭代优化(如上线一月内完成产品重构) [21] 典型应用场景与案例 - 热门Agent分两类:ToC类如3D人物创作(借助Nano Banana热点);ToB专家类如投研工具(Web3币圈分析、美股投资工具FundaAI) [20] - 平台未来计划增加Agent组合能力,允许用户串联多个Agent完成复杂工作流 [23]
研报掘金丨国泰海通:维持网宿科技“增持”评级,目标价14.02元
格隆汇APP· 2025-11-27 16:39
公司财务表现 - 网宿科技2025年第三季度归母净利润同比及环比均实现高速增长 [1] 业务发展战略 - 公司积极开拓海外市场 推进全线产品出海 [1] - 海外市场布局重点为东南亚和中东区域 [1][1] - 产品线从网站 应用 API安全防护扩展至零信任解决方案 [1] - 服务客户范围从互联网企业扩展至各产业领域的企业客户 [1] - 业务区域从国内扩展至全球 为海外本地客户及出海企业提供安全服务 [1] 产品与服务创新 - 公司发布大模型安全深度评估服务 [1] - 该服务为大语言模型与AI应用提供一站式安全解决方案 [1] - 解决方案覆盖模型输出安全 数据安全 算法安全 应用安全 [1] - 服务旨在助力企业构建安全可信的AI应用生态 [1] 估值与评级 - 参考可比公司估值 给予公司2025年市盈率为42倍 [1] - 对应目标股价为14.02元 [1] - 维持"增持"评级 [1]
NeurIPS 2025最佳论文开奖,何恺明、孙剑等十年经典之作夺奖
36氪· 2025-11-27 15:27
NeurIPS 2025奖项概览 - NeurIPS 2025共评选出4篇最佳论文和3篇亚军论文(Runners Up)[1][2] - 本届会议是首个双城会议,分别于12月2日-7日在圣地亚哥和11月30日-12月5日在墨西哥城举办[3] - 时间检验奖(Test of Time Paper Awards)授予了10年前发表的Faster R-CNN论文,该论文已被引用超过56,700次[49][50] 最佳论文一:大语言模型多样性评估 - 研究核心是评估大语言模型(LLM)在开放式生成任务中的输出多样性,并提出了“人工蜂群思维效应”(Artificial Hivemind effect)的概念,指出现有模型存在显著的输出同质化问题[5][6][10] - 为解决评估方法不足的问题,研究团队推出了大规模数据集Infinity-Chat,该数据集包含2.6万条真实世界开放式用户查询以及31,250条人类标注,每个示例均由25位标注者独立评判[6][12] - 研究首次提出了针对LM开放式提示的完整分类体系,包含6大顶层类别及其下17个子类别,发现最先进的LM、奖励模型与LM评判器较难校准人类评分[8][12] 最佳论文二:门控注意力机制 - 论文由阿里千问团队等机构合作完成,核心发现是在缩放点积注意力(SDPA)后引入头部特异性Sigmoid门控这一简单修改,可持续提升模型性能[14][15][17] - 该改进在3.5万亿词元数据集上训练的15B混合专家模型(30种变体)与1.7B稠密模型上得到验证,能增强训练稳定性、允许更大学习率,并改善缩放特性[15][17] - 门控机制的有效性归因于两个关键因素:在Softmax注意力的低秩映射中引入非线性变换,以及采用查询依赖的稀疏门控分数调控SDPA输出,该技术已应用于Qwen3-Next模型系列[18] 最佳论文三:自监督强化学习的深度缩放 - 研究聚焦于自监督强化学习(RL)的网络深度缩放,证明将网络深度提升至1024层可带来显著性能突破,而近年多数RL研究采用的浅层架构仅约2-5层[21][24] - 在无监督目标条件设定下,新方法在模拟运动与操控任务上将自监督对比强化学习算法的性能提升了2至50倍,显著超越其他目标条件基线模型[24][26] - 网络深度的增加不仅提升了任务成功率,更引发了智能体学习行为的质性转变,实现了可扩展性的质的飞跃[24][26] 最佳论文四:扩散模型的隐式正则化 - 研究旨在理解扩散模型避免训练数据记忆并实现泛化的内在机制,发现了两个关键时间尺度:早期阶段τgen(模型开始生成高质量样本)和后期阶段τmem(记忆现象显现)[28][29] - 关键规律是τmem随训练数据量n呈线性增长,而τgen保持恒定,形成了随n扩大的有效训练时间窗口,揭示了训练动态中存在的隐式动态正则化机制[29][31] - 结论通过基于标准U-Net架构在真实与合成数据集上的数值实验,以及采用高维极限可解析随机特征模型的理论分析得到验证[31] 亚军论文核心发现 - 论文一系统评估了强化学习(RLVR)对大语言模型推理力的真实增益,结果显示RLVR主要提升采样效率,在小k(如k=1)更易命中正确路径,但在大k时基座模型表现更好,当前RL训练并未诱发全新的推理模式[33][34][37] - 论文二解决了“无标签数据在在线学习中的力量”这一开放问题,对任意Littlestone维度为d的概念类,传导式在线学习的最小错误次数精确为Θ(√d),与标准在线学习的Θ(d)形成严格的二次差距[38][39][41] - 论文三提出“表征叠加”是神经缩放律(Neural Scaling)的关键机制,指出LLM用少量维度承载超量特征,由此产生向量几何重叠并决定损失的Scaling形态,该发现与Chinchilla Scaling Law一致[42][46][48] 时间检验奖获奖工作 - 获奖论文《Faster R-CNN》由任少卿、何恺明、Ross Gisshick和孙剑合著,对计算机视觉领域产生了深远影响,成为众多后续研究工作的基石[50] - 该论文在实现极高检测精度的同时,达到了接近实时的检测速度(每秒5帧),使基于神经网络的目标检测模型得以应用于现实世界的各种场景[50] - 这是首个用完全可学习的两阶段流程(包括区域建议网络RPN和检测网络)取代传统选择性搜索和人工设计候选框方法的工作[50]
月之暗面公开强化学习训练加速方法:训练速度暴涨97%,长尾延迟狂降93%
量子位· 2025-11-27 12:34
核心技术突破 - 月之暗面联合清华大学推出全新加速引擎Seer,旨在不改变核心训练算法的前提下,大幅提升大语言模型的强化学习训练速度 [1] - Seer框架通过其三大核心模块(推理引擎池、请求缓冲区、上下文管理器)和三项关键技术(分段生成、上下文感知调度、自适应分组推测解码)协同工作,从内存、调度、推理三个维度全面优化rollout效率 [9][10][11][20] - 该技术针对RL训练中耗时的生成阶段,解决了其固有的工作负载不均衡和长尾延迟问题,资源利用率较低 [6] 性能提升数据 - 实验结果显示,Seer在不同工作负载下,相比基线系统veRL,吞吐量提升74%至97% [3][23] - 在长尾延迟方面,Seer表现显著优于veRL,例如在Moonlight任务中,veRL最后10%请求耗时3984秒(占总时长约50%),而Seer仅需364秒,延迟降低85% [23] - 在Qwen2-VL-72B和Kimi-K2任务中,长尾延迟分别降低93%和75% [23][24] - 专项实验表明,Seer的上下文感知调度策略在吞吐量上可达到理想Oracle水平的95%,其长尾延迟仅为无上下文调度策略的13% [27][28] 公司融资与资本动态 - 月之暗面即将完成新一轮融资,融资金额高达数亿美元,完成后公司估值将提升至40亿美元 [32][33] - 公司正与IDG Capital等投资机构洽谈,潜在投资方包括现有股东腾讯 [36] - 预期本轮融资将于今年年底前完成,并计划在明年下半年启动IPO进程 [37]
中山大学最新Cell子刊:AI能够帮助医生克服技术障碍,但存在依赖风险
生物世界· 2025-11-27 12:11
文章核心观点 - 大语言模型能有效帮助医生克服技术障碍,显著提升其参与医学人工智能研究的项目完成率[3][5][7][9] - 大语言模型的应用使医疗AI研究民主化,但同时也存在AI幻觉和医生产生依赖倾向的潜在风险[3][5][6][7][9] 研究背景与挑战 - 跨学科研究推动了科学领域突破,但在生物医学领域,AI等技术的广泛应用受限于技术障碍[2] - 医生因缺乏多学科专业知识或技能,以及难以获得工程支持,在AI技术的问题导向型研究中参与受阻,偏远地区或资源有限的年轻医生面临的挑战更明显[2] 研究设计与方法 - 研究团队开展了一项随机对照试验,招募64名初级眼科医生进行为期两周的“自动化白内障识别”项目[5] - 干预组32人使用大语言模型ChatGPT-3.5,对照组32人不使用,在最小化工程辅助的情况下进行[5] 研究结果与数据 - 干预组项目总完成率高达87.5%,显著高于对照组的25.0%[5][7] - 干预组无辅助完成率为68.7%,远高于对照组的3.1%[5] - 干预组展现出更优的项目规划能力和更短的完成时间[5] - 经过两周洗脱期后,41.2%的成功干预组参与者能在没有LLM支持的情况下独立完成新项目[5][7] 潜在风险与影响 - 42.6%的参与者担心会不加理解地复述AI信息,40.4%担忧AI会助长惰性思维,表明存在潜在依赖性风险[5] - 大语言模型存在幻觉风险,其长期使用形成的依赖风险需进一步研究评估[6][7][9] - 研究提出了与大语言模型有效互动的初步提示指南[7]
NeurIPS 2025奖项出炉,Qwen获最佳论文,Faster R-CNN获时间检验奖
机器之心· 2025-11-27 11:00
NeurIPS 2025 会议概况 - 会议共收到21575份有效投稿,最终接收5290篇,整体录用率为24.52% [4] - 今年共有4篇论文获得最佳论文奖,另有3篇论文获得最佳论文亚军 [1] - 任少卿、何恺明、Ross Girshick、孙剑2015年合著论文《Faster R-CNN》获得时间检验奖 [2] - 《Random synaptic feedback weights support error backpropagation for deep learning》获得Sejnowski-Hinton奖 [3] 最佳论文奖核心研究 - 论文《Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)》提出Infinity-Chat数据集,包含26K条真实世界开放式用户查询 [5][6] - 研究揭示了语言模型在开放式生成中存在人工蜂群思维效应,包括模型内重复和模型间同质化 [6] - Infinity-Chat包含31,250条人工标注,每个样本有25位独立标注者参与 [8] - 论文为理解语言模型多样性、价值多元与社会影响做出重要贡献 [9] - 论文《Gated Attention for Large Language Models》首次系统分析注意力门控对大模型性能的影响 [12] - 研究证明门控机制通过增强注意力机制的非线性和提供输入相关稀疏性来提升性能 [12] - 门控机制能消除注意力池和巨量激活现象,提高训练稳定性并减少损失波动 [16] - 该方法已成功应用于Qwen3-Next模型,并在各尺寸架构上验证有效性 [16] - 论文《1000 Layer Networks for Self-Supervised RL》证明将网络深度增加到1024层可显著提升自监督强化学习性能 [18] - 在无监督目标条件设定下,该方法在对比式RL算法上将性能提升2×–50× [18] - 增加模型深度不仅提升成功率,还会在质量上改变学到的行为 [18] - 论文《Why Diffusion Models Don't Memorize》揭示了训练动力学中存在隐式动态正则化 [20] - 研究发现随着训练集大小N线性增长,模型泛化时间窗口变宽 [20] - 只有当N超过与模型相关的阈值时,过拟合才会在无限训练时间极限下消失 [20] 最佳论文亚军研究 - 论文《Optimal Mistake Bounds for Transductive Online Learning》解决了长达30年的公开难题 [30] - 研究精确刻画了传导式在线学习的最优错误上界为Ω(√d),并给出与之匹配的O(√d)上界 [30] - 这一结论确立了传导式在线学习与标准在线学习之间存在二次量级差距 [30] - 论文《Superposition Yields Robust Neural Scaling》论证表征叠加是支配神经网络缩放定律的主要机制 [33] - 研究不再停留在现象描述,而是为缩放定律提供了新的机制性洞见 [33] 时间检验奖研究 - 《Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks》论文已被引用超过56,700次 [40] - 该论文是第一个用完全可学习的两阶段pipeline取代selective search和手工设计候选框的方法 [41] - 实现了极高精度与接近实时(5 FPS)检测的统一,使目标检测模型得以真正部署到实际应用中 [40] Sejnowski-Hinton奖研究 - 获奖论文《Random synaptic feedback weights support error backpropagation for deep learning》提出了著名的反馈对齐机制 [46] - 研究证明多层网络可在无需对称反馈权重下有效学习,前向权重会自然与随机反馈信号对齐 [46] - 这项工作帮助建立了生物可行学习规则的全新研究方向 [47]
a16z前合伙人重磅科技报告:AI如何吞噬世界
华尔街见闻· 2025-11-26 20:08
文章核心观点 - 生成式人工智能正引发科技产业约每十至十五年一次的平台大迁移,其最终形态和主导者仍不明确 [1][4] - 科技巨头正以前所未有的规模投资AI基础设施,但模型性能趋同、用户参与度不足、企业部署缓慢等挑战并存 [4][11][23][27][33] - AI技术成功落地后将像过去的自动化技术一样融入基础设施,不再被称为"AI" [4][40][43] 平台转移的历史规律 - 科技产业大约每十到十五年经历一次平台转移,从大型主机到个人电脑,从万维网到智能手机,每一次都重塑行业格局 [5] - 早期领导者在平台转移中往往会消失,例如微软在个人电脑时代拥有接近100%的操作系统市场份额,但在智能手机时代变得无关紧要,其全球份额从2010年前后的高点降至2025年的不足20% [5] - 类似地,在个人电脑市场早期占据主导地位的苹果也曾被IBM兼容机边缘化 [5] 当前AI发展的不确定性 - 尽管ChatGPT的发布可能是下一次"十五年之变"的起点,但三年过去,对这次转移的最终形态依然所知甚少 [4][10] - 各种可能性令人眼花缭乱,包括浏览器形态、智能体形态、语音交互或全新的用户界面范式,没有真正答案 [10] - 互联网早期和移动互联网早期失败的想法(如美国在线AOL、雅虎门户、Flash插件)提示当前AI探索同样存在不确定性 [10] 科技巨头的投资竞赛 - 微软、亚马逊AWS、谷歌、Meta四家公司2025年资本支出预计将达到4000亿美元,超过全球电信行业全年约3000亿美元的投资规模 [4][11] - 这一2025年的增长计划几乎在年内翻了一番 [14] - 美国数据中心建设正在超越办公楼建设规模,成为新的投资周期驱动力 [17] AI基础设施的供应瓶颈 - 英伟达因无法跟上需求而面临供应瓶颈,其季度收入已超越英特尔多年的积累 [17] - 台积电同样无法或不愿足够快速地扩张产能以满足英伟达的订单需求 [17] - 美国数据中心建设的主要限制因素是公用电力供应,美国电力需求增长约为2%,而AI可能额外增加1%的需求,这在美国难以快速建设 [20] 模型性能趋同与商品化风险 - 顶级大语言模型在基准测试上的差距正在缩小至个位数百分比 [23] - 如果模型性能高度趋同,意味着大模型可能正在变成"商品",价值捕获将重新洗牌 [23] - 模型领导地位每周都在变化,护城河并不明显,AI公司必须在算力规模、垂直数据、产品体验或分发渠道上重新寻找护城河 [23][26] 用户参与度与企业部署现状 - ChatGPT声称拥有8亿周活跃用户,但仅约10%的美国用户每日使用AI聊天机器人,大多数人仍处于偶尔尝试阶段 [27][30] - 企业部署缓慢,真正进入生产环境的项目仅为25%,计划2025下半年部署的约30%,至少2026才部署的约40% [33] - 目前成功案例仍集中在编程辅助、营销优化、客户支持自动化等"吸收阶段" [36] AI对广告与推荐系统的颠覆 - AI最快发生巨大改变的领域是广告与推荐系统,传统推荐依赖"相关性",而AI有能力理解"用户意图"本身 [37] - 万亿美元级广告市场的底层机制可能被重写,谷歌和Meta披露AI驱动的广告投放能带来3%至14%的转化率提升 [37] - 广告创意制作成本也可能从每年1000亿美元的大盘上进一步被自动生成技术重塑 [37] 价值捕获与竞争模式转变 - 如果模型成为商品且缺乏网络效应,竞争模式可能从基于网络效应转向基于资本获取能力 [45] - 微软的资本支出占销售收入比例从历史低点大幅上升,反映了这一竞争模式的根本变化 [45] - OpenAI采取了"对一切说是"的多元化策略,包括基础设施交易、电商集成、广告、垂直数据集及应用平台等 [45]
“AI主流发展路线已经遇到瓶颈”
第一财经· 2025-11-26 17:52
文章核心观点 - AI行业单纯依靠堆算力、扩规模的阶段已经结束,行业正从“规模化时代”回归到“研究时代”,需要重新思考通往AGI的真正范式[4][9] 对当前AI发展路径的批判 - 前OpenAI首席科学家苏茨克维认为,AI的扩展(Scaling)时代已经终结,算力规模已很大但不能持续带来更好的“扩展”,扩展与浪费算力的界线变得模糊[4] - 当前主流路线遇到瓶颈,行业从规模化扩展回到了研究范式本身,进入“只是有了更大的计算机”的研究时代[4] - 图灵奖得主杨立昆认为,绝大多数同行致力于的大语言模型是死胡同,LLM由于其计算机制的限制,无法进行复杂的推理和规划,只是为了迎合训练数据的统计规律[8] - 斯坦福大学教授李飞飞指出,当前以LLM为代表的AI虽然擅长处理抽象知识,却如同在“黑暗中行走”,缺乏对物理世界的真实理解[9] AI模型存在的核心问题 - 大模型的泛化能力比人类差很多,这是通向AGI途中需要解决的根本问题[5] - 模型在各种评测上表现出色,但在某些情况下会重复犯错,例如编程时能解决复杂问题却不断引入简单Bug,存在评测性能与现实世界性能的脱节[6] - 苏茨克维提出两种可能解释:一是强化学习训练让模型变得过于一根筋和视野狭窄;二是强化学习训练时针对评测集选择数据,导致训练数据太狭窄[6] - 当下的AI可能缺少了类似人类情绪的价值函数,这能让AI更有方向感,苏茨克维引用脑损伤案例说明情绪对人类有效决策的重要性[7] 对未来AI发展范式的探讨 - 杨立昆认为,世界模型将成为人工智能架构的主流模型,它通过摄取视觉信息来了解周围世界,学习方式类似动物幼崽或人类幼儿[8] - 杨立昆将于年底离开Meta,创建专注于世界模型的初创公司,他认为未来五到十年解决“世界模型”相关难题,有望构建真正智能、能够规划和推理的AI系统[9] - 李飞飞强调建立“世界模型”和空间智能的重要性,她认为人类对世界的理解是整体性的,关乎空间关系、意义及关联[9] - 李飞飞提出,新的“世界模型”需要具备生成性、多模态性和交互性三种核心能力,以构建环境内部表征[9]
小米大模型首曝光:参数规模为64亿 在CMMLU中文向大模型排名第1
新浪科技· 2025-11-26 16:25
公司AI大模型进展 - 公司开发的大语言模型MiLM-6B首次出现在C-Eval和CMMLU两大AI模型评测榜单中 [1] - MiLM-6B是一个大规模预训练语言模型,其参数规模为64亿 [1] - 在C-Eval总榜单中,该模型排名第10位,并在同参数量级模型中排名第1位 [1] - 在CMMLU中文向大模型评测中,该模型排名第1位 [1] 公司AI研发投入 - 公司于2023年4月正式组建了AI实验室大模型团队 [3] - 公司在AI领域的相关研发人员已超过1200人 [3]
WPS 365升级为全球一站式AI协同办公平台 年底将推出国际版
证券日报· 2025-11-26 16:09
WPS 365产品升级与定位 - 金山办公将WPS 365正式升级为全球一站式AI协同办公平台,推出WPS灵犀企业版、团队空间、"轻舟"引擎等新产品,并对智能文档库、数字员工两大AI核心产品进行升级 [3] - WPS 365成为首个拥有全产品矩阵、覆盖全球主流平台、链接全球各地的AI协同办公平台 [3] - 公司推出AI中台新产品,具备轻量化部署、标准化接入特点,能交付整套可观测、可评估、可调优的文档AI助手 [1] 产品功能与技术整合 - WPS 365一站式协同办公将消息、文档、会议、邮件、工作台和智能文档库等全产品矩阵无缝整合,实现入口统一、集成统一、数据统一和管控统一 [1] - WPS 365率先实现原生信创、全栈适配,覆盖几乎全平台所有操作系统,同时支持主流中央处理器品牌 [1] - 智能文档库作为企业大脑的重要承载者,运用多模态文档识别、大语言模型和自然语言处理等技术,将组织内文档转化为可复用知识 [2] - 数字员工升级到2.0版本,是依托企业私域知识打造的智能体,成为构建企业大脑"懂组织"的重要载体 [2] 市场拓展与国际化 - WPS 365宣布将在年底推出国际版,支持跨地域、跨语言的全球一体化办公,并与Microsoft 365实现格式兼容、接口一致和互联互通 [1] - 国际版旨在更好地解决出海企业的全地域沟通及合规问题 [1] AI能力与行业应用 - AI中台已在多个行业中应用,例如帮助大型企业让云盘获得数据知识化能力,实现文档智能检索和分析 [2] - 有企业通过AI中台增强合同审计业务的文档智能解析能力,实现解析结果可溯源,打造高可信、合规化、智能化的合同系统 [2] - 协同办公软件的"企业大脑"需具备大模型引擎以及执行任务的MCP或API,并融合企业自身的私域知识 [2] - 金山办公能帮助企业激活全域知识,利用知识驱动"企业大脑"做出决策 [2]