Workflow
开源AI
icon
搜索文档
中企领先开源赛道?英伟达副总裁这样回答
观察者网· 2026-04-27 14:01
英伟达的战略定位与AI模型开发 - 英伟达不将自身定义为单纯的芯片厂商,而是一家全栈基础设施企业,拥有大量软件研发工程师,并正自主研发AI模型以吃透基础设施全链条架构,明确技术优化方向 [1] - 公司开发AI模型并非为了与客户形成同业竞争,双方不存在竞争关系,公司认为当下不存在一款能够统领全局的通用大模型,AI依托完整软件平台和生态系统协同支撑 [2] 对中国开源AI模型的评价与开源生态 - 英伟达副总裁对中国企业研发的开源大模型(如月之暗面的Kimi、MiniMax、阿里巴巴的通义千问)表达了高度认可,称会学习这些模型的优势 [2] - 强调开源的意义在于彼此借鉴学习,将优质成果开放共享,公司从中国模型中学习,中国模型也从公司学习 [2][3] - 根据MIT和Hugging Face去年11月的研究,此前一年中国团队开发的开源AI模型下载量占比上升至17%,首次超过美国同行 [2] 对SaaS行业及AI代理发展的看法 - 公司明确否定“SaaS将被AI取代”的观点,看好SaaS赛道发展前景,并援引CEO判断指出行业将从“软件即服务”向“代理即服务”演进 [3] - 认为各类SaaS企业深耕细分领域,沉淀了专业经验,具备难以替代的独特价值 [3] - 对于开源AI代理OpenClaw走红,认为其核心优势是契合大众对AI“落地实用、高效处理工作”的需求,能够真正帮人们把事情做成,且具备自主运行、自主迭代特性 [3] - 公司已主动联系OpenClaw开发者提供技术支持,并因内部员工有使用需求,计划优化工具以提升安全性 [3] 对AI训练数据前景的研判 - 公司反驳“全球AI训练数据即将耗尽”的观点,认为世界始终处在动态发展之中,现阶段仍有海量数据有待清洗、解析与训练 [4] - 指出包含文本、图像、音频、视频在内的多模态数据蕴藏巨大开发潜力 [4]
遭黑客投毒、被网安圈群嘲蹭流量、英伟达建的沙箱半小时就被攻破!OpenClaw 之父揭开大模型圈最脏的潜规则
AI科技大本营· 2026-04-21 17:55
OpenClaw项目现状与增长 - 项目在五个月内经历了神话式增长,成为GitHub历史上增长最快的纯软件项目,增长曲线被形容为“钢管舞柱式的垂直飙升”[11] - GitHub数据表现亮眼:Star数名列前茅,拥有约3万次提交,贡献者即将突破2000人,拉取请求(PR)接近3万个,且增长势头未减[11][13] - 项目同时处于“灾难级的围猎”状态,面临海量安全漏洞报告的轰炸,增长伴随着前所未有的挑战[3][7][11] 面临的安全挑战与行业反应 - 收到海量安全报告:总计1142个漏洞警告,平均每天16.6个,其中99个被标记为严重漏洞,已发布约469个修复,关闭了60%的问题[6][16] - 报告数量远超其他大型项目:是Linux内核项目每日报告数量的两倍,累计报告数量是cURL项目的两倍[18] - 安全行业存在“蹭流量”现象:大量报告被指为AI批量生成的“灌水垃圾”,且许多研究故意忽略项目安全指南,以制造更耸人听闻的故事[6][18][25][28] - 面临实际高级威胁:包括国家级黑客组织的攻击、供应链攻击(如通过MS Teams/Slack依赖的Axios漏洞)以及仿冒包(GhostClaw)攻击[24] 项目治理与生态建设 - 成立OpenClaw基金会以保持项目中立和开源,避免被单一公司控制,并计划通过基金会聘请全职人员以维持开发节奏和代码质量[13][34][35] - 积极引入多家科技巨头支持:获得英伟达、微软、红帽、腾讯、字节跳动等公司的工程师贡献,以分散开发压力并应对安全挑战[14][39] - 明确否认被OpenAI收购的传言,强调OpenAI理解并支持该项目保持开源、与任何模型兼容的重要性,以推动整个行业发展[34][37] 对AI开源与商业化的观点 - 认为开源是让更多人接触和理解AI的关键,OpenClaw的成功可以促使企业用户需求商业化托管版本,从而创造商业机会[37][39] - 暗讽某些以“A”开头的顶尖实验室(暗指Anthropic)对开源不友好,会因代码泄露或项目成功而采取法律行动,对比指出OpenAI正走向更开放的道路[7][42] - 本地模型和隐私控制是项目的核心吸引力之一,旨在让用户掌控自己的数据,并打破大公司建立的数据孤岛,实现独特的自动化场景[40][41] 开发理念与未来愿景 - 反对完全的“黑灯工厂”式自动化开发,强调软件开发是一个需要不断迭代、调整和注入“品味”的蜿蜒过程,最初的设想极少是最终成品[44][46] - “品味”是AI时代的关键能力与护城河,其底线是产品不能有“AI味儿”,需要通过细节打磨创造令人愉悦的、高层级提示词无法生成的用户体验[46][48] - 智能体的终极形态是“无处不在的交互”,如同《星际迷航》中的电脑,能够跨设备感知用户位置并提供服务,手机只是过渡形态[50][51] - 未来研究方向包括“梦境”记忆重组机制,模拟人类睡眠中的记忆处理过程,以优化智能体的学习和记忆能力[55][56] 对开发者与行业的建议 - 在AI时代,系统设计能力依然至关重要,是引导AI生成高质量代码、避免死胡同的关键[59] - 开发者需要学会“说不”,管理好AI实现无数天马行空想法的能力,以确保系统的和谐与可维护性[59] - 当前的瓶颈在于上下文同步与全局观把握,需要开发者提供线索来引导AI理解整个系统,从而产出可维护的解决方案[60]
美国开源AI最后的旗帜,也倒了
量子位· 2026-03-30 09:34
艾伦人工智能研究所(AI2)的战略转向与核心团队流失 - 艾伦人工智能研究所宣布削减对开源模型开发(包括OLMo系列)的资金投入,将战略重心转向AI应用[1] - 研究所核心团队被“打包带走”,前CEO阿里·法哈迪、前首席运营官索菲·莱布雷希特、OLMo项目联合负责人汉娜·哈吉希尔齐以及关键项目主导者兰杰·克里希纳等核心人员集体离职,加入微软穆斯塔法·苏莱曼领导的超级智能团队[2][3][9][10] - 前CEO阿里·法哈迪已于3月26日卸任,结束了超过两年半的任期[11] 战略转向背后的资金与资助方因素 - 非营利组织难以以慈善资金与科技巨头竞争:训练GPT-4级别模型的成本估计在1-2亿美元量级,当前前沿模型训练成本已攀升至数亿美元,而AI2的年度运营预算与之相比存在数量级差距[27][28][29][32] - 主要资助方科学与技术基金会(FFST,由保罗·艾伦遗产设立,规模达31亿美元)的资助策略发生显著变化[33] - 2024年新任FFST CEO琳达·斯图尔特博士更倾向于资助具有明确科学应用和可量化社会影响的项目,而非前沿模型研究[34][36][37] - FFST对AI2的资助模式将从提供年度总资助转向基于项目提案的资助模式,这种成果导向的模式对周期长、成本高的开源基础模型开发不利[37][38] - 有知情人士透露,FFST未来的资助预计将更倾向于人工智能的实际应用,而非构建开源基础模型[38] OLMo项目的开源标杆意义及其终结 - AI2的OLMo系列极致践行“完全开源”理念,不仅开源模型权重,而且公开从数据处理、预训练、微调到评测的全流程,并采用Apache 2.0许可证[42][43] - 2025年11月发布的OLMo 3系列包括Base、Instruct、Think和RL Zero四个变体,覆盖70亿和320亿参数规模,其中OLMo 3-Think 320亿被宣传为“该规模首个完全开源推理模型”[43][44] - AI2发布了完整的“模型流程”,包括训练日志、中间检查点、完整代码和配置,以及升级版的OlmoTrace工具,其透明度高于Llama(只开源权重)和Mistral(部分数据闭源)[45][46] - OLMo与Llama 4、Mistral Large 3并称为“三大开源支柱”,其战略调整被视为美国开源AI领域旗帜性标杆的倒下[46][47][50] 美国开源AI生态的演变与中国的崛起 - 美国现存的开源力量存在局限:Meta的LLaMA训练数据不公开且许可有限制;谷歌的Gemma不提供完整训练数据或流程;Hugging Face的SmolLM由社区驱动但缺乏大规模训练资源;英伟达的Nemotron系列主要服务其硬件生态[54][55][56][57] - 中国开源模型在性能上已超越美国领先的开源模型,并进一步拉大差距[58] - 在OpenRouter上,过去三周中国大模型的调用量已经连续超过美国[60] - MIT与Hugging Face的联合报告显示,过去一年中国开源模型全球下载量占比达到17.1%,首次反超美国[63] - 许多美国初创企业开始依赖中国开源模型进行构建,例如Cursor的新模型Composer 2被曝套壳Kimi K2.5,Deep Cogito的Cogito v2.1被曝基模是DeepSeek[64] - 行业观点认为,开源AI已完全进入“中国时间”,未来大模型的“安卓版”可能只能在中国出现[65][66] 相关项目与人员背景 - 汉娜·哈吉希尔齐是开源多模态人工智能基础设施加速科学发展项目(OMAI)的联合首席研究员,该项目为期5年,耗资1.52亿美元,由英伟达和美国国家科学基金会联合资助,年均资助约3000万美元[17][18][31] - 阿里·法哈迪曾联合创立AI2的衍生公司Xnor.ai,该公司于2020年被苹果以约2亿美元的价格收购[14] - 微软穆斯塔法·苏莱曼的超级智能团队自去年11月起组建,已从谷歌、Meta、OpenAI、Anthropic等巨头以及AI2和华盛顿大学聘请了大量人才[21] - AI2临时CEO皮特·克拉克表示研究所仍致力于其使命以及与NSF和Nvidia的合作关系,包括OMAI计划[52]
企业级AI Agent,选开源还是闭源?
36氪· 2026-03-27 21:50
行业背景与现状 - 2026年初,OpenClaw开源AI Agent工具在GitHub上走红,其核心是AI能自主拆解任务、调用工具并交付结果,完成了对全市场的教育[3] - 国内大厂如阿里、飞书、微信等纷纷推出或接入AI原生工作平台和AI助手,闭源产品风头正劲[3] - 与此同时,开源市场也在快速发展,以超级麦吉(Super Magic)团队在3月20日开源3.0版本并打出全球首个企业级开源AI Agent平台旗号为代表[5] - AI Agent正从“参谋”向“执行者”角色转变,从后台走向前台[8] 传统AI Agent(龙虾)在企业级应用的短板 - **个人属性太强**:设计为运行在个人电脑上的本地软件,采用一对一服务模式,难以支持销售等角色与CRM、财务、邮件等多系统同时协作的需求[8] - **安全边界模糊**:缺乏企业级应用所需的核心要求,如数据不出企业、权限精确管控、审计全程可追溯[8] - **协同能力缺失**:无法支持现代企业项目制管理、知识沉淀复用、多人并行协作等基本运转逻辑[8] 超级麦吉的企业级解决方案 - **核心定位**:瞄准传统AI Agent无法触及的企业深水区,在绝对安全与可控的基础上,提供“拿来即用”的企业级精品数字员工[9] - **安全与管控**: - 支持私有化部署,让企业将整个平台部署在私有环境中[10] - 每个Agent运行在独立的沙盒容器中,与主系统处于不同VPC,实现多租户完全隔离[10] - 权限可精确到每一个操作,不同员工和部门只能看到权限内的信息[10] - 提供全量的操作审计,记录每一次Agent调用、数据访问和决策产出,满足合规要求[11] - 设计人机协同管理闭环,高危操作(如删除数据、发送邮件)需经人工确认[11] - **开放生态与集成**: - Agent完美兼容Anthropic Skills生态与OpenClaw Skills生态,企业可自由调用全球开源社区的能力[11] - 帮助企业打通内部数据孤岛,将ERP、CRM、数据库等封装成可统一调用的接口,AI可自动完成跨系统数据调取与分析[13] - **成本控制**:提供精细化的成本控制,管理者可精确控制每个部门、每个用户、每个Agent的每日预算,使AI投入明码标价[13] - **内容生成能力**:脱离单一入口绑定,可生成可视化看板、PPT、专业报告等可交付内容[21] - 例如,为不同客户生成千人千面的专属邀请海报,整个流程只需几分钟[23] 开源模式的优势与战略意义 - **自主与可选择**:企业可根据自身需求打通系统、设定AI管控粒度,并积累内部Skills成为核心资产[24] - **避免被锁定**:企业可自由选择各种模型与基础设施,不会因平台调价、模型迭代或厂商政策变动而被卡脖子[24] - **数据资产私有化**:所有对话、文件、流程数据都在企业自身环境中持续沉淀,不会流向平台方[24] - **透明与安全**:开源代码透明,企业可审计每一行逻辑,避免恶意代码或后门带来的灾难性风险[24] - **满足特定行业需求**:满足政府机构的数据保密红线、金融机构的本地化部署与合规要求、制造业巨头的独特信息系统架构对接需求[25] 大厂策略的局限性 - 大厂策略依赖于自身生态(如阿里悟空内置钉钉、飞书aily封装进办公套件、腾讯workbuddy接入微信),试图用平台存量换市场快速渗透[17][18] - 该策略的隐含前提是企业所有数据和流程都应在其生态内运转,但现实情况复杂,企业数据往往散落在ERP、CRM、OA、数据库及数十种SaaS工具中[19] - 大厂标准化产品难以处理历史悠久的旧系统架构和复杂的跨系统调用需求,其生态围墙可能成为效率的藩篱[19] - 庞大的用户基础与历史包袱可能成为转型的诅咒,产品改动需考虑沉重的历史包袱和原有用户习惯[19] - 部署方式多与自家云及通讯产品绑定,交互常被限制在窄小的聊天窗口,以纯文本或简单图片展示,影响内容生成的天花板[19] 企业级数字员工市场的产品形态 - 超级麦吉提供“养好的企业级精品数字员工”,用户可在数字员工市场中直接雇佣已训练好的专家级Agent,如调研分析、数据处理、内容生成等[30] - 这些Agent交付的是最终结果(如PPT、数据看板、专业报告、Excel文件),而非需要二次加工的素材[31] - **典型工作流示例**: - 销售早上打开平台即可看到推送的客户跟进待办[31] - 可快速检索历史会议记录,并以可交互的分析界面呈现,包含智能播放器、会议纪要、量化数据、权力动态、意图分析等内容[31] - 通过自然语言指令(如“帮我回顾一下上周和XX的会议…”),几秒内即可提取关键内容并以可视化会议看板形式呈现[31] - AI可自动生成报价单、调用邮件服务发送、并创建后续日程[32] - 上传拜访录音可自动分析并将跟进状态、沟通要点更新至CRM[33] - 可根据客户画像快速分析并推荐上百家潜在企业,将原需一周的工作压缩到几十分钟[33] - **编队协同作战**:不同Agent(如调研、内容、设计、财务Agent)可各司其职,实时互通,协同交付完整成果(如调研报告)[33] - 数字员工军团可7×24小时在云端持续运行,关闭浏览器也不会停止,成为随时待命、交付完整可用结果的数字员工[33] 行业未来展望 - 企业与企业之间的竞争力差异,未来可能将不仅来自于资本、技术、规模,同样也来自于Agent的使用频率与深度[35] - 企业级AI Agent的竞争已进入深水区,关键在于能否解决企业的组织、流程、数据和协作本质问题[34]
英伟达押注OpenClaw并添加安全层,详解NemoClaw工作原理
搜狐财经· 2026-03-18 06:02
核心观点 - 英伟达在GTC大会上宣布推出NemoClaw堆栈,旨在通过增强隐私和安全性来加强并推广OpenClaw智能体平台,将OpenClaw定位为个人AI的基础,并预示企业AI智能体的发展将加速软件和知识工作的代际转变 [2][4] - 公司同时成立了Nemotron联盟,联合多家AI实验室和开发者,通过共享资源与计算来推进开源AI模型的发展,旨在加速AI进展并加强开放的生态系统 [5][6] 产品发布:NemoClaw与OpenShell - NemoClaw是一个新的软件堆栈,专为加强OpenClaw智能体平台而构建,旨在解决OpenClaw因自主能力和访问用户信息而带来的重大安全风险问题 [2][6] - NemoClaw集成了英伟达新推出的开源运行时OpenShell,该运行时通过执行基于组织策略的防护措施、将模型沙盒化来增强数据隐私和智能体安全性,并提高智能体的可扩展性 [3][6] - OpenShell由英伟达与CrowdStrike、思科和微软安全等安全公司合作构建,以确保其与其他网络安全工具的兼容性 [3][7] - NemoClaw可通过单个命令安装,在任何平台上运行,并允许在本地系统上使用任何编码智能体,包括英伟达自己的Nemotron开放模型系列 [3] - 通过隐私路由器,NemoClaw允许智能体结合使用云端的前沿模型和本地模型,帮助在隐私防护措施内训练智能体完成任务 [3] 战略定位与行业愿景 - 英伟达将OpenClaw视为个人AI的基础,并与OpenClaw创始人合作,称该智能体平台是“历史上最重要的软件发布” [2] - 公司CEO黄仁勋提出,OpenClaw预示了一条新路径:智能体即服务,而非传统的软件即服务 [5] - 推进企业AI智能体将“加速软件和知识工作的代际转变”,企业软件的下一阶段将完全关于专业化智能体 [4] - 英伟达的新Vera Rubin基础设施旨在支持这种智能体AI驱动,据称将在过程中降低成本 [4] - 英伟达希望额外的安全性能让OpenClaw智能体更受欢迎、更易于访问,风险比目前更小,从而让企业更安心地使用AI智能体为员工完成以前不会采取的行动 [3] 生态合作与开发者支持 - 开发者即日起可访问英伟达的Agent Toolkit和OpenShell,可与LangChain一起使用,或直接从GitHub下载以在本地运行 [5] - 企业可以通过AWS、Google Cloud和Microsoft Azure等云提供商创建和部署AI智能体 [5] - 英伟达成立了Nemotron联盟,初始成员包括Thinking Machines Lab、Perplexity、Cursor、Mistral AI和Sarvam等模型开发者和AI实验室 [5][7] - 联盟旨在通过共享资源和计算推进开源AI,加速AI模型进展,将智能扩展到任何单一模型之外,并加强开放的生态系统 [6][7] - 作为合作首例,Mistral AI和英伟达将共同开发一个在英伟达DGX™云上训练的开放模型并开源结果,该模型也将成为英伟达即将推出的Nemotron 4模型系列的基础 [5]
阿里千问核心技术团队生变
第一财经· 2026-03-04 12:35
核心人事变动 - 阿里巴巴千问大模型技术负责人林俊旸于3月3日夜间在社交平台宣布卸任,其未来是否离开阿里巴巴尚不明确 [3] - 林俊旸宣布后,千问团队多位核心技术人员相继发布告别帖,包括Qwen Code负责人惠彬原、Qwen3.5/VL/Coder核心贡献者Kaixin Li等 [3] - 有千问团队成员在社交平台表示,林俊旸的离开非常突然,就在宣布前一日,团队还在讨论新想法、处理招聘事宜并信心满满地规划未来项目 [4] 团队影响与贡献 - 团队成员Tianyi Bai表示,在林俊旸的支持下,团队在一月中旬接到为Qwen3.5版本交付的任务后,于二月中旬就圆满完成了目标 [5] - 林俊旸被描述为团队的关键支持者和导师,在操作智能体项目中带领团队从零开始搭建强化学习基础设施,并克服了庞大的工程挑战与资源协调问题 [5] - 多位开发者和AI从业者感谢林俊旸及其团队对开源AI的贡献,有合作者提到曾在北京时间早上6点仍在与千问团队协同工作 [6] - 部分千问员工在社交平台转发“Qwen is nothing without its people”,强调团队人员的重要性 [6] 产品进展与行业反响 - 阿里巴巴于2月16日除夕夜开源了新一代千问大模型Qwen3.5,该模型实现了模型架构创新 [5] - 3月2日晚,阿里巴巴再次开源千问3.5系列模型,此举获得了特斯拉CEO埃隆·马斯克的公开评论,称其“智能密度令人印象深刻” [5] - 林俊旸在宣布卸任前最后一条动态是转发并感谢马斯克的上述评论 [5] 变动背景与行业观点 - 有消息称,此次人事变动可能与外部技术人才空降、千问的商业目标推进以及内部团队调整有关 [7] - 阿里巴巴前技术副总裁贾扬清对此事发表观点,赞扬了林俊旸对千问开源的绝对贡献,并指出企业平衡开源与商业存在困难 [7] - 贾扬清认为,能够凝聚社区的技术负责人是不可替代的,社区追随的是使命而非仅仅是公司品牌,对企业而言,留住创新人才是生存之本 [7]
阿里千问负责人林俊旸突然离职,AI圈刷屏:Qwen 开源时代要变了吗?
AI前线· 2026-03-04 10:26
核心事件与人事变动 - 2025年3月初,阿里巴巴通义千问(Qwen)系列大模型的核心技术负责人林俊旸(93年出生,阿里最年轻P10)宣布卸任离职,其离职消息在业内引发广泛关注与讨论[2][3] - 林俊旸的离职被部分业内人士评价为“一个时代的结束”,社区反应强烈,认为其个人对Qwen团队和开源社区至关重要,甚至有观点将其离职与公司未来股价表现相联系[6][7][8] - 外界传闻阿里云CEO正对Qwen进行更直接的管理与监督,并引入了一位可能来自Google Gemini团队的新负责人,安排在现有领导层之上,这被认为是近期出现离职潮的可能原因之一[5] 林俊旸的职业履历与技术贡献 - 林俊旸于2019年加入阿里巴巴达摩院,2020年因具备“语言学+技术”复合背景,被分配至周靖人领导的智能计算实验室,成为多模态融合项目M6的重要开发者[3] - 2022年,在阿里内部AI资源整合中,M6路线被确立为集团通用大模型基础技术,林俊旸因在模型架构和工程化方面的表现,从核心开发者晋升为项目主管,主导研发了OFA(One-For-All)和Chinese CLIP等关键多模态预训练项目[3] - 2022年底,阿里将达摩院相关团队并入阿里云成立通义实验室,林俊旸被任命为通义千问系列大模型技术负责人,全面负责核心模型研发与技术战略规划[4] - 在其推动下,团队花费近一年时间攻克三项核心难题,推出了Qwen3系列开源模型[4] - 2025年10月,林俊旸在Qwen团队内部亲自组建了机器人与具身智能小组,显示出团队向大模型之外的新方向拓展[5] 行业反响与评价 - 多位行业人士高度评价林俊旸的贡献,称其为“AI/大语言模型发展史中最杰出的领导者之一”,是一位“传奇研究者”,其领导使Qwen成为最优秀的开源模型之一,并推动了整个科技行业的进步[9] - 社区认可其工作,认为在其他人收紧开源时,林俊旸及其团队通宵达旦工作,证明了开放权重模型可以与投入上千亿美元的实验室保持竞争速度[7][8] - 前阿里云副总裁贾扬清发表个人看法,赞扬Qwen的开源努力与林俊旸的巨大贡献,并指出在开源与商业之间找到平衡非常困难,同时强调“人和影响力”的重要性,认为社区追随的是使命而不仅仅是公司标志[12] 关于开源模式与公司战略的讨论 - 外界猜测,随着管理层变动,未来更先进的Qwen模型可能会逐渐转向闭源,认为公司可能正在尝试复制Google Cloud与Gemini的商业模式[5] - 贾扬清以RethinkDB等为例,指出开源理想与商业优先级之间存在摩擦是常见情况,并强调对于企业而言,保持创新能力并留住创新人才是“生存问题”,而非“可选项”[12][13] - 贾扬清在回应质疑时透露,其曾将阿里云内一个长期难以产生收入的AI与数据部门,带成了阿里云增长最快的业务单元,并负责运营为早期模型(如M6、AliceMind)提供AI基础设施支持的系统AI实验室[14]
智谱股价飙升24%,外国网友直呼“GLM-5是最好的开源模型”
格隆汇· 2026-02-24 13:14
公司股价表现 - 智谱(2513.HK)股价于新闻发布当日重拾升势,盘中一度飙升24.64%,报698港元 [1] 新产品发布与市场反响 - 公司于2月12日正式推出新一代旗舰模型GLM-5,迅速引爆资本市场 [1] - 有媒体总结称,GLM-5把开源AI拽进了长任务时代 [1] - 外国网友评价GLM-5是“最好的开源模型”,并认为其“极大拉小了和Claude Opus 4.6之间的距离” [1] 新产品技术特性与定位 - GLM-5旨在推动编程范式从“Vibe Coding”(氛围编程)转向“Agentic Engineering”(智能体工程) [2] - 该模型在前代GLM-4.5的智能体、推理与编程能力基础上,采用稀疏注意力技术以大幅降低推理成本,同时保持长上下文能力无损 [2] - 公司为GLM-5构建了一套新型异步强化学习基础设施,通过将生成过程与训练过程解耦,大幅提升了后训练的迭代效率 [2] - GLM-5提出了全新的异步Agent强化学习算法,使模型能够更有效地从复杂、长程交互中学习 [2] 新产品性能表现 - GLM-5在编程开发场景中平均性能较上一代提升超20% [1] - GLM-5在主流的开放基准测试中实现了SOTA性能 [2] - GLM-5在真实世界编程任务中展现出前所未有的能力,在处理端到端软件工程挑战方面超越了此前所有开源基线 [2]
早报|美团2025年预亏超233亿元;美军将向中东增派第二航母;携程、高德等6家出行平台被约谈;荣耀原研发部总裁被批准逮捕
虎嗅APP· 2026-02-14 08:28
地缘政治与外交 - 美国总统特朗普证实美军将向中东地区派出第二个航空母舰打击群以施压伊朗 [2] - 中共中央政治局委员、外交部长王毅在慕尼黑会见美国国务卿鲁比奥 [3] - 第62届慕尼黑安全会议进入第二日议程,聚焦国际秩序崩塌风险,美国国务卿鲁比奥将发表讲话阐述美国外交政策 [24] - 中方回应日本扣押中国渔船,希望日方严格遵守《中日渔业协定》并公正执法 [23] 航空航天与科技公司动态 - SpaceX正考虑在计划中的首次公开募股中采用双重股权结构,以强化创始人埃隆·马斯克的控制权 [4] - 谷歌DeepMind CEO Demis Hassabis表示,目标在2026年将AI设计的抗癌药物送入临床试验,并预测未来18个月左右将迎来机器人技术的突破时刻 [28][29] - 阿里巴巴集团主席蔡崇信强调,开源AI对国家数据主权具有重要意义,是维护国家主权的战略支柱 [29][30][31] 资本市场与公司事件 - Anthropic正着眼于潜在的IPO并预计今年上市,新增拥有带领大型公司成功上市经验的董事会成员 [5] - 恒生指数公司宣布,恒生指数成份股数目将由88只增加至90只,新加入宁德时代、洛阳钼业和老铺黄金,剔除中升集团控股有限公司 [8] - 天风证券因涉嫌信息披露违法违规及违法为股东提供融资合计超90亿元等被中国证监会立案调查,拟被罚款1500万元,相关高管被处以警告、罚款及市场禁入措施 [13] - 原华为终端BG多媒体技术部部长、荣耀研发管理部总裁邓某因涉嫌非国家工作人员受贿罪被批准逮捕,其涉嫌利用职务便利为供应商谋取利益并收取好处费 [15][16] 互联网与出行平台监管 - 金融监管总局等三部门联合对携程旅行、高德地图、同程旅行、飞猪旅行、航旅纵横、去哪儿旅行等六家出行平台企业进行约谈,要求规范与金融机构合作的借贷业务营销行为 [9] 公司经营与业绩 - 美团发布盈利预警,预计2025年度将录得亏损约人民币233亿元至243亿元,而2024年度则录得溢利约人民币358.08亿元,亏损主要源于核心本地商业分部转亏及加大海外业务投入 [10] - 河南省矿山起重机有限公司在年会上发放总额超1.8亿元的年终奖,该公司2025年累计盈利为2.7亿元 [22] 能源与大型项目 - 海洋石油工程股份有限公司与意大利Saipem公司组成的联合体成功中标卡塔尔能源液化天然气公司项目,总合同金额约40亿美元,海油工程份额逾8亿美元 [26][27] 汽车行业动态 - 长城汽车董事长魏建军回应有中间商在美国运作长城汽车MPV一事,称“还在顺利推动” [21] 半导体行业动态 - 商务部回应荷兰企业法庭对安世半导体案裁决结果,希望荷方为双方企业协商解决纠纷创造有利条件,以维护全球半导体产业链供应链稳定 [18][19]
“DeepSeek-V3基于我们的架构打造”,欧版OpenAI CEO逆天发言被喷了
36氪· 2026-01-26 15:44
Mistral CEO关于DeepSeek-V3架构来源的言论引发争议 - Mistral联合创始人兼CEO Arthur Mensch在访谈中表示,中国在AI领域实力强劲,并指出DeepSeek-V3及后续版本是在Mistral于2024年初发布的首个稀疏混合专家模型架构基础上构建的,两家公司采用了相同的架构[1] - 该言论在网络上引发了广泛质疑和批评,有网友直接指责Mistral在胡说八道,并认为其试图通过“岁月史书”来挽回面子[2][15] 双方稀疏混合专家模型的技术对比与发布时间 - Mistral的Mixtral论文与深度求索的DeepSeek论文在arXiv上的发表时间仅相差3天,两者研究的都是稀疏混合专家系统,旨在通过稀疏激活降低计算成本并提升模型能力[4][9] - 尽管目标相似,但两者的技术思路存在根本区别:Mixtral偏向工程思维,旨在证明强大基础模型与成熟MoE技术结合可超越更大稠密模型;而DeepSeek的核心在于算法创新,旨在解决传统MoE中专家“学得太杂”和“重复学习”的问题,是对MoE架构的重新设计[9] DeepSeek-V3与Mixtral的架构差异分析 - 在专家结构上,Mixtral沿用了标准MoE设计,每个专家是一个完整的FFN块;DeepSeek则提出了细粒度专家分割,在总参数量不变的情况下将大专家切分为许多小专家,以实现更灵活的组合和更精准的知识习得[11] - 在路由机制上,两者都采用GShard风格的Top-K路由器,但DeepSeek改变了传统门控机制和专家结构,引入了不参与路由、总是被激活的共享专家,而路由专家参与Top-K竞争[11] - 架构差异导致知识分布不同:Mixtral的知识分布是扁平的,通用与特定知识混杂在同一专家内;DeepSeek的知识分布是解耦的,共享专家负责通用知识,路由专家负责特定知识[12] 关于Mistral后续模型被指采用DeepSeek架构的争议 - 有网友指出,于2025年12月发布的Mistral 3 Large基本上照搬了DeepSeek-V3采用的架构[6][13] - 网友认为,不可否认的是深度求索最终在稀疏MoE、MLA等技术上获得了更大的影响力,并批评Mistral已不再是当初惊艳开源圈的公司[14][17] 行业动态与后续发展 - 围绕基础模型的竞争将持续,深度求索被曝已经瞄准了春节档发布新模型[19] - 相关论文链接显示,Mixtral论文发布于2024年1月,DeepSeek论文紧随其后[19]