开源
搜索文档
在OpenAI炼Agent一年半,回国做出首个开源Agent训练框架!这个30岁清华天才却说:创业不是技术命
AI前线· 2025-08-23 13:32
吴翼个人背景与职业经历 - 吴翼拥有姚班、伯克利、OpenAI、清华等亮眼背景,是ACM世界奖牌得主和IOI教练,曾亲历Facebook 2012崛起、字节跳动2016-2018高速成长期以及OpenAI爆火前关键阶段 [2] - 创立的边塞科技在2024年被蚂蚁收购,团队4年规模化强化学习成果积累至开源项目AReaL,这是一个完全异步的强化学习训练框架,专为大型推理模型设计,在Github已收获2.4k stars [2] - AReaL完全围绕Agent打造,定位独特,自称没有竞品 [2] OpenAI工作经历与决策文化 - 加入OpenAI源于Google Headcount限制,OpenAI作为非盈利机构无此限制,面试后第二周即获录用 [4] - OpenAI内部以evidence驱动决策,强调bottoms-up、快速迭代、无master plan的文化,研究员被当作mini-CEO [12] - GPT系列工作较bottom up,如GPT早期由Alec Recford一人主导,ChatGPT原型几人开发后爆火,不在OpenAI原计划内 [12] - 团队目标明确后不过度规划,激进寻找evidence并调整迭代,资源富裕与否不影响组织逻辑,AI时代放大穷团队能力 [13] - Codex团队7周从0到1推出产品,体现创业精神,但创新是长跑,需慢跑寻找evidence后冲刺,盲目冲刺可能错过evidence [14][15] 强化学习与竞赛观点 - ICPC、IOI等竞赛被类比为sports programming,类似电子竞技,涉及技巧和心理因素,非纯粹算法思维和编程速度考验 [6] - 大模型在IMO、IOI等竞赛挂零因模型未ready即推出,通用推理模型如Google/OpenAI已实现IMO金牌,专用模型如字节也取得不错成绩,大模型攻克竞赛是迟早的事 [6] - Gemini和OpenAI在IMO夺金明确归功于RL训练,竞赛未来参考围棋/Dota发展,因AI出现可能产生新规定和训练方式变革 [7] 创业经历与行业观察 - 中国创业公司几乎无机会走OpenAI路线,创业需看客观机会和势,非主观导向,当前中国非技术创业好时机,纯AI技术创业需慎重 [19][25] - 边塞科技创业期间困扰多属人性层面,非技术或商业问题,团队私下交流多,强调共同做大蛋糕而非分蛋糕 [27] - 创业非技术命题,时间窗口关键,决策抓住时间点即成功,错过非主观错误,建议多尝试以提高概率 [28] - 硅谷资源更多,对技术创业者更友好,国内创业是身心灵修炼场,中国互联网时代创造过奇迹,AI时代仍有机会 [17] AReaL框架与技术路线 - AReaL是面向大模型智能体训练的强化学习框架,目标让人更快训练出更好Agent模型,一切围绕Agent设计,自称无竞品 [8][36] - 团队从2020年开始做开源规模化强化学习工作,从MAPPO、SRL、ReaLHF到AReaL一脉相承,均围绕RL scaling [34][35] - 好的RL框架需好且快(产出SOTA模型且快)和好用(用户简单修改代码完成定制),AReaL-lite发布后实现全面重构 [37] - 开源RL训练框架基本是中国人天下,但头部公司如OpenAI、Anthropic有更好infra和团队,资源更优 [38] - AReaL围绕Agent打造,但也可训练代码模型和泛化模型,Agent应用不一定需RL训练,但资源成本下降后RL可训练更好Agent模型 [39] Agent技术未来展望 - Multi-Agent是必要方向,因Agent workflow复杂需多智能体配合,智能体普及后交互和算法逻辑更复杂,带来更多算法和infra机会 [41] - Agent将成为大模型交互形式主流,从被动变主动,自主探索和工作时间空间扩大,算法提升空间大,新范式一定会出现 [42]
重组AI帝国!到处“挖人”的扎克伯格,又有新动作!
证券时报网· 2025-08-20 19:50
公司战略调整 - Meta于8月20日宣布将超级智能实验室拆分为四个独立团队 包括TBD Lab、FAIR、PAR和MSL Infra 体现从研究导向向工程落地的战略转型 [2][4] - TBD Lab负责前沿大模型研发 由前Scale AI首席执行官Alexandr Wang领导 团队采用多负责人制并汇聚来自谷歌、苹果、OpenAI的顶尖人才 [3] - FAIR专注基础AI研究 由Robert Fergus领导 但原负责人杨立坤未在重组中被提及头衔 反映基础研究地位弱化 [3] - PAR团队致力于AI技术产品化 如Meta AI助手和智能眼镜 由GitHub前首席执行官Nat Friedman等共同领导 [4] - MSL Infra专注于AI算力与基础设施建设 由工程副总裁Aparna Ramani掌舵 呼应公司高昂的资本支出计划 [4] 技术路线转变 - TBD Lab讨论将下一代AI大模型改为闭源模式 放弃原Llama 4路线 从头开发性能更强的新模型 [1][5] - 闭源决策与扎克伯格"不会开源全部模型"表态一致 标志公司从全面开源转向选择性闭源 [5] - 杨立坤被边缘化是战略转向标志性信号 其长期倡导开源理念 Llama系列曾被视为AI民主化象征 [5] 人才竞争与组织问题 - 扎克伯格发起硅谷罕见AI人才争夺战 为挖角OpenAI、Anthropic等公司核心研究人员支付惊人溢价 个别薪酬包高达1亿美元 [7] - 公司员工留存率仅64% 在头部科技公司中垫底 对比Anthropic为80%、谷歌DeepMind为78%、OpenAI为67% [8] - 关键人才持续流失 包括前FAIR负责人Joelle Pineau、Llama核心研究员Angela Fan等 [7] - 内部存在末位淘汰制和高压考核体系 员工须在半年内证明业务水平否则面临淘汰 工作动力源于恐惧而非使命认同 [8] - 高管技术路线分歧严重 团队权责重叠 部门间存在截胡项目和窃取成果等乱象 协作困难 [8] 资源投入与收购 - 为挖角Scale AI首席执行官Alexandr Wang 公司豪掷超140亿美元收购Scale AI 49%股份 [3] - 基础设施团队设立凸显算力先行战略决心 呼应公司高昂年度资本支出计划 [4]
英伟达开源9B参数小模型,比Qwen3快6倍
量子位· 2025-08-19 13:25
小模型技术发展 - 英伟达推出新型小型语言模型Nemotron Nano v2 该9B模型在复杂推理基准测试上准确率与Qwen3-8B相当或更高 速度提升6倍 [1][7] - 模型设计目标为兼顾推理与非推理任务的统一模型 支持"思考"预算控制 用户可指定允许"思考"的token数量 [8] - 模型采用生成推理过程后输出答案的机制 允许跳过中间推理步骤但可能降低复杂推理准确率 展示推理过程可显著提升答案质量 [10][11] 模型性能表现 - 在NeMo-Skills套件测试中 AIME25达72.1% MATH500达97.8% GPQA达64.0% LiveCodeBench达71.1% [16] - 指令遵循和长上下文测试表现优异 IFEval达90.3% RULER 128K测试达78.9% BFCL v3和HLE基准也有提升 [16] - 模型经过FP8精度预训练 使用20万亿token 采用Warmup-Stable-Decay学习率调度 后训练包含SFT/GRPO/DPO/RLHF [19][21] 开源与数据发布 - 公司首次开源用于创建模型的绝大部分数据 包括预训练语料库 [4][23] - 发布两个基础模型NVIDIA-Nemotron-Nano-12B-v2-Base和NVIDIA-Nemotron-Nano-9B-v2-Base 均支持128k上下文长度 [22] - 预训练数据集包含66万亿token 分为Nemotron-CC-v2/Nemotron-CC-Math-v1/Nemotron-Pretraining-Code-v1/Nemotron-Pretraining-SFT-v1四个类别 [26][27] 技术实现细节 - 模型压缩后支持在单个NVIDIA A10G GPU(22GiB内存)进行128k token上下文推理 采用基于Minitron的压缩策略 [25] - 通过截断思维链训练解决模型在预设思维链外"思考"的问题 实现精确的思考预算控制 [12] - 预训练阶段计算量达1.45E+24 FLOPS 能耗708.3MWh 后训练阶段计算量7.25E+22 FLOPS 能耗35.6MWh [5] 行业战略布局 - 公司构建Nemotron生态 采取开源策略 近期连续发布Llama Nemotron Super v1.5和Nemotron Nano v2 [29][30] - 开源模型对标国内Qwen3系列 展现与国外科技巨头闭源路线差异化的战略选择 [32] - 模型当前支持在线试用 公司持续强化在AI领域的技术影响力 [22][33]
深度|英伟达最新挑战者Cerebras创始人对话谷歌前高管:我们正处于一个无法预测拐点的阶段
Z Potentials· 2025-08-15 11:53
核心观点 - AI芯片公司Cerebras致力于构建全球最快、最大的AI计算硬件,其芯片比已知最大芯片大56倍,专注于加速稀疏线性代数运算以提升AI计算效率[3][8][11] - 行业正经历新一轮半导体、软件和硬件革命,开源生态对初创公司至关重要,Meta和DeepSeek推动OpenAI加入开源模型竞争[6][18][19] - AGI发展受电力供应限制,大型数据中心需1.5吉瓦核电站支持,美国电力基建严重不足[42][45][46] 突破计算极限:Cerebras芯片的创新 - Cerebras的WSE芯片通过整合计算与内存单元,实现比传统芯片快近两个数量级的AI计算速度,特别优化Transformer等模型的矩阵运算[8][11][34] - 芯片设计从底层数学原理出发,专注稀疏线性代数加速,避免专用架构陷阱,在Transformer诞生前已确立技术优势[10][11] - 每token成本以每年10倍速度下降,类比汽车发动机80年演进压缩至5年完成[12][16] 硬件与软件的协同演进 - 硬件需与AI算法协同设计,团队需包含顶尖研究人员预判技术方向,系统级优化涉及I/O结构、提示缓存等工具[11][24] - NVIDIA的CUDA生态形成技术壁垒,但未来五年技术栈可能重构,多种路径并行发展[10][16] - 推理需求呈指数增长,用户日均使用频次从1-2次跃升至20次,驱动计算量爆发[32][33] 全球化竞争与开源战略 - AI竞争呈现中美两极格局,中国通过开源模型在非洲、中亚等地区拓展影响力[18] - 开源使初创公司能以1.5美元/百万token成本对抗封闭模型的100美元定价,推动技术民主化[19] - 智能手机端LLM应用可能改变产业格局,离线场景能力成为新竞争维度[19][20] AGI发展瓶颈与关键指标 - 电力成为核心制约因素,单个数据中心需匹兹堡全市1/3电量(1吉瓦),美国需新建92座核电站满足需求[42][45][46] - 衡量AGI进展的指标尚未标准化,每秒token数反映用户体验,但传统SaaS指标已失效[33][34] - Scaling Law持续生效但拐点未知,强化学习需成千上万倍计算量,行业处于爆发期[28][29][32] AI对齐与安全挑战 - 对齐测试方法在行业共享,但自我改进系统的持续对齐尚未解决,存在信息隐瞒风险[36][37][38] - 安全责任主要由软件和人类团队承担,硬件层作用有限[35][39] - 欧洲可通过国家战略发展主权AI,需培养工程师群体并明确经济优先级[40][41]
龙科中芯董事长胡伟武:华为开源鸿蒙给龙芯开了一扇窗
新浪财经· 2025-08-15 06:14
根据提供的文档内容,该文档为网站的标准免责声明,不包含任何关于公司或行业的实质性信息。因此,无法提取与行业或公司研究相关的核心观点或关键要点。
一觉醒来,GitHub 没了?CEO 辞职,微软接管,开发者天塌了
搜狐财经· 2025-08-14 21:20
公司治理与战略调整 - GitHub首席执行官Thomas Dohmke宣布辞职并留任至年底协助交接 后续不再设立新CEO职位 [2][3][5] - GitHub整体并入微软新成立的CoreAI工程集团 由前Meta高管Jay Parikh领导 管理架构由多位微软高管直接分管 [2][4][6] - 此次调整标志着GitHub结束自2018年被收购后七年独立运营状态 成为微软AI战略的核心组成部分 [2][10][11] 业务整合与AI战略 - GitHub定位转变为微软"AI智能体工厂"的关键环节 目标是为企业及开发者提供AI智能体流水线服务 [4][7][10] - 平台将深度集成OpenAI的Copilot工具 目前用户数已突破2000万 成为AI编码领域最成功的商业化产品 [9][14][16] - 未来发展方向包括:Copilot更深度控制工作流、自动生成代码成为主导、GitHub与Azure形成AI工具闭环 [20] 平台运营数据 - GitHub平台现有超过10亿个代码库与分支 开发者数量突破1.5亿 [14] - 被IDC评为2025年AI编码和软件工程技术供应商领导者 并与Anthropic、谷歌和OpenAI合作推出多模型解决方案 [19][20] 行业影响与趋势 - GitHub Copilot被视为自个人电脑问世以来软件开发领域的最大变革 推动"氛围编程"和AI优先的开发范式 [14][20][21] - 微软通过此次整合强化AI战略 旨在将AI助手嵌入所有产品线 未来开发者角色可能转变为监督AI写代码 [14][20] - 此次变革反映软件开发行业向AI驱动模式转型 全球开发者生态可能迎来十亿开发者与数十亿AI智能体协同的新时代 [28]
大模型路线之争:中国爱开源 美国爱闭源?
21世纪经济报道· 2025-08-08 13:14
中美大模型开源与闭源路线对比 中国大模型开源现状 - 最大开源社区Hugging Face大模型开源趋势榜单前10名全部为中国开源模型 [1] - 腾讯混元世界模型作为唯二多模态模型进入榜单前两名 技术报告获Hugging Face论文热榜第一 [1] - 腾讯近期密集开源7B 4B 1B8 0B5等小规模模型 [1] - 行业头部企业如腾讯 阿里 智谱 kimi持续占据开源榜单主导地位 [1] 美国大模型闭源现状 - Meta放弃开源AI模型转向闭源开发 被学者评价为"美国基本退出前沿开源大模型竞争" [1] - OpenAI Anthropic等公司通过GPT-4 Claude等闭源模型提供API服务 建立订阅制盈利模式 [2] - 欧洲仅存个别竞争者 开源大模型领域已形成中国主导格局 [1] 技术路线差异原因 - 中国采用开源策略加速技术迭代 通过社区协作弥补单点技术不足 [1] - 开源降低行业客户接入门槛 促进金融 政务 制造等垂直领域快速落地 [2] - 美国企业通过闭源维护技术壁垒 延缓竞争对手追赶 追求高利润商业模式 [2] 未来发展趋势 - 美国公司开始尝试有限开源(如OpenAI的o4 mini小模型) 中国企业测试闭源API 显示技术路线可能交叉 [3] - 李开复指出大模型竞赛本质是中美开源与闭源路线之争 中国开源策略有助于全球生态红利 [3] - 基础模型开源抢占标准+垂直领域闭源模型可能成为长期共存模式 [3]
全球AI顶级盛会颇具亮点 投资者可关注科创板人工智能ETF及其联接基金
中证网· 2025-08-06 14:16
大会规模与展品 - 2025世界人工智能大会展示3000余项前沿展品 包括40余款大模型 50余款AI终端产品 60余款智能机器人及100余款全球首发或中国首秀新品 规模创历届之最 [1] 人才与技术交流 - 大会汇聚图灵奖得主 诺贝尔奖得主 中外院士及国际顶尖实验室代表 深入讨论AI基础设施 科学智能 智能终端 AI赋能新型工业化及AI+金融等议题 [1] 投融资服务 - 大会新设创投孵化板块 组织200余个海内外初创项目路演 百余家投资机构现场对接 提供需求发布 方案撮合及投资匹配服务 [2] - 2024年5月中国印发《加快构建科技金融体制 有力支撑高水平科技自立自强的若干政策举措》 为科技创新提供全生命周期金融服务 [2] 开源生态建设 - 大会发布《国际人工智能开源合作倡议》 推动全球共建开源生态 [2] - 中国初创公司深度求索2025年1月推出开源大模型DeepSeek-R1 国内科技企业持续推进开源战略 [2] - 中国企业开源行动加速技术迭代 推动AI技术向实体经济渗透 并为盈利空间提供保障 [2] 投资机遇 - 大会为行业整合与并购创造契机 科创板人工智能ETF(588930)及其联接基金(A类023550 C类023551 I类023552)跟踪科创AI指数(950180 CSI) 覆盖30家科创板新兴AI龙头企业 [3]
AI浪潮下,VC/PE如何抢抓投资机遇?
搜狐财经· 2025-08-03 18:35
2024年AI产业投资概况 - 2024年中国AI产业领域投资活跃,全年共有投资案例1156起,披露总投资金额近850亿元 [2] - 受AI大模型、AI芯片、智能驾驶等领域大额投资带动,除第二季度外其他三个季度AI领域披露投资金额均超过200亿元 [2] - 投资轮次偏向早期,A轮及之前案例占比接近七成,A轮、B轮平均投资金额均过亿元 [2] - 北京是投资最活跃地区,案例数326起、金额362.6亿元,前五大地区(北京/上海/深圳/江苏/浙江)合计占比案例数84.3%、金额87.8% [2] 重点细分领域与投资趋势 - AI+医疗、智能驾驶、AI基础设施等七大细分领域合计案例数占比78.4%,其中AI大模型领域投资金额260亿元占比超30% [3] - 五大行业趋势:1) AI产业基金密集落地 2) 大模型降本开源催生拐点 3) 国产算力+大模型闭环生态形成 4) 多模态大模型推动场景革新 5) AI内容生成引发伦理治理需求 [3] - 智能驾驶、AI芯片、人形机器人领域投资金额占比显著 [3] 创新资产价值与开源机遇 - 中国AI创新资产价值重估不足,部分GPU/半导体企业估值仍停留在2021年水平,如沐曦股份、燧原科技等企业收入增速将显著提升 [4] - 全球前十大开源模型有9个来自中国公司,中国在开源领域处于世界领先地位,正处于从使用者向贡献者转变的黄金窗口期 [4] - 通过开源、技术授权和海外合资实现技术全球化是重要发展方向 [4] 投资策略与赛道布局 - 小规模投入可能撬动超额回报,建议采用分散投资策略构建反脆弱性组合 [5] - 光速光合采用"重注头部"策略,例如对禾赛科技的多轮投资使其成为激光雷达全球第一 [5][6] - 联想创投重点关注全栈人工智能,特别是下一代GPU/NPU芯片架构,以及人工智能与具身智能的融合 [6] - 需建立软件付费的商业模式正循环,推动AI与应用的深度结合 [6]
促开放协作与跨界融合 2025CCF中国开源大会在上海召开
中国新闻网· 2025-08-02 21:15
开源技术前沿进展 - 2025CCF中国开源大会在上海开幕,聚焦开源大模型、开源具身智能等关键方向,学术界与产业界专家进行深度交流 [1] - 多位AI与系统软件领域资深专家分享前瞻性观点,涉及大模型、开源硬件与智能操作系统等技术方向 [3] - 清华大学郑纬民团队研发并开源高效推理系统Mooncake与KTransformers,展示系统研究对智能时代工作负载的支撑作用 [3] - 北京大学鄂维南指出AI正经历从"模型中心"向"数据中心"的范式转变,强调构建高质量数据基础设施的重要性 [3] 开源生态建设 - CCF泛在操作系统开放社区成立,由北京大学、中国电子技术标准化研究院等机构共同发起,聚焦技术研究、开源孵化、标准研制等 [4] - 全球计算联盟(GCC)开源社区战略布局启动,CCF-木兰科创开源孵化器发布,华佗开源项目捐赠仪式举行 [3] - Omni-Infer云际开源共创计划正式启动,推动开源生态发展 [3] 产学研合作与人才培养 - 上海交大校长丁奎岭表示开源是推动开放发展的重要路径,大学应成为创新源头 [4] - 上海交大与华为建立"四共"合作新范式,为鸿蒙核心技术攻关提供基础 [5] - 上海交大在国内率先成立开源鸿蒙技术俱乐部,将开源鸿蒙融入课程体系培养领军人才 [5]