Workflow
通用人工智能(AGI)
icon
搜索文档
智谱再获10亿融资,推出会看“苏超”的开源新模型
观察者网· 2025-07-03 18:30
核心观点 - 智谱发布新一代通用视觉语言模型GLM-4.1V-Thinking,突破多模态推理能力,并在多项评测中超越更大参数模型 [1][7][10] - 公司获得10亿元战略融资,联合上海国资打造"算电模"一体化基础设施,建设万卡集群 [3][5] - 大模型商业化加速,API调用量同比增长30倍,价格大幅下调80%-90% [12][14] - Agent平台和智能硬件成为商业化落地重点方向 [15][18][19] 技术突破 - GLM-4.1V-Thinking支持图像/视频/文档输入,引入思维链推理机制和课程采样强化学习策略 [7] - 轻量版GLM-4.1V-9B-Thinking在28项评测中23项领先10B级模型,18项持平72B的Qwen-2.5-VL [7][8] - 模型实现动态视频理解能力,可完成足球解说、GUI操作等复杂任务 [9][10] - 90亿参数模型性能超越GPT-4o,接近720亿参数的Qwen-2.5-VL [10] 资本与生态 - 年内完成5轮融资,最新10亿元融资由浦东创投和张江集团联合投资 [3][5] - 与上海仪电、浦发集团共建"算电模"设施,利用绿电直连支撑万卡集群 [5] - "模力社区"已聚集近70家垂类大模型企业,25家完成安全备案 [3] 商业化进展 - API日均Token调用量同比增30倍,消耗金额增52% [12] - GLM-4-Plus等API价格降幅达90%,推动应用普及 [14] - 推出Agent聚合平台"应用空间",启动数亿元专项扶持计划 [1][15] - 教育、医疗、企服等领域Agent落地周期有望提前 [17] 行业趋势 - 上海将发展AGI作为战略任务,重点突破算力、语料、基础模型 [6] - AI向自主智能体演进,可能催生全新商业模式 [17] - 端侧算力提升推动AI能力嵌入汽车、眼镜等智能硬件 [18][19]
美国开始抢人!一周挖走4名中国顶级人才,年薪1个亿令人咋舌
搜狐财经· 2025-07-03 17:48
全球AI人才争夺战 - Meta宣布2025年将投入600亿美元发展AI技术,并可能进一步增加投资[5] - Meta在一周内从OpenAI挖走8名核心科学家,其中4名为华人[5][9] - 为吸引人才,Meta开出1亿美元年薪的天价合同,扎克伯格亲自参与招募[9] - 新成立的"Meta超级智能实验室"由28岁华裔首席AI官亚历山大·王领导[9][11] - 被挖走的华人科学家包括ChatGPT核心开发者赵晟佳、OpenAI感知团队负责人余家辉等顶尖人才[14] 行业竞争格局 - 英伟达在7月挖走两名清华AI专家朱邦华和焦剑涛[16] - 谷歌、微软等科技巨头同样在激烈争夺AI人才[16] - OpenAI作为ChatGPT开发商,其核心团队被挖角显示行业人才争夺白热化[7] - Meta此前已投资143亿美元于亚历山大·王创立的ScaleAI[11] 中国AI人才现状 - 全球近半数AI顶尖人才为华人,但主要流向美国而非中国[18] - 腾讯举办200万元奖金的AI算法大赛,华为阿里提供百万年薪+股票期权[22] - 深圳政府推出政策,顶尖AI团队落户可获1亿元奖励[22] - 国内企业普遍要求短期商业回报,与国外允许长期研究的科研环境形成对比[25][27] 行业发展特点 - AI领域人才稀缺性导致薪酬水平急剧攀升,出现1亿美元年薪案例[1][9] - 科技公司通过高薪+自由研究环境吸引顶尖人才[27] - 人才争夺已成为国家科技竞争的核心要素[30] - 国内企业薪资水平(约200万元)与国际巨头(千万美元级)存在数量级差距[23]
Gemini负责人爆料!多模态统一token表示,视觉至关重要
量子位· 2025-07-03 14:58
Gemini多模态技术核心观点 - Gemini从设计之初就是原生多模态模型,旨在构建像人类一样感知世界的通用人工智能(AGI),视觉能力是其核心组成部分[8][9] - 最新Gemini 2.5 Pro(0605)在代码、推理和视觉能力(尤其是视频理解)上达到SOTA水平,巩固了谷歌在多模态领域的领先地位[4][16] - 多模态能力存在正向迁移效应,视觉能力的提升带动了代码处理、OCR等多项能力的整合,催生"视频转代码"等创新用例[21][24] - 采用"万物皆视觉"产品理念,将视觉应用分为基础OCR、人类专家级任务和超越人类能力的三类场景[36][38][41] 技术架构设计 - 原生多模态架构:所有模态(文本/图像/视频/音频)统一转化为token表示进行协同训练,而非拼接单一模态模型[12][13] - 视频处理技术:以1FPS采样率配合64token/帧的压缩方案,实现6小时长视频处理(200万上下文token),音频与视频帧交错对齐提升理解能力[33][31][34] - 信息损失控制:承认图像/视频token化存在固有信息损失,但通过大规模训练使模型在低采样率下仍保持优异泛化能力[14] 产品应用方向 - 视频理解突破:解决长视频注意力衰减问题,支持食谱生成、讲座笔记转换等实用功能,未来将拓展高尔夫挥杆分析等高帧率场景[18][20][34] - 交互体验革新:计划突破"回合制"交互模式,通过视觉化信息呈现(如IDE流式编程辅助)和隐含意图理解提升自然度[25][55][57] - 未来场景规划:开发物理世界交互能力(实时环境问答)、烹饪辅助等超越人类反应速度的实时应用[42][43][45] 团队与研发策略 - 人才密集型研发:需整合OCR、检测、分割等多领域专家构建统一模型,形成产品-模型反馈循环[49][50][52] - 长期技术布局:当前视觉能力作为未来自然交互的基石,重点开发个性化和同理心等拟人化特性[53][54][56]
扎克伯格晒出AI超级团队名单,11位成员中有8位是中国留学生
搜狐财经· 2025-07-03 13:12
人才流动与竞争 - Meta在一周内挖走OpenAI至少八位核心研究人员,涵盖多模态、强化学习、人类反馈训练等关键方向,引发行业震动 [2] - 跳槽者包括赵晟佳、余家辉、毕树超、任泓宇等知名研究人员,曾深度参与GPT-4、GPT-4o、o3/o4 mini等核心模型的训练与设计 [2] - OpenAI首席研究官Mark Chen表示强烈不满,称人才外流为"系统性"问题 [2] Meta的AGI战略 - 马克·扎克伯格亲自发起通用人工智能(AGI)战略重启计划,组建"超级智能小组",目标直指OpenAI、Anthropic等领先公司 [4] - 扎克伯格对Llama 4性能不满,决定放弃分散研发策略,亲自牵头组建精英级AI实验室 [4] - 新成员被集中安排在扎克伯格办公室附近,便于直接沟通,扎克伯格还亲自设宴面谈AI科学家和工程师 [4] 薪酬与人才争夺 - Meta为吸引尖端人才提供最高一亿美元的签约奖金,并配套股权与年度激励计划 [5] - OpenAI CEO Sam Altman承认Meta开出一亿美元挖角价码,部分Offer远高于硅谷平均水平 [5] - Meta首席技术官Andrew Bosworth表示顶级AI人才市场供给远小于需求,公司愿意为此付出代价 [5] OpenAI的应对措施 - OpenAI管理层全天候与被挖角人员沟通,CEO Altman几乎昼夜不息逐一联络收到Offer的研究员 [7] - 公司决定全面评估现有薪酬结构,引入更具创造力的激励机制,但强调不会牺牲公平性和团队文化 [7] - OpenAI安排短期"重整期",减少模型部署任务,让团队休整情绪、统一共识 [7] 行业整体趋势 - 谷歌为DeepMind研究员提供高达2000万美元年薪+股权激励,英伟达招募Nexusflow两位华人联合创始人 [10] - xAI以技术自主和自由度吸引创业者与前OpenAI员工,行业对核心技术人员争夺激烈 [10] - 前OpenAI成员形容AI实验室招聘如同下国际象棋,人才是关键战略资源 [10] Meta的战略背景 - Meta在社交平台领域增长停滞,Reels与Threads未能破圈,Llama模型被认为技术不领先 [12] - AGI成为Meta寻找突破的"新赌注",但变现路径模糊,面临极大不确定性 [12] 超级智能团队核心成员 - Alexandr Wang出任"超级智能团队"领导者,负责整体团队搭建与战略规划 [14] - 赵晟佳曾参与GPT-4与GPT-4o训练架构开发,主导o1与o3 mini模型优化 [16] - 余家辉主导GPT-4.1、GPT-4o多模态感知模块设计 [18] - 任泓宇聚焦模型泛化能力与复杂任务下的推理表现优化 [21] - 常慧雯参与图像生成与风格迁移模型研究 [28]
论道AI:从AGI破界到机器人新纪元丨《两说》
第一财经· 2025-07-03 11:56
AGI发展前景 - 科学家预测通用人工智能(AGI)可能在5年内突破 需融合信息智能 物理智能和生物智能三大浪潮 [5] - 信息智能技术如ChatGPT有望5年内通过新版图灵测试 达到"类人"水平 但自然图像/视频生成还需4-5年沉淀 [5] - AGI发展面临核心挑战是大语言模型存在"边界认知缺失" 导致混淆已知与未知 产生"幻觉" 不同场景需不同应对策略 [6] AI在科研和医疗领域的应用 - AI for Science被视为颠覆科研的关键力量 清华大学智能产业研究院正打造跨学科基础模型整合海量科研数据 [8] - AI能革命性缩小药物筛选范围 从传统数十亿分子库精准聚焦至数百万高潜力候选者 提升研发效率 [8] - 全球首个虚拟医院系统诊断能力以百倍速提升 两天积累的诊疗经验相当于三甲医院数年 准确率高达96% [8] 人形机器人产业发展 - 人形机器人是AI物理智能的突破方向 预计十年后全球机器人数量将超越人类 [10] - 人形机器人技术核心在于多模态VLA模型 但落地需融合多学科技术 真正进入家庭还需5-10年 [10] - 中国将主导全球人形机器人产业 依托全产业链基础 年轻工程人才红利和统一超大市场三大优势 [10] 中国在AI领域的竞争优势 - 中国特有的"市场-制造-人才"黄金三角 将推动其在机器人时代复制移动互联网的成功轨迹 [10] - 年轻工程师通过"1%的算法优化撬动10倍算力追赶" 展现技术创新能力 [3]
大模型“上海队”进入丰产阶段(神州看点) 生成的“猫跳水”视频一周获三亿播放量
人民日报· 2025-07-03 08:10
公司技术突破 - 公司推出全球首个开源大规模混合架构推理模型MiniMax-M1 在权威评测中位列全球开源模型第二 [1] - 模型支持100万token上下文输入 可处理整本英文版《三体》 性能媲美谷歌Gemini2.5Pro [2] - 视频生成模型Hailuo 02生成的"猫跳水"视频在海外社交平台获3亿播放量 [1] - Hailuo 02在复杂动作表现上优于谷歌Veo3 开创"动物奥运会"AI视频新品类 [3][4] 研发与成本优势 - M1强化学习阶段仅花费53.5万美元 远低于行业千万美元级投入 [2] - 采用"稀疏激活"MoE架构 节省计算开销 与行业主流稠密架构形成差异化 [8] - 组建导演、编剧、美术复合团队打磨Hailuo 02 要求达到电影质感和5%影视应用比例 [5] 产品落地与市场表现 - 视频生成应用Hailuo AI已服务200个国家和地区 累计生成3.7亿个视频 [6] - 公司坚持技术驱动路线 认为好模型是产品落地的核心驱动力 [6] - 作为国内少数坚持基座模型研发的创业公司 在行业收缩期保持研发投入 [7] 行业地位与政策环境 - 公司入选大模型"上海队" 与商汤、书生·浦语等共同构成区域AI产业生态 [9] - 上海提出2025年建成世界级AI产业生态 规划建设多个大模型创新孵化器 [9] - 公司早在2022年底ChatGPT爆火前就已布局AGI 展现前瞻性技术路线选择 [1]
由互联网1994-2024历史回溯,展望AI的趋势
2025-07-02 23:49
纪要涉及的行业和公司 - **行业**:AI 行业、影视行业 - **公司**:百度、万达电影、博纳影业 纪要提到的核心观点和论据 - **AI 发展趋势** - 2025 年是相对平淡的过渡期,行业重心转向技术积累和应用深化,如百度在图声视频领域的表现印证此趋势[1][2] - AI 发展分上下半场,2023 - 2031 年为上半场,进行生成式 AI 和巨神智能基础设施建设;2031 - 2038 年为下半场,需新的技术形态和路径迁移,与互联网 30 年发展历程相似[1][3][4] - 目前处于基础设施建设阶段,类似 PC 互联网时代,商业模式探索需时日,爆发性增长预计在 2031 年后[1][5][6] - **AI 领域变化** - 2025 年最大变化是应用层面跟进,2023 年硬件投资先行,2025 年软件应用显著增长,预计 2027 年应用加速落地[1][9] - 未来几年,2026 年自动驾驶及相关硬件成关键领域,2027 - 2028 年生成式 AI 和巨神 AI 协同推动应用落地并探索新业务和变现模式,2030 年前后红利见顶,2032 年后新技术路径催化生态发展[1][10] - **AI 落地情况** - AI 将在 PC、智能手机、XR 眼镜、大模型、agent、机器人等六个空间同步落地,形成虚拟现实融合的新生态系统,关键节点有 2023 年的 Big Bang 和 2025 - 2026 年人形机器人进入消费端市场[3][11] - **AI 行情与选股策略** - 2023 - 2025 年纯粹依赖概念炒作的 AI 行情可能告一段落,需关注实际业绩表现[12] - 下半年选股侧重能出业绩的大公司,如影视行业的万达电影和博纳影业,可能用 AI 降成本并创造爆款内容[3][14] - **AI 与互联网不同点** - 用户需求动态刷新,需思考新技术解决的问题 - 链接人与人交互形成生态圈,但目前需求萎缩,流行反向识别工具 - 建设性难见,但摧毁性明显,搅动行业竞争格局 - 各行业需观察其在摧毁重建过程中的真实作用,如影视行业用 AR 短剧降成本并寻求爆款[13] 其他重要但可能被忽略的内容 - 互联网发展关键节点:1994 - 2004 年是基础设施建设及门户网站兴起时期;2004 - 2008 年是传媒互联网过渡时期;2008 - 2012 年是 PC 向移动转型时期;2012 - 2023 年是移动互联网红利飞升时期[7] - AI 发展需关注类似关键节点,如生成式 AI 和巨神 AI 成熟,以及智能动力学等新技术形态出现带来的变革[8]
直播预告:「开箱」华为盘古首个开源大模型
机器之心· 2025-07-02 18:40
大模型开源与技术突破 - 华为一次性开源两个大模型:70亿参数的稠密模型「盘古 Embedded」和720亿参数的混合专家模型「盘古 Pro MoE」,同时开源基于昇腾的模型推理技术 [1] - 盘古 Pro MoE在SuperCLUE 5月榜单中位列千亿参数量以内模型国内并列第一,智能体任务表现比肩6710亿参数的DeepSeek-R1,文本理解与创作领域排名开源模型第一 [2] - 盘古 Embedded在学科知识、编码、数学和对话能力方面优于同期同规模模型 [2] 核心技术优势 - 采用分组混合专家MoGE算法、自适应快慢思考合一、全链路高性能推理系统优化等技术,显著提升训练和推理效率 [3] - 盘古 Embedded通过迭代式蒸馏微调、延迟容忍调度框架、双系统快慢思维框架三大技术,实现推理延迟降低与精度保持,尤其适合移动设备等资源受限场景 [12][13] - 盘古 Pro MoE通过MoGE架构解决负载不均衡问题,结合混合并行优化、通算融合、量化压缩等方法,在昇腾910/310硬件平台实现推理效率大幅提升 [16] 模型性能与部署 - 盘古 Pro MoE总参数720亿,激活参数160亿,在4000+昇腾NPU集群长稳训练,通用知识、数学推理等能力优于同规模模型 [16][17] - 昇腾平台针对盘古 Pro MoE优化H2Parallel分层混合并行、TopoComm拓扑亲和通信、DuoStream多流融合等技术,实现极致推理性能 [20][21] 行业应用与演示 - 盘古 Pro MoE将在通用问答、复杂推理、金融场景等任务中进行实例演示,展示模型特性 [24] - 技术分享涵盖模型训练优化、推理系统实践及实际应用效果,面向学术与行业从业者提供洞察 [4][5] 研究团队背景 - 核心研究人员来自华为诺亚方舟实验室和先进计算与存储实验室,包括陈汉亭(大语言模型架构专家)、唐业辉(MoE模型训练专家)、李小松(推理系统优化专家)等,均在国际顶会发表多篇高引论文 [14][18][22]
李飞飞最新YC现场访谈:从ImageNet到空间智能,追逐AI的北极星
创业邦· 2025-07-02 17:49
ImageNet与深度学习革命 - ImageNet通过提供大规模高质量标记数据集(80000+次引用)为神经网络成功奠定基础 开创数据驱动范式转变[8][9] - 项目历时18年孵化 初期算法错误率达30% 直到2012年AlexNet结合GPU算力实现突破性进展[11][14][16] - 采用开源策略和挑战赛形式推动社区共建 加速计算机视觉从物体识别向场景描述演进[12][17][19] 空间智能与World Labs布局 - 三维世界理解被定义为AI下一前沿 进化史长达5.4亿年 远超语言进化维度[24][25] - World Labs聚焦构建3D世界模型 团队集结NERF作者等顶尖人才 解决组合复杂度更高的空间智能问题[25][27][28] - 应用场景覆盖元宇宙内容生成 机器人学习 工业设计等 需突破硬件与内容创作双重瓶颈[30][32] 人工智能发展路径 - 视觉智能发展轨迹清晰:物体识别→场景叙事→空间智能 每阶段需5-10年技术积累[17][19][22] - 语言模型与视觉模型存在本质差异 前者依赖序列数据 后者需处理不适定的3D→2D投影问题[27][28] - AGI定义存在争议 但空间智能被视为实现通用智能不可或缺的组成部分[23][44] 创新方法论 - "智识上的无畏"被反复强调为突破性创新的核心特质 贯穿从学术研究到创业全过程[6][37][42] - 数据质量优先于数据规模 需采用混合方法获取高质量3D空间数据[47][48] - 跨学科研究与小数据理论被视为学术界可突破的潜在方向[41][42] 行业生态观察 - 开源策略应根据商业模型差异化选择 Meta等平台型企业更倾向全面开源[46] - 学术机构在计算资源劣势下 需聚焦工业界尚未关注的底层理论问题[41][42] - 硬件迭代与生成模型结合将推动元宇宙等场景落地[30][32]
奥特曼怒斥小扎7亿挖人:唯利是图的雇佣兵,将被使命打败
虎嗅· 2025-07-02 11:40
事件概述 - OpenAI首席执行官Sam Altman就Meta大规模挖角其核心研究员一事,向全体员工发出内部信,表达不满并强调公司使命与文化[3] - Altman批评Meta的“开价挖人”模式缺乏体面,并认为这将带来严重的文化副作用[5][6] - 行业顶级AI人才争夺战白热化,薪酬待遇被推至前所未有的高位,反映出人才是AGI竞争中最关键的资源[17][23] OpenAI的立场与回应 - Altman强调留在OpenAI才是致力于构建通用人工智能研究者的正确选择,并暗示公司将重新评估整个研究团队的薪酬结构[4] - Altman表示OpenAI股票的潜力远超Meta,并承诺将很快公布更多确保公平性的薪酬举措,而非仅针对被挖角的个别员工[9] - Altman对公司研究路线、计算资源投入、团队文化及解决现有问题的能力表达了强烈信心[10][11] - 公司认为自身真正在乎以正确方式构建AGI,而其他公司更将其视为实现其他目标的手段[12] - Altman预测当Meta转向其他项目或忙于守护其社交护城河时,OpenAI仍将专注于其使命[14] Meta的挖角行动与薪酬细节 - Meta高调官宣成立超级智能团队实验室,并大批挖走OpenAI核心研究员[3] - 据报,Meta向顶尖研究人员开出的薪酬高达4年3亿美元,首年总薪酬超过1亿美元[17] - Meta已向OpenAI员工至少发出10份如此高额的报价,并承诺提供最先进的GPU资源供其随意使用[17] - 薪酬方案以股票为主,且第一年股票直接兑现,极具诱惑力[18] - Meta曾试图招募一位OpenAI高级研究员担任首席科学家,但遭到拒绝[18] - Meta首席技术官Andrew Bosworth回应称,所谓高额待遇仅适用于极少数高级岗位,并指出“1亿美元报价”是包含股票激励、签约奖励在内的总包,而非一次性奖金[21][22] 行业影响与人才竞争态势 - 顶级AI研究员的薪酬已远超大型科技公司CEO,例如微软CEO 2024年总薪酬为7910万美元,Uber CEO同期约为3940万美元[20] - Altman承认Meta确实招募到一些优秀人才,但认为其并未挖到顶尖人才,且一直在向下寻找[8] - 行业内部对人才流动的看法存在分歧,一方面认为追求高薪合理,另一方面则强调使命感和文化的重要性[15][16]