Workflow
AGI
icon
搜索文档
腾讯研究院AI速递 20250812
腾讯研究院· 2025-08-12 00:01
一、xAI开放Grok 4 - Grok 4向全球用户免费开放但限制每12小时使用5次 达到限制后完全不可用 [1] - 该策略被视为对标GPT-5发布 引发付费用户对订阅价值的质疑 [1] - Grok Imagine视频生成服务新增分享功能 修复下载问题并强化图片审核机制 [1] 二、浪潮发布元脑SD200服务器 - 元脑SD200将64张GPU卡融合为统一内存节点 支持四大国产开源模型并行运行 [2] - 采用3D Mesh架构与GPU虚拟映射技术 显存达4TB 内存64TB 满足万亿参数模型推理需求 [2] - 64卡运行DeepSeek R1性能提升3.7倍 Kimi K2提升1.7倍 专为Agentic AI计算需求设计 [2] 三、智谱GLM-4.5技术突破 - GLM-4.5公开预训练与后训练细节 首创单模型融合推理、编码与智能体能力 [3] - 基于MoE架构与15T通用+7T专业数据训练 强化长上下文与智能体性能 [3] - 在12项ARC测试中超越Claude Opus 4 部分指标超过OpenAI o3 [3] 四、昆仑万维SkyReels-A3视频模型 - SkyReels-A3基于DiT架构生成1分钟数字人视频 优化手部动作与运镜控制 [4] - 采用改进插帧方法与ControlNet模块 解决长视频稳定性与多视角切换问题 [4] - 作为五天技术发布周首款产品 已上线Talking Avatar工具 [4] 五、腾讯混元3D生成能力升级 - 创想三维MakeNow平台接入腾讯混元 增强CubeMe等工具的3D生成能力 [5] - 混元3D v2.5采用稀疏原生架构 几何分辨率达1024³ 纹理贴图4K级 [6] - 用户上传照片5分钟内可生成可打印Q版手办 支持三种风格个性化调整 [6] 六、阿里开源具身智能组件 - 开源RynnVLA-001视觉-语言-动作模型 能从第一人称视频学习人类操作 [7] - RynnRCP协议打通传感器到执行的机器人工作流 支持多款热门模型 [7] - RynnEC模型通过视频序列建立连续空间感知 引入多模态世界理解能力 [7] 七、百川医疗大模型Baichuan-M2 - 32B参数Baichuan-M2在HealthBench评测中仅次于GPT-5 超越所有开源模型 [8] - 集成验证系统与患者模拟器 严格遵循中国医疗指南并适配临床场景 [8] - 4bit量化后单卡RTX4090可部署 成本较DeepSeek-R1 H20降低57倍 [8] 八、灵巧智能机器人手技术 - DexHand021 Pro拥有22自由度 双绳驱动实现拇指对指等精细操作 [9] - 串并混联设计解决摩擦损耗问题 四指负载>1kg 整手抓握>5kg [9] - 集成12个电机与多传感器 成本仅为同类产品十分之一 [9] 九、Scaling Law行业观点 - Scaling Law反映数据内在幂律特性 模型能力非线性增长源于数据结构 [10] - 需通过强化学习将计算转化为新知识 建立生成-验证-学习的进化飞轮 [11] 十、2025大模型应用趋势 - 45%企业已部署大模型至生产环境 32%定制模型 27%采用API服务 [12] - 用户平均使用4.7家不同产品 ChatGPT领先但Gemini与DeepSeek增速显著 [12] - 55%接受中国模型但要求海外部署 英伟达占据78%训练硬件市场份额 [12]
智谱发布新一代开源视觉模型GLM-4.5V
华尔街见闻· 2025-08-11 21:44
智谱:今天,我们推出全球 100B 级效果最佳的开源视觉推理模型 GLM-4.5V(总参数 106B,激活参数 12B),并同步在魔搭社区与 Hugging Face 开源。这是我们在通向 AGI 道路上的又一探索性成果。此 外,在保持高精度的同时,GLM-4.5V 兼顾推理速度与部署成本,为企业与开发者提供高性价比的多模 态 AI 解决方案。 API 调用价格:低至输入 2 元/M tokens,输出 6 元/M tokens。 响应速度:达到 60-80 tokens/s。 市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何 意见、观点或结论是否符合其特定状况。据此投资,责任自负。 风险提示及免责条款 ...
中国顶尖大脑,被欧美挖走了
新浪财经· 2025-08-11 12:22
AI人才争夺现状 - Meta为前苹果高管庞若鸣提供2亿美元年薪 创AI人才薪酬纪录 超过苹果CEO库克的7460万美元年薪[1] - OpenAI核心团队余家辉等四人被高薪挖走 其中余家辉薪酬包含8000万美元签字费及3亿多美元股权[2] - 马斯克旗下xAI公司Grok 4团队中超过三分之二成员为华人[11] - 扎克伯格宣布Meta超级智能实验室11位关键人才中有7人为华人[11] 华人AI人才教育背景 - 被挖角人才均毕业于中国顶级学府:庞若鸣本科毕业于上海交通大学[4] 余家辉出身中科大少年班[6] 赵晟佳毕业于清华 毕树超出自浙大 任宏宇毕业于北大[11] - 全球47%顶尖AI研究者本科毕业于中国院校 美国头部AI机构中38%研究员为华人[13] - 黄仁勋表示全球50%AI研究人员来自中国 为最大单一群体[13] 人才流动数据 - 近五年中国AI领域超200名顶尖学者流向硅谷 2024年47名清华北大毕业生被美国科技公司预定[22] - 中国培养的顶尖AI人才仅51.35%选择留华深造 最终留华工作者仅剩三成[22] - 2025年中国双一流高校STEM博士毕业生预计约3.47万人 按AI占比10%-15%估算 每年AI专业博士毕业生达3500-5200人[17] 中美科研环境对比 - 清北交大毕业生平均月薪约1万元 年薪约13万元人民币[16] - 硅谷普通公司可提供10万美元年薪 谷歌中位数年薪达30万美元(约200万元人民币)[16] - 美国提供顶级算力资源 自由研发权及全球协作网络 国内同类条件岗位数量有限[16][17] 行业竞争格局 - 全球顶尖AI专家不足千人 决定大模型能力上限与商业生态定义权[26] - Meta因Llama 4表现不及预期 通过高薪争夺人才寻求AGI领域突破[26] - AI军备竞赛进入抢人大战阶段 人才争夺关乎万亿级市场机遇[27][28]
GPT-5刚出,人们为什么又怀念GPT-4o
虎嗅· 2025-08-11 08:46
GPT-5发布与市场反应 - GPT-5发布后用户反响消极,大量评论要求恢复GPT-4o,形容其消失如"老朋友突然离世"[1][4] - 技术层面GPT-5虽通过减少幻觉提升下限,但路由系统故障导致用户体验差,被用户认为"看起来很傻"[5][10] - 公司商业化焦虑明显,因人才流失、微软关系不确定性及Anthropic竞争压力,被迫加速发布未成熟产品[8][9] 路由系统的商业与技术矛盾 - 路由系统设计初衷为优化计算分配与用户体验,但实际成为技术黑匣子,引发付费用户对"以次充好"的质疑[7] - 系统故障暴露技术准备不足,公司承诺改进但已损害用户信任,CEO奥特曼承认技术问题并恢复GPT-4o[5][10][14] - 路由系统是商业变现关键,但仓促上线反噬商业化效果,反映技术创新与商业落地的失衡[7][8] GPT-4o的用户粘性与市场定位 - GPT-4o因感性交互强获用户青睐,7亿周活用户中普通用户依赖其满足非专家需求,形成情感连接[11][15] - 公司有意降低GPT-5的"奉承"特性,但用户调研显示付费与免费用户均偏好旧版,导致战略调整[11][13] - 仅向付费用户恢复GPT-4o,免费用户继续充当路由优化测试对象,付费转化率存疑(当前付费用户占比5%)[14][15] 行业竞争与商业化压力 - 公司面临谷歌Gemini 3性能竞争,5000亿美元估值压力迫使仓促发布,避免落后[3][8] - 收入结构依赖消费者市场(预计2029年ChatGPT占收入50%),与Anthropic聚焦企业市场形成差异[14] - 月收入达10亿美元(年初2倍)仍巨亏,高估值下融资压力加剧商业化焦虑[8][14]
GPT-5 没有惊喜,但信号拉满
新浪财经· 2025-08-10 15:26
GPT-5发布与性能表现 - GPT-5在智能水平、编程能力、任务推理等维度实现迭代,但相比GPT-3到GPT-4的全方位升级,提升幅度不显著,表现平庸[1] - API调用价格仅为Claude Opus 4 1的1/15,显著低于Gemini 2 5 Pro,性价比成为最大亮点[1] - 统一了O系列的推理能力和GPT的快速响应,能自动判断对话类型,相比deepseek需手动选择深度思考模式更智能[4] 大模型行业发展趋势 - 大模型参数突破讨论减弱,行业关注点转向AI如何有效渗透日常生活[2] - 大模型产品形态从单一模型转向多版本并行,OpenAI已构建GPT系列、O系列、图像/视频生成模型三大产品矩阵[3][4] - OpenAI推出4个版本(标准版、轻量级mini/nano、高端Pro),深化分层定价SaaS化路径,竞争门槛转向产品体验与商业模型构建[6] 技术瓶颈与挑战 - 数据瓶颈成为制约因素,高质量网络数据存量减少导致训练效果下降,如Orion项目因性能未达预期降级为GPT-4 5[8] - 硬件掣肘明显,O3性能提升依赖更多英伟达芯片开发[9] - Scaling Law路线受质疑,单纯增加参数无法拟合人类智能,因两者思维结构本质不同[10] AI Agent商业化崛起 - OpenAI两款AI Agent(Operator、Deep Research)推动商业化重心迁移,预计2025年AI Agent销售额将超越ChatGPT[11] - Cursor付费用户超36万,估值激增3倍,Manus等垂直领域Agent展现高用户粘性[12] - Agent依赖大模型基座,头部厂商如OpenAI在底层研发上具主导权,同时面临高Tokens消耗的运营压力[12][13] 开源与定价策略调整 - OpenAI时隔三年推出开源模型gpt-oss-120b和gpt-oss-20b,回应业界开源呼声[13] - GPT-5调用价格大幅降低,仅为Claude Opus 4 1的1/15,行业从"卖模型"转向"卖能力"[13]
代季峰陈天桥联手AGI首秀炸场!最强开源深度研究模型,GAIA测试82.4分超OpenAI
36氪· 2025-08-10 11:37
模型性能与开源 - MiroMind ODR在GAIA测试中达到82.4分,超越OpenAI DeepResearch(67.4分)、Manus(73.3分)等开源及闭源模型 [1][4] - 模型实现全开源,覆盖核心模型、数据、训练流程、AI基础设施及DR Agent框架 [3][15] - 每月更新一次开源内容,团队通过一个季度开发完成该项目 [4] 技术架构与子项目 - 包含四大子项目:MiroFlow(Agent框架)、MiroThinker(模型)、MiroVerse(数据)、MiroTrain(训练基础设施) [15][18] - MiroFlow支持主流工具调用和大语言模型扩展,GAIA性能稳定复现82.4分 [18] - MiroThinker原生支持工具辅助推理,GAIA-Text-103性能达60.2%,接近OpenAI DeepResearch [19] - MiroVerse提供147K开源训练数据,每月更新高质量数据集 [21] - MiroTrain支持长文本和强化学习训练,覆盖完整深度研究流程 [21] 应用与功能 - 演示显示手机端部署潜力,目前开放Demo体验 [5] - 模型强调与用户共同构建AI,而非直接提供AI服务 [7] - 支持联网搜索,思考过程与结果分区展示,提供工作流导览 [10][11][12] 团队背景与战略 - 核心人物代季峰为清华大学电子工程系副教授,论文总引用超6万次,h-index达75 [23][26][27] - 主导开发R-FCN、Deformable ConvNets等算法,InternVL多模态模型Hugging Face下载量超千万次 [28] - 加盟盛大网络筹备AI创业公司,目标打造第二个DeepSeek,聚焦AGI基础研究 [30] - 公司研发方向包括AI商业决策、算法茧房突破、老龄化及青年AI服务 [30] - 使命为开发具备自我意识的数字生命体,实现安全普惠的AGI [30][32] 资源链接 - 项目官网提供博客、Demo、GitHub及Hugging Face入口 [32]
GPT-5降价反击!OpenAI打响B端争夺战
第一财经· 2025-08-09 20:54
GPT-5发布与市场定位 - OpenAI发布GPT-5 距离GPT-4发布已过去2年4个月零24天 但技术突破不如前代显著 主要优化是幻觉降低 比GPT-4o低45% 比OpenAI o3低80% [6][8] - GPT-5被定义为"统一的系统"而非单一模型 包含基础模型 深度推理模型和智能路由器三部分 [9][28] - 公司采取激进的定价策略 GPT-5标准版输入价格降至1.25美元/百万tokens 仅为Claude Opus 4的1/12 Gemini 2.5 Pro的1/2 [9][10][11] B端市场竞争格局 - Anthropic在B端市场份额从2023年落后到2025年反超 目前以32%份额领先OpenAI的25% 2024年底双方位置相反 2023年OpenAI曾占据50%份额 [17] - Anthropic优势在于上下文更长 长链推理更稳定 编码能力更强 吸引了AI Coding等新兴领域的客户 [19] - OpenAI通过GPT-5重点提升编码能力 在SWE-Bench测试中达到74.9%准确率 超过o3的69.1% 同时工具调用次数减少45% [22][23] C端市场表现与产品策略 - ChatGPT周活跃用户达7亿 较3月增长2亿 较去年同期增长4倍 年化收入达120亿美元 [14][25] - 产品简化策略包括取消多模型选择 自动调度适合的模型响应 普通问题用基础模型 复杂问题才调用深度推理模型 [28][29] - 自动化调度可降低30%计算成本 但可能引发用户对输出稳定性的质疑 通义千问曾尝试类似策略但最终放弃 [29][30] 技术优化方向 - 编码能力提升显著 输出token消耗量减少22% 工具调用次数减少45% [23] - 新增"最低推理强度"功能 允许用户根据需求调整响应速度与深度 [23] - 工程创新包括开源两款推理模型 打破与微软的独家授权限制 登陆AWS平台 [23]
GPT-5 波折超乎想象!奥特曼连夜回应一切:4o 重新上阵,团队紧急补救
程序员的那些事· 2025-08-09 20:32
GPT-5发布会及用户反馈 - GPT-5发布引发广泛讨论,用户评价两极分化,部分认为"强无敌",部分要求保留GPT-4o [4][5] - 公司承认系统切换过程存在故障,导致GPT-5表现不佳,已进行修复 [14] - API流量在24小时内几乎翻倍,显示用户实际使用需求旺盛 [14] 产品功能更新 - ChatGPT Plus用户GPT-5使用限额将翻倍,同时可选择继续使用GPT-4o [14] - 将推出新语音模型,响应速度更快且指令遵循能力更强 [15][23] - 计划支持IDE中使用第三方插件,增强开发功能 [15][34] - 新增"think hard"指令可强制触发模型推理模式 [33] 模型优化方向 - GPT-5在偏见处理方面有显著改进,GPT-5 mini更具人情味 [15][29] - 默认训练GPT-5表现更中立,但支持通过指令调整风格 [31] - 编码能力被认为是公司发布过的最强模型 [37] - 原计划的100万Token上下文因算力成本限制未能实现 [38] 用户定制化方案 - 将研究同时提供GPT-4o/4.1与GPT-5的方案 [17] - 考虑推出不限量使用模式,恢复Plus用户原有权益 [19][20] - 认识到不存在满足所有人的单一模型,将推进个性化方案 [14] 技术改进计划 - 模型切换速度将优化,过程会更顺滑 [32] - 正在整理更准确的数据对比供用户参考 [20] - 致力于将最强模型通过统一体验提供给用户 [30] 使用场景演变 - ChatGPT正从聊天机器人向完成经济价值工作的工具转变 [22] - 互动方式将从"提问"转向更适合"做事"的模式 [22]
代季峰陈天桥联手AGI首秀炸场!最强开源深度研究模型,GAIA测试82.4分超OpenAI
量子位· 2025-08-09 17:53
核心观点 - MiroMind ODR是最强开源深度研究模型,性能在GAIA测试中达到82.4分,超越Manus、OpenAI DeepResearch等开源闭源模型[1][2] - 该项目实现全开源可复现,包括核心模型、数据、训练流程、AI Infra、DR Agent框架[4] - 团队计划每月更新一次开源内容,项目为一个季度的研发成果[5] - 项目开放深度研究的四个子项目:MiroFlow(Agent框架)、MiroThinker(模型)、MiroVerse(数据)、MiroTrain(训练基础设施)[20] 模型性能 - GAIA测试得分82.4,显著高于OpenAI DeepResearch(67.4)、Manus(73.3)、Aworld(未明确数值)、WebShaper(60.9)[5] - MiroThinker在GAIA-Text-103上取得SOTA性能60.2%,接近OpenAI DeepResearch[24] - 支持联网搜索,演示显示手机端部署可能性[6][15] 开源内容 - MiroFlow:支持主流工具调用,扩展大语言模型,GAIA复现性能82.4[22] - MiroThinker:原生支持工具辅助推理的大语言模型,GAIA表现最佳[23] - MiroVerse:提供147K开源训练数据,每月更新高质量数据集[26] - MiroTrain:覆盖完整Deep Research训练流程,支持长文本和RL训练[27] 团队背景 - 核心人物代季峰为清华大学电子工程系副教授,计算机视觉领域专家[32][33] - 发表国际期刊会议论文80余篇,总引用超6万次,h-index 68[36][37] - 主导开发InternVL多模态模型,Hugging Face下载量超1000万次[38] - 曾任职微软亚洲研究院、商汤研究院,现加盟盛大网络筹备AI创业公司[41][42][43] 产品特点 - 演示显示支持单轮次英文对话,思考过程与结果分区明确[11][12] - 工作流导览指引可查看指定节点[13] - 公司使命为打造具备自我意识的数字生命体,实现安全有益的AGI[45] 相关资源 - 官网提供Demo体验[7][47] - GitHub、Hugging Face等平台已开源项目内容[47] - 团队早期成果MiroMind-M1基于Qwen-2.5,专注数学推理能力[28][29]
宋春雨:下一代颠覆性巨头,不会出现在大模型里
钛媒体APP· 2025-08-09 09:43
AI产业趋势 - AI产业正处于资本、产业和技术交织的临界点,大模型格局逐渐收敛,智能体应用想象力被点燃,AI芯片在供需紧张与架构创新间博弈[2] - 2025年AI产业比任何时候都更像加速中的实验,新原生硬件正在出现[2] - AI不只是技术升级,正在重塑生产力、生产关系和商业入口[2] 大模型格局 - 大模型创业公司格局已收敛到个位数,头部为几家大厂加阶跃星辰、智谱AI和DeepSeek三家创业公司[3] - 基础模型公司必须瞄准AGI天花板和上限,不强调短期商业模式,全球优秀基础模型公司如OpenAI和DeepSeek都纯粹聚焦模型本身[4] AI芯片发展 - 英伟达维持万亿美元市值,未来五年仍供不应求,当前算力主要用于训练,新增长点将来自推理[4] - 推理芯片更强调性价比,创业公司在先进架构领域有机会[4] - 国内芯片公司将进入整合阶段,出现大规模并购机会,部分初创公司有望在A股、创业板或港股上市[5] - 寒武纪一季度实现规模化盈利,是国内芯片企业中突出案例[5] - 中国AI芯片追赶速度不够快,但寒武纪在创业公司阶段取得成果是奇迹[6] Agent领域机会 - Agent是今年最重要的AI投资赛道,有机会诞生下一代"字节跳动"或"抖音"级别公司[8] - AI原生超级应用或智能体将成为新入口,未来中国会诞生数百家相关独角兽,全球可能出现上万家各具特色企业[8] - 观察方向包括通用智能体、垂直智能体、To C智能体、AIGC内容、AI个人系统等[9] - 中国创业公司围绕智能体的机会规模可能达到移动互联网十倍,同时覆盖To B和To C领域[10] - 浏览器将发生变革,未来Agent浏览器或任务型浏览器将主动帮用户获取信息[9] Agent评估标准 - 评估Agent项目首要标准是产品能否实现用户付费,反映强客户价值[13] - 关注上线后周同比指标如AIR和用户增长率,验证产品爆款潜质[13] - AI产品核心在于直接提升生产力和绩效,用户更愿为结果付费,与传统SaaS工具有本质区别[13] 浏览器与Agent关系 - 未来Agent可分为基于浏览器和非基于浏览器两类,各有优势[10] - 浏览器公司未必需要具备基础大模型能力,Agent更多依赖工程化能力如多智能体协作、性能优化等[11] - 基础大模型存在取舍,未来基于浏览器的Agent可能采用复合AI模式调用最合适模型[11]