Workflow
HealthBench
icon
搜索文档
OpenAI “猛攻”应用赛道,医疗 AI 只是开始
图源:Tomohiro Ohsumi / Getty Images 导语:OpenAI 正进一步深耕医疗健康领域,计划更直接地向医疗健康客户销售产品。 为加码医疗健康领域布局,人工智能巨头 OpenAI 近日引入两位重磅高管。据悉,该公司已聘请 医疗社交平台 Doximity 联合创始人、前首席战略官内特·格罗斯 ( Nate Gross ) ,以及 Instagram 前联合产品负责人阿什利·亚历山大 ( Ashley Alexander ) ,牵头推进其医疗业务 下一阶段的发展。 OpenAI 医疗业务下一阶段布局:高管背景与战略细节 在此之前, OpenAI 在医疗领域的参与模式以技术赋能为主——即通过为其他企业提供 AI 技术 支持、合作开展医疗人工智能研究等方式参与,尚未推出自有医疗技术产品直接参与市场竞争。 不过,近几个月来, OpenAI 扩张医疗业务版图的意图已逐渐明晰。今年 8 月 GPT-5 模型发 布会上, CEO 山姆·奥特曼重点展示了 ChatGPT 在医疗领域的应用能力,称该模型具备 " 专 业博士级别的专业知识水平 " 。 奥特曼表示: "GPT-5 能够帮助用户理解自身健康状况 ...
百川智能发布开源医疗增强大模型Baichuan-M2:反超OpenAI登顶世界第一
IPO早知道· 2025-08-12 09:52
百川智能发布Baichuan-M2开源医疗大模型 - 百川智能于8月11日发布开源医疗增强大模型Baichuan-M2,在医疗能力上反超OpenAI最新开源模型gpt-oss120b,成为世界第一的开源医疗大模型 [2][4] - Baichuan-M2在权威医疗评测集HealthBench上获得60.1分,超越OpenAI gpt-oss120b的57.6分,以及Qwen3-235B、Deepseek R1、Kimi K2等其他顶尖开源模型 [4] - 在更具挑战性的HealthBench Hard子集评测中,Baichuan-M2以34.7分成为全球第二款超过32分的模型,仅次于GPT-5 [11] 模型性能与技术优势 - Baichuan-M2经过极致轻量化处理,量化后精度接近无损,可在RTX4090上单卡部署,相比DeepSeek-R1 H20双节点部署方式成本降低57倍 [7] - 针对急诊、门诊等对交互速度要求高的场景,基于Eagle-3架构优化的Baichuan-M2 MTP版本在单用户场景下实现74.9%的token速度跃升 [7] - 模型针对国产主流芯片进行了专门开发和适配,使医疗机构可利用现有硬件条件快速部署 [7] 医疗大模型行业发展趋势 - OpenAI自2024年下半年起将医疗作为模型能力提升的首要方向,投入大量资源 [2] - OpenAI发布权威医疗评测集HealthBench,包含5000个逼真多轮医疗对话,由262位来自60个国家的医生参与制定48562条评价标准 [2][3] - 医疗被视为大模型最有前景和最具价值的方向,正成为头部企业的共识 [4] - 在真实医疗场景中,GPT-5和Baichuan-M2的问答质量已超越资深医生,特别是在知识更新速度和全面性上 [11] 商业模式与竞争优势 - Baichuan-M2快速免费开源,成为医疗行业低成本快速应用部署世界顶尖医疗模型的唯一选择 [12] - 相比GPT-5未开源、未公布参数且无法私有化部署的特点,Baichuan-M2提供了更灵活的应用方案 [12]
首个“主任级AI医生”来了,AI正成为患者问诊第一站
钛媒体APP· 2025-07-24 18:11
AI在医疗领域的应用现状 - AI大模型如DeepSeek和ChatGPT被患者用于初步诊断,再与医生讨论病情,改变传统就医模式[2] - 一线城市及海外患者更倾向于使用AI了解各国诊疗指南并与医生探讨[2] - 垂类医疗大模型临床辅助实用性显著提升,例如OpenAI的HealthBench基准测试中GPT-4.1在5/7主题表现超过医生平均水平[2] 医疗AI技术进展 - 微软MAI-DxO系统在304例疑难病例测试中诊断准确率达85.5%,远超人类医生20%水平[3] - 夸克健康大模型通过中国12门核心学科主任医师笔试评测,门诊常见病场景下诊断准确率达90.78%[3][4] - 夸克健康大模型构建"慢思考"能力,通过链式推理与多阶段临床演绎路径建模提升复杂问题处理能力[3] 医疗AI的工程化与专业支持 - 夸克采用"双数据产线+双奖励机制"工程体系,划分可验证/不可验证医学数据并引入过程与结果奖励模型[4] - OpenAI与60国262位医生合作开发HealthBench,夸克健康大模型背后有千人医师团队(含400+副主任级以上专家)[4] - 医生审慎接受AI,认为个体化诊疗仍需专业人士,且患者医学知识差异影响AI理解深度[4][5] AI在医学教育与精神健康的应用 - 夸克健康月活跃医学生用户超200万(占总体50%+),主要用于解题、术语解释和教材知识点学习[6] - AI通过分析面部表情、语音语调等生物标记辅助识别抑郁症,突破"假笑"等表象误导[7] - 陪伴式AI缓解心理治疗资源不足问题,例如"AI树洞"用于筛查学生群体自杀倾向并干预[8] AI应用的伦理与长期影响 - 过早使用电子产品或AI治疗工具可能影响儿童发育,需更多数据验证伦理风险[8][9] - AI心理治疗效果依赖数据库质量,负面社区内容可能加剧不良影响[8] - 专业医学界持续观察AI对人类认知和行为模式的潜在长期影响[7][9]
电力设备行业周报:腾讯资本开支高增,AI智能体产业持续发展
华鑫证券· 2025-05-20 09:25
报告行业投资评级 - 对电力设备板块维持“推荐”评级 [7][18] 报告的核心观点 - 腾讯 2025Q1 资本开支 275 亿元,同比+91%,超市场预期;阿里 2025Q1 资本开支 246 亿元,AI 战略持续见效,云智能集团季度收入增长加速至 18%,AI 相关产品收入连续七个季度三位数增长 [5][15] - AI 智能体及应用持续发展,AI 智能体 manus 开放注册,OpenAI 发布新基准 HealthBench 等 [6][17] - 柴发是量利齐升且逻辑最顺的板块,推荐潍柴重机;建议关注 HVDC 环节的科华数据、通合科技;关注服务器电源及液冷环节的英维克、申菱环境、欧陆通 [7][17] 根据相关目录分别总结 投资观点 - 腾讯 2025Q1 资本开支 275 亿元,同比大增,主要用于 IT 基础设施和数据中心;阿里 AI 战略见效,云智能集团收入增长加速 [5][15] - AI 智能体 manus 开放注册,OpenAI 发布新基准等,AI 建设高峰未到,核心待应用出现 [6][17] - 推荐关注潍柴重机、科华数据、通合科技、英维克、申菱环境、欧陆通等公司 [7][17] 行业动态 - 5 月 12 日,越疆科技与腾讯云合作,自变量机器人完成数亿元 A 轮融资 [20] - 5 月 13 日,昆仑万维开源交互式世界基础模型,OpenAI 打造 AI 健康系统评估标准 [20][21] - 5 月 14 日,腾讯发布 2025Q1 报告,傲意科技完成 B++轮融资 [21][22] - 5 月 15 日,阿里发布 Q1 报告,vivo 公开自研大模型数据筛选方法,DeepMind 发布 AlphaEvolve [23][24] - 5 月 16 日,腾讯提升模型泛化能力,Google 推出光影控制项目 [25] 光伏产业链跟踪 - 硅料价格下滑,采购慢,海外发货受影响,五月产出或下探,库存消化是核心问题 [26] - 硅片价格承压,部分厂商减产,市场情绪偏空 [26] - 电池片价格有跌有稳,国内外价格有差异,东南亚电池片输美订单需求有支撑但政策存变数 [27][30] - 中国组件价格有调整,海外市场大致稳定,各区域 TOPCon 组件价格有不同表现 [31][34] - 光伏辅材价格有涨有跌,各产品价格走势受供需等因素影响 [40][41] 上周市场表现 - 电力设备板块上涨 1.39%,排名第 8 名,跑赢上证综指和沪深 300 指数,光伏板块上涨 1.60 个百分点 [43] - 申万电力设备成分股中,周涨幅前五为京运通等,周跌幅前五为新雷能等 [45] 储能市场数据跟踪 - 2025 年 5 月第 1 周,EPC 和储能系统设备招标规模超 3GWh,在建/并网投运项目规模超 5GWh [51] - 河北交投隆化蝉鸣山储能电站、新疆华能项目全容量并网,甘肃武威凉州区项目 EPC 招标 [51][52]
电力设备行业周报:腾讯资本开支高增,AI智能体产业持续发展-20250519
华鑫证券· 2025-05-19 15:32
报告行业投资评级 - 对电力设备板块维持“推荐”评级 [7][18] 报告的核心观点 - 腾讯 2025Q1 资本开支 275 亿元,同比+91%,主要用于 IT 基础设施和数据中心投入,自 2024 年以来资本开支持续高速增长;阿里 2025Q1 资本开支 246 亿元,AI 战略见效,云智能集团季度收入增长加速至 18%,AI 相关产品收入连续七个季度三位数增长,未来将推动 AI+云成长期增长引擎 [5][15] - AI 智能体及应用持续发展,AI 智能体 manus 开放注册,OpenAI 发布新基准 HealthBench,OpenAI o3 表现优异,最强 AI 接近人类医生最佳水平 [6][17] - 认为柴发是量利齐升且逻辑最顺的板块,推荐关注潍柴重机;建议关注渗透率逐步提升的 HVDC 环节,推荐关注科华数据、通合科技;建议关注伴随功率提升而受益的服务器电源以及液冷环节,推荐关注英维克、申菱环境、欧陆通 [7][17] 根据相关目录分别进行总结 行业动态 - 5 月 12 日,越疆科技与腾讯云签署战略合作协议,加强技术生态联合,拓展多场景应用 [20] - 5 月 12 日,具身智能公司“自变量机器人”完成数亿元 A 轮融资,由美团战投领投、美团龙珠跟投 [20] - 5 月 13 日,昆仑万维开源交互式世界基础模型 Matrix - Game,是世界模型领域工业界首个开源的 10B +大模型 [20] - 5 月 13 日,60 个国家 262 名执业医生联手 OpenAI 打造 AI 健康系统评估标准 HealthBench [21] - 5 月 14 日,腾讯发布 2025 年第一季度报告,营收 1800.22 亿元,同比增长 13%,毛利 1004.93 亿元,同比增长 20%,资本开支 274.76 亿元,自由现金流 471 亿元 [21] - 5 月 14 日,傲意科技宣布完成 B++轮近亿元融资,由英飞尼迪资本等投资 [22] - 5 月 15 日,国家能源集团终止新疆 500MW 光伏项目组件设备采购招标,因光伏组件市场价格变化大 [22] - 5 月 15 日,阿里巴巴发布第一季度报告,营业收入 2364.54 亿元,同比增长 7%,云智能集团收入 301.27 亿,同比增长 18%,资本性支出有多项用途 [23] - 5 月 15 日,vivo 公开自研大模型数据筛选方法 PreSelect;DeepMind 发布 AlphaEvolve 进化编码智能体 [24] - 5 月 16 日,腾讯 PCG 社交线研究团队提升模型在未知意图上的泛化能力;Google 推出精准控制画面光影项目 LightLab [25] 光伏产业链跟踪 - 硅料:块状料价格下滑快,采购节奏慢,国产颗粒硅价格 33 - 36 元/公斤,海外硅料均价约 19 美元/公斤,五月新增产量 9.5 - 10 万吨,库存消化是核心问题 [26] - 硅片:受电池价格下滑和终端需求不振影响,价格承压,部分厂商减产,N 型硅片价格下探,市场止跌讯号不明朗 [26][27] - 电池片:P 型电池片价格下滑,国内成交以散单为主;N 型电池片部分规格均价下跌或持平,价格博弈激烈,五月排产变化不大,价格可能继续下跌;海外电池片价格方面,东南亚电池片输美均价较稳定,但美国贸易政策有变动可能 [27][28][30] - 组件:中国组件价格方面,五月下旬需求支撑薄弱,部分厂家有赠送让价条款,价格跌势有望止稳;海外组件价格大致稳定,各区域市场 TOPCon 组件价格有差异 [31][33][34] - 光伏辅材:本周 EVA 粒子价格降 0.7%,背板 PET 价格涨 2.3%,边框铝材价格降 0.9%,电缆电解铜价格涨 0.4%,支架热卷价格降 0.2%,光伏玻璃价格不变,各产品下周价格走势有不同预期 [40][41][42] 上周市场表现 - 电力设备板块上周上涨 1.39%,涨幅排名第 8 名,跑赢上证综指 0.63 个百分点,跑赢沪深 300 指数 0.28 个百分点,其中光伏板块上涨 1.60 个百分点 [43] - 申万电力设备成分股中,周涨幅前五为京运通(+34.34%)、通达股份(+22.51%)、凯迪股份(+10.33%)、长城科技(+10.06%)、科力尔(+9.98%);周跌幅前五为新雷能(-6.63%)、赛摩智能(-6.98%)、欧陆通(-9.21%)、科泰电源(-9.44%)、ST 华西(-14.64%) [45] 储能市场数据跟踪 - 2025 年 5 月第 1 周,EPC(含储能设备)和储能系统设备招标规模超 3GWh,进入在建/并网投运的储能项目规模超 5GWh,覆盖多省份多场景 [51] - 项目在建/并网投运方面,河北交投隆化蝉鸣山 0.3GW/1.2GWh 独立储能电站全容量并网,新疆华能 100 万光伏 + 压缩空气储能 100MW/1000MWh 项目全容量并网 [51] - 招标方面,甘肃省武威市凉州区独立储能电站项目 EPC 招标,规模 0.3GW/1.2GWh [52]
AI医疗进入精准化“深水区” :OpenAI医疗评估基准落地、大模型加速变革|AI医疗浪潮㉑
21世纪经济报道· 2025-05-17 13:05
HealthBench开源基准测试 - OpenAI推出HealthBench开源基准测试,用于衡量大语言模型在医疗健康领域的性能表现与安全可靠性 [1] - HealthBench由262位来自60个国家/地区的医生共同参与构建,整合了5000段真实的医疗对话数据 [1] - 通过48562个独特的医生编写的评分标准进行开放式评估,涵盖多个健康背景和行为维度 [1] - HealthBench的测试样本分为7个主题和5个评估维度,7个主题包括紧急转诊、专业沟通定制等,5个评估维度包含准确性、沟通质量等 [3] - OpenAI还推出HealthBench Consensus(共识版)和HealthBench Hard(困难版),共识版包含34个经医生共识验证的评估维度,困难版最高得分仅为o3模型的32% [4] - HealthBench Consensus的元评估表明,7个评估领域中的6个领域,模型打分结果与医生评分的中位数水平高度一致 [4] 大模型在医疗领域的表现 - 2023年推出的GPT-3.5Turbo得分为16%,2024年5月推出的GPT-4o得分达到32%,2024年12月推出的o3模型得分达到60% [5] - 较小规模的模型进步显著,GPT-4.1nano的表现超过GPT-4o,且成本仅为GPT-4o的1/25 [5] - 大模型在医疗领域的应用正迅速发展,评估工具和模型本身都在持续优化 [6] - 大模型的多模态能力解决了早期AI医疗存在的信息割裂和数据孤岛等问题,通过"预训练+微调"架构处理多模态医疗数据 [6] - AI可以实现跨模态数据的理解和动态时序建模,使得AI诊疗与医生的诊疗水平更加接近 [6] AI医疗市场前景 - 预计2024年—2032年,AI医疗市场将以每年43%的速度增长,市场规模有望达到4910亿美元 [6] - AI可以扩展医疗服务可及性,应用于诊断前、诊治及诊断后阶段,解决医疗人员短缺和缺乏有效分流等问题 [6] - AI辅助医生诊疗有望降低误诊率,在部分疑难杂症诊疗方面发挥协同作用 [6] 医药行业AI应用趋势 - 模型即产品:医药行业高度专业性的场景对模型适配性要求更高,未来将更多直接针对医药行业训练的模型被广泛应用 [7] - 本地与端侧部署:专业中小模型的本地部署在成本可控性、数据安全等要求更高的场景下提供极大赋能 [7] - 研发端AI应用快速拓展:随着特定场景专业模型训练的普及,研发阶段AI应用的壁垒有望被逐一消解 [8]
突发利好!A股爆拉站上3400,七部门重磅,为何美股抱科技A股抱银行?
搜狐财经· 2025-05-14 23:17
市场表现 - 上证指数午盘站上3400点 涨幅0 86% 银行板块逼近2007年牛市高点 证券 保险板块同步发力 中国人保涨停 [1][5][13] - 创业板指涨1 01% 恒生指数涨1 01% 恒生科技指数涨2 03% 市场成交额放量至1 34万亿 超2800家个股下跌 [13] - 领涨行业:非银金融(3 99%) 交通运输(1 79%) 食品饮料(1 68%) 领跌行业:国防军工(-0 74%) 美容护理(-0 39%) 机械设备(-0 37%) [15][16] 金融板块异动分析 - 高盛研报指出公募基金一季报显示低配比例最高的银行板块走势最强 超配的电子板块最弱 [2] - 公募新规要求基金业绩跑输基准超10%将影响基金经理薪酬 导致持仓向沪深300(占比45%)和中证800(占比18%)靠拢 [4] - 质疑观点认为基金经理普遍增配大金融存疑 因银行板块已处高位 且主动基金需保持超额收益能力 否则将被ETF替代 [6] 中美经济动态 - 中国调整对美加征关税税率:部分商品税率从24%降至10% 暂停实施90天 [8] - 美国4月未季调CPI同比涨2 3% 创2021年2月以来新低 交易员押注美联储9月首次降息 [10] - 美沙达成6000亿美元投资协议 英伟达向沙特公司销售1 8万枚AI芯片 股价涨超5% 市值重返3万亿美元 [12] 科技与医疗板块 - OpenAI推出医疗AI测试集HealthBench A股基因测序板块暴涨 [12] - 美股AI医疗个股自底部大幅反弹:Tempus AI涨62% Hims&Hers涨146% Grail涨93% [12] - 东财概念指数显示虚拟机器人(4 20%) 参股期货(3 95%) 券商概念(3 43%)涨幅居前 [16]
早报|苹果今年或实现脑机接口操控 iPhone/京东美团饿了么被约谈/小米车主喊话雷军:保持真诚
搜狐财经· 2025-05-14 09:55
三星 Galaxy S25 Edge 发布 - 机身厚度仅5.8mm,钛金属边框,重量163g,采用第二代康宁大猩猩玻璃陶瓷提升抗跌落能力 [4] - 配备2亿像素广角主摄+1200万像素超广角,搭载Galaxy AI编辑功能如音频橡皮擦 [4] - 搭载骁龙8至尊版移动平台,支持ProScaler屏幕超分辨率算法和mDNle画质增强技术 [4] - 提供钛灰/钛黑/钛蓝三色,12GB+256GB售价7999元,12GB+512GB售价8999元 [5][6] 制糖工厂新品发布 - 推出细丽硅胶线新品,采用食用级液态硅胶材质,结合磁吸与硅胶特性 [7] - 具备自收纳、柔磁手感、耐脏污特性,可作为数字时尚单品搭配 [7] - 首批上线0.5m规格,提供云粉/云紫两种配色 [8] OpenAI 医疗AI进展 - 推出HealthBench医疗评估标准,与全球262名医生合作构建5000个医疗对话数据集 [13] - o3模型在基准测试中超越GPT-4o两倍,近月性能提升28% [13] - 2025年4月模型(o3/GPT-4.1)生成回答质量已与"AI辅助医生"无显著差距 [14] 苹果辅助功能更新 - Apple Watch新增实时字幕功能,可将iPhone作为远程麦克风传输至耳机 [17] - Vision Pro升级缩放功能,利用摄像头系统辅助视力受损用户 [18] - 背景音功能新增EQ设置/定时关闭选项,可缓解耳鸣症状 [19] - 与环球音乐合作推出"声音疗法",结合特殊声波改善专注力 [24][25] 小米SU7 Ultra争议 - 车主质疑碳纤维双风道前舱盖功能与宣传不符,维权人数超300人 [26] - 小米回应称舱盖具备部分气流导出功能,补偿2万积分(约2000元) [26] - 专家分析可能违反《广告法》和《反不正当竞争法》 [27] 外卖平台监管 - 市场监管总局等五部门约谈京东/美团/饿了么,要求规范经营 [28] - 平台此前通过大额优惠券/免单等活动"抢客",影响商家/骑手收入 [28] 脑机接口技术 - 苹果计划年内推出脑信号控制设备技术,与Synchron合作开发 [29] - Stentrode植入设备已获FDA豁免,ALS患者可通过思维操控Vision Pro [30] - 技术将整合至Switch Control辅助功能框架,2025年发布标准 [30] 哪吒汽车动态 - 关联公司合众汽车新增破产审查案件,申请人为上海禹形广告 [31] - 去年12月起多次出现股权冻结,CEO已更换为创始人方运舟 [31] 特斯拉Optimus进展 - 公布实时活动视频,展示踢腿/张臂等动作,但需辅助绳索 [32] - 设计或为火星任务准备,与2026年底登陆计划相关 [33] - 马斯克将重点押注AI产品如Robotaxi和具身智能机器人 [35] Perplexity融资动态 - 正进行新一轮融资谈判,估值或达140亿美元 [36] - 年经常性收入从3月近1亿美元增至1.2亿美元 [38] - 计划推出Comet浏览器挑战Chrome,获投资者押注 [37] 大疆Mavic 4 Pro发布 - 配备三摄系统:1亿像素哈苏主摄+双长焦(70mm/168mm) [59] - 首搭360°旋转万象云台,支持6K 60fps HDR视频拍摄 [59] - 全向智能跟随/200m车辆检测/51分钟续航,起售价13888元 [59] 火山引擎视频模型 - 发布Seedance 1.0 lite模型,支持文生/图生视频(5s/10s) [60] - 实现影视级生成质量与速度提升,开放企业API和个人体验 [60] 阿里通义新功能 - QwenChat免费开放Deep Research功能,可自动化复杂科研任务 [63] - 结合网络信息生成全面报告,将数小时任务缩短至十几分钟 [65] 魅族Note 16系列 - Note 16 Pro:骁龙7s/6200mAh/80W快充,国补价1274.15元起 [68] - Note 16:6600mAh电池/1080P LCD屏,国补价594.15元起 [68] - 首发Flyme AIOS 2系统,Aicy助手接入DeepSeek-R1模型 [68] 淘宝新功能 - 测试"高退款人群屏蔽"功能,目前仅限天猫/服饰类商家 [67] - 可设置100%屏蔽异常退款用户,减少高退款率人群曝光 [67] 喜茶周年活动 - 13周年推出限定饮品"江边里·芝芝柑普",采用新会小青柑+普洱 [72] - 同步推出陈皮冰箱贴/柑普茶等主题周边礼盒 [72] lululemon十周年 - 庆祝Align系列十周年,5-6月举办全国"瑜"见你嘉年华 [77] - 在北京工体等七城地标开展活动,43城门店举办百场瑜伽课 [77] 星巴克联名 - 携手五月天推出佛手柑柚柚/白桃两款气泡美式饮品 [80] - 杯身印有乐队经典歌词,上海东方明珠店设主题快闪门店 [80]
Agent竞争升级国产智能体Manus宣布开放注册
上海证券报· 2025-05-14 02:45
公司动态 - Manus宣布开放注册 所有用户无需等待名单 每天可免费执行一项任务(300积分) 一次性获得1000积分奖励 同时推出付费订阅服务 分为每月19美元 39美元和199美元三个档次 [1] - Manus定位为通用型AI助手 不仅能提供想法 还能将想法付诸实践 产品一度被誉为"继DeepSeek之后 AI领域又一国产突破" 邀请码曾被炒至上万元 [1] - 字节跳动推出AI应用开发平台"扣子" 基于火山引擎和豆包大模型 用户可快速搭建智能客服 智能助手等应用 [3] 行业趋势 - 各大巨头纷纷入局Agent赛道 MCP协议等衔接工具大面积应用 使行业门槛快速下降 [2] - MCP协议(模型上下文协议)由Anthropic开发 微软 谷歌 字节 腾讯 阿里 百度等巨头宣布支持 被形容为"在不同模型之间架起桥梁" [2] - 行业从工程问题转向产品问题 比拼产品力 这被认为是中国互联网人的强项 [2] - 随着MCP协议成熟 大模型调用更灵活 属于普罗大众创造Agent的时代可能不远 [3] 技术发展 - Manus基于开源模型打造 让更多人看到AI大模型创业可能 被比喻为"人人都能去开网店" [2] - MCP协议被阿里云称为"加速AI应用爆发的'最后一公里'的连接" 使不同大模型间的组装有了通用标准 [2]
腾讯研究院AI速递 20250514
腾讯研究院· 2025-05-13 23:57
生成式AI - OpenAI为Deep Research新增PDF导出功能,支持表格、图片和可点击引用链接,向Plus、Team和Pro用户开放 [1] - 新任应用事业部负责人Fidji Simo上任后加速向企业市场转型,将AI能力与实际工作流程深度融合 [1] - AI研究助手竞争加剧,各公司从比拼功能转向优化用户体验和工作流集成,PDF导出成为企业级AI工具的基本门槛 [1] 设计垂类Agent - Lovart是首个设计垂类Agent,具备设计规范生成、图像生成、尺寸延展、图文分离等功能 [2] - 产品支持全流程设计,从需求分析到视频合成、二次修改,集成了可灵、11labs、suno等工具 [2] - 在Agent加持下设计工作流将发生重大变革,从单纯的作品创作转向完整的产品资产交付 [2] 交互式世界基础模型 - Matrix-Game是昆仑万维开源的首个10B+交互式世界基础模型,能生成连贯可控的游戏互动视频 [3] - 模型通过两阶段训练和Matrix-Game-MC数据集训练,实现了高精度的动作响应和场景泛化 [3] - 代表空间智能领域的重要突破,适用于游戏开发、影视、广告、XR等领域的内容生产革新 [3] 多模态统一CoT奖励模型 - 腾讯混元推出UnifiedReward-Think,首次实现具备长链式推理能力的统一多模态奖励模型 [4] - 该模型解决了现有奖励模型只能"表面判断"的问题,在图像生成和理解任务中性能显著提升 [5] - 模型已全面开源,包含模型、数据集和工具,代表奖励模型向具备认知理解的智能评估系统转变 [5] AI平台开放注册 - Manus AI取消邀请码制度,开放全民免费使用权限,每位用户可获得每日300积分的免费任务额度 [6] - 平台提供三档付费订阅方案(19美元、39美元、199美元/月),可解锁更多功能和优先服务 [6] - 近期完成由Benchmark领投的7500万美元融资,估值升至5亿美元,资金将用于拓展海外市场 [6] AI政策调整 - 美国废除《AI扩散规则》,认为其会扼杀创新并损害外交关系,计划推出新的简化规则 [7] - 加强对海外AI芯片管制,禁止全球使用华为昇腾芯片,并发布指南防止AI芯片转移 [7] - 沙特承诺向美国投资6000亿美元,涉及AI数据中心、航空航天等多个领域 [7] 医学基准测试 - OpenAI推出医疗评估基准HealthBench,由262名医生参与构建,包含5000段真实对话 [8] - 测试显示最新模型o3得分60%,远超早期GPT系列,且小型模型性能提升显著,成本降低 [8] - 项目开源两个版本并发布完整评估工具,基于模型的评分系统与医生判断达到相似一致性 [8] AI工厂产业革命 - 黄仁勋认为AI工厂将引领下一代产业革命,NVIDIA正在建设投资五六百亿美元的千兆瓦级AI工厂 [9] - AI首次实现了真正的数字劳动力扩充,将成为继信息和能源之后的新一代基础设施 [9] - 英伟达已从芯片公司转型为AI基础设施公司,年研发投入200-300亿美元,致力于构建全球AI生态系统标准 [9] AI智能体发展 - OpenAI计划将ChatGPT发展为个性化AI服务,预测2025年AI智能体大规模应用 [10] - 团队坚持精简高效结构和快速迭代策略,目标定位为用户核心AI订阅服务提供商 [10] - 不同年龄段对AI应用差异显著:老年人视为搜索工具,中年人视为顾问,年轻人已将其作为操作系统使用 [10]