Workflow
HealthBench
icon
搜索文档
电力设备行业周报:腾讯资本开支高增,AI智能体产业持续发展
华鑫证券· 2025-05-20 09:25
2025 年 05 月 19 日 腾讯资本开支高增,AI 智能体产业持续发展 推荐(维持) 投资要点 | 分析师:傅鸿浩 | S1050521120004 | | --- | --- | | fuhh@cfsc.com.cn | | | 分析师:臧天律 | S1050522120001 | | zangtl@cfsc.com.cn | | 行业相对表现 表现 1M 3M 12M 电力设备(申万) 7.4 -4.1 3.5 沪深 300 3.1 -0.6 5.7 市场表现 -30 -20 -10 0 10 20 30 (%) 电力设备 沪深300 资料来源:Wind,华鑫证券研究 相关研究 1、《电力设备行业周报:OpenAI 计 划加大海外投资,持续看好 AIDC 环 节》2025-05-12 2、《电力设备行业周报:海外云厂 财报超预期,AI 反弹趋势明确》 2025-05-06 3、《电力设备行业周报:光伏组件 维持涨价,人形机器人产业进展密 集》2025-03-31 ▌腾讯资本开支高增,AI 智能体产业持续发展 腾讯公布 2025Q1 财报,值得关注的是 2025Q1 资本开支 275 亿元,同比+91 ...
电力设备行业周报:腾讯资本开支高增,AI智能体产业持续发展-20250519
华鑫证券· 2025-05-19 15:32
报告行业投资评级 - 对电力设备板块维持“推荐”评级 [7][18] 报告的核心观点 - 腾讯 2025Q1 资本开支 275 亿元,同比+91%,主要用于 IT 基础设施和数据中心投入,自 2024 年以来资本开支持续高速增长;阿里 2025Q1 资本开支 246 亿元,AI 战略见效,云智能集团季度收入增长加速至 18%,AI 相关产品收入连续七个季度三位数增长,未来将推动 AI+云成长期增长引擎 [5][15] - AI 智能体及应用持续发展,AI 智能体 manus 开放注册,OpenAI 发布新基准 HealthBench,OpenAI o3 表现优异,最强 AI 接近人类医生最佳水平 [6][17] - 认为柴发是量利齐升且逻辑最顺的板块,推荐关注潍柴重机;建议关注渗透率逐步提升的 HVDC 环节,推荐关注科华数据、通合科技;建议关注伴随功率提升而受益的服务器电源以及液冷环节,推荐关注英维克、申菱环境、欧陆通 [7][17] 根据相关目录分别进行总结 行业动态 - 5 月 12 日,越疆科技与腾讯云签署战略合作协议,加强技术生态联合,拓展多场景应用 [20] - 5 月 12 日,具身智能公司“自变量机器人”完成数亿元 A 轮融资,由美团战投领投、美团龙珠跟投 [20] - 5 月 13 日,昆仑万维开源交互式世界基础模型 Matrix - Game,是世界模型领域工业界首个开源的 10B +大模型 [20] - 5 月 13 日,60 个国家 262 名执业医生联手 OpenAI 打造 AI 健康系统评估标准 HealthBench [21] - 5 月 14 日,腾讯发布 2025 年第一季度报告,营收 1800.22 亿元,同比增长 13%,毛利 1004.93 亿元,同比增长 20%,资本开支 274.76 亿元,自由现金流 471 亿元 [21] - 5 月 14 日,傲意科技宣布完成 B++轮近亿元融资,由英飞尼迪资本等投资 [22] - 5 月 15 日,国家能源集团终止新疆 500MW 光伏项目组件设备采购招标,因光伏组件市场价格变化大 [22] - 5 月 15 日,阿里巴巴发布第一季度报告,营业收入 2364.54 亿元,同比增长 7%,云智能集团收入 301.27 亿,同比增长 18%,资本性支出有多项用途 [23] - 5 月 15 日,vivo 公开自研大模型数据筛选方法 PreSelect;DeepMind 发布 AlphaEvolve 进化编码智能体 [24] - 5 月 16 日,腾讯 PCG 社交线研究团队提升模型在未知意图上的泛化能力;Google 推出精准控制画面光影项目 LightLab [25] 光伏产业链跟踪 - 硅料:块状料价格下滑快,采购节奏慢,国产颗粒硅价格 33 - 36 元/公斤,海外硅料均价约 19 美元/公斤,五月新增产量 9.5 - 10 万吨,库存消化是核心问题 [26] - 硅片:受电池价格下滑和终端需求不振影响,价格承压,部分厂商减产,N 型硅片价格下探,市场止跌讯号不明朗 [26][27] - 电池片:P 型电池片价格下滑,国内成交以散单为主;N 型电池片部分规格均价下跌或持平,价格博弈激烈,五月排产变化不大,价格可能继续下跌;海外电池片价格方面,东南亚电池片输美均价较稳定,但美国贸易政策有变动可能 [27][28][30] - 组件:中国组件价格方面,五月下旬需求支撑薄弱,部分厂家有赠送让价条款,价格跌势有望止稳;海外组件价格大致稳定,各区域市场 TOPCon 组件价格有差异 [31][33][34] - 光伏辅材:本周 EVA 粒子价格降 0.7%,背板 PET 价格涨 2.3%,边框铝材价格降 0.9%,电缆电解铜价格涨 0.4%,支架热卷价格降 0.2%,光伏玻璃价格不变,各产品下周价格走势有不同预期 [40][41][42] 上周市场表现 - 电力设备板块上周上涨 1.39%,涨幅排名第 8 名,跑赢上证综指 0.63 个百分点,跑赢沪深 300 指数 0.28 个百分点,其中光伏板块上涨 1.60 个百分点 [43] - 申万电力设备成分股中,周涨幅前五为京运通(+34.34%)、通达股份(+22.51%)、凯迪股份(+10.33%)、长城科技(+10.06%)、科力尔(+9.98%);周跌幅前五为新雷能(-6.63%)、赛摩智能(-6.98%)、欧陆通(-9.21%)、科泰电源(-9.44%)、ST 华西(-14.64%) [45] 储能市场数据跟踪 - 2025 年 5 月第 1 周,EPC(含储能设备)和储能系统设备招标规模超 3GWh,进入在建/并网投运的储能项目规模超 5GWh,覆盖多省份多场景 [51] - 项目在建/并网投运方面,河北交投隆化蝉鸣山 0.3GW/1.2GWh 独立储能电站全容量并网,新疆华能 100 万光伏 + 压缩空气储能 100MW/1000MWh 项目全容量并网 [51] - 招标方面,甘肃省武威市凉州区独立储能电站项目 EPC 招标,规模 0.3GW/1.2GWh [52]
AI医疗进入精准化“深水区” :OpenAI医疗评估基准落地、大模型加速变革|AI医疗浪潮㉑
21世纪经济报道· 2025-05-17 13:05
HealthBench开源基准测试 - OpenAI推出HealthBench开源基准测试,用于衡量大语言模型在医疗健康领域的性能表现与安全可靠性 [1] - HealthBench由262位来自60个国家/地区的医生共同参与构建,整合了5000段真实的医疗对话数据 [1] - 通过48562个独特的医生编写的评分标准进行开放式评估,涵盖多个健康背景和行为维度 [1] - HealthBench的测试样本分为7个主题和5个评估维度,7个主题包括紧急转诊、专业沟通定制等,5个评估维度包含准确性、沟通质量等 [3] - OpenAI还推出HealthBench Consensus(共识版)和HealthBench Hard(困难版),共识版包含34个经医生共识验证的评估维度,困难版最高得分仅为o3模型的32% [4] - HealthBench Consensus的元评估表明,7个评估领域中的6个领域,模型打分结果与医生评分的中位数水平高度一致 [4] 大模型在医疗领域的表现 - 2023年推出的GPT-3.5Turbo得分为16%,2024年5月推出的GPT-4o得分达到32%,2024年12月推出的o3模型得分达到60% [5] - 较小规模的模型进步显著,GPT-4.1nano的表现超过GPT-4o,且成本仅为GPT-4o的1/25 [5] - 大模型在医疗领域的应用正迅速发展,评估工具和模型本身都在持续优化 [6] - 大模型的多模态能力解决了早期AI医疗存在的信息割裂和数据孤岛等问题,通过"预训练+微调"架构处理多模态医疗数据 [6] - AI可以实现跨模态数据的理解和动态时序建模,使得AI诊疗与医生的诊疗水平更加接近 [6] AI医疗市场前景 - 预计2024年—2032年,AI医疗市场将以每年43%的速度增长,市场规模有望达到4910亿美元 [6] - AI可以扩展医疗服务可及性,应用于诊断前、诊治及诊断后阶段,解决医疗人员短缺和缺乏有效分流等问题 [6] - AI辅助医生诊疗有望降低误诊率,在部分疑难杂症诊疗方面发挥协同作用 [6] 医药行业AI应用趋势 - 模型即产品:医药行业高度专业性的场景对模型适配性要求更高,未来将更多直接针对医药行业训练的模型被广泛应用 [7] - 本地与端侧部署:专业中小模型的本地部署在成本可控性、数据安全等要求更高的场景下提供极大赋能 [7] - 研发端AI应用快速拓展:随着特定场景专业模型训练的普及,研发阶段AI应用的壁垒有望被逐一消解 [8]
突发利好!A股爆拉站上3400,七部门重磅,为何美股抱科技A股抱银行?
搜狐财经· 2025-05-14 23:17
市场表现 - 上证指数午盘站上3400点 涨幅0 86% 银行板块逼近2007年牛市高点 证券 保险板块同步发力 中国人保涨停 [1][5][13] - 创业板指涨1 01% 恒生指数涨1 01% 恒生科技指数涨2 03% 市场成交额放量至1 34万亿 超2800家个股下跌 [13] - 领涨行业:非银金融(3 99%) 交通运输(1 79%) 食品饮料(1 68%) 领跌行业:国防军工(-0 74%) 美容护理(-0 39%) 机械设备(-0 37%) [15][16] 金融板块异动分析 - 高盛研报指出公募基金一季报显示低配比例最高的银行板块走势最强 超配的电子板块最弱 [2] - 公募新规要求基金业绩跑输基准超10%将影响基金经理薪酬 导致持仓向沪深300(占比45%)和中证800(占比18%)靠拢 [4] - 质疑观点认为基金经理普遍增配大金融存疑 因银行板块已处高位 且主动基金需保持超额收益能力 否则将被ETF替代 [6] 中美经济动态 - 中国调整对美加征关税税率:部分商品税率从24%降至10% 暂停实施90天 [8] - 美国4月未季调CPI同比涨2 3% 创2021年2月以来新低 交易员押注美联储9月首次降息 [10] - 美沙达成6000亿美元投资协议 英伟达向沙特公司销售1 8万枚AI芯片 股价涨超5% 市值重返3万亿美元 [12] 科技与医疗板块 - OpenAI推出医疗AI测试集HealthBench A股基因测序板块暴涨 [12] - 美股AI医疗个股自底部大幅反弹:Tempus AI涨62% Hims&Hers涨146% Grail涨93% [12] - 东财概念指数显示虚拟机器人(4 20%) 参股期货(3 95%) 券商概念(3 43%)涨幅居前 [16]
早报|苹果今年或实现脑机接口操控 iPhone/京东美团饿了么被约谈/小米车主喊话雷军:保持真诚
搜狐财经· 2025-05-14 09:55
三星 Galaxy S25 Edge 发布 - 机身厚度仅5.8mm,钛金属边框,重量163g,采用第二代康宁大猩猩玻璃陶瓷提升抗跌落能力 [4] - 配备2亿像素广角主摄+1200万像素超广角,搭载Galaxy AI编辑功能如音频橡皮擦 [4] - 搭载骁龙8至尊版移动平台,支持ProScaler屏幕超分辨率算法和mDNle画质增强技术 [4] - 提供钛灰/钛黑/钛蓝三色,12GB+256GB售价7999元,12GB+512GB售价8999元 [5][6] 制糖工厂新品发布 - 推出细丽硅胶线新品,采用食用级液态硅胶材质,结合磁吸与硅胶特性 [7] - 具备自收纳、柔磁手感、耐脏污特性,可作为数字时尚单品搭配 [7] - 首批上线0.5m规格,提供云粉/云紫两种配色 [8] OpenAI 医疗AI进展 - 推出HealthBench医疗评估标准,与全球262名医生合作构建5000个医疗对话数据集 [13] - o3模型在基准测试中超越GPT-4o两倍,近月性能提升28% [13] - 2025年4月模型(o3/GPT-4.1)生成回答质量已与"AI辅助医生"无显著差距 [14] 苹果辅助功能更新 - Apple Watch新增实时字幕功能,可将iPhone作为远程麦克风传输至耳机 [17] - Vision Pro升级缩放功能,利用摄像头系统辅助视力受损用户 [18] - 背景音功能新增EQ设置/定时关闭选项,可缓解耳鸣症状 [19] - 与环球音乐合作推出"声音疗法",结合特殊声波改善专注力 [24][25] 小米SU7 Ultra争议 - 车主质疑碳纤维双风道前舱盖功能与宣传不符,维权人数超300人 [26] - 小米回应称舱盖具备部分气流导出功能,补偿2万积分(约2000元) [26] - 专家分析可能违反《广告法》和《反不正当竞争法》 [27] 外卖平台监管 - 市场监管总局等五部门约谈京东/美团/饿了么,要求规范经营 [28] - 平台此前通过大额优惠券/免单等活动"抢客",影响商家/骑手收入 [28] 脑机接口技术 - 苹果计划年内推出脑信号控制设备技术,与Synchron合作开发 [29] - Stentrode植入设备已获FDA豁免,ALS患者可通过思维操控Vision Pro [30] - 技术将整合至Switch Control辅助功能框架,2025年发布标准 [30] 哪吒汽车动态 - 关联公司合众汽车新增破产审查案件,申请人为上海禹形广告 [31] - 去年12月起多次出现股权冻结,CEO已更换为创始人方运舟 [31] 特斯拉Optimus进展 - 公布实时活动视频,展示踢腿/张臂等动作,但需辅助绳索 [32] - 设计或为火星任务准备,与2026年底登陆计划相关 [33] - 马斯克将重点押注AI产品如Robotaxi和具身智能机器人 [35] Perplexity融资动态 - 正进行新一轮融资谈判,估值或达140亿美元 [36] - 年经常性收入从3月近1亿美元增至1.2亿美元 [38] - 计划推出Comet浏览器挑战Chrome,获投资者押注 [37] 大疆Mavic 4 Pro发布 - 配备三摄系统:1亿像素哈苏主摄+双长焦(70mm/168mm) [59] - 首搭360°旋转万象云台,支持6K 60fps HDR视频拍摄 [59] - 全向智能跟随/200m车辆检测/51分钟续航,起售价13888元 [59] 火山引擎视频模型 - 发布Seedance 1.0 lite模型,支持文生/图生视频(5s/10s) [60] - 实现影视级生成质量与速度提升,开放企业API和个人体验 [60] 阿里通义新功能 - QwenChat免费开放Deep Research功能,可自动化复杂科研任务 [63] - 结合网络信息生成全面报告,将数小时任务缩短至十几分钟 [65] 魅族Note 16系列 - Note 16 Pro:骁龙7s/6200mAh/80W快充,国补价1274.15元起 [68] - Note 16:6600mAh电池/1080P LCD屏,国补价594.15元起 [68] - 首发Flyme AIOS 2系统,Aicy助手接入DeepSeek-R1模型 [68] 淘宝新功能 - 测试"高退款人群屏蔽"功能,目前仅限天猫/服饰类商家 [67] - 可设置100%屏蔽异常退款用户,减少高退款率人群曝光 [67] 喜茶周年活动 - 13周年推出限定饮品"江边里·芝芝柑普",采用新会小青柑+普洱 [72] - 同步推出陈皮冰箱贴/柑普茶等主题周边礼盒 [72] lululemon十周年 - 庆祝Align系列十周年,5-6月举办全国"瑜"见你嘉年华 [77] - 在北京工体等七城地标开展活动,43城门店举办百场瑜伽课 [77] 星巴克联名 - 携手五月天推出佛手柑柚柚/白桃两款气泡美式饮品 [80] - 杯身印有乐队经典歌词,上海东方明珠店设主题快闪门店 [80]
Agent竞争升级国产智能体Manus宣布开放注册
上海证券报· 2025-05-14 02:45
据官方公告,即日起所有用户无需等待名单,每天可免费执行一项任务(300积分),并且所有用户一 次性获得1000积分奖励。同时,Manus团队还宣布将推出付费订阅服务,分为每月19美元、39美元和 199美元三个档次,提供更高权限、额外功能及优先支持,以此加快商业化的脚步。 今年3月,这支来自中国的团队正式对外发布通用型AI Agent产品Manus。Manus定位为一位性能强大的 通用型助手,对用户不仅能提供想法,还能将想法付诸实践,真正解决问题。该产品一度被誉为"继 DeepSeek之后,AI领域又一国产突破"。彼时,由于Manus采用邀请内测限制,其邀请码在个别交易平 台被"炒"到上万元。 不过,Manus对行业真正的冲击在其基于开源模型打造的特性,这让更多人看到了AI大模型创业的可 能。"如果说大模型是搭建的网络商城,那Manus就是让大家看到,人人都能去开网店。"一位业内人士 如是形容。 如今,Manus突然宣布开放注册,或与行业激烈竞争有关。各大巨头纷纷下场入局Agent赛道自不必多 说,MCP协议等衔接工具的大面积应用也让门槛快速下降。 去年11月,国外大模型公司Anthropic开发正式推出了M ...
腾讯研究院AI速递 20250514
腾讯研究院· 2025-05-13 23:57
生成式AI - OpenAI为Deep Research新增PDF导出功能,支持表格、图片和可点击引用链接,向Plus、Team和Pro用户开放 [1] - 新任应用事业部负责人Fidji Simo上任后加速向企业市场转型,将AI能力与实际工作流程深度融合 [1] - AI研究助手竞争加剧,各公司从比拼功能转向优化用户体验和工作流集成,PDF导出成为企业级AI工具的基本门槛 [1] 设计垂类Agent - Lovart是首个设计垂类Agent,具备设计规范生成、图像生成、尺寸延展、图文分离等功能 [2] - 产品支持全流程设计,从需求分析到视频合成、二次修改,集成了可灵、11labs、suno等工具 [2] - 在Agent加持下设计工作流将发生重大变革,从单纯的作品创作转向完整的产品资产交付 [2] 交互式世界基础模型 - Matrix-Game是昆仑万维开源的首个10B+交互式世界基础模型,能生成连贯可控的游戏互动视频 [3] - 模型通过两阶段训练和Matrix-Game-MC数据集训练,实现了高精度的动作响应和场景泛化 [3] - 代表空间智能领域的重要突破,适用于游戏开发、影视、广告、XR等领域的内容生产革新 [3] 多模态统一CoT奖励模型 - 腾讯混元推出UnifiedReward-Think,首次实现具备长链式推理能力的统一多模态奖励模型 [4] - 该模型解决了现有奖励模型只能"表面判断"的问题,在图像生成和理解任务中性能显著提升 [5] - 模型已全面开源,包含模型、数据集和工具,代表奖励模型向具备认知理解的智能评估系统转变 [5] AI平台开放注册 - Manus AI取消邀请码制度,开放全民免费使用权限,每位用户可获得每日300积分的免费任务额度 [6] - 平台提供三档付费订阅方案(19美元、39美元、199美元/月),可解锁更多功能和优先服务 [6] - 近期完成由Benchmark领投的7500万美元融资,估值升至5亿美元,资金将用于拓展海外市场 [6] AI政策调整 - 美国废除《AI扩散规则》,认为其会扼杀创新并损害外交关系,计划推出新的简化规则 [7] - 加强对海外AI芯片管制,禁止全球使用华为昇腾芯片,并发布指南防止AI芯片转移 [7] - 沙特承诺向美国投资6000亿美元,涉及AI数据中心、航空航天等多个领域 [7] 医学基准测试 - OpenAI推出医疗评估基准HealthBench,由262名医生参与构建,包含5000段真实对话 [8] - 测试显示最新模型o3得分60%,远超早期GPT系列,且小型模型性能提升显著,成本降低 [8] - 项目开源两个版本并发布完整评估工具,基于模型的评分系统与医生判断达到相似一致性 [8] AI工厂产业革命 - 黄仁勋认为AI工厂将引领下一代产业革命,NVIDIA正在建设投资五六百亿美元的千兆瓦级AI工厂 [9] - AI首次实现了真正的数字劳动力扩充,将成为继信息和能源之后的新一代基础设施 [9] - 英伟达已从芯片公司转型为AI基础设施公司,年研发投入200-300亿美元,致力于构建全球AI生态系统标准 [9] AI智能体发展 - OpenAI计划将ChatGPT发展为个性化AI服务,预测2025年AI智能体大规模应用 [10] - 团队坚持精简高效结构和快速迭代策略,目标定位为用户核心AI订阅服务提供商 [10] - 不同年龄段对AI应用差异显著:老年人视为搜索工具,中年人视为顾问,年轻人已将其作为操作系统使用 [10]
关于agent的2个事
小熊跑的快· 2025-05-13 18:17
2025 业内普遍认为 agent元年,大小厂商都在卷,垂类和通用都在卷。算力卷了,也该来点应用了 国产 AI 智能体 Manus 开放注册:Manus 宣布向所有人开放注册,所有注册用户每日均可免费执行一 项任务,并获得 300 积分的奖励,新用户还将一次性获得 1000 积分的额外馈赠。 是的,之前被骂骗子的那个公司正式回来了(仅限海外版),之前本号发文力挺他。目前依然没有找到 超越他的,同时和注册用过的一些用户交流了一下,依然是基本正面反馈。 月费分别为19美元、39美 元、199美元,对应基础功能扩展、算力优先调度、企业级API权限等服务。对应国内来说c端用户来说 有点小贵 OpenAI 宣布重磅更新:Sam Altman 发推称将发布重大更新,可能与 GPT - 4.5 模型、个性化助手系统 或多模态能力升级有关。此外,OpenAI 于 5 月 13 日推出医疗开源测试基准 HealthBench,由 262 位全 球医生合作打造,包含 5000 段真实健康对话及 48562 个评分标准,覆盖多种医疗场景,推动医疗 AI 标准化评估 。 大厂自建健康团队搞垂类基准,一定是看到其中的空间了 。 Hea ...
OpenAI推出医疗开源测试基准HealthBench;苹果发布可在iPhone上运行的极速视觉语言模型FastVLM | 全球科技早参
每日经济新闻· 2025-05-13 07:53
OpenAI推出医疗开源测试基准HealthBench - OpenAI推出HealthBench开源基准测试,旨在衡量AI系统在医疗健康领域的能力 [2] - HealthBench由262位来自60个国家/地区的医生合作打造,包含5000段真实健康对话 [2] - 采用48562个独特的医生编写的评分标准进行开放式评估,涵盖紧急情况、全球健康等多个健康背景和行为维度 [2] - 该基准测试有望为AI在医疗健康领域的能力评估提供更全面、准确且具实践意义的参考标准 [2] 苹果发布极速视觉语言模型FastVLM - 苹果发布专为高分辨率图像处理优化的视觉语言模型FastVLM,可在iPhone等移动设备上高效运行 [3] - FastVLM通过创新的FastViTHD视觉编码器,实现高达85倍的编码速度提升 [3] - 该模型为实时多模态AI应用铺平道路,展现苹果在AI技术领域的创新实力 [3] FDA宣布使用AI技术加速药品审批流程 - FDA宣布在所有中心引入AI技术,以缩短药品审批时间 [4] - 该决定基于一项针对科学审查员的生成性AI试点,AI工具可帮助科学家减少重复性工作 [4] - 使用AI后,科学审查任务时间从三天缩短至几分钟,显著提升审核效率 [4] 特斯拉推出AI代理提升客户服务 - 特斯拉推出专门用于处理客户沟通服务的AI代理,可检测沟通延迟和监测对话情绪 [5] - AI代理能自动将重要诉求上报管理层,已在十个试点地点推出 [5] - 客户在手机应用输入"Escalate"后,系统将在两周延迟后自动上报问题 [5] Gemini 2.5 Pro实现6小时视频理解 - 谷歌Gemini 2.5 Pro支持长达6小时的视频分析,拥有200万Token的超大上下文窗口 [6] - 该模型首次实现通过API直接解析YouTube链接,在VideoMME基准测试中准确率达84.7% [6] - Gemini 2.5 Pro现已通过Google AI Studio向开发者开放体验,标志着AI向视频驱动的多模态产品转型 [6][7]
OpenAI开源HealthBench,60个国家合力开发5000段真实对话
快讯· 2025-05-13 06:44
医疗大模型测试评估集HealthBench - OpenAI开源了专门面向医疗大模型的测试评估集HealthBench [1] - 测试集包含5000段核心测试对话 由60个国家/地区的262名医生打造 [1] - 采用多轮对话测试模式 而非简单答题或选择题 增强了测试难度和真实性 [1] 大模型在医疗领域的性能表现 - GPT-3 5Turbo在医疗保健领域表现仅为16% [1] - GPT-4o性能提升至32% [1] - o3模型性能达到60% 显示显著进步 [1] 小型模型的突破性进展 - GPT-4 1nano性能超越GPT-4o [1] - 成本降低25倍 [1]