大语言模型
搜索文档
AI医疗进入精准化“深水区” :OpenAI医疗评估基准落地、大模型加速变革|AI医疗浪潮㉑
21世纪经济报道· 2025-05-17 13:05
HealthBench开源基准测试 - OpenAI推出HealthBench开源基准测试,用于衡量大语言模型在医疗健康领域的性能表现与安全可靠性 [1] - HealthBench由262位来自60个国家/地区的医生共同参与构建,整合了5000段真实的医疗对话数据 [1] - 通过48562个独特的医生编写的评分标准进行开放式评估,涵盖多个健康背景和行为维度 [1] - HealthBench的测试样本分为7个主题和5个评估维度,7个主题包括紧急转诊、专业沟通定制等,5个评估维度包含准确性、沟通质量等 [3] - OpenAI还推出HealthBench Consensus(共识版)和HealthBench Hard(困难版),共识版包含34个经医生共识验证的评估维度,困难版最高得分仅为o3模型的32% [4] - HealthBench Consensus的元评估表明,7个评估领域中的6个领域,模型打分结果与医生评分的中位数水平高度一致 [4] 大模型在医疗领域的表现 - 2023年推出的GPT-3.5Turbo得分为16%,2024年5月推出的GPT-4o得分达到32%,2024年12月推出的o3模型得分达到60% [5] - 较小规模的模型进步显著,GPT-4.1nano的表现超过GPT-4o,且成本仅为GPT-4o的1/25 [5] - 大模型在医疗领域的应用正迅速发展,评估工具和模型本身都在持续优化 [6] - 大模型的多模态能力解决了早期AI医疗存在的信息割裂和数据孤岛等问题,通过"预训练+微调"架构处理多模态医疗数据 [6] - AI可以实现跨模态数据的理解和动态时序建模,使得AI诊疗与医生的诊疗水平更加接近 [6] AI医疗市场前景 - 预计2024年—2032年,AI医疗市场将以每年43%的速度增长,市场规模有望达到4910亿美元 [6] - AI可以扩展医疗服务可及性,应用于诊断前、诊治及诊断后阶段,解决医疗人员短缺和缺乏有效分流等问题 [6] - AI辅助医生诊疗有望降低误诊率,在部分疑难杂症诊疗方面发挥协同作用 [6] 医药行业AI应用趋势 - 模型即产品:医药行业高度专业性的场景对模型适配性要求更高,未来将更多直接针对医药行业训练的模型被广泛应用 [7] - 本地与端侧部署:专业中小模型的本地部署在成本可控性、数据安全等要求更高的场景下提供极大赋能 [7] - 研发端AI应用快速拓展:随着特定场景专业模型训练的普及,研发阶段AI应用的壁垒有望被逐一消解 [8]
小VC“活着”指南
FOFWEEKLY· 2025-05-15 17:59
资本市场与创新趋势 - 资本市场存在阶段性泡沫但创新持续受到鼓励[2] - 硬科技赛道从"卡脖子"到"产能过剩"的演变反映行业周期变化[3] - AI赛道热度显著提升为创投市场注入活力[4] 创投市场资金格局 - 头部机构资金充足但面临投资压力腰部机构逐渐消失尾部机构寻求抱团[6] - VC领域竞争内卷且处于低谷周期与创业者困境高度相似[6] AI赛道发展现状 - AI浪潮催生四类受益群体:互联网巨头、产业链服务商、知识变现者、高薪从业者[8] - Deepseek出现引发一级市场头部AI项目估值重估与创新范式冲击[9] - 具身智能赛道重现大模型竞争泡沫特征三流选手亦可融资[11][12] AI投资范式演变 - 大语言模型成熟推动AI应用层创业窗口开启[14][15] - 优秀AI项目需具备爆发潜力、技术/商业化验证点、组织优势及反叛精神[17] - AI Native应用类项目数量增加商业化能力提升[19] 创业与投资误区 - 创业方向误区:过早定位平台型机会忽视细分市场或破坏性创新[20] - 创业者画像偏差:研究型人才商业化能力不足产品吸引力弱于独立开发者[21] - VC投资需警惕技术型创业者宣称"技术第一""行业唯一"等关键词[22] AI创业者分类 - 富婆暴发户型:商业嗅觉敏锐但失败率高[27] - 钢铁直男型:技术基因强但易陷高估值陷阱[28][29] - 富家小姐型:商业模式清晰但天花板有限[30][31] - 技术吃软饭型:服务导向强缺乏颠覆勇气[32] VC行业本质 - VC是无限博弈游戏需保持牌桌位置捕捉贝塔机会[36] - 核心三命题:上桌资格、筹码来源、风险下限[37] - 超额收益源于覆盖广度而非决策暴击率[40][41] 历史启示与行业展望 - 早期汽车竞赛启示:粗糙开端可推动产业革命[43][44] - AI行业仍处早期阶段历史性机会持续存在[45][46]
Anthropic联创克拉克最新专访:AI可能具备某种“外星人意识”
36氪· 2025-05-15 17:30
AGI对就业市场的影响 - 依赖手工技能、经验判断和个人风格的工作如电工、管道工、园丁等将是AGI最晚替代的领域 因为人们不仅为技术买单 更为工匠的审美、声誉和信任付费[4] - 人类的参与永远不会消失 人们选择服务时 服务提供者的品味和个性是关键因素 即使在现代艺术创作中 艺术家的角色也更多是统筹和协调[5] - 随着AI发展 将出现新的职业 如部署和管理AI的“极客管理者” 或参与更具创造性和趣味性的活动 如利用AI制作、比赛和游戏[11][26] - 在AI革命中 60岁以上、已在AI领域工作几十年的人士最容易“掉队” 面临心理落差 而10岁左右的孩子可能因教育体系与AI学习方式脱节而感到困惑[32][33] AI在特定行业应用的挑战与机遇 - 医疗保健领域可能成为主要的法律障碍 涉及个人数据处理和相关标准 这些标准需要修改以适应AI 但数据标准的更新历来非常困难[6] - 当AI可在本地设备上运行时 健康等“灰色地带”将出现更多AI建议 但这些建议通常不被官方机构接受 需要人工沟通才能获得正式处方[8] - 未来可能出现“AI翻译官”或“中间人”这类新职业 负责将AI的建议转化成能被“正式系统”接受的内容[9] - 与国家安全相关的政府部门可能会更快采用AI技术 教育、卫生和住房等部门也可能更容易引入AI 变化的关键在于政治意愿[9] 媒体经济模式的演变 - 未来的媒体经济模式可能向两个方向发展:一种是人格化媒体 观众偏爱由人类主导、具有独特个人风格的内容 另一种是基于订阅的AI生成内容库[12] - 当AI变得普及且成本低廉时 整个媒体行业都会受到冲击 人们可能倾向于选择AI生成的、无需过多人工干预的快速内容[12] - 尽管AI可以生成大量内容 但人们仍然愿意为具有独立思考、独特风格的创作者付费 例如通过Substack或Patreon等平台支持的独立创作者[13] 大语言模型行业的竞争格局与治理 - 未来五到十年 大语言模型行业将存在细微分工 不同模型在特定领域或任务上可能更出色 预计将会有多个领先公司根据各自专长占据不同市场份额[14] - AI企业需要在保持市场竞争力的同时践行商业伦理 建立类似汽车安全标准的规范 明确责任归属 推动技术向更安全的方向演进[15] - 保险定价机制将成为重要的调节工具 保险行业可能会根据AI系统的风险程度进行定价 促使企业更加注重安全性和风险控制[16] - 实现AI责任认定需要改进信息披露 目前缺乏统一的AI透明度标准 企业应公开系统原理与风险 帮助公众和监管理解AI[17] 全球AI治理与中美关系 - 在全球范围内达成全面的AI治理协议“非常困难” 但中美两国可能会就某些危险技术形成有限的共识 类似“核不扩散”协议[3][19] - 这种共识不一定是“合作” 而更可能是出于共同防范风险的现实主义考量 两国可能决定某些AI技术因过于危险而不允许广泛使用[3][20] - 监督将主要通过关税和出口管制等政策手段执行 不太可能出现一个新的全球治理机构来监管AI[21] - 大多数国家最终都会加入全球AI体系 即使政策不同 也很难完全脱离全球化潮流[2][23] AI的法律地位与伦理框架 - 对于“无主”的或脱离人类控制的智能体 现有法律将面临挑战 可能需要为这类智能体建立全新的法律体系 由AI制定和执行[24] - 可以通过限制资源获取来设立“反激励机制” 但前提是是否赋予AI“道德地位” 这引发了伦理困境[24] - AI可能具备某种“外星人意识” 能感知和响应外界 但没有自我感知、记忆或时间延续性 存在于一个“无限的现在”[28] AI的技术前景与社会影响 - 预计到2030年或更早 可能通过AI翻译系统实现与海豚等动物的跨物种直接对话[29] - 随着人体研究、基因疗法等领域突破 各种技术叠加可能显著延长人类健康寿命 预期寿命可能达到130到150岁之间[27] - AI的影响可能比智能手机更深远 一些国家可能围绕AI重塑整个社会结构 而另一些国家可能仅将其作为工具偶尔使用[31] - 给各国政府的建议是 立即让AI参与实际运作 部署到真实环境中暴露问题并逐一解决 从而倒推出需要真正监管的关键事项[34]
字节最新大模型秘籍:只挑能有推理潜力的数据训练!1.3B模型无需标签自动挑选
量子位· 2025-05-15 14:26
核心观点 - 字节Seed团队提出AttentionInfluence方法,利用预训练语言模型中的注意力机制选择高质量训练数据,无需人工标注或额外训练 [1][2] - 该方法通过屏蔽重要注意力头创建"弱"模型,计算损失差异来评估数据对推理能力的影响,筛选出高推理强度的样本 [6][13] - 实验显示使用该方法选择的数据训练7B模型,在MMLU、GSM8K等基准测试中性能提升1.4-3.5个百分点 [8][27] 技术原理 - 核心机制:识别与检索推理强相关的注意力头(前5%),通过损失差异计算AttentionInfluence分数 [14][19][20] - 关键步骤:构建800样本合成测试集评估检索能力,使用1.3B模型计算注意力头重要性 [15][17][19] - 数据筛选:选择SmolLM语料库中AttentionInfluence分数前20%的样本(73.1B tokens) [27] 实验结果 - 性能提升:7B模型在MMLU-Pro(+2.7pp)、AGIEval-en(+1.8pp)、GSM8K(+2.7pp)、HumanEval(+3.5pp)等任务显著超越基线 [8][29] - 规模效应:7B模型选择的数据质量优于1.3B模型,在数学/代码任务表现更优(MATH从10.8%提升至11.75%) [30][32] - 数据质量:AttentionInfluence样本推理分数达0.88(OpenWebMath),长度是传统方法的2倍(Python-Edu样本820 vs 414 tokens) [33][34] 方法优势 - 无监督:摆脱人工标注依赖,避免领域偏见 [3] - 可扩展:与FineWeb-Edu分类器结合可同时提升事实性知识和推理能力 [38] - 高效性:训练早期(100B tokens前)即显现性能优势,且持续至学习率衰减阶段 [29]
华东空管局技术保障中心上线智能体系统 空管通导业务迈入AI时代
中国民航网· 2025-05-15 12:28
系统概述 - 华东空管局技术保障中心推出面向空管通导业务的智能体系统,标志着业务转型升级迈出关键一步 [1] - 系统深度融合空管领域专业知识与业务流程,通过本地化部署和多模型协同实现智能解析、故障推演及运维辅助决策 [1] 技术突破 - 系统基于先进大语言模型与推理技术构建,能深度理解空管领域知识、流程与规范,精准对接复杂业务需求 [2] - 系统拥有多维度知识与专业模型库,覆盖监视、通信、动力等专业领域,通过业务规则智能解析、日志故障关联智能推演等自动生成运维建议 [2] 应用场景 - 资质排查类应用将新员工知识学习问答平台的资料检索平均耗时从10分钟以上缩短至1分钟左右,效率提升90% [1] - 岗位日志类应用通过自动化解析与向量库构建实现历史记录的快速检索与事件追溯 [3] - 手册快速问答功能即时调取技术文档和操作指南,辅助生成标准化报表 [3] - 应急排故助手通过关联历史故障案例与处置流程为突发问题提供处置决策参考意见 [3] 技术底座 - 选用Dify平台进行系统研发,支持自然语言指令定义智能体,集成多模型混合调度能力,允许灵活调用Qwen、DeepSeek等 [4] - 采用vLLM推理框架进行虚拟化部署,实现高并发处理与低延迟响应,优化长文本生成效率 [4] - Dify平台以低代码开发模式为核心,简化AI应用的构建与迭代流程,通过可视化画布与预置组件库设计复杂工作流 [4] 未来规划 - 将持续深化技术应用,让AI成为安全保障与效率提升的核心引擎 [5] - 以多模态能力扩展为核心方向,集成语音、图像与视频识别功能,强化智能体的多源感知能力 [5]
10万美元成本训练的小模型,在特定任务超越GPT-4o,延迟低99倍
36氪· 2025-05-14 17:45
公司概况 - Fastino是一家专注于开发"任务特定语言模型"(TLMs)的早期初创公司,由连续创业者Ash Lewis和George Hurn-Maloney共同创立[4] - 公司技术团队来自谷歌DeepMind、斯坦福大学、卡内基梅隆大学及苹果等知名机构[6] - 已累计获得近2500万美元融资,包括1750万美元种子轮和700万美元前种子轮[3] 技术方案 - 采用低端游戏GPU训练TLM模型,平均成本不到10万美元[3] - TLM模型在特定任务上性能媲美大型语言模型,推理速度比GPT-4o快99倍(100ms vs 4000ms)[8] - 基准测试显示TLM模型的F1分数比GPT-4o高出17%[9] - 模型架构基于Transformer但引入任务专精优化,消除参数冗余和架构低效[8] 产品特点 - 首批模型覆盖文本摘要、函数调用、文本转JSON等企业核心需求[10] - 提供PII屏蔽、文本分类、脏话过滤、信息提取等具体功能[17] - 支持部署在虚拟私有云、本地数据中心或边缘设备[13] - 已在金融、医疗、电子商务等行业应用,获得财富500强企业采用[13] 商业模式 - 采用订阅制收费而非用量定价,个人开发者每月1万次免费请求[11] - Pro用户每月10万次请求收费45美元,团队用户300万次请求收费1275美元[11] - 极低的模型运行成本支撑其定价策略[13] 行业趋势 - 大语言模型训练成本高达数千万美元,部署和推理成本同样高昂[7] - 小模型在成本、推理时延和特定任务性能上具有显著优势[14] - 类似企业包括Cohere、Mistral、阿里云Qwen3和Writer的Palmyra系列[14] - 对于高并发、低延迟要求的应用场景,小模型更具经济性[14]
微软华人AI团队核心成员被曝加入腾讯混元,知情人称与裁员无关|独家
AI前线· 2025-05-14 16:12
核心事件 - WizardLM团队核心成员Can Xu已从微软离职并加入腾讯混元事业部[1] - 知情人士透露WizardLM团队主力成员大部分已离开微软[2] - 团队采用远程办公方式协同工作,成员独立负责各自研发部分[3] 团队背景 - WizardLM团队成立于2023年初,专注高级大语言模型开发[4] - 团队在HuggingFace显示有6位主要成员[4] - 核心成员Qingfeng Sun和Can Xu均为微软前AI研究科学家,拥有北京大学硕士学位[5] - Can Xu领导开发了WizardLM系列模型,发表40多篇顶级会议论文,Google Scholar引用超3300次[5] 技术成果 - 团队与北大合作提出Evol-Instruct方法,机器生成指令质量优于人工指令[6] - WizardLM-30B在Evol-Instruct测试集取得97.8% ChatGPT分数占比[10] - 在2023年UC伯克利LLM排位赛中位列全球第四,是华人团队开源模型第一名[13] - WizardLM-13B在AlpacaEval和Evol-Instruct测试集的GPT-4评估中分别获得87%和89% ChatGPT能力占比[11] 模型表现 - WizardLM-2系列于2024年4月发布,包含8x22B/70B/7B三个版本[15][17] - WizardLM-2 8x22B在MT-Bench得分为9.12,接近Claude 3 Opus(9.43)和GPT-4-1106-Preview(9.32)[18] - WizardLM-2 70B和7B在MT-Bench分别获得8.92和8.28分[18] 腾讯布局 - 腾讯重组混元AI架构,新设大型语言模型和多模态模型团队[24] - 计划2025年投入900亿元人民币(124.9亿美元)用于AI业务发展[26] - AI业务为腾讯2025年Q1贡献8%的增长[26] 行业影响 - WizardLM-2模型因未完成毒性测试被微软撤回,但用户已重新上传[19][20] - Hugging Face CEO批评微软此举损害开源社区利益[21] - WizardLM模型月均下载量超10万次[23]
原微软WizardLM项目团队加入腾讯混元
快讯· 2025-05-14 14:27
公司动态 - WizardLM项目创建者徐灿及其团队离开微软,加入腾讯AI开发组织混元(Hunyuan) [1] - 团队表示将继续推动LLM培训技术发展并构建更好的AI模型 [1] - 团队6名主力成员大部分已离开微软 [1] 行业动向 - 腾讯通过吸纳WizardLM团队加强AI领域布局,显示行业人才竞争加剧 [1] - 大语言模型开发领域出现核心团队跨公司流动现象 [1]
微软这支神秘的华人AI团队加入腾讯混元,曝与裁员无关|独家
AI前线· 2025-05-14 13:47
团队动态 - WizardLM团队6名主力成员离开微软加入腾讯混元AI开发组织 将专注于推动LLM培训技术和AI模型构建 [1][4] - 团队采用远程办公模式 成员独立负责各自研发部分 [5] - 团队核心人物Can Xu和Qingfeng Sun早已离开微软 与微软近期裁员6000人无关 [4] 团队背景 - WizardLM团队成立于2023年初 专注高级大语言模型开发 在HuggingFace有6位主要成员 [7] - Qingfeng Sun曾任微软AI研究科学家 共同创立WizardLM项目 贡献Evol-Instruct等方法 [9] - Can Xu领导WizardLM系列模型研发 发表40多篇顶级会议论文 Google Scholar引用超3300次 [10] - 团队曾与北京大学合作开发Evol-Instruct方法 生成的指令质量优于人工数据集 [10] 技术成果 - WizardLM-30B在Evol-Instruct测试集取得97.8% ChatGPT分数占比 [14] - 在2023年UC伯克利LLM排位赛中 WizardLM位列全球第四 是华人团队开源模型第一名 [16] - WizardLM-30B在HumanEval评估中击败code-cushman-001和StarCoder [17] - WizardLM-13B在AlpacaEval和Evol-Instruct测试集分别获得87%和89% ChatGPT能力占比 [17] 模型发布 - 2024年4月发布WizardLM-2系列 包含8x22B/70B/7B三个型号 性能接近专有模型 [19][21] - 8x22B专为复杂任务设计 70B侧重推理能力 7B注重处理速度 [21] - 在MT-Bench评估中 8x22B得9.12分 70B得8.92分 7B得8.28分 [22] - 微软因缺乏毒性测试撤回WizardLM-2模型 团队承诺尽快完成测试重新发布 [23][24] 腾讯布局 - 腾讯重组混元AI研发架构 新设大型语言模型和多模态模型团队 [28] - 加强数据基础设施建设 设立大模型数据管理部门和机器学习平台部门 [28][29] - 计划2025年投入900亿元(124.9亿美元)资本支出 重点发展AI业务 [30] - AI业务为腾讯2025年第一季度贡献8%的增长 [30] 行业影响 - Hugging Face CEO批评微软移除WizardLM模型损害开源社区利益 该模型月下载量超10万次 [25][27] - 网友认为腾讯比微软更适合WizardLM团队发展 微软在AI研发上已显疲态 [32] - 部分用户惋惜WizardLM从开源转向闭源 认为这是行业损失 [34]
北京国电通申请基于生成对抗网络与大语言模型的人力资源管理专利,实现生成虚拟人力资源数据的多元化
金融界· 2025-05-14 11:56
专利申请 - 北京国电通网络技术有限公司和国网信息通信产业集团有限公司联合申请了一项名为"一种基于生成对抗网络与大语言模型的人力资源管理方法"的专利,公开号CN119963144A,申请日期为2024年12月 [1] - 专利技术通过生成对抗网络学习人力资源管理数据并生成虚拟数据,结合大语言模型训练人力资源管理模型,用于优化人力资源决策 [1] - 该技术实现了虚拟人力资源数据的多元化生成,并综合利用虚拟和真实数据提升决策质量 [1] 公司背景 - 北京国电通网络技术有限公司成立于2000年,注册资本7.3亿人民币,专注于专业技术服务业,拥有948条专利信息和65条商标信息 [2] - 国网信息通信产业集团有限公司成立于2015年,注册资本1502.231亿人民币,从事软件和信息技术服务业,拥有4601条专利信息和311条商标信息 [2] - 北京国电通对外投资4家企业,参与招投标2019次,国网信通对外投资40家企业,参与招投标5000次 [2]