Workflow
基座模型
icon
搜索文档
人机协同筛出2600万条数据,七项基准全部SOTA,昆仑万维开源奖励模型再迎新突破
机器之心· 2025-07-04 10:36
大语言模型奖励模型技术进展 - 奖励模型在RLHF中扮演关键裁判角色,通过打分机制确保大模型输出符合人类价值观[2] - 理想奖励模型需具备准确评判、多领域覆盖、灵活处理多种输入及高度可扩展性[3] - 昆仑万维发布新一代Skywork-Reward-V2系列,包含8个不同参数规模模型(6亿至80亿参数)[4][5] - 该系列在七大主流评测榜单均获第一,展现对人类偏好对齐、安全性、抗风格偏差等维度的优异表现[5][7] 技术突破与创新 - 构建4000万对偏好样本数据集Skywork-SynPref-40M,采用人机协同两阶段迭代流水线[17][19] - 第一阶段通过"金标准锚定+银标准扩展"双轨机制突破初始数据瓶颈[20] - 第二阶段通过奖励模型一致性过滤实现自动化大规模数据扩展[22][23] - 最终精选2600万条数据,实现规模与质量的平衡,人工标注负担显著降低[25] - 数据质量提升使小参数模型(如0.6B)性能接近上一代27B模型,参数差距达45倍仍保持竞争力[31] 性能表现与行业影响 - 在RewardBench等七大基准测试中全面超越现有模型,最高平均得分达88.6分[29][30] - 8B参数模型Skywork-Reward-V2-Llama-3.1-8B-40M在JudgeBench知识密集型任务超越Claude-3.7-Sonnet等闭源模型[32][36] - PPE Correctness基准上全系模型在有用性和无害性指标最高领先GPT-4o达20分[37][38] - 仅使用1.8%高质量数据(约29万条)训练的8B模型性能即超越当前70B级SOTA模型[42] 行业技术发展趋势 - 数据工程策略作用凸显,高质量训练数据可支撑"小模型超越大模型"的效果[34] - 奖励模型从弱监督评分器向强泛化价值建模器演进,在多维偏好理解中承担核心角色[35][44] - 人机协同数据构建范式将加速RLHF技术迭代,推动"数据驱动对齐"技术发展[45][47] - 开源策略有望促进行业整体进步,昆仑万维同期还开源了代码智能体、空间智能等多领域模型[48]
小米社招&校招 | 自动驾驶与具身智能算法研究员 (VLA/具身方向)
自动驾驶之心· 2025-07-01 20:58
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 职位描述 我们正在寻找一位杰出的研究员/科学家,加入我们的前沿探索团队,共同定义和构建下一代自 动驾驶与机器人的"大脑"。您将致力于突破性的具身基座模型 (Embodied Foundation Model) 的 研究,该模型将深度融合视觉-语言-行动 (VLA) 能力,并具备卓越的空间感知与空间推理能 力。 多模态场景理解:融合视觉、语言、雷达等多源信息,实现对动态、开放环境的深刻理解和空间 感知。 复杂语义推理与决策:让模型能够理解模糊、抽象的人类指令,并结合对物理世界的空间推理, 生成安全、合理、可解释的行动序列。 学习与适应机制:深入研究强化学习 (RL)、模仿学习 (IL) 及自监督学习方法,使模型能从海量 数据和与环境的交互中持续学习和进化。 技术愿景与路线图:主导构建可泛化、高效率的具身智能基座模型,为未来1-3年的技术演进提 供核心支撑,并探索其在自动驾驶和通用机器人领域的统一应用潜力。 学术影响力与合作:与全球顶尖高校及研究机构合作,探索表征学习、因果推理、世界模型等长 期议题。在CVPR、 ...
棋至中局 取势顺势 投研人士论道下半年资产配置
上海证券报· 2025-07-01 03:10
全球市场展望 - 美元走弱趋势明显 主要受美国关税政策引发滞胀预期 全球货币政策分化 以及地缘政治局势推动资金流向避险资产影响 [12] - 非美资产将受益于美元走弱 包括欧股与新兴市场股票 瑞郎日元等避险货币 以及黄金等非美元资产 [12] - 亚洲货币迎来集体升值窗口 人民币仍有补涨空间 有利于中国资产价值重估 [13] - 欧洲财政刺激和国防开支提升加强欧元走强 日本CPI高企带动日债上行及日元走强 [13] A股和港股投资机会 - A股市场重点关注新经济与局部景气变化带来的阿尔法机会 包括银行及细分价值领域重估 出海优质企业 以及人工智能 机器人 自主可控 军工 创新药等科技领域 [14] - 港股和A股市场仍有望成为超额收益重要来源 权益类资产风险溢价处于较高水平 全球投资者对中国资产重新定价叙事将延续 [14] - 科技板块持续享有政策红利 重点关注固态电池 可控核聚变 AI算力和应用等前沿技术领域 [15] - A股市场估值处于较低位置 政策支持经济复苏和上市公司治理改善有望带来企业盈利回暖 [15] - 主营业务稳健的高质量企业存在投资机会 包括高端科技制造 红利板块和内需消费板块 [16] 行业配置建议 - 全球股票市场看好三类资产:非美发达市场股票(欧洲和日本) 美国中小盘优质股 以及新兴市场股票 [18] - 债市配置精选票息类资产作为稳定收益底仓 积极参与利率波段交易 聚焦景气度较高行业的产业债主体挖掘 [19] - 股票投资重点挖掘科技 创新药等行业优质标的 把握市场基本面或事件性冲突带来的加仓机会 [19] - 保持多股多债均衡配置 通过可转债 高股息股票等多元化投资增加稳健收益来源 [20] - 固定收益领域欧洲和澳洲高评级债券更具防御性 黄金仍有望维持核心配置地位 [20]
德适生物冲刺港交所:已打造全球首个商业化的跨模态医学影像基座模型
IPO早知道· 2025-06-29 21:27
公司概况 - 杭州德适生物科技股份有限公司于2025年6月29日正式向港交所递交招股说明书,拟主板挂牌上市,华泰国际担任独家保荐人 [2] - 公司成立于2016年,专注医学影像AI行业,核心产品为iMedImageTM跨模态预训练架构 [2] - 截至2025年6月21日,公司试剂和耗材产品组合包括3款三类医疗器械注册证试剂、6款二类医疗器械注册证耗材及18款一类医疗器械备案试剂 [5] 核心技术 - iMedImageTM是全球参数规模最大的通用型医学影像基座模型,支持19种医学影像模态,覆盖90%临床医学影像场景 [2] - 该模型是全球首个商业化跨模态医学影像基座模型,已实现商业化应用 [2] - 基于iMedImageTM,公司提供"基座模型-智能医疗器械-试剂及耗材-大模型服务"全流程AI医学影像解决方案 [3] 核心产品 - AI AutoVision®预计成为全球首个AI驱动的染色体核型分析辅助诊断系统,可实现L3级智能染色体异常自动识别 [4] - 公司开发了染色体分析智能无人值守流水线,包含AutoVision®、MetaSight®、KayoFlow®等系统,实现全流程自动化 [4] - MetaSight®是全球首个AI驱动染色体扫描系统,具备内置识别AI算法 [4] 市场地位 - 按2024年销售收入计算,公司在中国染色体核型分析领域市场份额达30.6%,排名第一 [6] 财务数据 - 2023年营收5284万元,2024年增至7035万元 [7] - 2023年毛利率71.0%,2024年降至65.5% [7] 融资与估值 - IPO前最后一轮股权转让后估值为25.6亿元人民币 [8] - 已获得紫金港资本、远翼投资、国中资本等多家机构投资 [7] 募资用途 - 主要用于AI AutoVision®研发和商业化 [8] - 加强iMedImageTM基座模型技术及服务组合 [8] - 扩大全球市场业务及寻求战略收购 [8]
新股消息 | 德适生物递表港交所 公司自研iMedImage通用型医学影像基座模型已成功实现商业化
智通财经网· 2025-06-29 20:19
公司上市动态 - 杭州德适生物科技股份有限公司向港交所主板递交上市申请,华泰国际为独家保荐人 [1] 核心技术优势 - 自主研发的iMedImage是世界上参数规模最大的通用型医学影像基座模型,且为全球首个商业化跨模态医学影像基座模型 [3] - iMedImage支持19种医学影像模态,覆盖超过90%的临床医学影像场景,包括生殖健康、血液系统恶性肿瘤及放射卫生 [3] - 核心产品AI AutoVision预期将成为全球首个AI驱动的染色体核型分析辅助诊断系统,已获国家药监局"三类创新医疗器械"认定 [3][5] - AI AutoVision预计成为全球首个实现AI驱动的染色体异常自动识别提示及L3级智能的系统 [5] 商业模式 - 提供"基座模型-智能医疗器械-试剂及耗材-大模型服务"全流程端到端AI医学影像解决方案组合 [3] - 解决方案显著降低研发成本及上市时间,解决医疗资源分布不均问题,提高诊断效率 [3] 监管进展 - AI AutoVision于2025年5月完成临床试验并向国家药监局提交三类医疗器械注册申请 [5] - 2025年6月收到国家药监局出具的《受理通知书》,注册申请已获正式受理 [5] 财务表现 - 2023年收入5284.4万元人民币,2024年增长至7035.2万元人民币,同比增长33.1% [5][6] - 2023年年内亏损5611.6万元人民币,2024年收窄至4337.5万元人民币 [5][6] - 毛利率从2023年的71.0%下降至2024年的65.5% [6] - 研发成本占比从2023年的54.2%降至2024年的36.3% [6] - 行政开支占比从2023年的56.6%降至2024年的36.4% [6] - 销售及分销开支占比从2023年的41.5%降至2024年的35.5% [6]
北京崛起“人工智能第一城”
经济日报· 2025-06-20 06:12
北京人工智能产业发展现状 - 北京已集聚全国超40%的顶尖人工智能人才,拥有超过2400家人工智能企业,核心产业规模接近3500亿元,企业数量与核心产业规模均占全国一半[1] - 北京智源人工智能研究院推出最新大模型成果"悟界"系列,包括原生多模态世界模型Emu3、脑科学多模态通用基础模型Brainμ等多个技术突破[1] - 智源研究院通过举办智源大会、建设智源社区等形式构建产学研用"内行生态圈",已孵化出近20家创业企业[2] 企业技术创新与转化 - 智谱华章科技股份有限公司借助清华大学技术转化,研发出千亿基座模型、代码模型、对话模型等,提升我国大模型领域自主创新能力[2] - 驭势科技研发的L4级自动驾驶巴士已在6个国家和地区服务,无人驾驶里程数达580万公里,投入运营服务的无人车超过1000台[3] - 北京高级别自动驾驶示范区已完成600平方公里设施智能化部署,推动汽车产业向电动化、智能化、绿色化、高端化迈进[4] 政策支持与产业生态 - 北京建设首批23家人工智能领域北京市重点实验室,涵盖大模型、具身智能、人工智能安全等多个方向[3] - 北京出台具身智能三年行动计划、科技赋能文化专项行动等多项产业政策,推动AI向文化、交通、制造等传统领域渗透[3] - 北京数字经济增加值从2021年的超1.76万亿元提升至2024年的超2.2万亿元,数字经济已成为全市主要经济形态[4] 产业发展目标 - 北京将加快建设具有全球影响力的人工智能创新策源地和产业高地,为全球人工智能发展贡献"中国方案"[5]
首个转型AI公司的新势力,在全球AI顶会展示下一代自动驾驶模型
机器之心· 2025-06-17 12:50
核心观点 - L3级别智能驾驶的关键在于大算力、大模型、大数据[1] - 端到端智能驾驶正沿着大模型Scaling Laws的路径快速发展[2] - 小鹏G7作为全球首款L3级算力AI汽车,搭载2200TOPS算力芯片和VLA+VLM模型,实现行业突破[3][4][5] - 自动驾驶基座模型通过云端训练+车端蒸馏的技术路线,显著提升复杂场景处理能力[20][27][28] - 公司验证了自动驾驶领域的Scaling Laws,并建成万卡智算集群支持模型迭代[49][50] 技术突破 - 小鹏G7首发智驾大脑+小脑VLA-OL模型,首次加入运动型决策能力[4] - VLM视觉大模型作为车辆理解世界的AI中枢,支持多语言交互和主动服务[5] - 自动驾驶基座模型参数达720亿,训练数据超2000万条30秒视频片段[20] - 模型具备链式推理(CoT)能力,可处理训练中未见的复杂场景[21][24] - 车端token处理量压缩70%,流式多处理器利用率达85%[60][63] 行业地位 - 小鹏在CVPR 2025与Waymo、英伟达等顶流同台,展示技术领先性[6][13] - 公司是国内首个验证自动驾驶Scaling Laws的团队[49] - 建成汽车行业首个万卡智算集群,算力达10 EFLOPS,迭代周期快至5天[50][51] - 云端模型工厂采用FP8混合精度训练,计算效率达行业顶尖水平[55][58] 未来方向 - 世界模型将作为实时反馈系统,持续提升基座模型能力[36][41] - 技术将扩展至AI机器人、飞行汽车等新领域[43] - 从"软件开发汽车"转向"AI开发汽车",建立全链路自研体系[61][62] - 年内G7将推出重大新功能,持续进化AI能力[65]
Scaling Law首次在自动驾驶赛道被验证!小鹏汽车CVPR演讲详解:AI「吃」下6亿秒视频后,智能涌现
量子位· 2025-06-16 12:50
贾浩楠 发自 凹非寺 量子位 | 公众号 QbitAI CVPR 2025 ,自动驾驶传来重大进展: Scaling Law , 首次在这条赛道被验证! 来自中国的 小鹏汽车 ,完整拿出了技术方案和AI司机"智能涌现"的成果。 自动驾驶的"ChatGPT时刻",真的要来了吗? CVPR 2025,小鹏汽车拿出了什么成果 今年的CVPR线下会议在美国田纳西州纳什维尔举办,日期是6.11-6.15。观众老爷们看这篇推送的时候, CVPR才刚刚结束几个小时——新 鲜出炉 。 CVPR的自动驾驶分论坛 (Workshop on Autonomous Driving) ,历年都是业内极具影响力的技术风向标和盛会。比如2022年的WAD, Wayve首次披露了自己低传感器端到端路线方案,马上成为自动驾驶赛道炙手可热的明星公司;再比如,特斯拉最早在CVPR WAD上详细分 享了占用网络技术,随后成为业内悉数跟进的量产方案…… 今年的WAD,中国的 小鹏汽车是唯一一家受邀发表主题演讲的车企 。 小鹏在演讲前一天,刚刚开启了最新SUV G7 的预售,创造了 量产L3级AI算力第一车 的纪录,单车算力超过2200TOPS,何小鹏 ...
Scaling Law首次在自动驾驶赛道被验证!小鹏汽车CVPR演讲详解:AI「吃」下6亿秒视频后,智能涌现
量子位· 2025-06-16 12:49
核心观点 - 小鹏汽车在CVPR 2025上首次验证了Scaling Law在自动驾驶VLA模型上的有效性,展示了其"自动驾驶基座模型"的技术突破[1][43][46] - 公司通过云端大模型+车端小模型蒸馏的技术路线,实现了AI司机的"智能涌现",在复杂场景下表现出超越传统方案的决策能力[4][7][9][11][13][14] - 新技术路线突破了传统端到端方案的局限性,构建了具备完整认知能力的"大脑+小脑"架构,为自动驾驶和具身智能的大一统奠定基础[26][27][57][60] 技术方案 - 云端部署720亿参数VLA大模型,以语言模型为骨干网络,融合视觉、语言和动作模块,实现环境理解到行为输出的闭环决策[30][33][36] - 车端部署蒸馏后的小模型,通过持续在线学习(Online Learning)实现能力迭代,G7车型搭载3颗自研图灵AI芯片,算力达2200TOPS[42][53][55] - 强化学习训练聚焦安全、效率、合规三大原则,并开发世界模型(World Model)生成高价值训练数据[37][38][39][40] 性能表现 - 在无规则代码托底情况下,基座模型直接控车完成加减速、变道绕行、转弯掉头等复杂驾驶任务,决策丝滑度显著优于传统方案[4][5][14][15] - 成功通过福州特殊路口等极端场景,展现出链式思考能力(CoT)和全局理解能力[17][18] - 模型累计训练2000多万条30秒视频片段,参数规模与数据量扩大过程中持续显现Scaling Law效应[43][46] 行业影响 - 首次从技术层面回应了"端到端只能模仿不能超越"的行业质疑,为L2与L4的技术路线融合提供新思路[27][60] - 云端算力达10 EFLOPS,集群效率超90%,全链路迭代周期5天,水平媲美顶尖AI公司[50][51] - 技术体系已实现车、机器人和飞行汽车通用,推动"AI定义汽车"向具身智能延伸[62][63][64] 产品落地 - 最新SUV G7预售价23.58万,成为量产L3级AI算力第一车,采用无激光雷达方案[2][15] - VLM作为车辆"大脑"统一舱驾交互,VLA-OL模型增强"小脑"运动规划能力[55][56] - 公司从2024年开始全面转向新技术路线,与行业主流方案形成明显差异[23][50]
苹果憋一年终超同参数 Qwen 2.5?三行代码即可接入 Apple Intelligence,自曝如何做推理
AI前线· 2025-06-10 18:05
苹果新一代基座模型发布 - 推出两大基座模型:3B参数的紧凑型设备端模型和服务器端混合专家模型,均针对苹果芯片优化,支持15种语言及多模态输入[1] - 设备端模型通过5:3深度比分割和KV缓存共享技术,降低38.5%内存占用并改善首token生成速度[6] - 服务器端采用PT-MoE架构,通过独立轨道处理token减少同步开销,实现高效扩展[7] 模型架构创新 - 引入交错注意力架构结合RoPE和NoPE,提升长上下文处理能力并减少键值缓存大小[8] - 视觉系统采用1B参数ViT-g服务器模型和300M参数ViTDet-L设备模型,新增寄存器窗口机制增强全局/局部特征捕捉[12] - 量化技术实现设备端2-bpw和服务端3.56-bpw压缩,嵌入表统一4-bit量化,通过适配器恢复质量损失[17][18] 性能表现 - 设备端模型在所有语言环境超越Qwen-2.5-3B,英语环境媲美Qwen-3-4B和Gemma-3-4B[8] - 服务器端模型优于Llama-4-Scout,但落后于Qwen-3-235B和GPT-4o[8] - 视觉任务评估显示设备端模型优于InternVL-2.5-4B和Qwen-2.5-VL-3B,与Gemma-3-4B相当[10] 训练优化 - 分阶段预训练:文本模态阶段采用蒸馏损失降低90%训练成本,视觉阶段联合训练编码器[14] - 持续预训练整合合成数据提升代码/数学能力,多模态自适应保持文本能力[16] - RLHF技术带来16:9的人类评估优势比例,显著超越SFT效果[16] 开发者生态 - 推出基座模型框架,支持Swift语言三行代码接入3B设备端模型,内置文本摘要/实体提取等功能[20] - 框架支持工具调用和引导式生成,Automattic等厂商已应用于日记类产品开发[21] - 测试版通过Apple Developer Program提供,公开测试版将于下月上线[22]