Workflow
语言
icon
搜索文档
ICML2025|清华医工平台提出大模型「全周期」医学能力评测框架MultiCogEval
机器之心· 2025-07-23 09:04
本文工作由清华大学电子系医工交叉平台吴及教授和刘喜恩助理研究员所领导的医学自然语言处理团队,联合北邮、科大讯飞、无问芯穹等单位共同完成。 第一作者周宇轩为清华大学电子工程系博士生,其研究方向聚焦于大模型的医疗垂类能力评估与优化,此前已提出 MultifacetEval(IJCAI 2024)与 PretexEval(ICLR 2025)等医学知识掌握的多面动态评估框架体系。吴及教授和刘喜恩助理研究员所领导的医学自然语言处理团队长期致力于面向真实需 求驱动的医工交叉前沿技术研究与产业变革,曾在 2017 年联合科大讯飞研发了首个以 456 分高分通过国家临床执业医师资格考试综合笔试测试 AI 引擎 Med3R(Nature Communications 2018)并在全国 400 多个区县服务于基层医疗;2021 年联合惠及智医研发了首个基于全病历内容分析的智慧医保 AI 审核引擎,获得国家医保局智慧医保大赛一等奖,并在全国多个省市进行示范应用。 大语言模型(Large Language Models,LLMs)技术的迅猛发展,正在深刻重塑医疗行业。医疗领域正成为这一前沿技术的 "新战场" 之一。大模型具备 强 ...
一场对抗OpenAI的“危险游戏”,值不值得投资
虎嗅· 2025-07-23 08:17
硅谷风投 a16z 已经迫不及待将其定义为新风口,在其近期发表的一篇文章中直言,"21 世纪初是谷歌 AdWords 的套利时代,2010 年代属于 Facebook 的定向 引擎,2025 年,轮到 LLM(大语言模型) 和 GEO(生成式引擎优化)了。" 在硅谷最大孵化器 YC 最新的 Demo Day 上,两家同类公司的出现,似乎印证 着这个判断。GEO,是如今全球创投圈一个热门话题。 对于这样诞生于生成式AI之上的"新物种",业界对此基本属于——"干中学"的态度。 回归最简单的商业逻辑就会发现,这类创业公司能做到多大、这类商业模式能持续多久,或许都非常有限。 "AI 原生 100" 是虎嗅科技组推出针对 AI 原生创新栏目,这是本系列的第「 07 」篇文章。 "这更像场'猫鼠游戏'。" 嘉和资本 CEO 袁子恒直言。这些公司试图破解大模型的黑箱,帮品牌优化 AI 推荐权重,但底层算法的每次调整,都可能让之前的 努力归零。 当 ChatGPT 的周活用户冲破 10 亿大关时,一场静悄悄的权力转移正在发生 —— 超过 60% 的消费者开始绕过谷歌、百度,直接向 AI 助手询问商品信息。 但品牌们却像蒙眼的 ...
小米提出DriveMRP:合成难例数据+视觉提示事故识别率飙至88%!
自动驾驶之心· 2025-07-22 20:46
自动驾驶技术研究 核心观点 - 提出DriveMRP框架,通过合成高风险运动数据(DriveMRP-10K)和视觉提示方案,显著提升视觉语言模型(VLM)在自动驾驶场景中的风险预测能力,事故识别准确率从27%提升至88% [1][7][8] - 创新性地将运动路点投影为视觉表示,结合BEV全局上下文和链条推理机制,解决传统VLM在模态差距和可解释性上的局限 [6][13] 现有方法局限 - 规则基方法依赖外部世界模型和预定义规则,对感知误差敏感且泛化性差 [2] - VLM基方法直接输入轨迹坐标文本,因模态差距导致空间关系理解不足 [4] 创新方案 数据集构建 - DriveMRP-10K包含10,000个高风险场景,通过多项式模拟生成三类风险轨迹(ego车辆行为/车辆交互/环境约束),结合GPT-4o生成多模态标注数据 [5] - 采用四阶段流程:高风险轨迹合成→自动标注→人工质检→文本生成,确保数据质量 [5] 模型架构 - DriveMRP-Agent以BEV布局、场景图像和运动路点为输入,通过LoRA微调Qwen2.5VL-7B模型 [6] - 关键组件:视觉提示方案(解决模态差距)、链条推理机制(场景理解→运动分析→风险预测)、CoT训练策略 [6] 性能表现 基准测试 - 在DriveMRP-10K上,ROUGE-1-F1达69.08,风险预测准确率88.03%(基线27.13%),F1分数89.12 [7][8] - 真实世界数据零样本评估中,准确率从29.42%提升至68.50% [9] 数据集有效性 - 微调后Llava-1.5-7B的F1分数从0.85提升至29.99,Qwen2.5-VL-7B的F1达89.12 [11] 组件分析 - 完整模型(视觉提示+链条推理+BEV)性能最优,F1分数89.12;移除BEV后降至83.47 [13] 技术应用 - 方案可增强现有VLM的"即插即用"能力,适用于端到端自动驾驶、BEV感知、轨迹预测等技术方向 [15][17]
8万条!清华开源VLA数据集:面向自动驾驶极端场景,安全提升35%
自动驾驶之心· 2025-07-22 20:46
以下文章来源于深蓝AI ,作者迟浩瀚 深蓝AI . 专注于人工智能、机器人与自动驾驶的学习平台。 作者 | 迟浩瀚 来源 | 深蓝AI 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 推荐语:自动驾驶领域的视觉-语言-动作(VLA)模型虽前景可期,却在非结构化边界场景中表现欠佳,主要归因于针对性基准数据的稀缺。为此,这 篇研究推出Impromptu VLA解决方案。核心贡献在于构建了Impromptu VLA数据集:该数据集包含8万余条精细构建的视频片段,提炼萃取自8个开源 大规模数据集中的200余万条原始素材。 本文由论文一作迟浩瀚 论 文题目: Impromptu VLA: Open Weights and Open Data for Driving Vision-Language-Action Models 论文作者: Haohan Chi, Huan-ang Gao, Ziming Liu, Jianing Liu, Chenyu Liu, Jinwei Li ...
最容易被AI替代的是这三类创业者
混沌学园· 2025-07-22 18:07
AI对职场和创业的影响 - AI将导致大量工作岗位被自动化替代 到2030年美国约1200万人需换工作 60%-70%白领工作将被AI取代 [2] - 未来五年全球可能减少1400万个工作岗位 尽管AI会创造6900万新岗位 但将导致8300万岗位消失 [3] - 生成式AI正在改变多个行业的工作方式 包括写作、法律、客服、金融和营销等领域 [4] 容易被AI替代的创业类型 - 依赖重复劳动的创业者 如数据录入、文档整理等标准化工作 AI通过RPA和机器学习技术能更高效完成 [7][8][9] - 缺乏创意的内容创业者 模板化或洗稿式内容创作将被AIGC技术取代 AI能快速生成专业级文本、图片和视频 [12][13][14] - 伪需求或低价值创业者 如信息搬运、简单中介服务等 AI通过大数据分析和智能匹配将消除这类业务 [16][17][18] 难以被AI替代的创业机会 - 整合AI工具开创全新业务模式 如个性化教育方案、智能医疗诊断辅助系统等 [24][25][26] - 注重品牌打造和社群建设的创业者 依靠情感连接和价值观传递建立用户忠诚度 [28][29][30] - 复杂人际协作和情感服务领域 如心理咨询、定制化教育、高端餐饮服务等 [35][36][37] AI时代的创业策略 - 创业者需从重复性低价值领域转向需要人类独特智慧和情感的领域 [44] - 将AI作为工具而非威胁 与AI协同工作提供有"人味儿"的服务 [45][46] - 典型案例包括Coursera的AI个性化教育 董宇辉的情感连接式直播带货等 [27][34]
重塑注意力机制:GTA登场,KV缓存缩减70%、计算量削减62.5%
机器之心· 2025-07-22 16:59
首当其冲的是计算冗余问题。在 MHA (多头注意力) 架构中,每个注意力头都像一个独立的 "工作单元",各自独立地计算查询 (Query)、键 (Key) 和值 (Value) 向 量,这导致了大量的重复计算。特别是在处理长序列任务时,浮点运算次数 (FLOPs) 会呈平方级增长,严重拖慢了模型的处理效率,使得原本复杂的任务变得更 加耗时。 其次是内存瓶颈。每个注意力头都需要完整存储其对应的键值对 (KV) 缓存,这使得内存需求随序列长度和注意力头数量的增加而快速膨胀。例如,在处理长序列 时,KV 缓存的规模可以轻松突破数 GB,如此庞大的内存占用极大地限制了大型模型在智能手机、物联网设备等边缘设备上的部署能力,使其难以真正走进千家 万户。 最后是推理延迟问题。高昂的计算和内存需求直接导致了推理速度的显著下降,使得像语音助手实时响应、在线翻译无缝切换等对延迟敏感的实时应用难以提供 流畅的用户体验。尽管业界的研究者们曾尝试通过 Multi-Query Attention (MQA) 和 Grouped-Query Attention (GQA) 等方法来优化效率,但这些方案往往需要在性能 和资源消耗之间做出艰难 ...
技术狂热过后,人形机器人下半场开拼:谁的订单先落地?
硬AI· 2025-07-22 16:22
大摩认为,市场已对人形机器人的技术预期充分定价,投资者现在最关心的问题是:谁能率先实现订单落地并验证商业价 值。大多数集成商设定2025年交付数百至数千台的目标,落地情况将成为衡量行业进展的关键指标。 投资者现在最关心的问题是:谁能率先实现订单落地并验证商业价值。大摩预计,随着政府持续支持,预 计2025年下半年中国人形机器人订单将加速落地,同时核心技术也将有突破性进展。 01 市场动态转变: 从技术热潮到商业价值验证 硬·AI 作者 | 卜淑情 编辑 | 硬 AI 狂热的技术炒作结束后,人形机器人行业已进入商业落地关键期。 据追风交易台消息,摩根士丹利最新研究显示,2025年下半年人形机器人行业将从技术狂热阶段转向关注 实际商业落地,订单获取和实际应用将成为驱动市场情绪的决定性因素。 市场已经对技术预期充分定价。报告指出,在经历了2025年第一季度37%的强劲上涨后,由于部分集成商 下调交付目标且缺乏突破性技术进展,行业在3-7月期间出现了6%的回调。 2025年第一季度,人形机器人价值链迎来一波强劲上涨,中国相关股票从1月至3月上涨37%,明显跑赢 MSCI中国指数。这主要由以下几个因素推动: 科技巨头纷 ...
技术狂热过后,人形机器人下半场开拼:谁的订单先落地?
华尔街见闻· 2025-07-22 14:40
行业阶段转变 - 人形机器人行业已从技术狂热阶段转向关注商业落地关键期 2025年下半年将成为订单获取和实际应用验证的决定性阶段 [1] - 2025年第一季度行业上涨37%后 3-7月因交付目标下调和技术进展不足出现6%回调 显示市场对技术预期已充分定价 [1][3] 市场动态驱动因素 - 科技巨头入局推动信心:华为、英伟达、谷歌、Meta等加大投入 特斯拉设定2025年生产数千台Optimus Figure AI计划四年交付10万台 [2] - 中国企业目标激进:爱智机器人、优必选等宣布2025年交付数百至数千台 宇树科技H1机器人亮相央视春晚获政策背书 [2][3] - 技术突破支撑:多家公司发布视觉-语言-行为(VLA)模型 智能水平显著提升 [2] 商业落地进展 - 中国移动1.24亿元订单落地:爱智机器人获7,800万元 宇树科技获4,600万元 优必选9,100万元订单9月起交付装载任务 [5] - 2025年交付目标:爱智机器人6,500台 特斯拉数千台 优必选1,100-1,300台 实际达成情况将成行业关键指标 [5] - 应用场景扩展:商业服务、餐饮、接待等领域将受益于任务数据积累和智能改进 形成规模效应良性循环 [7] 技术迭代方向 - 特斯拉Optimus Gen 3将重新设计 马斯克称其灵活性接近敏捷人类 Figure 03侧重经济性大规模生产 [11] - 宇树科技推26自由度低成本机型 最高价9,000美元(约65,000元) [11] - 硬件创新聚焦:旋转执行器采用摆线减速器和PEEK材料减重 线性执行器改进螺杆效率 VTLA架构模型升级 [12] 产业链关键公司 - 摩根士丹利覆盖45只股票:大脑(3家如百度、科大讯飞)、身体组件(31家如三花智控、拓普集团)、集成商(11家如腾讯、优必选) [13] - 核心部件供应商:宁德时代投资Galbol提供动力方案 双环传动开发人形专用减速器 禾川科技推出旋转执行器 [14] - 集成商进展:优必选Walker S1搭载百度文心大模型 美的与库卡合作人形机器人5月进厂 小鹏IRON目标2026年量产 [14] 重要行业事件 - 2025年关键日程:特斯拉Q2财报(7月23日)、世界人工智能大会(7月26-28日)、世界机器人大会(8月8-12日) [13] - 科技巨头活动:Mag 7、华为、小米可能发布人形机器人更新 初创公司IPO进程值得关注 [13]
Kimi K2官方技术报告出炉:采用384个专家,训练不靠刷题靠“用自己的话再讲一遍”
量子位· 2025-07-22 14:39
一水 发自 凹非寺 量子位 | 公众号 QbitAI Kimi K2称霸全球开源模型的秘籍公开了! 没错,就是 整整32页的Kimi K2官方技术报告 。业内人士第一波repo已火速出炉: 这篇论文中有很多令人印象深刻的内容。 nice!它分享了很多关于Kimi (以及中国实验室) 对这些模型的看法 (他们关注/优化的内容) 。 Kimi K2,作为Kimi最新MoE基础模型,总参数1T,激活参数32B,能力领先性尤其展现在代码、Agent、数学推理任务上。 上线仅一周,它就在竞技场千人盲评中击败DeepSeek, 登顶全球最强开源模型 ,而且能媲美Grok 4、GPT 4.5等顶尖闭源模型。 那它是咋做到的呢? 别急,这篇最新论文来给答案了—— 一次性大公开Kimi K2的训练过程及"秘密配方" 。 包括但不限于大家已经热议的:MuonClip优化器、大规模Agentic Tool Use数据合成、通用强化学习等等。 下面详细来看。 都有哪些技术亮点 首先,Kimi团队认为,现如今大语言模型正从静态模仿学习向Agentic Intelligence转型。 这意味着,模型需要具备在复杂动态环境中自主感知、规划 ...
从2025意大利国际近红外光谱学术会议看技术发展新趋势
仪器信息网· 2025-07-22 11:24
近红外光谱技术核心进展 - 近红外光谱技术在硬件创新、算法优化和应用拓展方面取得突破性进展,呈现向更智能、更普惠分析工具演进的趋势 [1] - 2025年意大利国际会议集中展示三大核心方向:仪器硬件革新、数据处理方法进阶、应用场景多元化拓展 [1] - 技术融合特性显著,结合高光谱成像、多模态数据融合和自动化系统推动产业落地 [1] 仪器硬件革新 - 设备小型化与成本控制成为硬件创新核心主题,MEMS/InGaAs传感器模块实现530-1700nm灵活配置 [3] - 便携式设备在食品安全(伊比利亚火腿饲养方式区分准确率100%)、药品检测(3D打印药物非破坏性验证)、咖啡品质田间快速测定等场景实现高精度现场分析 [5] - 专用光谱仪器发展迅速,如挪威MiniSmartSensor通过交互几何光学设计实现食品亚表面检测 [7] 算法与模型进阶 - 化学计量学方法从传统PLS回归向更智能、自适应建模策略转变,挪威"第一性原理"方法论提高模型鲁棒性 [9] - 深度学习面临数据不足挑战,韩国CAE模型实现地理溯源高精度鉴别,日本CNN分析种子活力 [12] - 开放集识别技术突破封闭集限制,爱尔兰OpenMax-CNN模型实现95%未知类别识别准确率 [14] 应用场景拓展 - 技术应用边界扩展至生物能源(丹麦团队提高产气效率15%)、农业(意大利甜橙无损检测)、工业(土耳其原油快速预测)等领域 [18][19] - 自动化技术推动实验室机器人(斯洛文尼亚团队完成26000次自动测量)、无人机(意大利COLIBRI项目)、工业在线监测(西班牙实现500g/min检测速度)等场景落地 [23][24][25] - 医疗领域创新显著,日本团队实现皮肤屏障功能快速评估(准确率92.41-97.37%)和透析过程非侵入监测 [29][30] 高光谱成像技术 - 农业领域应用突出,丹麦CTIS系统实现葡萄成熟度实时监测,法国便携设备提升糖分分布预测精度 [33] - 工业领域西班牙团队开发陶瓷-玻璃分选系统(97.46%识别准确率),意大利团队检测海盐微塑料 [34] - 地质科学领域爱尔兰团队改进YOLOv8模型实现岩芯自动化分析 [35] 多模态与未来趋势 - 数据融合策略提升模型准确性,意大利团队整合NIRS与GC-IMS实现蜂蜜高精度鉴别 [37] - 瑞典团队开发13亿参数NIRS专用语言模型,推动技术术语与方法学深度理解 [37] - 未来发展方向包括MEMS传感器普及、算法可解释性提升、多参数联用系统构建等 [41]