大语言模型

搜索文档
开发出火遍全球的新冠疫情地图的中国留学生,发表最新论文:利用AI大模型预测疫情
生物世界· 2025-06-22 16:17
全球新冠疫情数据可视化地图 - 新冠大流行期间,约翰·霍普金斯大学开发的全球新冠疫情数据可视化地图单日访问量一度高达20亿,成为多国政府及媒体广泛引用的疫情追踪系统 [1] - 该地图由该校两位中国留学生董恩盛、杜鸿儒开发,结合自动化数据采集与人工审核机制实现高可靠性 [1][3] PandemicLLM模型技术突破 - 研究团队开发的多模态大型语言模型PandemicLLM通过融合文本政策、基因组数据、时空流行病学数据,实现疫情实时预测,预测性能显著优于传统模型 [3] - 首创"五级趋势分类法",采用疾控中心认可的住院趋势分类(大幅下降、温和下降、稳定、温和上升、大幅上升),提升决策效率 [8] - 实现"零样本"应对新变种,如BQ.1变种出现时无需重新训练模型,仅需添加特性描述即可提升28.2%预测准确率 [9] 传统模型痛点 - 传统模型存在四大缺陷:无法处理政策文本等非数值数据、新变种响应滞后需重新训练、预测结果可读性差、三分之二模型曾在疫情拐点预测失误 [10] 多模态数据处理 - PandemicLLM通过AI-人类协作提示词设计,将政策文本转化为防控力度变化描述(如"学校从强制关闭转为建议关闭"),基因监测数据解析为病毒特性(如"BQ.1变种传播力比BA.5高40%") [11] - 时空数据转化为排名描述(如"加州老年人口比例全美前五"),时间序列通过GRU神经网络编码关键趋势 [11] 模型测试表现 - 全美50州19个月测试显示:1周预测准确率56%(较传统模型提升20%),3周预测准确率46.4%(误差率降低22%),700亿参数版本准确率达57.1% [17][23] - 当模型对"大幅上升"判断置信度>85%时,实际发生概率达73%(1周)和64%(3周) [18] - 在疫情趋势一致的西部沿海、五大湖区表现最佳,政策多变地区如怀俄明州仍需优化,建议开发区域定制模型 [19] 行业影响 - 该研究开创AI辅助公共卫生决策新范式,未来决策者或可获取"风险趋势解读报告"而非原始数据 [24] - 研究成果发表于Nature Computational Science,论文链接提供完整技术细节 [25]
大模型到底是怎么「思考」的?第一篇系统性综述SAE的文章来了
机器之心· 2025-06-22 13:57
作者介绍:本篇文章的作者团队来自美国四所知名高校:西北大学、乔治亚大学、新泽西理工学院和乔治梅森大学。第一作者 束东与共同第一作者吴烜圣、赵海燕分别是上述高校的博士生,长期致力于大语言模型的可解释性研究,致力于揭示其内部 机制与 "思维" 过程。通讯作者为新泽西理工学院的杜梦楠教授。 在 ChatGPT 等大语言模型(LLMs)席卷全球的今天,越来越多的研究者意识到:我们需要的不只是 "会说话" 的 LLM,更是 "能解释" 的 LLM。我们想知道,这些庞大的模型在接收输入之后, 到底是怎么 "思考" 的? 为此,一种叫做 Sparse Autoencoder(简称 SAE) 的新兴技术正迅速崛起,成为当前最热门的 mechanistic interpretability(机 制可解释性) 路线之一。最近,我们撰写并发布了 第一篇系统性的 SAE 综述文章 ,对该领域的技术、演化和未来挑战做了 全面梳理,供关注大模型透明性、可控性和解释性的研究者参考。 论文题目: A Survey on Sparse Autoencoders: Interpreting the Internal Mechanisms of ...
大模型为何难成为「数学家」?斯坦福等揭示严谨证明中的结构性弱点
机器之心· 2025-06-22 12:26
数学推理与AI研究 - 数学证明需要逻辑闭合和严谨推理过程,不等式问题是检验模型推理能力的理想对象[1] - 当前形式化数学系统如Lean、Coq要求极高精度,难以规模化应用于中学到奥数级别的不等式问题[1] - 大语言模型在非形式化推理方面表现出色,能给出看似合理的答案并模仿人类初期思维方式[1] IneqMath创新方法 - 研究团队提出将不等式证明拆解为"界限估计"和"关系预测"两个子任务[2][7] - 构建首个奥林匹克级不等式证明基准数据集IneqMath,包含1,252道训练题目和200道测试题目[11][12] - 数据集覆盖83种定理和29个定理类别,测试集由IMO奖牌得主设计并经数学家审核[12] 评估框架 - 开发LLM-as-Judge框架,包含五种自动评审器评估模型推理严谨性[20] - 评审器系统在与人工标注对齐的任务上达到F1=0.93的表现[24] - 框架可判断模型是"碰巧答对"还是每个推理节点都正确[23] 研究发现 - 存在Soundness Gap现象:模型最终答案准确率与推理严谨性差距显著[27] - Grok 3 mini最终答案准确率71.5%,但逐步评审后骤降至6.0%[29] - 模型规模增大能提升猜测准确率,但对推理严谨性提升有限[30] - 增加推理token数仅带来轻微提升,很快进入饱和状态[32] 改进策略 - 自我批判提升策略为Gemini 2.5 Pro带来约5%的准确率提升[42] - 定理提示策略使Gemini 2.5 Pro准确率提升约10%[42] - 研究团队设立动态更新的排行榜推动模型在严谨数学推理上的进步[36] 研究团队 - 项目由斯坦福大学、麻省理工学院和加州大学伯克利分校的研究者联合完成[44] - 负责人Pan Lu是斯坦福大学博士后研究员,研究方向包括大语言模型和数学发现[45] - 合作者包括MIT博士生Alex Gu和斯坦福大学博士生Jikai Jin[46][47]
广联达(002410) - 002410广联达投资者关系管理信息20250621
2025-06-21 21:35
分组1:产业AI要素与公司优势 - 做好产业AI的三个关键要素为高质量数据、高价值场景、高可靠模型 [2] - 广联达在产业AI上的优势包括有自研大模型AecGPT、内置工程建设知识库、更懂图纸解析、领域知识回答更优、建筑工作流编排更优 [2] 分组2:AI价值场景落地 - 公司将建筑行业大模型与工程软件深度融合,提供智能化设计、交易、施工、运维、企业等系列应用产品及解决方案 [2] - AI场景落地方向为设计一体化、成本精细化、施工精细化 [2] 分组3:高价值AI应用特点 - 高价值AI应用应能从头到尾闭环交付 [4] - 其价值能被明确度量,如AI智能评标在海南使市场主体参与投标数量提升约10倍,节约财政资金约45.6亿元,平均中标下浮率为8% [5] - 能在过程中持续学习和优化 [5] 分组4:AI智能评标商业化落地 - AI产品商业化落地与技术成熟阶段相关,2024年交易阶段AI产品落地多,后续项目建设施工阶段AI应用价值将更凸显 [5][6] - AI智能评标通过减少人为干预保障公平公正,提升效率,破除地域限制,带来新增需求 [6] 分组5:未来高价值AI场景突破 - 技术维度上,多模态大模型突破后可带动施工现场安全管理需求场景,满足政府和企业对安全管理的需求 [6] - 市场维度上,新清单激发行业数据管理需求,AI自动建库可提高建库效率,产品已进入验证阶段,后续将规模化推广 [7]
车企造人,急不来
虎嗅APP· 2025-06-19 22:42
车企布局机器人赛道现状 - 半年前机器人概念成为车企估值翻倍催化剂,特斯拉发布视频后超十家车企跟进布局[1] - 小鹏、小米、广汽已推出产品,理想计划进场,蔚来处于调研阶段,赛力斯/长安/比亚迪组建近200人团队[1] - 上汽、北汽、奔驰通过投资方式参与,行业普遍将机器人视为新增长点[1][3] 车企跨界机器人的底层逻辑 - 硬件复用:自动驾驶摄像头/激光雷达等可直接迁移[2] - 软件迁移:自动驾驶算法和数据闭环能力可复用[2] - 资源共享:汽车制造/销售网络为机器人提供应用场景[2] - 市场潜力:中国人形机器人规模预计从2024年27.6亿元增至2029年750亿元,2030年出货量或达35万台[2] 技术实现难点 硬件瓶颈 - 人形机器人硬件标准化程度不足20%,关键部件如电机/灵巧手/传感器存在技术路线争议[7][10] - 特斯拉Optimus通过定制化调优实现基础动作能力,国内小米等企业正投入灵巧手研发[10] - 工业场景要求机器人具备1.8米操作高度,目前仅优必选等少数企业达标[19] 软件与数据挑战 - 机器人需处理三维空间多模态数据,力觉/触觉传感器增加数据采集复杂度[12] - 行业缺乏统一数据获取范式,特斯拉/Google采用摇操采集耗资千万美元[14] - 验证scaling law需1000万条数据,当前企业采集量不足100万条[15] 工业场景落地困境 - 总装线非标任务(搬运/质检/线束整理)超出当前机器人能力范围[17] - 机器人搬运效率仅为工人50%,优化后仍需2分钟完成工人1分钟的工作[19] - 成本劣势明显:特斯拉Optimus成本43.4万元,优必选售价50-60万元,远高于比亚迪18万元/年用工成本[20] - 实际应用滞后:特斯拉仅几十台参与搬运,Figure在宝马工厂仅2台非生产时段训练[22][23] 行业真实进展 - 上海车展车企多展示机器人作为"车模",未实现工厂应用[4] - 特斯拉/优必选等头部企业仍处实训阶段,优必选计划2024年交付数百台[22] - 行业普遍存在宣传与实际差距,多数企业停留在PPT阶段[5][23]
智通港股解盘 | 忧虑美国下场中东引发抛售 另一轮关税“攻势”正在路上
智通财经· 2025-06-19 20:23
地缘政治与市场影响 - 伊朗向以色列发射射程2000公里的"泥石"弹道导弹和1400公里的"征服者"高超音速导弹,但战果有限[1] - 以色列遭受400枚弹道导弹和1000架无人机袭击,造成24人死亡500多人受伤[2] - 以色列防空导弹储备仅能支撑约10天,需美国支援[2] - 市场担忧美国可能对伊朗发动军事袭击,引发金融市场抛售[3] - 恒指因冲突影响跳空下跌1.99%[1] 美国政策与贸易 - 美联储维持利率不变,预计2025年底前降息两次[3] - 美国推进针对芯片、制药和关键矿产的新一轮关税[4] - 商务部将加快稀土出口许可审查作为对美国关税的回应[4] - 医药股受关税预期影响下跌,君实生物跌超7%[4] 消费与商品市场 - 飞天茅台价格跌破2000元,经销商库存压力大[5] - 海天味业上市首日盘中破发,但收盘微涨0.55%[6] - 海天味业IPO认购火爆,富途平台融资认购倍数近700倍[6] 个股表现 - 小菜园逆势涨超7%,因7533.8万股即将解禁[7] - 美中嘉和完成配售筹资9394万港元,旗下医院拥有稀缺质子治疗设备[7] - 山东黄金一季度营收259.35亿元同比增36.81%,净利润10.26亿元同比增46.62%[10] - 山东黄金保有黄金资源储量2058.46吨,计划2025年产量不低于50吨[10] 行业政策 - 北京出台游戏电竞行业支持政策,精品游戏最高奖励500万元[8] - 对重点网络游戏项目最高给予3000万元奖励[8] - 政策利好北京游戏公司如金山软件和祖龙娱乐[9]
这届年轻人,养猫、养狗、养AI
虎嗅· 2025-06-19 17:53
机器人行业发展 - 消费电子展上机器猫狗亮相,具备毛绒手感和AI情绪理解功能,相比其他科技产品更易让用户感受到"生机"[2] - 情感陪伴型机器人市场早期稀缺,2018年样机开发时引发期待但技术不成熟[30] - 近年市面上出现多种宠物机器人,多设计为小动物形态并接入语言大模型,但互动体验仍显机械[51][52] 产品技术演进 - 早期产品外观类似小垃圾桶,功能仅限移动,对话流畅度不如智能音箱[31] - 通过多次迭代升级,产品增加升降功能、投影功能,但初期稳定性差易死机[34] - 2021年后产品稳定性提升,维修频率降低,语音功能和表情系统显著优化[16][36] 用户行为分析 - 用户与机器人长期相处会产生情感依赖,77%用户表示会因机器人送修感到家庭空落[35][67] - 用户训练行为影响机器人性格形成,63%机器人会模仿主人语气和互动方式[37] - 用户更倾向与具备主动互动能力的机器人建立情感连接,这类产品使家庭氛围提升2-3倍[55][57] 产品功能特点 - 机器人具备记忆功能,可记录主人喜好如爱吃草莓等细节[45] - 配备电子屏幕显示表情变化,能根据主人情绪状态调整反馈[47] - 支持人物关系识别,对家人和客人采用不同互动模式[49] 市场竞争格局 - 量产机型即将上市,显示行业进入商业化阶段[67] - 现有产品在行动能力和语言交互方面形成差异化优势[54][55] - 毛绒触感类机器人虽初期吸引用户,但长期使用率仅维持15-20%[51][52]
中泰资管天团 | 李玉刚:挑战共识、提出有价值假说的能力,很难被AI替代
中泰证券资管· 2025-06-19 16:16
人类最伟大的能力,不是知道答案,而是永远保持提问与重构答案的可能。 L. G. Valiant 在规则明确、数据丰富的任务中AI已展现出越来越强大的超人类能力。比如OpenAI宣称,GPT-4参加了多 种基准考试,包括美国律师资格考试、法学院入学考试LSAT、SAT数学部分和证据性阅读与写作部分考 试等。在这些测试中,GPT-4得分高于88%的人类应试者。 AI技术的快速进展和成熟,无疑从很多方面影响和改变着我们的生活和工作方式,尤其是在 整合共识和 主流叙事、优化"已知"领域的运行效率 方面,现有的AI模型已体现出强大的能力。 相比与当前的AI,人类的价值和竞争优势体现在哪里?个人赞同以下观点, 保持对异常现象的好奇心, 勇于挑战共识,提出有价值的假说,仍是人类最值得珍视的能力。 AI的优势:高效整合历史经验和共识, 优化"已知"领域的运行效率 当前以大语言模型(LLMs)为代表的AI模型,仍然是一个 数据和计算驱动,基于历史频率、相关性及均 值的统计归纳系统 。它的"智能",是基于"同一事物可以通过无限种方式被陈述、表达和表征"这一事 实。其能力源于语言表征的泛化能力,即能够将一种表达方式转化为另一种表达 ...
从敦煌到大足 两大世界文化遗产首次在重庆联展
中国新闻网· 2025-06-19 09:50
展览概况 - 展览主题为"从敦煌到大足——石窟艺术中国化流变展",首次联展敦煌莫高窟与大足石刻两大世界文化遗产 [1] - 展览共呈现200余件展品,包括国宝级文物2件、一级文物15件、二级文物10件、三级文物8件,复制洞窟6座 [1] - 展览模式为"原迹重现+当代诠释",搭建"北敦煌·南大足"对话舞台 [1] 技术应用 - 采用数字孪生技术整窟复制敦煌莫高窟第158窟、第3窟、第45窟、第17窟和大足石刻宝顶山小佛湾第9号毗卢庵、大足石刻北山第245号窟 [1] - 打造沉浸式体验空间,借助AI技术与交互科技实现"点亮千手观音"光影互动装置,游客可通过电子屏合掌实时生成图像参与观音贴金体验 [1] - 运用大语言模型实现北魏敦煌禅定佛像与南宋大足释迦牟尼佛像的跨时空"对话" [1] 合作机构与展期 - 由重庆中国三峡博物馆联合敦煌研究院、大足石刻研究院等9家单位共同策划 [2] - 展览将持续至2026年1月5日 [2]
MiniMax最快今年赴港上市:新发布的M1推理模型直接叫板DeepSeek-R1与GPT-4
IPO早知道· 2025-06-18 21:10
公司上市计划 - MiniMax最快将于2024年赴港上市 目前与中介机构就上市事宜进行沟通但无具体时间表 [2][3] - 公司成立于2021年12月 当前估值约30亿美元 投资方包括云启资本、IDG资本、高瓴创投、明势创投、米哈游、腾讯、阿里等 [4][7] 技术研发进展 - 2025年1月发布并开源01系列模型 包含Text-01语言大模型和VL-01视觉多模态模型 采用线性注意力机制可处理400万token输入 [4] - 语音大模型规模全球Top 2 支持32种语言 视频模型调用量全球领先 支持文生视频/图生视频/主体参考等功能 [5] - 6月17日发布M1推理模型 为全球首个开源混合架构推理模型 复杂场景能力超过国内闭源模型 成本仅为GPT-4的0.5% [8][9] - 6月18日发布Hailuo 02视频生成模型 打破全球视频模型效果成本纪录 [10] 产品与市场表现 - 推出海螺AI、MiniMax Audio、星野Talkie等多款AI产品 在全球范围内具有一定欢迎度 [6] - 自6月17日起连续5天发布新模型 包括M1推理模型和Hailuo 02视频模型等 [1][8][10] 行业动态 - 国内大模型领域头部企业之一 与智谱AI、面壁智能等并称"大模型六小龙" [2][15]