基础模型
搜索文档
中外专家共探AI技术前沿与产业赋能
新浪财经· 2025-11-21 15:23
论坛概况 - 第五届智能计算创新论坛在浙江杭州举行,由浙江之江实验室与《科学》/美国科学促进会共同举办 [1] - 论坛主题为“计算依靠智能、计算为了智能”,旨在搭建智能计算领域国际学术交流平台 [1] - 论坛吸引中外专家探讨人工智能技术前沿发展及其在天文、地学、生命科学、材料等领域的赋能作用 [1] 科学基础模型发展 - 科学基础模型构建的关键是将不同类型科学数据token化并置于同一空间进行训练与推理,以应对跨学科复杂问题 [2] - 基础模型的学习范式经历模仿学习、强化学习和自主学习三个阶段,目前已从模仿学习过渡到强化学习 [2] - 基础模型的应用正从对话转向任务处理,模型推理效率成为大规模部署AI应用程序的关键因素 [2] 模型效率与产业协同 - 基础模型能力提升所消耗的token数量呈指数增长,token消耗量可能成为AI时代衡量经济运行的新指标 [3] - 提升模型推理效率需通过产业上下游联合优化、协同设计模型芯片,并推动系统与架构联合创新 [3] - 模型推理效率越高,产生token的成本越低 [3] 智能系统应用与协作 - 在动态、不可预测环境中,能够有效响应变化的机器人变得愈发重要 [4] - 中国在智能制造等领域展现出领先实力,为观察智能体协作及新技术应用提供了绝佳试验场 [4] - 各国科学家应建立合作网络,携手合作以创造更多可能 [4]
刘德兵说上限,刘知远讲拐点:中国AI十年剧本被他们提前揭开了
36氪· 2025-11-20 17:57
基础模型竞争格局 - 开源成为主流,模型能力差距被迅速放大,一线开源模型达到90分水平后,85分模型即缺乏竞争力[6] - 基础模型公司投入成本高,行业正从“百模大战”逐步收敛,基础模型决定了整个AI产业发展的上限[6] - 公司研发了五十多款模型,其中四十多款已开源,开源带来了大量商业收益,如用户转化和生态合作[5] 未来十年AI发展趋势 - 未来关键变量来自开源生态成熟、行业场景深度落地以及AI成为“全民能力”带来的广泛参与[2] - 行业落地是未来十年关键点,应用将更加成熟,与智能制造、能源等方向进行深度融合[7][8] - AI将进入与人协同共生的阶段,目标是基础技术“摸高”和行业落地“做實”[13] 中国AI发展现状与机遇 - 中国AI正从“跟跑”走向“并跑”,具体体现为GLM-4.6模型在国际评测集Code Arena榜单与Claude、GPT-5并列第一[10] - 应用落地扎实,通过MaaS平台提供服务,GLM-4.6发布后在OpenRouter上增长非常快[11] - 实现“领跑”的机会在于AGI是长跑,下一阶段关键是模型自学习能力,需产业链上下游协同努力[11][12] 智能体技术演进 - 智能体的关键不是堆叠知识,而是让模型具备“在指定工作岗位上自主学习的成长能力”,像大学毕业生通过实践成长为专家[3][18] - 大模型已具备通识能力,但需通过自主确定学习内容、在实践中接受反馈来成为领域专家,否则将限制应用广度与深度[18][19] - 2025年是“AI+编程”的显著拐点,该能力正成为软件生产力的重要支撑,代码大模型研发出现大跃迁[3][17] 产业生态与协作 - 开源可促进产业发展,吸引更多人贡献智慧,解决技术难点与空白,使商业合作更顺畅[4][5] - AI是全民事业,需进行全民教育让人参与发展,未来十年不会使用AI的人效率将明显偏低[8] - 公司发展需与合作伙伴协同推动产业,布局自学习等新技术以争取领跑机会[12][14]
中泰证券:Gemini 3 Pro能力全方位跃升 开创Agent平台新格局
智通财经· 2025-11-20 16:01
文章核心观点 - 基础模型能力持续超预期提升,行业增长逻辑未变,维持“增持”评级 [1] - 模型能力的突破性进展将提升应用场景渗透率,同时重塑价值链格局并侵蚀应用层公司边界 [1] - 投资建议关注确定性强的算力层、模型层公司及深度嵌入业务流程的B端应用厂商 [1] Gemini 3模型性能表现 - Gemini 3 Pro在Humanity's Last Exam中得分37.5%,大幅超越GPT-5.1的26.5%和ClaudeSonnet 4.5的13.7% [2] - 在数学能力测试MathArena Apex中得分23.4%,大幅超越GPT-5.1的1.0%和ClaudeSonnet 4.5的1.6% [2] - 在MMLU-Pro、Video-MMMU等多模态评测中均取得SOTA成绩 [3] Gemini 3的技术与生态创新 - 推出生成式用户界面方案,能自动生成完全定制的交互式响应,实现定制化交互体验 [3] - 推出智能体开发平台Google Antigravity,支持开发者免费使用Gemini 3 Pro等模型编排多个AI Agent并行工作 [3] - 搜索场景推出Search AI Mode,其AI Overview月度用户量已达20亿量级,查询扇出技术获重大升级 [4] 行业趋势与价值链格局 - 基础模型大厂呈现全栈布局趋势,在基础层自研芯片和搭建算力集群 [5] - 应用层厂商正从模型提供商迈向平台,并进一步走向通用工作流或类应用 [5] - 在通用知识工作、办公与代码开发等横向场景中,独立SaaS产品正被整合为基础模型的模块、Agent或App接口 [5]
OmniDexGrasp 揭秘:基础模型 + 力反馈,让机器人 “看懂指令、灵活抓握” 的通用方案
具身智能之心· 2025-10-31 08:04
技术方案核心创新 - 提出“基础模型生成人类抓握图像 + 动作迁移 + 力反馈控制”的三段式框架,以解决灵巧抓取领域“泛化性”与“物理可行性”难以兼顾的瓶颈 [1] - 核心设计是不直接生成机器人动作,而是以人类抓握作为通用中间表示,串联泛化生成、动作迁移和力控执行,既保留基础模型的泛化能力,又通过精准转化解决物理落地问题 [4] - 该方案在模拟与真实场景中实现了跨指令、跨机器人、跨任务的全能灵巧抓取 [1] 方案模块详解 - **模块1:基础模型生成人类抓握图像**:输入支持全场景指令,包括自然语言、视觉提示或单张演示图,通过正负提示模板优化生成图像质量,确保符合指令且具备物理合理性 [6] - **模块2:人类图像到机器人动作迁移**:通过手-物三维重建、灵巧重定向和可执行动作转换三步策略,将人类抓握意图转化为适配不同机器人手型且符合真实场景物体位姿的关节动作 [9] - **模块3:力感知自适应抓取**:采用双阶段位姿设计和力约束位置控制策略,通过力传感器实时监测接触力,使脆弱物体抓取成功率从56%提升至88%且无损坏风险 [12][13] 性能评估与对比 - 在6类真实世界灵巧抓取任务测试中,平均成功率达到87.9%,其中Human-Robot Handover任务成功率高达100% [15] - 与传统方法相比优势显著,例如在语义抓取任务中,“液体容器”抓取成功率从25%升至80%,“手柄”从20%升至60%,“脆弱物体”从55.6%升至91.7% [16][17] - 在模拟场景的33类物体测试中,面对“新类别”物体,传统方法性能暴跌,而该方案凭借基础模型泛化能力保持稳定,是唯一能应对完全陌生物体的方案 [18][19] 技术通用性与扩展性 - 方案能适配多种灵巧手,包括Inspire Hand、Leap Hand、RoboSense Hand和Shadow Hand [20] - 技术可自然扩展到操控任务,通过生成抓取后物体运动轨迹,实现“抓取-移动-放置”的完整操控,为通用机器人操控提供延伸可能 [20] - 模型适配性强,兼容闭源与开源基础模型,开源模型经任务微调后性能可大幅提升,如Wan2.2微调后稳定性得分从2.52升至3.49 [8] 行业影响与未来方向 - 该方案为灵巧抓取技术产业化提供了兼顾泛化性与实用性的参考范本,尤其适用于追求快速落地的工业场景或家庭服务机器人 [23] - 未来方向包括多模态观测融合以提升复杂场景抓取精度,以及深化操控任务以实现端到端的通用操控 [22] - 关键启示在于“人类抓握”是绝佳的中间表示,有效衔接了基础模型的泛化能力与不同机器人的适配需求 [21]
实锤了:GPU越多,论文接收率越高、引用越多
机器之心· 2025-10-17 16:12
基础模型研究资源与产出的关系 - 基础模型研究的进步高度依赖大规模数据、算力和人力资源,资源获取能力与研究成果影响力(如论文发表和引用量)直接相关 [2][3] - GPU是衡量研究成本的关键指标,因其供应有限且受严格控制,研究将GPU数量和TFLOPs与34,828篇顶级会议论文关联分析 [4] - 研究发现GPU获取能力越强,在八个顶级AI会议中的论文接收率和引用量也越高,共识别出5,889篇基础模型相关论文 [5] 研究方法与数据收集 - 研究覆盖2022年至2024年NeurIPS、ICLR、ICML等八个顶级机器学习会议的34,828篇论文,使用关键词搜索和GPT-4o mini分类识别出5,889篇基础模型论文 [8] - 通过系统API和GPT-4o mini提取论文结构化信息,并对229位基础模型论文一作(涉及312篇论文)进行问卷调查以收集计算资源使用数据 [11] - 人工校验与GPT提取数据对比显示,GPU数量、类型和时长信息的自动提取缺失率分别为59.7%、48.3%和88.6%,突显资源披露规范缺失 [16][17] 基础模型研究增长趋势 - 基础模型论文在顶级AI会议中的占比从2022年的2.07%飙升至2024年的34.64%,呈现爆炸式增长 [18][19][26] - 在NLP领域专业会议(如COLM、EMNLP、ACL)中,基础模型论文比例超过综合性机器学习会议,推理相关论文增长最快 [22][23] - 尽管论文数量激增,单个项目使用的GPU数量保持稳定,1到4个GPU的配置最为常见,约占一半比例 [25] 学术界与工业界研究格局 - 学术界611个机构共发表4,851篇论文,工业界163个机构发表1,425篇论文,谷歌和微软是论文产出最多的单一实体 [29][32] - 工业界研究者人均发表8.72篇论文,学术界人均发表7.93篇,研究效率相当,显示研究高度集中在能提供强大算力的顶级机构中 [31] - 美国和中国在基础模型研究产出方面处于领先地位,与两国在高等教育和AI领域的长期投入相关 [31] 模型选择与资源分布 - 开源模型(如LLaMA系列)是研究中使用最频繁的,因其灵活性和可访问性优于闭源模型(如GPT系列) [35][37] - NVIDIA A100是基础模型研究中使用最广泛的GPU,排名前十的GPU均来自NVIDIA家族 [38] - 专注于预训练的研究其GPU使用数量显著高于后训练或推理研究,但不同机构、领域或方法间的GPU使用量无显著差异 [41] 计算资源对研究产出与影响力的作用 - 一篇被接收的论文通常有5名作者,使用4个GPU,项目平均持续约5个月,TFLOPs衡量的总计算能力比GPU数量更能预测论文产出和引用量 [44][45] - 拥有更强算力支持的机构其研究成果往往获得更多引用,但算力并非决定性因素,许多高引用论文来自计算资源有限的机构 [45][46] - 对ICLR会议数据分析发现,被拒稿的论文比被接收的论文使用略少的GPU和TFLOPs,但差距微乎其微,审稿更关注新颖性而非资源多寡 [47] 研究资助来源 - 政府是基础模型研究的最大资助方,在披露资助信息的论文中,85.5%(848篇)获得政府资助,企业资助占29.3%,基金会资助占10.3% [41][42] - 一个国家的人均GDP与其资助的论文数量无必然联系,机构的支持力度和政策比单纯的国家经济实力更能影响研究产出 [41]
2025云栖大会在杭州开幕 数千科技产品集中亮相
中国新闻网· 2025-09-25 09:17
经过仔细审阅,所提供的文档内容存在大量乱码、不完整信息以及非连贯文本,无法从中提取出关于特定公司或行业的实质性、可验证的关键信息。文档中出现的“2025云栖大会”、“通义”、“基础模型”等碎片化词汇暗示内容可能涉及科技行业会议及人工智能技术,但由于信息严重缺失且缺乏上下文,无法进行有意义的总结。 基于当前文档质量,无法完成所要求的任务。建议提供完整的、可读的新闻文本以便进行专业分析。
自动驾驶基础模型应该以能力为导向,而不仅是局限于方法本身
自动驾驶之心· 2025-09-17 07:33
基础模型在自动驾驶感知领域的革命性变革 - 基础模型正将自动驾驶感知从特定任务深度学习模型转变为海量多样化数据集训练的多功能通用架构 [2] - 这些模型通过自监督或无监督学习策略在大规模数据集上预训练 基于Transformer等架构构建 能有效建模数据中的复杂交互关系 [4] - 基础模型展现出广泛泛化能力、高效迁移学习能力和对特定任务标注数据集依赖降低等显著优势 [4] 全新分类框架与核心能力 - 提出围绕动态驾驶环境中稳健性能需求的四项核心能力分类框架:通用知识、空间理解、多传感器鲁棒性和时序推理 [5] - 与传统"基于方法"的综述不同 该框架优先关注概念设计原则 提供"以能力为导向"的模型开发指导 [6] - 框架更清晰地揭示了基础模型的核心特性 为研究人员识别和解决特定缺陷提供系统性指导 [6] 通用知识能力 - 通用知识使模型能适应广泛驾驶场景 包括罕见或未见情况 并能合理推断可能结果和对未知智能体进行逻辑推理 [5] - 通过特征级蒸馏、伪标签监督和直接集成三种核心机制将基础模型集成到自动驾驶技术栈中 [37] - 视觉基础模型(VFMs)可直接集成到2D图像流水线 也能扩展至3D感知流水线 提供高层语义理解 [40] 空间理解能力 - 空间理解让自动驾驶车辆构建环境的连贯3D表示 捕捉物体身份、几何形状与上下文关系 [63] - 体积模型通过将传感器输入解读为3D场景的投影 构建密集、整体的环境表示 [65] - 3D掩码自动编码器通过"掩码输入-重建输出"策略 迫使模型学习场景级结构、物体边界和空间关系 [73] 多传感器鲁棒性 - 多传感器鲁棒性指系统在环境变化、传感器噪声或硬件性能下降时仍能保持感知精度与稳定性的能力 [80] - 跨模态对比学习构建统一表示空间 整合相机、激光雷达、毫米波雷达等不同传感器类型的互补信息 [82] - 多模态掩码自动编码器扩展至处理多模态输入 通过自监督重建任务让模型捕捉互补线索 [97] 时序推理能力 - 时序理解是对场景随时间演变过程进行推理 包括捕捉物体运动、跟踪遮挡物以及预测未来事件 [109] - 时序一致的4D预测模型从传感器观测序列中预测复杂动态环境的演变过程 [113] - 扩散概率模型能够表示复杂的多模态概率分布 成为解决未来场景不确定性问题的理想方案 [115] 技术实现与方法创新 - 知识蒸馏通过训练学生模型模仿教师模型的输出或内部行为 实现三类实现方式:输出级蒸馏、特征级蒸馏和关系级蒸馏 [17] - 神经辐射场(NeRF)采用隐式表示将场景建模为连续函数 通过可微体素渲染方程实现照片级真实感渲染 [24] - 3D高斯溅射(3DGS)采用显式表示将场景建模为一组3D高斯椭球体集合 通过可微前向光栅化器大幅提升渲染速度 [25] 模型对比与特性分析 - 基础模型相较于传统深度学习模型 在自动驾驶感知中的核心优势在于更优的泛化性和适应性 [36] - 视觉语言模型(VLMs)融合视觉基础模型与大语言模型的优势 实现视觉内容与文本语义对齐的联合表征 [35] - 大语言模型(LLMs)基于Transformer架构在海量文本语料上训练 具备强大的抽象、推理与指令遵循能力 [51] 当前挑战与未来方向 - 域间隙问题是核心挑战之一 需弥合基础模型预训练通用知识与自动驾驶感知特定需求之间的间隙 [59] - 幻觉风险带来严重安全风险 需深入探究故障根源并开发主动缓解策略 [60] - 延迟与效率问题与自动驾驶实时处理需求存在直接冲突 需通过模型优化技术构建更小、更高效的模型变体 [61]
Nature Medicine:盛斌/黄天荫团队开发眼科AI大模型,显著提升眼科医生诊疗水平和患者预后
生物世界· 2025-09-01 16:30
基础模型在眼科临床应用的突破性研究 - 开发了多模态视觉-语言眼科基础大模型EyeFM 具备基于1450万张眼部图像的多模态预训练能力 支持单模态影像任务(如疾病检测与病灶分割)和多模态影像任务(如跨模态诊断和集成模态诊断)[6][7] - 通过云端协同模式在全球多地域(亚洲、北美、欧洲及非洲)基层及眼科医生中前瞻性部署 验证其对诊疗能力的提升效果[3][6] - 首次为AI医学领域提供大模型赋能基层与专科诊疗的高级别循证证据 为可临床转化的基础模型研发与验证提供新范式[3] 随机对照试验设计与结果 - 采用平行单中心双盲随机对照试验设计 纳入668名参与者(平均年龄57.5岁 男性占比79.5%)随机分配至干预组(EyeFM辅助)和对照组(标准诊疗)[11] - 主要终点显示干预组正确诊断率显著提升至92.2%(对照组75.4%) 转诊率提升至92.2%(对照组80.5%)[11] - 次要终点显示临床报告标准化评分中位数提升至37分(对照组33分) 干预组自我管理依从率达70.1%(对照组49.1%) 转诊建议接受度达33.7%(对照组20.2%)[11] 临床辅助系统效能验证 - 邀请全球44位眼科医生参与验证 覆盖基层及专科医疗机构 部署后评估显示良好用户接受度[11] - 系统支持自动生成临床规范影像报告和精准医学问答 减少医生文书工作量 成为诊疗过程中的智能助手[6] - 能显著提升眼科医生诊疗水平和患者预后 实现临床自适应的健康指导与智能交互服务[3][13]
FDA已批准超1200款AI医疗器械:影像学之外,新的扩张专科在哪里?
思宇MedTech· 2025-08-21 11:50
文章核心观点 - AI医疗器械已大规模产品化进入医疗临床 FDA累计批准超过1200款AI/ML医疗器械 其中2024年获批235款创历史纪录[2] - 行业从影像学主导转向心血管 神经学等多专科渗透 体现技术应用场景的持续扩张[4][5][7] - 监管重点从窄场景AI转向生成式AI和基础模型 需平衡创新与安全 将影响企业合规路径和商业化节奏[11][13] AI医疗器械审批现状 - FDA累计批准AI/ML医疗器械超1200款 2024年单年获批235款 达历史峰值[2] - 影像学仍为主力应用场景 涵盖自动分割影像 病灶检测和风险筛查等功能[4] - 心血管与神经学成为新增长点 专科领域AI设备数量稳步上升[4][6][10] 心血管专科应用 - AI应用从心电图节律分析扩展至心脏超声和CT冠脉成像[5] - 典型功能包括心律失常识别 心衰风险预测 心肌缺血辅助判断及冠脉狭窄自动评估(FFR-CT)[8] - 扩张动力源于心血管疾病高发病率 庞大患者群体及丰富影像/生理信号数据[6] 神经专科应用 - 以急性中风影像识别为首要切口 通过CT/MRI自动判读缩短黄金救治时间[7][9] - 延伸至癫痫/帕金森病监测 通过可穿戴设备捕捉脑电或运动数据评估发作风险[9] - 前沿探索聚焦阿尔茨海默病早期识别 利用影像特征与认知数据建立预测模型[9] - 高风险高价值场景直接关联患者预后和医疗成本[10] 其他新兴专科应用 - 内镜学AI辅助胃肠镜/结肠镜检查 自动识别息肉和早期肿瘤 提升检出率[12] - 病理学通过数字切片自动识别与分型 实现海量样本前筛选以提高效率[12] - 妇产科等专科逐步渗透 如胎儿超声和宫颈癌筛查 虽数量较少但显示扩展趋势[12] 监管趋势与挑战 - 窄场景AI主导现有获批产品 但生成式AI与基础模型自2024年起进入医疗器械领域[11][13] - FDA面临可解释性 泛化性及迭代管理等新挑战 需界定模型持续更新的审批有效性[13] - 监管重点转向创新与安全平衡 企业需提前布局合规体系并加强与监管机构互动[11][13][14] 行业启示 - FDA审批趋势揭示影像学领域竞争加剧 心血管/神经学等新兴专科存在布局机会[4][14] - 企业需关注基础模型监管框架演进 合规能力将直接影响产品商业化节奏[13][14] - 超1200项审批标志医疗AI进入新十年发展周期 技术从工具向伙伴角色演进[11]
百度高管解读Q2财报:正在开发Ernie的下一代旗舰版本
新浪科技· 2025-08-20 22:04
核心财务表现 - 2025年第二季度总营收327亿元人民币 同比下滑4% [1] - 归属于百度的净利润73亿元人民币 上年同期为55亿元人民币 [1] - 非美国通用会计准则下净利润48亿元人民币 上年同期为74亿元人民币 [1] 人工智能行业竞争格局 - 行业模型迭代速度极快 每周均有多个新模型发布且代际能力持续增强 [2] - 基础模型行业格局呈现多样化特征 不同模型擅长不同任务领域(如推理/编码/多模态) [3] - 中国市场呈现多模型共存状态 类似电车行业的用户选择多样性 [3] 文心大模型战略定位 - 采取应用驱动创新模式 聚焦价值创造而非模型本身 [3] - 集中探索战略性领域以反哺公司业务并维持行业领先地位 [3] - 通过AI搜索转型实现多模态搜索结果生成与选择 提升用户付费意愿 [4] - 数字人技术在直播电商场景达到或超越真人水平 促进消费者转化 [4] 技术发展计划 - 正在开发下一代旗舰版本Ernie 5.0 关键功能有重大改进 [4] - 持续对现有模型进行迭代升级并关注行业技术路线图 [4] - 通过抓住高潜力市场机遇强化技术布局 [4]