Workflow
基础模型
icon
搜索文档
2025云栖大会在杭州开幕 数千科技产品集中亮相
中国新闻网· 2025-09-25 09:17
t 30 组 1 1925 華 寶 領域視觉模型及政府 t 通义官 es 11:2 chinanews.com.cn 2025 云栖大会 chinanews.com.cn 球领先的基础 World's Leading Foundation Model Fam P chinanews.com.cn ...... 111111 1111 12222 our and - 8 C E y chinanews.com.cn 241 chinanews.com.cn chinanews.com.cn 为不同工业务服打 1+N+S = 00 24 HEI chinanews.com.cn r in 式 视 影院院 Inteller The 胜年 5 略中原 11 打組 I ● ehinanews.com.cn ll Park 图 线 游 电 Ed chinanews.com.cn A 0 MITTING THE COLLECTION CONTRACTOR COLLECTION OF THE CONTRACT THE CONTRACT THE CONTRACT THE CONTRACT THE CONTRACT THE CO ...
自动驾驶基础模型应该以能力为导向,而不仅是局限于方法本身
自动驾驶之心· 2025-09-17 07:33
基础模型在自动驾驶感知领域的革命性变革 - 基础模型正将自动驾驶感知从特定任务深度学习模型转变为海量多样化数据集训练的多功能通用架构 [2] - 这些模型通过自监督或无监督学习策略在大规模数据集上预训练 基于Transformer等架构构建 能有效建模数据中的复杂交互关系 [4] - 基础模型展现出广泛泛化能力、高效迁移学习能力和对特定任务标注数据集依赖降低等显著优势 [4] 全新分类框架与核心能力 - 提出围绕动态驾驶环境中稳健性能需求的四项核心能力分类框架:通用知识、空间理解、多传感器鲁棒性和时序推理 [5] - 与传统"基于方法"的综述不同 该框架优先关注概念设计原则 提供"以能力为导向"的模型开发指导 [6] - 框架更清晰地揭示了基础模型的核心特性 为研究人员识别和解决特定缺陷提供系统性指导 [6] 通用知识能力 - 通用知识使模型能适应广泛驾驶场景 包括罕见或未见情况 并能合理推断可能结果和对未知智能体进行逻辑推理 [5] - 通过特征级蒸馏、伪标签监督和直接集成三种核心机制将基础模型集成到自动驾驶技术栈中 [37] - 视觉基础模型(VFMs)可直接集成到2D图像流水线 也能扩展至3D感知流水线 提供高层语义理解 [40] 空间理解能力 - 空间理解让自动驾驶车辆构建环境的连贯3D表示 捕捉物体身份、几何形状与上下文关系 [63] - 体积模型通过将传感器输入解读为3D场景的投影 构建密集、整体的环境表示 [65] - 3D掩码自动编码器通过"掩码输入-重建输出"策略 迫使模型学习场景级结构、物体边界和空间关系 [73] 多传感器鲁棒性 - 多传感器鲁棒性指系统在环境变化、传感器噪声或硬件性能下降时仍能保持感知精度与稳定性的能力 [80] - 跨模态对比学习构建统一表示空间 整合相机、激光雷达、毫米波雷达等不同传感器类型的互补信息 [82] - 多模态掩码自动编码器扩展至处理多模态输入 通过自监督重建任务让模型捕捉互补线索 [97] 时序推理能力 - 时序理解是对场景随时间演变过程进行推理 包括捕捉物体运动、跟踪遮挡物以及预测未来事件 [109] - 时序一致的4D预测模型从传感器观测序列中预测复杂动态环境的演变过程 [113] - 扩散概率模型能够表示复杂的多模态概率分布 成为解决未来场景不确定性问题的理想方案 [115] 技术实现与方法创新 - 知识蒸馏通过训练学生模型模仿教师模型的输出或内部行为 实现三类实现方式:输出级蒸馏、特征级蒸馏和关系级蒸馏 [17] - 神经辐射场(NeRF)采用隐式表示将场景建模为连续函数 通过可微体素渲染方程实现照片级真实感渲染 [24] - 3D高斯溅射(3DGS)采用显式表示将场景建模为一组3D高斯椭球体集合 通过可微前向光栅化器大幅提升渲染速度 [25] 模型对比与特性分析 - 基础模型相较于传统深度学习模型 在自动驾驶感知中的核心优势在于更优的泛化性和适应性 [36] - 视觉语言模型(VLMs)融合视觉基础模型与大语言模型的优势 实现视觉内容与文本语义对齐的联合表征 [35] - 大语言模型(LLMs)基于Transformer架构在海量文本语料上训练 具备强大的抽象、推理与指令遵循能力 [51] 当前挑战与未来方向 - 域间隙问题是核心挑战之一 需弥合基础模型预训练通用知识与自动驾驶感知特定需求之间的间隙 [59] - 幻觉风险带来严重安全风险 需深入探究故障根源并开发主动缓解策略 [60] - 延迟与效率问题与自动驾驶实时处理需求存在直接冲突 需通过模型优化技术构建更小、更高效的模型变体 [61]
Nature Medicine:盛斌/黄天荫团队开发眼科AI大模型,显著提升眼科医生诊疗水平和患者预后
生物世界· 2025-09-01 16:30
基础模型在眼科临床应用的突破性研究 - 开发了多模态视觉-语言眼科基础大模型EyeFM 具备基于1450万张眼部图像的多模态预训练能力 支持单模态影像任务(如疾病检测与病灶分割)和多模态影像任务(如跨模态诊断和集成模态诊断)[6][7] - 通过云端协同模式在全球多地域(亚洲、北美、欧洲及非洲)基层及眼科医生中前瞻性部署 验证其对诊疗能力的提升效果[3][6] - 首次为AI医学领域提供大模型赋能基层与专科诊疗的高级别循证证据 为可临床转化的基础模型研发与验证提供新范式[3] 随机对照试验设计与结果 - 采用平行单中心双盲随机对照试验设计 纳入668名参与者(平均年龄57.5岁 男性占比79.5%)随机分配至干预组(EyeFM辅助)和对照组(标准诊疗)[11] - 主要终点显示干预组正确诊断率显著提升至92.2%(对照组75.4%) 转诊率提升至92.2%(对照组80.5%)[11] - 次要终点显示临床报告标准化评分中位数提升至37分(对照组33分) 干预组自我管理依从率达70.1%(对照组49.1%) 转诊建议接受度达33.7%(对照组20.2%)[11] 临床辅助系统效能验证 - 邀请全球44位眼科医生参与验证 覆盖基层及专科医疗机构 部署后评估显示良好用户接受度[11] - 系统支持自动生成临床规范影像报告和精准医学问答 减少医生文书工作量 成为诊疗过程中的智能助手[6] - 能显著提升眼科医生诊疗水平和患者预后 实现临床自适应的健康指导与智能交互服务[3][13]
FDA已批准超1200款AI医疗器械:影像学之外,新的扩张专科在哪里?
思宇MedTech· 2025-08-21 11:50
文章核心观点 - AI医疗器械已大规模产品化进入医疗临床 FDA累计批准超过1200款AI/ML医疗器械 其中2024年获批235款创历史纪录[2] - 行业从影像学主导转向心血管 神经学等多专科渗透 体现技术应用场景的持续扩张[4][5][7] - 监管重点从窄场景AI转向生成式AI和基础模型 需平衡创新与安全 将影响企业合规路径和商业化节奏[11][13] AI医疗器械审批现状 - FDA累计批准AI/ML医疗器械超1200款 2024年单年获批235款 达历史峰值[2] - 影像学仍为主力应用场景 涵盖自动分割影像 病灶检测和风险筛查等功能[4] - 心血管与神经学成为新增长点 专科领域AI设备数量稳步上升[4][6][10] 心血管专科应用 - AI应用从心电图节律分析扩展至心脏超声和CT冠脉成像[5] - 典型功能包括心律失常识别 心衰风险预测 心肌缺血辅助判断及冠脉狭窄自动评估(FFR-CT)[8] - 扩张动力源于心血管疾病高发病率 庞大患者群体及丰富影像/生理信号数据[6] 神经专科应用 - 以急性中风影像识别为首要切口 通过CT/MRI自动判读缩短黄金救治时间[7][9] - 延伸至癫痫/帕金森病监测 通过可穿戴设备捕捉脑电或运动数据评估发作风险[9] - 前沿探索聚焦阿尔茨海默病早期识别 利用影像特征与认知数据建立预测模型[9] - 高风险高价值场景直接关联患者预后和医疗成本[10] 其他新兴专科应用 - 内镜学AI辅助胃肠镜/结肠镜检查 自动识别息肉和早期肿瘤 提升检出率[12] - 病理学通过数字切片自动识别与分型 实现海量样本前筛选以提高效率[12] - 妇产科等专科逐步渗透 如胎儿超声和宫颈癌筛查 虽数量较少但显示扩展趋势[12] 监管趋势与挑战 - 窄场景AI主导现有获批产品 但生成式AI与基础模型自2024年起进入医疗器械领域[11][13] - FDA面临可解释性 泛化性及迭代管理等新挑战 需界定模型持续更新的审批有效性[13] - 监管重点转向创新与安全平衡 企业需提前布局合规体系并加强与监管机构互动[11][13][14] 行业启示 - FDA审批趋势揭示影像学领域竞争加剧 心血管/神经学等新兴专科存在布局机会[4][14] - 企业需关注基础模型监管框架演进 合规能力将直接影响产品商业化节奏[13][14] - 超1200项审批标志医疗AI进入新十年发展周期 技术从工具向伙伴角色演进[11]
百度高管解读Q2财报:正在开发Ernie的下一代旗舰版本
新浪科技· 2025-08-20 22:04
核心财务表现 - 2025年第二季度总营收327亿元人民币 同比下滑4% [1] - 归属于百度的净利润73亿元人民币 上年同期为55亿元人民币 [1] - 非美国通用会计准则下净利润48亿元人民币 上年同期为74亿元人民币 [1] 人工智能行业竞争格局 - 行业模型迭代速度极快 每周均有多个新模型发布且代际能力持续增强 [2] - 基础模型行业格局呈现多样化特征 不同模型擅长不同任务领域(如推理/编码/多模态) [3] - 中国市场呈现多模型共存状态 类似电车行业的用户选择多样性 [3] 文心大模型战略定位 - 采取应用驱动创新模式 聚焦价值创造而非模型本身 [3] - 集中探索战略性领域以反哺公司业务并维持行业领先地位 [3] - 通过AI搜索转型实现多模态搜索结果生成与选择 提升用户付费意愿 [4] - 数字人技术在直播电商场景达到或超越真人水平 促进消费者转化 [4] 技术发展计划 - 正在开发下一代旗舰版本Ernie 5.0 关键功能有重大改进 [4] - 持续对现有模型进行迭代升级并关注行业技术路线图 [4] - 通过抓住高潜力市场机遇强化技术布局 [4]
BIDU(BIDU) - 2025 Q2 - Earnings Call Transcript
2025-08-20 21:00
财务数据和关键指标变化 - 百度核心业务总收入为263亿人民币,同比下降2% [32] - 百度核心在线营销收入为162亿人民币,同比下降15% [33] - 百度核心非在线营销收入首次突破100亿人民币,同比增长34%,主要由AI云业务推动 [5][33] - AI云业务收入达65亿人民币,同比增长27% [5][33] - 营业费用为111亿人民币,同比下降4%,主要由于人员相关费用减少 [34] - 百度核心研发费用为47亿人民币,同比下降14%,占收入的18% [34] - 非GAAP营业利润为44亿人民币,百度核心非GAAP营业利润率为17% [35] 各条业务线数据和关键指标变化 AI云业务 - AI云业务收入同比增长27%至65亿人民币 [5][33] - 企业云订阅收入占比超过50%,AI基础设施订阅收入同比增长50% [62] - 千帆平台模型库扩展,新增ERNIE 4.5系列开源模型及第三方多模态模型 [11] - 云基础设施层实现预填充解码分离架构大规模稳定部署,显著提升推理并发和资源利用率 [10] 智能驾驶业务 - Apollo Go第二季度提供220万次完全无人驾驶乘车服务,同比增长148% [13][26] - 累计乘车服务量已超过1000万次,全球覆盖16个城市 [26] - 与Uber和Lyft达成战略合作,计划在亚洲、中东和欧洲市场部署数千辆自动驾驶车辆 [13][14] 移动生态业务 - 百度App月活跃用户达7.35亿,同比增长5% [20] - 用户日均使用时长同比增长4% [20] - AI搜索转型覆盖90%的月活跃用户,64%的移动搜索结果页包含AI生成内容 [20] 各个市场数据和关键指标变化 - 在中国市场,Apollo Go在武汉等城市已实现单位经济性平衡 [14] - 在香港市场,自动驾驶测试扩展至东涌和南区,进入更复杂的城市场景 [15] - 在中东市场,迪拜和阿布扎比开始指定区域开放道路测试 [15] 公司战略和发展方向和行业竞争 - 公司坚持技术驱动创新,重点关注基础模型研发和应用落地 [6] - 数字人技术取得突破,在直播电商场景中表现优于真人主播 [7][8] - 通过四层AI架构(基础设施、框架、模型、应用)实现端到端优化,提升云服务成本效益 [10] - 自动驾驶业务采取资产轻型模式,通过全球合作伙伴加速扩张 [14][27] 管理层对经营环境和未来前景的评论 - AI搜索转型仍处于早期阶段,大规模变现尚未开始,短期收入压力较大 [28][73] - AI云业务收入结构持续优化,长期利润率有提升潜力 [64] - 自动驾驶全球扩张将聚焦高票价市场,利用成本优势提升单位经济效益 [90][91] 其他重要信息 - 公司现金及等价物为1242亿人民币,核心业务现金及投资为2297亿人民币 [38] - 自由现金流为负47亿人民币,主要由于AI业务投资增加 [38] - 公司员工总数约3.1万人 [39] 问答环节所有的提问和回答 问题1:ERNIE模型的战略定位和未来计划 - ERNIE采取应用驱动创新策略,聚焦搜索转型和数字人等核心场景 [45][46] - 计划推出ERNIE 5.0版本,持续提升关键能力 [48] 问题2:AI搜索转型进展和商业化前景 - 64%移动搜索结果页已采用AI生成内容,用户留存和满意度提升 [54] - 早期变现测试显示广告转化效率提升,但大规模商业化尚未开始 [69][72] 问题3:AI云业务收入结构和利润率展望 - 企业云订阅收入占比超50%,计划逐步减少项目制收入比例 [62][63] - 长期利润率有望改善,但短期可能波动 [65] 问题4:自动驾驶全球竞争格局和盈利路径 - 公司拥有全球最低成本的L4量产车RT6,已在低价市场验证商业模式 [89][90] - 与Uber/Lyft合作将加速高票价市场扩张 [91] 问题5:成本优化和利润率趋势 - 将加强跨业务资源协调提升效率,但保持AI长期投入 [81][82] - 预计2026年后利润率逐步恢复 [82]
TUM最新!全面梳理自动驾驶基础模型:LLM/VLM/MLLM/扩散模型和世界模型一网打尽~
自动驾驶之心· 2025-07-29 08:52
自动驾驶基础模型综述 - 文章全面梳理了自动驾驶中LLM/VLM/MLLM/扩散模型和世界模型的最新工作,系统总结了相关数据集和BenchMark [1][2] - 基础模型在复杂驾驶场景合成与解读方面展现出强大潜力,可处理异构输入如自然语言、传感器数据等 [2][9] - 综述提出了统一分类体系,涵盖LLMs、VLMs、MLLMs、DMs和WMs在自动驾驶场景生成与分析中的应用 [2][14] 技术发展现状 - Waymo等公司已实现SAE四级自动驾驶商业化,2025年每周可提供25万次载客服务 [7] - 基于仿真的场景测试成为关键验证方法,可复现真实数据集中缺失的边缘案例 [8][21] - 基础模型通过大规模预训练获得通用知识,能高效适应特定AD任务 [9][10] 模型应用进展 - LLMs在场景评估中依赖高消耗提示词,新兴推理模型可能实现更高效零样本评估 [30] - VLMs通过BEV特征提取、VQA执行等技术应用于感知和预测任务 [34][36] - DMs通过前向加噪和反向去噪过程生成高质量场景样本 [42][44] 数据集与工具 - nuScenes和Waymo Open成为最具影响力的数据集,分别被引用52次和19次 [51] - CARLA、MetaDrive等仿真平台在研究中被广泛使用 [53] - 行业已建立多个基准挑战赛推动技术进步,如CARLA AD Challenge等 [54] 未来研究方向 - 需提升生成场景的真实性,将物理模型与数据驱动方法结合 [55] - 应开发专门针对罕见事件的生成方法,建立针对性数据集 [55] - 需创建多模态融合的大规模数据集,解决当前可扩展性问题 [56] - 行业亟需开发标准化评估指标和KPI体系 [56]
硬核「吵」了30分钟:这场大模型圆桌,把AI行业的分歧说透了
机器之心· 2025-07-28 12:24
大模型技术演进与发展之路 核心观点 - 大模型技术从预训练为主转向强化学习主导的范式转变 [10][17][19] - 行业面临Transformer架构局限性、数据枯竭、开源闭源博弈等核心挑战 [31][41][59] - Agent应用爆发与基础模型研发需双轨并行 [53][54][55] 训练范式转变 - OpenAI从GPT-4o的预训练主导转向o1的强化学习后训练,提出测试时间扩展新维度 [13][14][15] - 强化学习可解决行为克隆难以建立目标导向推理能力的问题,但需突破自然语言反馈限制 [21][22][23] - 预训练仍是强化学习冷启动的基础,但需解决奖励机制和算力效率挑战 [25][26][27] 模型架构演进 - Transformer面临O(n²)扩展性、显存占用和长期记忆三大瓶颈 [31] - 优化路径包括RoPE位置编码、分组查询注意力等改进,以及Mamba等非Transformer架构探索 [33][34] - 智能体时代可能推动RNN架构回归,需建模无限上下文能力 [37][38] 数据供给挑战 - 高质量语料预计2028年耗尽,合成数据被Anthropic/OpenAI等广泛应用但存在迭代崩溃风险 [41][42][43] - 英伟达提出物理仿真生成边缘案例,需建立真实世界验证闭环 [44][45] - 行业数据未充分挖掘,应建立非敏感数据共享机制提升预训练质量 [46][48][51] 商业化落地路径 - 2025年Agent产品成爆点(如OpenAI Operator、智谱AutoGLM),但基础模型研发仍持续 [53][54] - 大模型当前相当于自动驾驶L3阶段,距AGI仍有差距 [55] - 金融等领域落地需突破大规模数据处理等技术瓶颈 [56][57] 开源生态影响 - DeepSeek等开源模型性能逼近闭源,冲击传统GPU/闭源产业链 [60][61] - 开源推动资源合理配置并形成行业压力,但需解决分叉滥用问题 [63][64][67] - 英伟达支持开源算力引擎,未来可能走向混合模式 [65][66]
启明创投于WAIC 2025再发AI十大展望:围绕基础模型、AI应用、具身智能等
IPO早知道· 2025-07-28 11:47
启明创投AI投资布局 - 公司是中国AI领域最早投资且布局最丰富的投资机构 累计投资100余个AI项目 覆盖AI产业全链条 [2] - 连续第三年主办世界人工智能大会"创业与投资论坛" 主题聚焦AI技术与应用共振周期 [2] 基础模型发展 - 未来12-24个月 200万Token上下文窗口将成为顶级AI模型标配 更精细的上下文工程成为核心驱动力 [4] 多模态模型突破 - 通用视频模型有望在12-24个月内出现 实现视频模态下的生成 推理与任务理解 推动内容生成与交互革新 [6] AI Agent演进 - Agent形态将从"工具辅助"转向"任务承接" 首批"AI员工"将参与企业核心流程 具备协同作业和OKR承担能力 [8] - 多模态Agent将融合视觉 语音等输入 在医疗 金融 法律行业实现复杂推理与任务执行突破 [9] AI基础设施创新 - AI芯片领域将出现更多国产GPU批量交付 3D DRAM堆叠与通算融合的新一代云端芯片崭露头角 [11] - Token消耗量将提高1-2个数量级 集群推理优化与软硬协同成为降低Token成本核心技术 [12] AI应用趋势 - AI交互范式转移加速 用户对手机依赖减弱将催生AI原生超级应用 [14] - 垂直场景AI应用潜力大 初创公司以"Go Narrow and Deep"策略与大厂差异化竞争 [15] - AI BPO模式将实现商业化突破 从"交付工具"转向"交付结果" 在金融 客服等行业快速扩张 [15] 具身智能发展 - 具身智能机器人将在拣选 搬运等场景规模化部署 积累第一视角数据构建"模型-本体-场景数据"闭环飞轮 [17]
月之暗面Kimi发布MoE架构基础模型K2并同步开源,总参数1T
快讯· 2025-07-11 23:00
模型发布 - 月之暗面Kimi发布MoE架构基础模型K2并同步开源 [1] - 模型总参数1T,激活参数32B [1] - 在自主编程、工具调用、数学推理等领域超越全球其他开源模型 [1] 技术优化 - 使用MuonClip优化器实现万亿参数模型的高效训练 [1] - 在高质量数据遇到瓶颈的背景下通过提升Token效率找到新的预训练扩展空间 [1] 模型能力 - 具备更强代码能力,擅长通用Agent任务 [1] - 在多个实际场景中展现出更强的能力泛化及实用性 [1] - 新模型目前已上线开放体验 [1]