量子位 - 财报，业绩电话会，研报，新闻

量子位

搜索文档

量子位· 2025-06-30 17:50

公司背景 - 曦望Sunrise由商汤于2024年底分拆独立而来，专注高性能GPU研发，定位为"更懂AI的芯片公司"[3][4] - 公司近期完成近10亿元融资，投资方包括三一集团旗下华胥基金、第四范式、游族网络等[5] 产品与技术 - 公司主打高性能自研GPU，核心特点是"用得起"和"用得上"，强调实用性和可落地性[6] - 产品线包括曦望S1、S2、S3三款芯片[7] - S1已量产，出货超2万片，专注于云边视觉推理，服务于商汤CV产品线[8] - S2已量产，性能对标英伟达A100，兼容CUDA生态，从指令集到架构全部自研[8][9] - S3研发中，聚焦多模态大模型推理，计划2026年量产，目标将推理成本降至1/10[11] 团队与管理 - 公司采用联席CEO制度，由百度创始员工王湛和前AMD芯片老将王勇共同领导[10] - 核心技术团队仅150人，来自AMD、百度、阿里、商汤等企业，规模为同行1/3-1/5[11] - 团队五年内成功点亮S1和S2两代芯片，均一次流片成功[11] 发展目标 - S3芯片计划通过架构创新将大模型推理成本降至1分钱/次[11]

马斯克Neuralink脑机接口新成果！看完头皮发麻

量子位· 2025-06-30 14:38

Neuralink最新成果展示 - 七名受试者通过Neuralink的N1脑机接口实现意念控制游戏操作，包括移动、转弯、吃道具等动作[1][2][3][4] - 受试者包括四位脊髓损伤患者和三位肌萎缩侧索硬化症患者，平均每周使用脑机接口50小时，峰值超过100小时[5][10] - 首位受试者Noland当天学会意念控制电脑光标并打破世界纪录，现已能玩《马里奥赛车》和《使命召唤》等复杂游戏[12][14] - 受试者Alex通过N1控制虚拟手和特斯拉擎天柱机械手，并重返工作岗位操作CAD软件[17][18][20][22] - 渐冻症患者Bard借助N1恢复与世界交流能力，可与孩子们外出玩耍[23][24][25] 产品技术路线 - 最终目标是构建"全脑接口"，实现任意神经元读写传输信息的通用平台[27][28] - 当前产品N1(Telepathy)植入1000个电极于运动皮层，帮助瘫痪患者意念控制设备[31] - 下一代产品Blindsight旨在通过电信号转换帮助失明者恢复视力[32][33] - Deep技术将电极深入大脑深层区域，治疗神经系统疾病和精神疾病[34] 未来三年发展计划 - 2024下半年计划在言语皮层植入，解码大脑语言信息[37] - 2025年电极通道增至3000个，进行首次Blindsight植入[38][39] - 2027年通道达10000个，实现多脑区同步植入[40] - 2028年单植入物通道超25000个，全面治疗神经疾病并与AI整合[40][41]

量子位· 2025-06-30 14:38

Meta AI研究进展 - Yann LeCun团队开发PEVA模型，实现具身智能体16秒连贯场景预测能力，模拟人类预判行为[2][6][9] - 模型通过结构化动作表示结合48维关节运动学数据与条件扩散Transformer，捕捉整体移动和关节精细运动[3][16][18] - 采用第一人称视角视频+全身姿态轨迹训练，替代传统抽象控制信号[4][13] 技术架构创新 - 随机时间跳跃训练解决长时序预测效率问题，支持16帧采样窗口内的多尺度动作学习[24][28] - 运动学树结构编码包含骨盆根节点3D平移和15个关节45维欧拉角，总维度48维[25] - 条件扩散Transformer通过跨历史帧注意力机制建模动作延迟效应，LPIPS值比基线低5%-8%[22][34][37] 性能表现 - 单步预测中LPIPS降低0.01，FID降低1.42，生成质量优于CDiT基线[33][35] - 16秒长序列预测FID值比Diffusion Forcing低15%以上，时序连贯性显著提升[38][40] - 支持多动作序列智能规划，如开冰箱任务中排除不合理路径选择最优解[8][42][43] 数据与训练 - 使用Nymeria数据集训练，包含同步第一视角视频与全身动作捕捉数据[26] - 局部坐标系转换实现动作表示的平移/旋转不变性，归一化处理帧间差分数据[25] - VAE编码器用于视觉特征转换，尽管LeCun曾公开批评VAE的局限性[45][46][47]

Meta Platforms(US:META)

具身智能

世界模型

VAE

Artificial Intelligence

Artificial Intelligence

PEVA模型

百度文心大模型4.5系列正式开源，同步开放API服务

量子位· 2025-06-30 12:39

百度文心大模型4.5系列开源 - 公司正式宣布文心大模型4.5系列开源，同步提供API服务，涵盖10款模型，参数范围从0.3B到47B，覆盖文本和多模态任务[2] - 开源模型权重与代码完全开放，开发者可通过飞桨星河社区、HuggingFace、百度智能云千帆平台下载使用[2] - 开源协议采用Apache 2.0，支持学术研究和产业应用[3][14] 模型技术特点 - 创新性提出多模态异构模型结构，适用于从大语言模型向多模态模型的持续预训练，提升多模态理解能力[5] - 使用飞桨深度学习框架进行高效训练和推理，模型FLOPs利用率达到47%[6][7] - 包含混合专家（MoE）模型和稠密型模型，参数丰富度高[4] 性能表现 - 文本模型在C-Eval、CMMLU、MMLU等基准测试中超越DeepSeek-V3、Qwen3等竞品，例如300B参数模型在C-Eval得分91.5，CMMLU得分91.2[8][10] - 多模态模型在视觉常识、多模态推理等评测中优于OpenAI o1，如VL-424B-A47B模型在MMBench-cn得分90.9，OCRBench得分872[12][13] - 轻量级21B文本模型效果与Qwen3相当，28B多模态模型达到同量级SOTA水平[13] 开发者支持 - 提供开箱即用的工具链，包括ERNIEKit开发套件和FastDeploy部署套件[17] - 飞桨平台广泛兼容多种芯片，降低后训练和部署门槛[15] - 实现框架层（飞桨）与模型层（文心）的"双层开源"[18] 公司AI战略布局 - 构建算力、框架、模型、应用四层全栈技术优势，飞桨为中国首个产业级开源深度学习平台[16][17] - 此次开源强化了公司在AI开源生态的领先地位，覆盖从学术到产业的完整链条[14][18]

大语言模型

多模态模型

Artificial Intelligence

Artificial Intelligence

文心大模型4.5系列

飞桨深度学习框架

真·全民AI健康管家来了！实测蚂蚁AQ：追问识药看皮肤，还能连医院接硬件

量子位· 2025-06-30 12:39

核心观点 - 蚂蚁推出的AI医疗应用AQ打破了行业"重B轻C"格局，成为首款真正面向全民的AI健康管家，通过连接5000家医院、近百万医生及200位名医AI分身实现专业医疗服务闭环 [1][3][4][8][13][14] - AQ依托蚂蚁医疗大模型技术底座（千亿参数、超万亿tokens专业语料）和多模态能力，在皮肤识别、报告解读等场景准确率超90%，并首创Admire多图理解方法达到业界SOTA水平 [23][42][44] - 产品创新体现在：1）追问式问诊还原真实医疗逻辑 2）打通诊前-诊中-诊后全流程 3）集成可穿戴设备数据提供个性化服务 4）专为老年人设计语音交互功能 [15][24][29][37][7] - 行业意义在于将专业医疗能力转化为普惠服务，如仁济医院泌尿科智能体使门诊量提升50%，单日服务能力从600人跃升至11万人次 [49][51][53] 产品功能 - **基础能力**：集成100+项AI功能，涵盖健康科普、报告解读、用药提醒、健康档案管理等，支持药盒识别（如曲安奈德喷雾剂精准识别）和50种皮肤病诊断 [3][16][19][20][21] - **医疗资源**：接入全国5000家医院、近百万医生，含王俊院士（胸外科）、廖万清院士（皮肤科）等200位名医AI分身，提供24小时服务 [4][33][34][36] - **硬件生态**：兼容华为、苹果、vivo等可穿戴设备，实时同步血糖、睡眠等数据生成健康建议 [6][37] - **适老化设计**：语音通话功能简化老年人操作流程 [7] 技术突破 - **模型性能**：在HealthBench Hard评测得分26.9（超越DeepSeek-R1的22.64），MedBench综合得分98.9居双榜第一，医学知识问答单项达95.9分 [44][45] - **多模态能力**：1）皮肤病识别准确率超90% 2）支持100+种复杂医学报告解读 3）图像识别采用Admire方法（KDD2025论文）在MP-DocVOA数据集达82.78分 [23][42][43] - **专科智能体**：如仁济医院泌尿科智能体（RJUA）基于97.6%疾病谱数据训练，诊断准确率69.81%，上线半年服务30万患者占门诊量50% [48][49][51] 行业价值 - **解决核心矛盾**：1）通过真实病历数据+名医共建破解数据质量难题 2）以服务闭环突破C端变现困境 [12][46][47] - **生态壁垒**：蚂蚁十年积累覆盖90万医生、5000家公立医院及医保/药品体系，形成"预防-诊断-治疗-康复"全周期生态 [39][41] - **普惠案例**：杭州七院毛洪京医生AI分身单日服务11万人次，覆盖全国342个城市，较传统接诊量提升180倍 [53]

紧急加薪+全员放假！OpenAI被连挖8人后，真慌了

量子位· 2025-06-30 08:38

梦晨发自凹非寺量子位 | 公众号 QbitAI 面对Meta疯狂挖人，OpenAI内部的变化出人意料：本周基本停工，员工放假一周！（高管继续工作）《连线》杂志获得了OpenAI 首席研究官Mark Chen 向员工发送的全员信，承诺将与Meta正面交锋。 Mark Chen表示他与奥特曼和公司其他高层正在全天候与收到Meta offer的人沟通。 OpenAI的反制措施还包括重新调整薪酬，并探索新的方式来认可和奖励顶尖人才，但他同时也强调了一个原则："虽然我会努力留住你们每一个人，但不会以牺牲对其他人的公平为代价 "。短短几周内， Meta就从OpenAI挖走了至少八名关键研究员，Mark Chen表示：我现在有一种强烈的预感，就像有人闯入我们家偷了东西一样。请相信我们并没有袖手旁观。每周工作80小时，OpenAI正在改变在全员信中，Mark Chen承认公司以前过分沉迷于定期发布产品的节奏，以及与竞争对手的短期比较。在这种压力之下，许多员工每周工作时间长达80小时。多位知情人士透露OpenAI将基本停工一周，让员工有时间恢复精力。已经有员工家属证实了这一消息。 ...

Meta Platforms(US:META)

图像界的DeepSeek！12B参数对标GPT-4o，5秒出图，消费级硬件就能玩转编辑生成

量子位· 2025-06-30 08:38

模型概述 - Black Forest Labs开源旗舰图像模型FLUX.1 Kontext[dev]，专为图像编辑打造，可在消费级芯片上运行[1] - 模型仅12B参数，推理速度快，性能媲美GPT-image-1等闭源模型[2] - 支持多种图像编辑功能：移除对象（如小狗）、添加元素（如胡须、文字）、修改背景等[3][5] 核心功能 - 直接根据指令更改现有图像，支持精确的本地和全局编辑[6] - 无需微调即可引用原图的人物角色、风格样式和物品元素[6] - 允许用户通过多次连续编辑优化图像，视觉漂移最小化[6] - 专门为NVIDIA Blackwell架构进行权重优化[6][39] 技术架构 - 基于FLUX.1模型，采用双流块和单流块混合架构，在图像自动编码器潜在空间中训练[23] - 通过标记序列构建（冻结FLUX编码器生成潜在标记）和3D RoPE位置信息编码优化[27][31] - 采用潜在对抗扩散蒸馏（LADD）技术，减少采样步骤同时提升样本质量[30] 性能表现 - 在自研KontextBench基准测试中（1026个图像-提示对），优于Bytedance Bagel、HiDream-E1-Full及GPT-image-1等模型[37] - 在NVIDIA H100 GPU上5秒内完成推理，Replicate平台单次成本0.0067USD（1USD可运行149次）[41] - 推理速度较前代提升4-5倍，但MacBook Pro芯片运行时需1分钟/次[41] 商业化版本 - 已发布专业版FLUX.1 Kontext[pro]和高配版FLUX.1 Kontext[max][21] - 提供BF16/FP8/FP4 TensorRT权重变体，适配不同硬件需求[41] 用户生态 - 网友开发出Kontext风格化肖像制作APP（结合LoRA技术）[17] - 官方开放试玩API，支持直接上传图片体验[19][42]

图像编辑

人工智能

Artificial Intelligence

Artificial Intelligence

FLUX.1 Kontext[dev]

FLUX.1 Kontext[pro]

FLUX.1 Kontext[max]

韩松贾扬清之后，又一家清华系AI公司卖给英伟达，黄仁勋亲自招募95后联创

量子位· 2025-06-29 15:43

核心观点 - 华人AI创业公司Nexusflow被英伟达收购，其联合创始人加入英伟达担任重要职位 [1][4][6] - 英伟达近期在AI领域收购活跃，2024年投资总额达10亿美元，超过2023年的8.72亿美元 [34][35] - 清华校友在AI创业和英伟达收购中扮演重要角色，形成人才聚集效应 [13][14][16] 公司收购与人才流动 - Nexusflow由焦剑涛、朱邦华、Jian Zhang和Kurt Keutzer于2023年创立，专注于生成式AI解决网络安全问题 [24][25] - 公司成立几个月后完成1060万美元种子轮融资，投后估值5300万美元 [25] - 公司转型为企业生成式AI Agents方向，推出NexusRaven-V2和Athene系列开源模型，性能媲美GPT-4o和Claude 3.5 [26][28] - 焦剑涛加入英伟达任研究总监及杰出科学家，朱邦华任Principal Research Scientist [6][39] - 此前韩松创办的OmniML也被英伟达收购，团队加入英伟达担任要职 [11] 技术实力与生态整合 - Nexusflow的Athene-70B模型基于Meta Llama-3-70B微调，在Arena-Hard评测中接近顶级专有模型 [32] - 公司是Together AI主要客户，英伟达曾参与Together AI的A轮和B轮融资 [32] - 被收购公司技术将被整合到英伟达产品线，如Lepton AI成为NVIDIA DGX Cloud Lepton [37][38] - 焦剑涛表示将继续推动开源研究成果，构建开放AI社区 [33] 英伟达收购策略 - 2024年英伟达收购数量超过过去四年总和，参与50轮融资 [34] - 对业务相关性强公司直接收购，对生态相关企业参与投资 [35] - 近期收购包括Run:ai、Deci、OctoAI、Lepton AI和加拿大公司CentML [35][36] 清华校友网络 - 被收购公司创始人贾扬清、韩松、吴迪、毛慧子、焦剑涛、朱邦华均为清华校友 [13][14][16] - 按入学时间可分为三批：2002年、2007-2008年、2012-2014年 [15] - 焦剑涛为2011年清华特等奖学金得主（每年仅10人） [18]

黄仁勋首次投资核电，6.5亿美元建首座商业反应堆，预计2030投产

量子位· 2025-06-29 15:43

英伟达投资核电领域 - 英伟达旗下风投部门NVentures参与核能公司TerraPower最新一轮6.5亿美元融资，这是黄仁勋首次涉足核电领域[1] - 融资将用于建造TerraPower首座商业核电站，位于美国怀俄明州的Natrium反应堆项目[2] - 建成后反应堆将产生345兆瓦电力，配套储能系统峰值输出功率可达500兆瓦，足以为约40万户家庭供电[3] - 参与投资的还包括韩国现代和比尔盖茨[4] TerraPower技术路径 - 同时推进两种反应堆技术：近期可商业化的钠冷快堆(SFR)和远期革命性的熔融氯化物快堆(MCFR)[12] - 钠冷快堆使用液态钠作为冷却剂，系统可在接近常压下运行，简化设计并提升安全性[13] - Natrium系统集成千兆瓦级熔盐储能装置，可在短时间内将输出功率从345兆瓦提升至500兆瓦，持续超过5.5小时[15][17] - 熔融氯化物快堆使用熔融氯化物盐作为燃料和冷却剂载体，运行温度更高，可为化工、制氢等工业过程提供工艺热[19] 第四代核能技术发展 - 第四代核能技术共有六种候选路线[21] - 超高温气冷堆(VHTR)最早由华能集团在2023年投入商业运行，成为全球首座第四代商业核电站[22] - 钠冷快堆(SFR)阵营最为热闹，包括TerraPower的Natrium、日本东芝的4S设计、加拿大ARC Nuclear的ARC-100等[25] - 熔盐堆(MSR)可能是最具优势的技术，包括加拿大的Terrestrial Energy、英国的Moltex Energy和中国科学院的钍基熔盐堆计划[27] - 铅冷快堆(LFR)最早由前苏联推动，使用液态铅或铅铋合金冷却，化学稳定性好[29][30] - 超临界水堆(SCWR)和气冷快堆(GFR)目前还没有明确的商业化公司[32][34][36] AI巨头核电布局 - 2024年起科技界掀起核电投资热潮，背后推手是AI数据中心疯狂增长的电力需求[37] - OpenAI的Sam Altman个人投资了两家核能公司：Oklo和Helion[38] - Oklo专注于15-50兆瓦的小型模块化反应堆，瞄准数据中心市场[39] - Helion押注可控核聚变技术，Altman个人投资高达3.75亿美元[41] - 亚马逊领投X-energy的5亿美元融资，计划建设320兆瓦小型模块化反应堆[47] - 谷歌与Kairos Power签署协议，计划到2035年购买约500兆瓦核电[48] TerraPower其他业务 - 计划用核技术开发癌症治疗方案，使用锕-225放射性核素进行肿瘤靶向α疗法[48][49]

AI一眼认出95万物种，还能分辨雄雌老幼，2亿生物图像炼成“生命视觉”大模型

量子位· 2025-06-29 13:34

核心观点 - BioCLIP 2模型通过大规模训练（2亿生物图像数据）实现了目前最优的物种识别性能，并在非物种任务（如栖息地识别、植物疾病识别）中表现优异[1] - 模型展现出两大涌现属性：物种间生态对齐和物种内差异分离，且这些属性随训练规模扩大而增强[10][12] - 研究团队构建了TreeOfLife-200M数据集，包含95.2万个分类标签，是迄今规模最大、最丰富的生命图像库[2] 模型架构与训练 - 模型从ViT-B扩大至ViT-L，参数量增加为知识涌现做准备[4] - 训练数据来自GBIF、EOL等4大平台，总计2.14亿生物图像[2] - 采用层级对比学习框架，利用界-门-纲-目-科-属-种+学名+常用名的多粒度文本提供监督[2] 性能表现 - 零样本物种识别平均准确率达55.6%，比第二好的SigLIP模型提升16.1个百分点[5] - 在动物和植物分类任务中，BioCLIP 2平均准确率57.5%，显著优于CLIP（42.7%）、DINOv2（47.3%）等模型[9] - 少样本物种识别性能远超DINOv2等常用视觉模型[5] 涌现属性分析 - 物种间生态对齐：具有相似生态习性的物种在特征空间中聚集（如淡水鱼与咸水鱼分界清晰）[10][11] - 物种内差异分离：雌雄/幼成体差异沿物种差异正交方向分布，正交程度随训练规模同步增大[12][14] - 实验显示：从1M到214M图像训练，非物种任务性能单调上升，体内差异分离度同步提升[15] 数据集与创新 - TreeOfLife-200M数据集覆盖95.2万个分类标签，包含标本、野外相机陷阱等多样化图像类别[2] - 首次在生物多样性领域实现视觉语义基座的涌现属性，证明"正确的监督+规模"可复刻大模型特性[16]