量子位

搜索文档
新国产GPU「曦望」,刚融了10个亿
量子位· 2025-06-30 17:50
公司背景 - 曦望Sunrise由商汤于2024年底分拆独立而来,专注高性能GPU研发,定位为"更懂AI的芯片公司"[3][4] - 公司近期完成近10亿元融资,投资方包括三一集团旗下华胥基金、第四范式、游族网络等[5] 产品与技术 - 公司主打高性能自研GPU,核心特点是"用得起"和"用得上",强调实用性和可落地性[6] - 产品线包括曦望S1、S2、S3三款芯片[7] - S1已量产,出货超2万片,专注于云边视觉推理,服务于商汤CV产品线[8] - S2已量产,性能对标英伟达A100,兼容CUDA生态,从指令集到架构全部自研[8][9] - S3研发中,聚焦多模态大模型推理,计划2026年量产,目标将推理成本降至1/10[11] 团队与管理 - 公司采用联席CEO制度,由百度创始员工王湛和前AMD芯片老将王勇共同领导[10] - 核心技术团队仅150人,来自AMD、百度、阿里、商汤等企业,规模为同行1/3-1/5[11] - 团队五年内成功点亮S1和S2两代芯片,均一次流片成功[11] 发展目标 - S3芯片计划通过架构创新将大模型推理成本降至1分钱/次[11]
马斯克Neuralink脑机接口新成果!看完头皮发麻
量子位· 2025-06-30 14:38
Neuralink最新成果展示 - 七名受试者通过Neuralink的N1脑机接口实现意念控制游戏操作,包括移动、转弯、吃道具等动作[1][2][3][4] - 受试者包括四位脊髓损伤患者和三位肌萎缩侧索硬化症患者,平均每周使用脑机接口50小时,峰值超过100小时[5][10] - 首位受试者Noland当天学会意念控制电脑光标并打破世界纪录,现已能玩《马里奥赛车》和《使命召唤》等复杂游戏[12][14] - 受试者Alex通过N1控制虚拟手和特斯拉擎天柱机械手,并重返工作岗位操作CAD软件[17][18][20][22] - 渐冻症患者Bard借助N1恢复与世界交流能力,可与孩子们外出玩耍[23][24][25] 产品技术路线 - 最终目标是构建"全脑接口",实现任意神经元读写传输信息的通用平台[27][28] - 当前产品N1(Telepathy)植入1000个电极于运动皮层,帮助瘫痪患者意念控制设备[31] - 下一代产品Blindsight旨在通过电信号转换帮助失明者恢复视力[32][33] - Deep技术将电极深入大脑深层区域,治疗神经系统疾病和精神疾病[34] 未来三年发展计划 - 2024下半年计划在言语皮层植入,解码大脑语言信息[37] - 2025年电极通道增至3000个,进行首次Blindsight植入[38][39] - 2027年通道达10000个,实现多脑区同步植入[40] - 2028年单植入物通道超25000个,全面治疗神经疾病并与AI整合[40][41]
LeCun发布最新世界模型:首次实现16秒连贯场景预测,具身智能掌握第一视角!还打脸用了VAE
量子位· 2025-06-30 14:38
Meta AI研究进展 - Yann LeCun团队开发PEVA模型,实现具身智能体16秒连贯场景预测能力,模拟人类预判行为[2][6][9] - 模型通过结构化动作表示结合48维关节运动学数据与条件扩散Transformer,捕捉整体移动和关节精细运动[3][16][18] - 采用第一人称视角视频+全身姿态轨迹训练,替代传统抽象控制信号[4][13] 技术架构创新 - 随机时间跳跃训练解决长时序预测效率问题,支持16帧采样窗口内的多尺度动作学习[24][28] - 运动学树结构编码包含骨盆根节点3D平移和15个关节45维欧拉角,总维度48维[25] - 条件扩散Transformer通过跨历史帧注意力机制建模动作延迟效应,LPIPS值比基线低5%-8%[22][34][37] 性能表现 - 单步预测中LPIPS降低0.01,FID降低1.42,生成质量优于CDiT基线[33][35] - 16秒长序列预测FID值比Diffusion Forcing低15%以上,时序连贯性显著提升[38][40] - 支持多动作序列智能规划,如开冰箱任务中排除不合理路径选择最优解[8][42][43] 数据与训练 - 使用Nymeria数据集训练,包含同步第一视角视频与全身动作捕捉数据[26] - 局部坐标系转换实现动作表示的平移/旋转不变性,归一化处理帧间差分数据[25] - VAE编码器用于视觉特征转换,尽管LeCun曾公开批评VAE的局限性[45][46][47]
百度文心大模型4.5系列正式开源,同步开放API服务
量子位· 2025-06-30 12:39
百度文心大模型4.5系列开源 - 公司正式宣布文心大模型4.5系列开源,同步提供API服务,涵盖10款模型,参数范围从0.3B到47B,覆盖文本和多模态任务[2] - 开源模型权重与代码完全开放,开发者可通过飞桨星河社区、HuggingFace、百度智能云千帆平台下载使用[2] - 开源协议采用Apache 2.0,支持学术研究和产业应用[3][14] 模型技术特点 - 创新性提出多模态异构模型结构,适用于从大语言模型向多模态模型的持续预训练,提升多模态理解能力[5] - 使用飞桨深度学习框架进行高效训练和推理,模型FLOPs利用率达到47%[6][7] - 包含混合专家(MoE)模型和稠密型模型,参数丰富度高[4] 性能表现 - 文本模型在C-Eval、CMMLU、MMLU等基准测试中超越DeepSeek-V3、Qwen3等竞品,例如300B参数模型在C-Eval得分91.5,CMMLU得分91.2[8][10] - 多模态模型在视觉常识、多模态推理等评测中优于OpenAI o1,如VL-424B-A47B模型在MMBench-cn得分90.9,OCRBench得分872[12][13] - 轻量级21B文本模型效果与Qwen3相当,28B多模态模型达到同量级SOTA水平[13] 开发者支持 - 提供开箱即用的工具链,包括ERNIEKit开发套件和FastDeploy部署套件[17] - 飞桨平台广泛兼容多种芯片,降低后训练和部署门槛[15] - 实现框架层(飞桨)与模型层(文心)的"双层开源"[18] 公司AI战略布局 - 构建算力、框架、模型、应用四层全栈技术优势,飞桨为中国首个产业级开源深度学习平台[16][17] - 此次开源强化了公司在AI开源生态的领先地位,覆盖从学术到产业的完整链条[14][18]
真·全民AI健康管家来了!实测蚂蚁AQ:追问识药看皮肤,还能连医院接硬件
量子位· 2025-06-30 12:39
核心观点 - 蚂蚁推出的AI医疗应用AQ打破了行业"重B轻C"格局,成为首款真正面向全民的AI健康管家,通过连接5000家医院、近百万医生及200位名医AI分身实现专业医疗服务闭环 [1][3][4][8][13][14] - AQ依托蚂蚁医疗大模型技术底座(千亿参数、超万亿tokens专业语料)和多模态能力,在皮肤识别、报告解读等场景准确率超90%,并首创Admire多图理解方法达到业界SOTA水平 [23][42][44] - 产品创新体现在:1)追问式问诊还原真实医疗逻辑 2)打通诊前-诊中-诊后全流程 3)集成可穿戴设备数据提供个性化服务 4)专为老年人设计语音交互功能 [15][24][29][37][7] - 行业意义在于将专业医疗能力转化为普惠服务,如仁济医院泌尿科智能体使门诊量提升50%,单日服务能力从600人跃升至11万人次 [49][51][53] 产品功能 - **基础能力**:集成100+项AI功能,涵盖健康科普、报告解读、用药提醒、健康档案管理等,支持药盒识别(如曲安奈德喷雾剂精准识别)和50种皮肤病诊断 [3][16][19][20][21] - **医疗资源**:接入全国5000家医院、近百万医生,含王俊院士(胸外科)、廖万清院士(皮肤科)等200位名医AI分身,提供24小时服务 [4][33][34][36] - **硬件生态**:兼容华为、苹果、vivo等可穿戴设备,实时同步血糖、睡眠等数据生成健康建议 [6][37] - **适老化设计**:语音通话功能简化老年人操作流程 [7] 技术突破 - **模型性能**:在HealthBench Hard评测得分26.9(超越DeepSeek-R1的22.64),MedBench综合得分98.9居双榜第一,医学知识问答单项达95.9分 [44][45] - **多模态能力**:1)皮肤病识别准确率超90% 2)支持100+种复杂医学报告解读 3)图像识别采用Admire方法(KDD2025论文)在MP-DocVOA数据集达82.78分 [23][42][43] - **专科智能体**:如仁济医院泌尿科智能体(RJUA)基于97.6%疾病谱数据训练,诊断准确率69.81%,上线半年服务30万患者占门诊量50% [48][49][51] 行业价值 - **解决核心矛盾**:1)通过真实病历数据+名医共建破解数据质量难题 2)以服务闭环突破C端变现困境 [12][46][47] - **生态壁垒**:蚂蚁十年积累覆盖90万医生、5000家公立医院及医保/药品体系,形成"预防-诊断-治疗-康复"全周期生态 [39][41] - **普惠案例**:杭州七院毛洪京医生AI分身单日服务11万人次,覆盖全国342个城市,较传统接诊量提升180倍 [53]
紧急加薪+全员放假!OpenAI被连挖8人后,真慌了
量子位· 2025-06-30 08:38
梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 面对Meta疯狂挖人,OpenAI内部的变化出人意料: 本周基本停工,员工放假一周! (高管继续工作) 《连线》杂志获得了OpenAI 首席研究官Mark Chen 向员工发送的全员信,承诺将与Meta正面交锋。 Mark Chen表示他与奥特曼和公司其他高层正在 全天候与收到Meta offer的人沟通 。 OpenAI的反制措施还包括 重新调整薪酬 ,并探索新的方式来认可和奖励顶尖人才,但他同时也强调了一个原则:"虽然我会努力留住你们每 一个人,但 不会以牺牲对其他人的公平为代价 "。 短短几周内, Meta就从OpenAI挖走了至少八名关键研究员 ,Mark Chen表示: 我现在有一种强烈的预感,就像有人闯入我们家偷了东西一样。请相信我们并没有袖手旁观。 每周工作80小时,OpenAI正在改变 在全员信中,Mark Chen承认公司 以前过分沉迷于定期发布产品的节奏,以及与竞争对手的短期比较 。 在这种压力之下,许多员工 每周工作时间长达80小时 。 多位知情人士透露OpenAI将基本停工一周,让员工有时间恢复精力。 已经有员工家属证实了这一消息。 ...
图像界的DeepSeek!12B参数对标GPT-4o,5秒出图,消费级硬件就能玩转编辑生成
量子位· 2025-06-30 08:38
模型概述 - Black Forest Labs开源旗舰图像模型FLUX.1 Kontext[dev],专为图像编辑打造,可在消费级芯片上运行[1] - 模型仅12B参数,推理速度快,性能媲美GPT-image-1等闭源模型[2] - 支持多种图像编辑功能:移除对象(如小狗)、添加元素(如胡须、文字)、修改背景等[3][5] 核心功能 - 直接根据指令更改现有图像,支持精确的本地和全局编辑[6] - 无需微调即可引用原图的人物角色、风格样式和物品元素[6] - 允许用户通过多次连续编辑优化图像,视觉漂移最小化[6] - 专门为NVIDIA Blackwell架构进行权重优化[6][39] 技术架构 - 基于FLUX.1模型,采用双流块和单流块混合架构,在图像自动编码器潜在空间中训练[23] - 通过标记序列构建(冻结FLUX编码器生成潜在标记)和3D RoPE位置信息编码优化[27][31] - 采用潜在对抗扩散蒸馏(LADD)技术,减少采样步骤同时提升样本质量[30] 性能表现 - 在自研KontextBench基准测试中(1026个图像-提示对),优于Bytedance Bagel、HiDream-E1-Full及GPT-image-1等模型[37] - 在NVIDIA H100 GPU上5秒内完成推理,Replicate平台单次成本0.0067USD(1USD可运行149次)[41] - 推理速度较前代提升4-5倍,但MacBook Pro芯片运行时需1分钟/次[41] 商业化版本 - 已发布专业版FLUX.1 Kontext[pro]和高配版FLUX.1 Kontext[max][21] - 提供BF16/FP8/FP4 TensorRT权重变体,适配不同硬件需求[41] 用户生态 - 网友开发出Kontext风格化肖像制作APP(结合LoRA技术)[17] - 官方开放试玩API,支持直接上传图片体验[19][42]
韩松贾扬清之后,又一家清华系AI公司卖给英伟达,黄仁勋亲自招募95后联创
量子位· 2025-06-29 15:43
核心观点 - 华人AI创业公司Nexusflow被英伟达收购,其联合创始人加入英伟达担任重要职位 [1][4][6] - 英伟达近期在AI领域收购活跃,2024年投资总额达10亿美元,超过2023年的8.72亿美元 [34][35] - 清华校友在AI创业和英伟达收购中扮演重要角色,形成人才聚集效应 [13][14][16] 公司收购与人才流动 - Nexusflow由焦剑涛、朱邦华、Jian Zhang和Kurt Keutzer于2023年创立,专注于生成式AI解决网络安全问题 [24][25] - 公司成立几个月后完成1060万美元种子轮融资,投后估值5300万美元 [25] - 公司转型为企业生成式AI Agents方向,推出NexusRaven-V2和Athene系列开源模型,性能媲美GPT-4o和Claude 3.5 [26][28] - 焦剑涛加入英伟达任研究总监及杰出科学家,朱邦华任Principal Research Scientist [6][39] - 此前韩松创办的OmniML也被英伟达收购,团队加入英伟达担任要职 [11] 技术实力与生态整合 - Nexusflow的Athene-70B模型基于Meta Llama-3-70B微调,在Arena-Hard评测中接近顶级专有模型 [32] - 公司是Together AI主要客户,英伟达曾参与Together AI的A轮和B轮融资 [32] - 被收购公司技术将被整合到英伟达产品线,如Lepton AI成为NVIDIA DGX Cloud Lepton [37][38] - 焦剑涛表示将继续推动开源研究成果,构建开放AI社区 [33] 英伟达收购策略 - 2024年英伟达收购数量超过过去四年总和,参与50轮融资 [34] - 对业务相关性强公司直接收购,对生态相关企业参与投资 [35] - 近期收购包括Run:ai、Deci、OctoAI、Lepton AI和加拿大公司CentML [35][36] 清华校友网络 - 被收购公司创始人贾扬清、韩松、吴迪、毛慧子、焦剑涛、朱邦华均为清华校友 [13][14][16] - 按入学时间可分为三批:2002年、2007-2008年、2012-2014年 [15] - 焦剑涛为2011年清华特等奖学金得主(每年仅10人) [18]
黄仁勋首次投资核电,6.5亿美元建首座商业反应堆,预计2030投产
量子位· 2025-06-29 15:43
英伟达投资核电领域 - 英伟达旗下风投部门NVentures参与核能公司TerraPower最新一轮6.5亿美元融资,这是黄仁勋首次涉足核电领域[1] - 融资将用于建造TerraPower首座商业核电站,位于美国怀俄明州的Natrium反应堆项目[2] - 建成后反应堆将产生345兆瓦电力,配套储能系统峰值输出功率可达500兆瓦,足以为约40万户家庭供电[3] - 参与投资的还包括韩国现代和比尔盖茨[4] TerraPower技术路径 - 同时推进两种反应堆技术:近期可商业化的钠冷快堆(SFR)和远期革命性的熔融氯化物快堆(MCFR)[12] - 钠冷快堆使用液态钠作为冷却剂,系统可在接近常压下运行,简化设计并提升安全性[13] - Natrium系统集成千兆瓦级熔盐储能装置,可在短时间内将输出功率从345兆瓦提升至500兆瓦,持续超过5.5小时[15][17] - 熔融氯化物快堆使用熔融氯化物盐作为燃料和冷却剂载体,运行温度更高,可为化工、制氢等工业过程提供工艺热[19] 第四代核能技术发展 - 第四代核能技术共有六种候选路线[21] - 超高温气冷堆(VHTR)最早由华能集团在2023年投入商业运行,成为全球首座第四代商业核电站[22] - 钠冷快堆(SFR)阵营最为热闹,包括TerraPower的Natrium、日本东芝的4S设计、加拿大ARC Nuclear的ARC-100等[25] - 熔盐堆(MSR)可能是最具优势的技术,包括加拿大的Terrestrial Energy、英国的Moltex Energy和中国科学院的钍基熔盐堆计划[27] - 铅冷快堆(LFR)最早由前苏联推动,使用液态铅或铅铋合金冷却,化学稳定性好[29][30] - 超临界水堆(SCWR)和气冷快堆(GFR)目前还没有明确的商业化公司[32][34][36] AI巨头核电布局 - 2024年起科技界掀起核电投资热潮,背后推手是AI数据中心疯狂增长的电力需求[37] - OpenAI的Sam Altman个人投资了两家核能公司:Oklo和Helion[38] - Oklo专注于15-50兆瓦的小型模块化反应堆,瞄准数据中心市场[39] - Helion押注可控核聚变技术,Altman个人投资高达3.75亿美元[41] - 亚马逊领投X-energy的5亿美元融资,计划建设320兆瓦小型模块化反应堆[47] - 谷歌与Kairos Power签署协议,计划到2035年购买约500兆瓦核电[48] TerraPower其他业务 - 计划用核技术开发癌症治疗方案,使用锕-225放射性核素进行肿瘤靶向α疗法[48][49]
AI一眼认出95万物种,还能分辨雄雌老幼,2亿生物图像炼成“生命视觉”大模型
量子位· 2025-06-29 13:34
核心观点 - BioCLIP 2模型通过大规模训练(2亿生物图像数据)实现了目前最优的物种识别性能,并在非物种任务(如栖息地识别、植物疾病识别)中表现优异[1] - 模型展现出两大涌现属性:物种间生态对齐和物种内差异分离,且这些属性随训练规模扩大而增强[10][12] - 研究团队构建了TreeOfLife-200M数据集,包含95.2万个分类标签,是迄今规模最大、最丰富的生命图像库[2] 模型架构与训练 - 模型从ViT-B扩大至ViT-L,参数量增加为知识涌现做准备[4] - 训练数据来自GBIF、EOL等4大平台,总计2.14亿生物图像[2] - 采用层级对比学习框架,利用界-门-纲-目-科-属-种+学名+常用名的多粒度文本提供监督[2] 性能表现 - 零样本物种识别平均准确率达55.6%,比第二好的SigLIP模型提升16.1个百分点[5] - 在动物和植物分类任务中,BioCLIP 2平均准确率57.5%,显著优于CLIP(42.7%)、DINOv2(47.3%)等模型[9] - 少样本物种识别性能远超DINOv2等常用视觉模型[5] 涌现属性分析 - 物种间生态对齐:具有相似生态习性的物种在特征空间中聚集(如淡水鱼与咸水鱼分界清晰)[10][11] - 物种内差异分离:雌雄/幼成体差异沿物种差异正交方向分布,正交程度随训练规模同步增大[12][14] - 实验显示:从1M到214M图像训练,非物种任务性能单调上升,体内差异分离度同步提升[15] 数据集与创新 - TreeOfLife-200M数据集覆盖95.2万个分类标签,包含标本、野外相机陷阱等多样化图像类别[2] - 首次在生物多样性领域实现视觉语义基座的涌现属性,证明"正确的监督+规模"可复刻大模型特性[16]