Workflow
量子位
icon
搜索文档
4年3次加码核聚变,硅谷巨头们疯狂抢电ing
量子位· 2025-07-01 15:29
AI与核电趋势 - AI算力需求激增推动科技巨头布局核电领域 核聚变成为下一代能源焦点[1][2] - 谷歌四年内三次投资核电 包括CFS和TAE Technologies 总金额超18亿美元[3][4][13] - 谷歌与CFS签署200兆瓦电力采购协议 首座发电厂Arc预计2030年投运[5][6][12] 核聚变技术进展 - CFS采用高温超导磁体技术 示范堆Sparc已完成60% 2026年竣工后将实现净能量增益[8][10] - Helion采用脉冲非点火聚变系统 计划2028年建成发电厂 获微软全球首个聚变购电协议[17][18][19] - 中国能量奇点公司推进全高温超导托卡马克 获米哈游等投资[30] 科技巨头核电布局 - 微软投资160亿美元重启三里岛核电站 与Constellation Energy签订20年供电协议[23][24] - 亚马逊领投X-energy 5亿美元 建设320兆瓦小型模块化反应堆[23] - 英伟达参与TerraPower 6.5亿美元融资 奥特曼个人投资Helion 3.75亿美元[20][26] 核电商业化路径 - CFS首座商业电厂Arc选址弗吉尼亚州 采用MIT托卡马克技术路线[10][12] - 小型模块化反应堆(SMR)成新方向 Oklo获4.6亿美元融资[25] - 中国核企增资聚变能源公司 中核与浙能分别注资10亿和7.5亿元[30]
华为又开源了个大的:超大规模MoE推理秘籍
量子位· 2025-07-01 13:30
华为Omni-Infer开源项目 - 华为开源超大规模MoE模型推理框架Omni-Infer,提供架构、技术和代码全套解决方案 [2] - 项目定位为"加速套件+最佳实践",支持昇腾推理集群快速部署 [8] - 包含推理框架和推理加速套件两大核心组件,与vLLM等主流框架解耦且独立安装 [12][17] 技术特性 - 支持PD分离部署方案,针对QPM进行系统级优化,分享商用硬件使用方法论 [3] - 兼容vLLM/SGLang等主流框架,降低用户版本维护成本 [16][18] - 优化MoE模型支持,具备EP144/EP288配置能力及动态专家放置功能 [24] - 预集成CANN/Torch-NPU依赖包,通过Docker镜像开箱即用 [21] 生态合作 - 北京智源研究院FlagScale框架已接入Omni-Infer [5] - 上海人工智能实验室DeepLink计划协同拓展生态 [6] - OpenI启智社区将共建算力网开源生态 [7] - 采用两级社区治理机制(PMC+SIG),主动适配国内AI开源项目 [27] 部署方案 - 当前仅支持CloudMatrix384推理卡及Linux/Python 3.9-3.11环境 [25] - 提供4机2P1D自动化部署框架,实现任务调度与负载均衡 [22][24] - 优化注意力机制,提升LLM/MLLM/MoE模型性能与扩展性 [24] 开源进展 - 兑现技术报告承诺,开源DeepSeek V3/R1部署关键技术 [9][27] - 开放社区治理文档,参与OpenInfra基金会Meetup活动 [27][28] - 代码托管覆盖Gitee/GitHub/OpenI/GitLink多平台 [29]
不走寻常路的淘天技术节:AI狼人杀、Poster路演、博见社轮番上阵
量子位· 2025-07-01 11:51
技术节概况 - 淘天集团举办第四届硬核少年技术节 主题为AI技术展示与交流 活动在北京和杭州两地同步进行 [1][3] - 技术节突出实用主义技术美学 展示近40项AIGX技术体系成果 涵盖电商全场景应用 [8][10][31] - 活动形式分为AI展示场 交流场 开放场 比赛场 强调技术落地与产业结合 [3][4] AIGX技术体系进展 - 开源强化学习训练框架ROLL 支持十亿至千亿参数大模型训练 提升大语言模型在人类偏好对齐等场景的性能 [14][15] - 自研百亿参数推荐大模型RecGPT接入手机淘宝首屏 实现用户点击量两位数增长 加购次数提升5% [34][39] - 阿里妈妈万相营造技术实现云上商业化 打通B端客户商业化链路 [42][43] 特色活动设计 - AI展示场采用Poster路演形式 直观呈现AIGX技术在索引 推荐 创意等领域的应用 [7][11] - AI交流场博见社设置京杭双城分会场 聚焦多模态智能与AI Agent 邀请学界和工业界专家分享 [16][18][59] - AI比赛场创新设置AI狼人杀 测试AI Agent在语言理解与策略演化方面的能力 [25][26][27] 技术文化特质 - 技术节体现淘天集团朝气与匠心的文化特质 年轻技术人主导项目展示 强调系统能力持续打磨 [51][54][55] - AIGX技术体系覆盖电商全链路 从基础研究到产业化形成完整闭环 [31][32][44] - 推荐系统升级为发现式消费场 通过用户行为分析实现预判式推荐 [37][41]
阿里通义开源首个CoT音频模型,音·画同步被狠狠拿捏了
量子位· 2025-07-01 11:51
核心观点 - 阿里通义语音团队开源泛音频生成模型ThinkSound 首次将CoT思维链推理引入音频领域 解决传统视频配乐技术难以捕捉动态细节和空间关系的难题 实现音画同步的高保真音频生成 [4][5][6] - ThinkSound在VGGSound数据集上对比6种主流方法 在核心指标上均实现显著提升 如FDJ指标降至34.56(越低越好) MOS-Q1主观评分达4.02±0.73(越高越好) 参数规模1.3B 生成时间仅1.07秒 [7] - 模型采用三阶思维链驱动架构 通过基础音效推理链构建、对象级推理链构建和指令编辑推理链构建 模仿人类音效师多阶段创作流程 精准建立音画对应关系 [16][17][18][19][22] - 配套发布AudioCoT数据集 包含2531.8小时精选音视频对 涵盖动物鸣叫、机械运转等真实场景 通过音频-文本对齐过滤等三重处理流程确保数据质量 [30][31][36] 技术架构 - 底层采用结合视觉、语言和上下文信息的多模态流式建模方法 基于条件流匹配技术实现高保真音频合成 [25][28] - 第一阶段通过VideoLLaMA2生成CoT推理链 结合Qwen2-Audio和GPT-4.1-nano输出结构化步骤 实现时空对齐 [18] - 第二阶段利用Grounded SAM-2标注"感兴趣区域"(ROI) 跟踪视频中可能发声的对象 融合多视频CoT信息优化音频处理 [20][21] - 第三阶段支持自然语言指令编辑 如"加点爆炸声" 通过GPT-4.1-nano生成结构化编辑步骤 [23][24] 性能表现 - 消融实验证明CoT推理显著提升音频质量 采用T5链式推理比CLIP文本编码生成效果更优 [35] - 门控融合机制在特征整合中表现最佳 实现音画同步的各项指标最优 [39] - 提供1.3B/724M/533M三种模型规格 支持GitHub/HuggingFace/魔搭社区下载 [7][48] 行业布局 - 通义语音团队持续深耕开源社区 CosyVoice系列在GitHub获14.9k星 上月刚发布3.0版本支持多语言语音生成 [41][42] - 此前推出音频多模态大模型MinMo 在语音对话、翻译等任务中表现良好且延迟低 [44][45] - ThinkSound延续开源路线 未来计划发布API 进一步扩大技术影响力 [48] 应用场景 - 支持为Sora生成视频自动匹配音效 可识别地上跑、水里游等物体并生成环境噪音 [14] - 最佳适配10秒视频时长 理论上不限制上传时长 [15] - 开发者可快速体验音效生成与编辑功能 如去除人声、增强特定音效等 [23][48]
猫猫拯救科研!AI怕陷“道德危机”,网友用“猫猫人质”整治AI乱编文献
量子位· 2025-07-01 11:51
核心观点 - 通过"猫猫"威胁可暂时改善AI编造参考文献的问题 但无法根本解决幻觉现象[1][2][5] - 测试显示DeepSeek在无干预情况下会生成虚假文献链接和标题 错误率显著[8][12][13][14] - 加入猫猫提示词后模型输出真实性部分提升 但仍存在真假混杂现象[19][20][21][22][24] - 行业普遍采用RAG和联网搜索作为降低幻觉的有效手段[31][32][33] AI幻觉现象分析 - 编造文献本质是大模型基于统计规律生成文本的固有缺陷[25][26] - 当前技术无法通过道德约束提示词完全消除幻觉[28][30] - 语言模型对语义的理解程度仍存在学术争议[27] 解决方案对比 - 传统提示词工程(如猫猫威胁)效果有限且不稳定[22][24] - RAG技术通过外部知识库校正输出准确性[31] - 主流模型已集成联网搜索功能(如Gemini DeepSeek)[32] - 专业AI搜索工具(如Perplexity)在资料质量上更具优势[33][34] 用户反馈数据 - 相关小红书帖子获4000+点赞和700+评论 反映科研群体共鸣[5] - 评论区证实类似方法对其他模型(如DeepSeek)的适用性[6][24]
1080p飞升4k,浙大开源原生超高清视频生成方案,突破AI视频生成清晰度上限
量子位· 2025-07-01 11:51
视频生成技术瓶颈 - 现有开源视频数据集分辨率普遍低于1080P(1920×1080),且视频说明简单粗糙,制约大模型学习效果 [1] - 主流视频生成模型在720P画质挣扎时面临两大核心瓶颈:分辨率陷阱(低清训练导致4K生成严重失真)和语义鸿沟(简单文本无法控制影视级参数) [3][4] - 电影级4K/8K内容生成亟需超高清数据与结构化语义描述支持 [5] UltraVideo数据集创新 - 全球首个开源4K/8K超高清视频数据集,含22.4%的8K内容,覆盖100+主题,每个视频配备9个结构化字幕及平均824词的总结性字幕 [2][9] - 通过四阶严苛筛选实现质量跃迁:人工精选5000部4K/8K原片+二次审核、统计信息过滤、模型二次过滤(16种缺陷检测)、结构化语义描述框架 [6][7] - 最终构建42K短视频(3-10秒)和17K长视频(10秒+),其中8K视频占比22.4% [9] 技术突破与实验成果 - UltraWan-4K模型实现三大突破:原生4K(3840×2160)直接输出、结构化语义精准控制镜头语言、LoRA轻量化训练单卡可部署 [8][19] - 仅用42K高质量数据微调即显著提升生成质量,1K LoRA方案在多项指标超越全参数训练(如物体分类准确率82.29% vs 66.66%) [13][14][17] - 4K模型在图像质量(71.61%)、时空一致性(100%空间关系)等关键指标表现优异,但受限于33帧率导致部分动态指标下降 [17][19] 行业影响与未来方向 - 首次证明极致质量小样本可突破分辨率天花板,填补高分辨率视频生成研究空白 [21] - 数据集支持UHD视频超分辨率、帧插值、编解码器等底层任务,以及视频编辑、音乐生成等高级应用 [21] - 已全面开源数据集和模型权重,计划探索长视频生成任务 [22][23]
性能提升84%-166%!L-Zero仅靠强化学习解锁大模型探索世界的能力 | 已开源
量子位· 2025-07-01 08:53
招商局狮子山人工智能实验室 投稿 量子位 | 公众号 QbitAI 大模型可以不再依赖人类调教,真正"自学成才"啦? 新研究仅通过 RLVR (可验证奖励的强化学习),成功让模型自主进化出 通用的探索、验证与记忆能力 ,让模型学会"自学"! 当前主流的LLM Agent依然高度依赖于提示词工程、复杂的系统编排、甚至静态规则表,这使得它们在面对复杂任务时难以实现真正的智能 行为演化。 而来自招商局狮子山人工智能实验室的研究团队认为,RLVR范式是智能体(Agent)通往更高通用性和自主性的重要突破口。 于是,他们从两个关键层面出发构建了端到端Agent训练pipeline—— L0系统 : 智能体架构层面 提出了结构化智能体框架——NB-Agent,在经典"代码即行动" (Code-as-Action) 架构基础上进行扩展,使智能体能够操作记忆/上下 文,从而获得类人类的记忆存储、信息总结与自我反思能力。 学习范式层面 探索了一个核心问题:是否可以仅通过RLVR范式,引导智能体从零开始,学会如何规划、搜索、验证与记忆,最终解决复杂的多轮推理 任务? L0系统的框架、模型及训练集已 全部开源 ,详细可见文末链接。 ...
小扎官宣Meta超级智能实验室!97年小孩哥带队,11人名单7位是华人
量子位· 2025-07-01 08:53
Meta超级智能实验室成立 - 公司成立Meta超级智能实验室(MSL),整合基金会、AI产品和FAIR团队,并专注于开发下一代模型 [2] - 实验室由Scale AI前CEO Alexandr Wang和GitHub前CEO Nat Friedman共同领导 [3][11] - 首批11人团队中7人为华人,主要来自Anthropic、谷歌DeepMind和OpenAI等公司 [4][15] 核心团队成员背景 - 领队Alexandr Wang(28岁)是MIT辍学生,曾创立Scale AI,Meta近期向其公司投资143亿美元 [8] - Nat Friedman将负责AI产品和应用研究,过去一年已在Meta咨询委员会任职 [12] - 7位华人成员均来自顶尖院校(浙大、清华、北大、中科大),曾参与GPT-4o、Gemini等核心项目开发 [15] - 4位非华人成员包括OpenAI的Trapit Bansal、Anthropic的Joel Pobar等 [23] 实验室战略方向 - 目标是为每个人打造个人超级智能,计划一年内达到行业前沿水平 [18] - 公司强调其业务优势可支持远超小型实验室的计算能力建设 [19] - 创始人表示团队仍在扩张,未来几周将有更多人才加入 [22] 行业人才竞争动态 - 公司近期持续从OpenAI、谷歌DeepMind等竞争对手挖角顶尖人才 [20] - 首批名单未包含此前从OpenAI苏黎世挖来的ViT核心作者三人组 [16] - 图灵奖得主LeCun未出现在新组织架构中引发关注 [5]
杭州闯出40亿AI医疗IPO!阿里CEO多轮投资
量子位· 2025-07-01 08:53
公司概况 - 微脉是中国收入前三的AI全流程健康管家公司,专注于全病程管理服务,近期向港交所主板递交招股书[1][4] - 公司成立于2015年,创始人为浙大校友裘加林,目前估值达40亿元[3][27] - 公司累计完成6轮融资,早期投资者包括阿里CEO吴泳铭、腾讯联创吴宵光,后续有百度、IDG等机构加入[2][35] 业务模式 - 核心业务为全病程管理服务,覆盖患者从生病前到康复后的完整链条[5] - 依托自研CareAI平台,集成多个LLM和动态医疗知识库,实现预问诊、分诊、报告解读等AI服务[6] - 采用与公立医院合作的模式,线下设立360名医疗助理的陪诊中心,线上通过APP/小程序连接[7][8] - 同时开展医疗健康产品销售和保险经纪服务,与药企、保险公司合作[11] 运营数据 - 已入驻全国157家医院,与4700+医疗机构合作,累计服务50万患者[11] - 2024年客户人均服务价值1600元,为行业平均4倍,患者满意度超99.9%[11] - 2022-2024年营业收入分别为5.12亿、6.28亿、6.53亿元,全病程管理服务占比72%[13][14] - 同期毛利率从17.2%提升至19.9%,全病程管理业务毛利率达22.8%[15][17] 财务表现 - 2022-2024年年内亏损分别为4.14亿、1.5亿、1.93亿元,经调整净亏损收窄至0.3亿元[18][19] - 研发开支从0.81亿降至0.3亿,销售及分销开支从1.98亿降至0.95亿[22][23] - 2024年末现金及等价物0.36亿元,同比上涨129%[26] 行业前景 - 中国全病程管理市场规模2024年达614亿元,预计2030年将达3654亿元,CAGR34.6%[44][45] - 行业痛点包括看病流程繁杂、医院服务碎片化、信息鸿沟等,AI可有效解决这些问题[48] - 政策推动医疗模式向以患者为中心转变,居民健康素养水平达31.9%[41][43] 发展战略 - 计划通过上市募资扩大AI应用场景、全病程管理服务和医疗生态圈[47] - 创始人团队具备医疗信息化背景,核心成员来自银江股份等企业[27][32] - 主要股东包括创始人(23.44%)、源码资本(9.45%)、元璟资本(6.31%)等[37][38]
7万个模型、1600万开发者,魔搭已建成中国最大AI开源社区
量子位· 2025-06-30 17:50
魔搭社区发展现状 - 魔搭社区已成为中国最大AI开源社区,支持开发者体验、下载、调优、训练、推理、部署模型,覆盖LLM、对话、语音、文生图、图生视频、AI作曲等多个领域[2][3] - 开源模型数量已超7万个,较初期增长超200倍,提供4000+MCP服务和调试工具,用户数扩展至1600万(较2023年4月增长约16倍),汇聚超500家贡献机构[5][17] - 社区定位为开放、中立、非盈利组织,倡导共同建设生态,阿里、腾讯、DeepSeek等主流公司均为重要参与者[16][18] 技术发展方向 - "云端协同"成为模型领域重要课题,需平衡端侧(手机/电脑/机器人)的数据隐私优势与云上大规模AGI发展的互补性[7][8] - 模型能力发展从单一内容生成扩展到工具链整合,魔搭社区覆盖模型全生命周期(数据开发→模型应用→推理工具链→经验分享)[10][11][12] - 行业呈现加速发展态势,Agent、具身智能等方向仍有巨大想象空间,模型能力尚未达上限[6][9] 生态建设举措 - 推出MCP协议并建立MCP广场,提供数千款服务和开放接口,支付宝、MiniMax等MCP服务独家首发[14] - 发布开发者勋章激励计划,提供免费GPU算力及AIGC训练券等资源,未来将扩展至代码贡献、社区活跃等群体[22] - 通过开源开放降低模型使用门槛,建立反馈机制连接模型创作者与应用开发者,减少企业技术绑定顾虑[19][20] 行业价值定位 - 魔搭社区提前布局MaaS(模型即服务)理念,2022年11月即启动模型生态建设(早于ChatGPT发布)[16] - 核心目标是消除模型价值与业务需求间的落地gap,推动二次创新,搭建"技术-需求"桥梁的企业将具备下一阶段竞争力[21] - 已成为前沿模型首发平台,如2023年首个文生视频开源模型及2024年DeepSeek系列模型均选择魔搭[16]