量子位 - 财报，业绩电话会，研报，新闻

量子位

搜索文档

量子位· 2025-07-01 15:29

AI与核电趋势 - AI算力需求激增推动科技巨头布局核电领域核聚变成为下一代能源焦点[1][2] - 谷歌四年内三次投资核电包括CFS和TAE Technologies 总金额超18亿美元[3][4][13] - 谷歌与CFS签署200兆瓦电力采购协议首座发电厂Arc预计2030年投运[5][6][12] 核聚变技术进展 - CFS采用高温超导磁体技术示范堆Sparc已完成60% 2026年竣工后将实现净能量增益[8][10] - Helion采用脉冲非点火聚变系统计划2028年建成发电厂获微软全球首个聚变购电协议[17][18][19] - 中国能量奇点公司推进全高温超导托卡马克获米哈游等投资[30] 科技巨头核电布局 - 微软投资160亿美元重启三里岛核电站与Constellation Energy签订20年供电协议[23][24] - 亚马逊领投X-energy 5亿美元建设320兆瓦小型模块化反应堆[23] - 英伟达参与TerraPower 6.5亿美元融资奥特曼个人投资Helion 3.75亿美元[20][26] 核电商业化路径 - CFS首座商业电厂Arc选址弗吉尼亚州采用MIT托卡马克技术路线[10][12] - 小型模块化反应堆(SMR)成新方向 Oklo获4.6亿美元融资[25] - 中国核企增资聚变能源公司中核与浙能分别注资10亿和7.5亿元[30]

华为又开源了个大的：超大规模MoE推理秘籍

量子位· 2025-07-01 13:30

华为Omni-Infer开源项目 - 华为开源超大规模MoE模型推理框架Omni-Infer，提供架构、技术和代码全套解决方案 [2] - 项目定位为"加速套件+最佳实践"，支持昇腾推理集群快速部署 [8] - 包含推理框架和推理加速套件两大核心组件，与vLLM等主流框架解耦且独立安装 [12][17] 技术特性 - 支持PD分离部署方案，针对QPM进行系统级优化，分享商用硬件使用方法论 [3] - 兼容vLLM/SGLang等主流框架，降低用户版本维护成本 [16][18] - 优化MoE模型支持，具备EP144/EP288配置能力及动态专家放置功能 [24] - 预集成CANN/Torch-NPU依赖包，通过Docker镜像开箱即用 [21] 生态合作 - 北京智源研究院FlagScale框架已接入Omni-Infer [5] - 上海人工智能实验室DeepLink计划协同拓展生态 [6] - OpenI启智社区将共建算力网开源生态 [7] - 采用两级社区治理机制（PMC+SIG），主动适配国内AI开源项目 [27] 部署方案 - 当前仅支持CloudMatrix384推理卡及Linux/Python 3.9-3.11环境 [25] - 提供4机2P1D自动化部署框架，实现任务调度与负载均衡 [22][24] - 优化注意力机制，提升LLM/MLLM/MoE模型性能与扩展性 [24] 开源进展 - 兑现技术报告承诺，开源DeepSeek V3/R1部署关键技术 [9][27] - 开放社区治理文档，参与OpenInfra基金会Meetup活动 [27][28] - 代码托管覆盖Gitee/GitHub/OpenI/GitLink多平台 [29]

人工智能

开源

Telecommunications Equipment

Omni-Infer

人工智能

开源

Telecommunications Equipment

Omni-Infer

不走寻常路的淘天技术节：AI狼人杀、Poster路演、博见社轮番上阵

量子位· 2025-07-01 11:51

技术节概况 - 淘天集团举办第四届硬核少年技术节主题为AI技术展示与交流活动在北京和杭州两地同步进行 [1][3] - 技术节突出实用主义技术美学展示近40项AIGX技术体系成果涵盖电商全场景应用 [8][10][31] - 活动形式分为AI展示场交流场开放场比赛场强调技术落地与产业结合 [3][4] AIGX技术体系进展 - 开源强化学习训练框架ROLL 支持十亿至千亿参数大模型训练提升大语言模型在人类偏好对齐等场景的性能 [14][15] - 自研百亿参数推荐大模型RecGPT接入手机淘宝首屏实现用户点击量两位数增长加购次数提升5% [34][39] - 阿里妈妈万相营造技术实现云上商业化打通B端客户商业化链路 [42][43] 特色活动设计 - AI展示场采用Poster路演形式直观呈现AIGX技术在索引推荐创意等领域的应用 [7][11] - AI交流场博见社设置京杭双城分会场聚焦多模态智能与AI Agent 邀请学界和工业界专家分享 [16][18][59] - AI比赛场创新设置AI狼人杀测试AI Agent在语言理解与策略演化方面的能力 [25][26][27] 技术文化特质 - 技术节体现淘天集团朝气与匠心的文化特质年轻技术人主导项目展示强调系统能力持续打磨 [51][54][55] - AIGX技术体系覆盖电商全链路从基础研究到产业化形成完整闭环 [31][32][44] - 推荐系统升级为发现式消费场通过用户行为分析实现预判式推荐 [37][41]

阿里通义开源首个CoT音频模型，音·画同步被狠狠拿捏了

量子位· 2025-07-01 11:51

核心观点 - 阿里通义语音团队开源泛音频生成模型ThinkSound 首次将CoT思维链推理引入音频领域解决传统视频配乐技术难以捕捉动态细节和空间关系的难题实现音画同步的高保真音频生成 [4][5][6] - ThinkSound在VGGSound数据集上对比6种主流方法在核心指标上均实现显著提升如FDJ指标降至34.56(越低越好) MOS-Q1主观评分达4.02±0.73(越高越好) 参数规模1.3B 生成时间仅1.07秒 [7] - 模型采用三阶思维链驱动架构通过基础音效推理链构建、对象级推理链构建和指令编辑推理链构建模仿人类音效师多阶段创作流程精准建立音画对应关系 [16][17][18][19][22] - 配套发布AudioCoT数据集包含2531.8小时精选音视频对涵盖动物鸣叫、机械运转等真实场景通过音频-文本对齐过滤等三重处理流程确保数据质量 [30][31][36] 技术架构 - 底层采用结合视觉、语言和上下文信息的多模态流式建模方法基于条件流匹配技术实现高保真音频合成 [25][28] - 第一阶段通过VideoLLaMA2生成CoT推理链结合Qwen2-Audio和GPT-4.1-nano输出结构化步骤实现时空对齐 [18] - 第二阶段利用Grounded SAM-2标注"感兴趣区域"(ROI) 跟踪视频中可能发声的对象融合多视频CoT信息优化音频处理 [20][21] - 第三阶段支持自然语言指令编辑如"加点爆炸声" 通过GPT-4.1-nano生成结构化编辑步骤 [23][24] 性能表现 - 消融实验证明CoT推理显著提升音频质量采用T5链式推理比CLIP文本编码生成效果更优 [35] - 门控融合机制在特征整合中表现最佳实现音画同步的各项指标最优 [39] - 提供1.3B/724M/533M三种模型规格支持GitHub/HuggingFace/魔搭社区下载 [7][48] 行业布局 - 通义语音团队持续深耕开源社区 CosyVoice系列在GitHub获14.9k星上月刚发布3.0版本支持多语言语音生成 [41][42] - 此前推出音频多模态大模型MinMo 在语音对话、翻译等任务中表现良好且延迟低 [44][45] - ThinkSound延续开源路线未来计划发布API 进一步扩大技术影响力 [48] 应用场景 - 支持为Sora生成视频自动匹配音效可识别地上跑、水里游等物体并生成环境噪音 [14] - 最佳适配10秒视频时长理论上不限制上传时长 [15] - 开发者可快速体验音效生成与编辑功能如去除人声、增强特定音效等 [23][48]

CoT思维链推理

多模态流式建模方法

Artificial Intelligence

Artificial Intelligence

ThinkSound

Cosyvoice 3.0

MinMo

猫猫拯救科研！AI怕陷“道德危机”，网友用“猫猫人质”整治AI乱编文献

量子位· 2025-07-01 11:51

核心观点 - 通过"猫猫"威胁可暂时改善AI编造参考文献的问题但无法根本解决幻觉现象[1][2][5] - 测试显示DeepSeek在无干预情况下会生成虚假文献链接和标题错误率显著[8][12][13][14] - 加入猫猫提示词后模型输出真实性部分提升但仍存在真假混杂现象[19][20][21][22][24] - 行业普遍采用RAG和联网搜索作为降低幻觉的有效手段[31][32][33] AI幻觉现象分析 - 编造文献本质是大模型基于统计规律生成文本的固有缺陷[25][26] - 当前技术无法通过道德约束提示词完全消除幻觉[28][30] - 语言模型对语义的理解程度仍存在学术争议[27] 解决方案对比 - 传统提示词工程（如猫猫威胁）效果有限且不稳定[22][24] - RAG技术通过外部知识库校正输出准确性[31] - 主流模型已集成联网搜索功能（如Gemini DeepSeek）[32] - 专业AI搜索工具（如Perplexity）在资料质量上更具优势[33][34] 用户反馈数据 - 相关小红书帖子获4000+点赞和700+评论反映科研群体共鸣[5] - 评论区证实类似方法对其他模型（如DeepSeek）的适用性[6][24]

AI幻觉

RAG（检索增强生成）

Artificial Intelligence

Artificial Intelligence

Gemini

DeepSeek

1080p飞升4k，浙大开源原生超高清视频生成方案，突破AI视频生成清晰度上限

量子位· 2025-07-01 11:51

视频生成技术瓶颈 - 现有开源视频数据集分辨率普遍低于1080P（1920×1080），且视频说明简单粗糙，制约大模型学习效果 [1] - 主流视频生成模型在720P画质挣扎时面临两大核心瓶颈：分辨率陷阱（低清训练导致4K生成严重失真）和语义鸿沟（简单文本无法控制影视级参数） [3][4] - 电影级4K/8K内容生成亟需超高清数据与结构化语义描述支持 [5] UltraVideo数据集创新 - 全球首个开源4K/8K超高清视频数据集，含22.4%的8K内容，覆盖100+主题，每个视频配备9个结构化字幕及平均824词的总结性字幕 [2][9] - 通过四阶严苛筛选实现质量跃迁：人工精选5000部4K/8K原片+二次审核、统计信息过滤、模型二次过滤（16种缺陷检测）、结构化语义描述框架 [6][7] - 最终构建42K短视频（3-10秒）和17K长视频（10秒+），其中8K视频占比22.4% [9] 技术突破与实验成果 - UltraWan-4K模型实现三大突破：原生4K（3840×2160）直接输出、结构化语义精准控制镜头语言、LoRA轻量化训练单卡可部署 [8][19] - 仅用42K高质量数据微调即显著提升生成质量，1K LoRA方案在多项指标超越全参数训练（如物体分类准确率82.29% vs 66.66%） [13][14][17] - 4K模型在图像质量（71.61%）、时空一致性（100%空间关系）等关键指标表现优异，但受限于33帧率导致部分动态指标下降 [17][19] 行业影响与未来方向 - 首次证明极致质量小样本可突破分辨率天花板，填补高分辨率视频生成研究空白 [21] - 数据集支持UHD视频超分辨率、帧插值、编解码器等底层任务，以及视频编辑、音乐生成等高级应用 [21] - 已全面开源数据集和模型权重，计划探索长视频生成任务 [22][23]

AI视频生成

超高清视频数据集

Artificial Intelligence

Artificial Intelligence

UltraVideo

UltraWan-4K模型

性能提升84%-166%！L-Zero仅靠强化学习解锁大模型探索世界的能力 | 已开源

量子位· 2025-07-01 08:53

招商局狮子山人工智能实验室投稿量子位 | 公众号 QbitAI 大模型可以不再依赖人类调教，真正"自学成才"啦？新研究仅通过 RLVR （可验证奖励的强化学习），成功让模型自主进化出通用的探索、验证与记忆能力，让模型学会"自学"！当前主流的LLM Agent依然高度依赖于提示词工程、复杂的系统编排、甚至静态规则表，这使得它们在面对复杂任务时难以实现真正的智能行为演化。而来自招商局狮子山人工智能实验室的研究团队认为，RLVR范式是智能体（Agent）通往更高通用性和自主性的重要突破口。于是，他们从两个关键层面出发构建了端到端Agent训练pipeline—— L0系统：智能体架构层面提出了结构化智能体框架——NB-Agent，在经典"代码即行动" （Code-as-Action）架构基础上进行扩展，使智能体能够操作记忆/上下文，从而获得类人类的记忆存储、信息总结与自我反思能力。学习范式层面探索了一个核心问题：是否可以仅通过RLVR范式，引导智能体从零开始，学会如何规划、搜索、验证与记忆，最终解决复杂的多轮推理任务？ L0系统的框架、模型及训练集已全部开源，详细可见文末链接。 ...

小扎官宣Meta超级智能实验室！97年小孩哥带队，11人名单7位是华人

量子位· 2025-07-01 08:53

Meta超级智能实验室成立 - 公司成立Meta超级智能实验室（MSL），整合基金会、AI产品和FAIR团队，并专注于开发下一代模型 [2] - 实验室由Scale AI前CEO Alexandr Wang和GitHub前CEO Nat Friedman共同领导 [3][11] - 首批11人团队中7人为华人，主要来自Anthropic、谷歌DeepMind和OpenAI等公司 [4][15] 核心团队成员背景 - 领队Alexandr Wang（28岁）是MIT辍学生，曾创立Scale AI，Meta近期向其公司投资143亿美元 [8] - Nat Friedman将负责AI产品和应用研究，过去一年已在Meta咨询委员会任职 [12] - 7位华人成员均来自顶尖院校（浙大、清华、北大、中科大），曾参与GPT-4o、Gemini等核心项目开发 [15] - 4位非华人成员包括OpenAI的Trapit Bansal、Anthropic的Joel Pobar等 [23] 实验室战略方向 - 目标是为每个人打造个人超级智能，计划一年内达到行业前沿水平 [18] - 公司强调其业务优势可支持远超小型实验室的计算能力建设 [19] - 创始人表示团队仍在扩张，未来几周将有更多人才加入 [22] 行业人才竞争动态 - 公司近期持续从OpenAI、谷歌DeepMind等竞争对手挖角顶尖人才 [20] - 首批名单未包含此前从OpenAI苏黎世挖来的ViT核心作者三人组 [16] - 图灵奖得主LeCun未出现在新组织架构中引发关注 [5]

Meta Platforms(US:META)

个人超级智能

Artificial Intelligence

Meta超级智能实验室（Meta Superintelligence Labs

MSL）

个人超级智能

Artificial Intelligence

Meta超级智能实验室（Meta Superintelligence Labs

MSL）

杭州闯出40亿AI医疗IPO！阿里CEO多轮投资

量子位· 2025-07-01 08:53

公司概况 - 微脉是中国收入前三的AI全流程健康管家公司，专注于全病程管理服务，近期向港交所主板递交招股书[1][4] - 公司成立于2015年，创始人为浙大校友裘加林，目前估值达40亿元[3][27] - 公司累计完成6轮融资，早期投资者包括阿里CEO吴泳铭、腾讯联创吴宵光，后续有百度、IDG等机构加入[2][35] 业务模式 - 核心业务为全病程管理服务，覆盖患者从生病前到康复后的完整链条[5] - 依托自研CareAI平台，集成多个LLM和动态医疗知识库，实现预问诊、分诊、报告解读等AI服务[6] - 采用与公立医院合作的模式，线下设立360名医疗助理的陪诊中心，线上通过APP/小程序连接[7][8] - 同时开展医疗健康产品销售和保险经纪服务，与药企、保险公司合作[11] 运营数据 - 已入驻全国157家医院，与4700+医疗机构合作，累计服务50万患者[11] - 2024年客户人均服务价值1600元，为行业平均4倍，患者满意度超99.9%[11] - 2022-2024年营业收入分别为5.12亿、6.28亿、6.53亿元，全病程管理服务占比72%[13][14] - 同期毛利率从17.2%提升至19.9%，全病程管理业务毛利率达22.8%[15][17] 财务表现 - 2022-2024年年内亏损分别为4.14亿、1.5亿、1.93亿元，经调整净亏损收窄至0.3亿元[18][19] - 研发开支从0.81亿降至0.3亿，销售及分销开支从1.98亿降至0.95亿[22][23] - 2024年末现金及等价物0.36亿元，同比上涨129%[26] 行业前景 - 中国全病程管理市场规模2024年达614亿元，预计2030年将达3654亿元，CAGR34.6%[44][45] - 行业痛点包括看病流程繁杂、医院服务碎片化、信息鸿沟等，AI可有效解决这些问题[48] - 政策推动医疗模式向以患者为中心转变，居民健康素养水平达31.9%[41][43] 发展战略 - 计划通过上市募资扩大AI应用场景、全病程管理服务和医疗生态圈[47] - 创始人团队具备医疗信息化背景，核心成员来自银江股份等企业[27][32] - 主要股东包括创始人(23.44%)、源码资本(9.45%)、元璟资本(6.31%)等[37][38]

7万个模型、1600万开发者，魔搭已建成中国最大AI开源社区

量子位· 2025-06-30 17:50

魔搭社区发展现状 - 魔搭社区已成为中国最大AI开源社区，支持开发者体验、下载、调优、训练、推理、部署模型，覆盖LLM、对话、语音、文生图、图生视频、AI作曲等多个领域[2][3] - 开源模型数量已超7万个，较初期增长超200倍，提供4000+MCP服务和调试工具，用户数扩展至1600万（较2023年4月增长约16倍），汇聚超500家贡献机构[5][17] - 社区定位为开放、中立、非盈利组织，倡导共同建设生态，阿里、腾讯、DeepSeek等主流公司均为重要参与者[16][18] 技术发展方向 - "云端协同"成为模型领域重要课题，需平衡端侧（手机/电脑/机器人）的数据隐私优势与云上大规模AGI发展的互补性[7][8] - 模型能力发展从单一内容生成扩展到工具链整合，魔搭社区覆盖模型全生命周期（数据开发→模型应用→推理工具链→经验分享）[10][11][12] - 行业呈现加速发展态势，Agent、具身智能等方向仍有巨大想象空间，模型能力尚未达上限[6][9] 生态建设举措 - 推出MCP协议并建立MCP广场，提供数千款服务和开放接口，支付宝、MiniMax等MCP服务独家首发[14] - 发布开发者勋章激励计划，提供免费GPU算力及AIGC训练券等资源，未来将扩展至代码贡献、社区活跃等群体[22] - 通过开源开放降低模型使用门槛，建立反馈机制连接模型创作者与应用开发者，减少企业技术绑定顾虑[19][20] 行业价值定位 - 魔搭社区提前布局MaaS（模型即服务）理念，2022年11月即启动模型生态建设（早于ChatGPT发布）[16] - 核心目标是消除模型价值与业务需求间的落地gap，推动二次创新，搭建"技术-需求"桥梁的企业将具备下一阶段竞争力[21] - 已成为前沿模型首发平台，如2023年首个文生视频开源模型及2024年DeepSeek系列模型均选择魔搭[16]

AI开源

云端协同

Artificial Intelligence

魔搭社区

AI开源

云端协同

Artificial Intelligence

魔搭社区

Previous Next