量子位 - 财报，业绩电话会，研报，新闻

量子位

搜索文档

量子位· 2025-08-30 12:42

基金业绩表现 - 旗下基金规模在一年内突破15亿美元[1] - 上半年基金回报率达到47% 是华尔街平均水平的700%[2][7][8] - 同期标普500指数回报仅为6% 科技对冲基金指数回报为7%[8] 投资策略与配置 - 投资策略为ALL in AI 专注于AI半导体基础设施和能源公司[6][10] - 投资组合中SMH PUT占25.29% 市值5.7亿美元 INTC CALL占20.11% 市值4.53亿美元[11] - AVGO持仓占比14.57% 市值3.28亿美元较上季度增加70.23%[11] - 新增CORZ持仓占比11.86% 市值2.67亿美元较上季度增加121.20%[11] - 新增VST持仓占比10.96% 市值2.47亿美元较上季度增加142.31%[11] - 通过空头押注对冲可能因AI被淘汰的行业风险[11] 团队背景与投资人 - 研究主管Carl Shulman曾任职于Peter Thiel的宏观对冲基金[12] - 获得Stripe创始人Patrick和John Collison Meta的Daniel Gross 前GitHub首席执行官Nat Friedman等投资人背书[12] 创始人经历 - 创始人Leopold 23岁曾任职OpenAI Superalignment团队在Ilya Sutskever指导下研究AI安全[18][20] - 2024年4月因泄漏OpenAI安全漏洞被解雇[19] - 拥有数学统计学和经济学三个学位 19岁从哥大毕业[16] - 发布165页报告预测AGI将在2027年实现[12][21]

量子位· 2025-08-29 19:37

技术突破 - 清华姚班本科生苏智团队开发出人形乒乓球机器人HITTER 采用分层规划与学习框架实现亚秒级反应下的稳定连续对打[7][8][9] - 高层模型规划器导航球轨迹并预测击球位置、速度与时机低层强化学习控制器生成协调的手臂和腿部动作执行人类化打击[10][11][17] - 通过人类动作参考训练机器人展现出类似人类的腰部旋转等击球行为[18][19] 性能表现 - 在26次投球测试中实现96.2%击球率（24次成功）和92.3%回球率仅出现1次未回球和1次完全失球[21] - 最高实现106次连续对拉远超休闲人类玩家水平[5][23] - 具备0.42秒极限反应回击扣球能力并支持并步接球等高难度动作[1][3][24] 系统配置 - 采用宇树G1机器人直接以手掌作为球拍在标准尺寸球台训练[13] - 配置9个OptiTrack摄像头（360Hz运行频率）实现毫米级球体追踪精度[14] - 感知-行动闭环系统需在极短时间内完成预测、规划和击球操作[29][31] 技术挑战 - 乒乓球运动需应对5米/秒球速较网球/羽毛球具有更短距离和更快攻防转换[30] - 成功击球依赖敏捷全身运动包括快速摆臂、腰部转动、垫步和平衡恢复[32] - 动态环境下的快速物体交互需协调关节控制与精密感知-行动闭环[29][33] 应用前景 - 机器人可完全自主运行于匹配对战环境无需人类干预[25] - 技术验证为动态环境下快速移动物体交互提供研究范例[29] - 突破性表现预示人形机器人在高速反应场景的应用潜力[23][24]

量子位· 2025-08-29 19:37

并行智能体技术趋势 - 并行智能体通过多个agent协同处理任务提升AI效率成为提升AI能力的新方向[1][3] - 传统AI能力提升依赖scaling law 通过更多数据和算力获得性能提升但输出结果时间长[4][6] - 并行agent方法在提升性能的同时减少用户等待时间且因大语言模型token成本下降而更具可行性[8] 并行智能体应用场景 - 多个agent并行抓取分析网页可快速生成深度研究报告[7] - 多个agent协同处理代码库不同部分可加快编程任务完成速度[7] - 多个agent后台并行工作并由监督agent向用户反馈实现并行异步控制[7] 技术实现与挑战 - 任务分解给多个智能体并行执行存在协调难度类似人类复杂任务分配的挑战[9][10] - Code Monkeys论文通过并行生成多个轨迹生成多样化候选解决方案提高编程问题解决效率[11][13] - Together Mixture Of Agents架构同时利用多个大语言模型提升性能并可调整分层架构进一步优化[14][15] 发展前景 - 最优利用并行agent仍需大量研究与工程探索高效并行工作的agent数量潜力巨大[18] - 技术发展具有历史延续性 2009年GPU并行计算已为深度学习时代奠定基础[19][20]

港股AGI第一股“云知声”首战告捷：大模型贡献1亿收入，单客价直线提升116.2%，AI保险业务暴涨1386.8%

量子位· 2025-08-29 19:37

核心观点 - 公司完成All In AGI战略转型大模型成为直接收入增长引擎形成全栈AI飞轮效应 [1][2][44] - 业务模式清晰技术路径明确成为大模型落地关键纲领 [2][19][45] - 公司战略与国家"人工智能+"行动高度契合在智慧生活和医疗领域形成示范效应 [19][22][42] 财务表现 - 2025上半年总营收4.05亿元同比增长20.2% [4][9] - 大模型收入9876万元同比大幅增长457.4% [5][14] - 毛利1.31亿元同比增长13% [17] - 研发开支1.68亿元占总收入41.5% 研发团队占比68.7% [14] 业务细分日常生活业务 - 收入3.35亿元占总收入82.7% [7][23] - 解决方案收入2.83亿元占比69.8% 同比增长22.6% [8] - 产品收入0.53亿元占比13% [8] - AI芯片销售1650万颗累计出货近1亿颗 [8][9][41] - 芯片及模块收入同比增长5.8% 在白电和教育平板市场表现良好 [8] 医疗业务 - 收入0.70亿元同比增长22.3% 占总收入17.3% [8] - 客单价从46.9万元大幅增长至101.3万元增幅达116.2% [8][9] - 保险理赔审核服务收入996.3万元同比爆发式增长1386.8% [9][12] 技术架构 - 构建"大模型平台+算力设施+自研芯片"AGI能力架构 [33][41] - 山海大模型基于10T级别数据和代码预训练整合行业知识形成专家级大模型 [35][37] - 支持多模态融合高效混合推理 MCP协议接入 [38][39] - Atlas AI基础设施支持千级GPU动态调度优化存储带宽计算能力 [41] - 自研AI芯片形成三大矩阵累计出货近1亿颗 [41] 应用落地日常生活场景 - 提供智能家居智慧交通智能座舱等一站式系统集成服务 [23] - 开发深圳地铁20号线语音售票系统将购票时间从15秒缩短至1.5秒 [23] - 交通客服Agent落地厦门高崎机场上海虹桥机场等场景 [25][26] 医疗场景 - 山海医疗大模型在MedBench评测中稳居第一 [28] - 重点服务北京协和医院北京友谊医院等三甲医院 [30] - 病历生成与质控产品实现全场景病历自动生成大幅提升门诊效率 [31] - 智能病历质控系统实现从质控提示到缺陷修改的跨越升级 [31] 商业模式 - MaaS模式API订阅费收入324.3万元同比增长45.6% [16] - 行业解决方案构建周期缩短40%以上形成感知-决策-行动业务闭环 [37] - 通过数据飞轮效应将技术优势转化为行业知识和模型壁垒 [37] 行业趋势 - 大模型落地规模化趋势加速医疗和服务行业需求旺盛 [44] - 智能体被列为重点发展方向 2027年普及率目标超70% [25] - 人工智能在辅助诊疗健康管理医保服务等场景加速应用 [28]

AGI

人工智能+

Artificial Intelligence

Artificial Intelligence

山海大模型

兽牙Agent平台

10年前押中英伟达：这位复旦学霸如何用AI Agent重新定义投资

量子位· 2025-08-29 14:58

创始人背景与投资理念 - 创始人Vakee拥有复旦大学和帝国理工教育背景在伦敦从事AI量化投资后加入百度凤巢搜索广告系统和百度投资部 2015年开始投资AI并购买英伟达股票[11][12][13] - 投资理念强调风险管理第一投资是胜率和赔率结合赔率可计算而胜率不可控需在认知范围内投资[15][16][20] - 认为投资应回归本质将灵感高效转化为交易机会投资可以简单有趣是自我表达方式[5][28][29] 创业动机与公司定位 - 创立RockFlow旨在降低投资门槛让普通人轻松上手投资开发AI助手Bobby实现这一目标[3][28][33] - 创业四个维度考量：选择金融大行业 AI最佳落地场景为广告金融游戏对投资有热情团队能执行落地[22][23][26][27] - 公司定位为AI驱动的金融交易平台专注垂类Agent开发不自研基座模型享受模型进步红利[50][51][54] 产品演进与AI应用 - 第一阶段推出简化版券商App 创新金融产品如期权交易简化但功能使用率低[33] - 2023年5月上线交易GPT信息流产品推送个性化交易机会 9月立项Agent框架聊天机器人Bobby[34][35] - AI解决投资五个关键节点：灵感捕捉分析策略制定订单执行持仓管理尤其擅长将普通人灵感转化为交易机会[70][73][86] 商业模式与行业变革 - 预测AI订阅收入将超过传统佣金和利息收入商业模式从交易收费转向服务订阅[55][56][57] - 金融行业迁移速度慢互联网三四月相当于金融三四年需平衡合规与创新[44][61][62] - 年轻用户投资行为变化 Z世代首选期权而非股票 2023年4月纳斯达克个股期权交易量超个股交易量[108] 技术架构与风险控制 - 垂类Agent架构依赖行业Know-How抽象在时效性准确性和成本间取得平衡通用Agent难解决金融幻觉问题[68][69][111] - 数据飞轮为核心壁垒拥有端到端交易数据闭环包括实时行情基本面财报量价公告及用户个人交易数据[125][126][117] - 风控绝对优先当前投资者纪律水平仅10分未达60分 AI优先帮助实现基础风控如止盈止损[90][91][93] 市场影响与用户行为 - AI拉平信息差使有思考力个人可能成为优秀基金经理冲击基本面驱动机构促进市场参与度提升[77][78][79] - 投资年轻化趋势明显年轻人投资年龄早消费属性强通过投资表达生活方式和社交态度[106][107][108] - 产品用户分层明显成熟用户用Bobby选期权新用户从对话发现机会到交易完成闭环[103] 未来发展与技术趋势 - 多模态技术将增强数据源分析和交互方式从文本扩展到语音视频用更易接受方式呈现信息[127] - 横向市场拓展速度快新场景落地仅需1-2个月架构灵活性高可快速复用[128][129] - AI在投资领域短期被高估长期被低估需推动垂类领域发展但最终投资结果仍取决于个人认知和风险偏好[110][113][135]

量子位· 2025-08-29 14:58

投资动态 - 英伟达旗下NVentures参与核聚变公司Commonwealth Fusion Systems（CFS）8.63亿美元融资[1] - 投资方包括Khosla Ventures、谷歌母公司Alphabet、主权财富基金及投资银行[2] - CFS累计融资达30亿美元，占全球聚变能源行业融资总额三分之一[4] - 黄仁勋首次投资核电领域为2025年6月参与TerraPower的6.5亿美元融资[7] - 谷歌四年内三次投资核电领域，包括对CFS和TAE Technologies的多轮投资[16][22] 技术进展 - CFS采用与MIT共同开发的高温超导体（HTS）技术建造托卡马克反应堆[7] - 使用稀土钡铜氧化物（REBCO）磁体产生世界最强磁场，实现更紧凑高效的反应堆设计[7] - 原型反应堆Sparc预计2025年启动，2027年实现能量盈亏平衡[9][10] - 聚变示范系统已完成约65%，计划2027年实现关键技术里程碑[12] 商业化规划 - CFS计划在弗吉尼亚州建造全球首座电网规模核聚变发电厂，目标2030年代初运营[8] - 商业发电厂Arc计划2027-2028年开建，设计发电容量400兆瓦[9][11] - 谷歌与CFS签署200兆瓦电力采购协议[15] - 微软与Helion达成全球首个核聚变电力采购协议，发电厂预计2028年建成[20] 行业布局 - 微软投资160亿美元重启三里岛核电站，2028年投运并提供20年电力[21] - 亚马逊领投X-energy的5亿美元融资，支持建设总容量320兆瓦的小型模块化反应堆[21] - 奥特曼个人向Helion投资3.75亿美元[21] - 科技巨头通过资本投入与电力采购协议加速核能技术商业化[19][22]

Nano banana手办玩法火爆出圈！无需抽卡，效果惊了(°o°)

量子位· 2025-08-29 12:21

文章核心观点 - 谷歌Gemini 2.5 Flash Image模型（匿名代号nano-banana）因卓越的图像生成能力爆火尤其在手办生成领域引发社交媒体创作热潮 [5][7][9] - 该模型通过原生多模态架构和交错式生成技术实现复杂图像编辑其文本渲染能力成为核心性能评估指标 [57][64][66] - 模型改进基于对前代产品Imagen 2.0用户反馈的系统性收集与测试解决了像素级编辑角色一致性和图像质感三大痛点 [68][71][73] 技术特性 - 采用文本渲染作为核心评估指标：提供客观可量化的性能衡量标准解决传统人类偏好评估的主观性与高成本问题 [58][59][61] - 原生多模态架构实现深度整合：图像理解与生成能力协同工作支持视觉信号与世界知识的正向迁移 [64][65] - 交错式生成技术支持多轮复杂编辑：可分解包含6-50个编辑要求的提示词通过连续对话历史理解实现精细化输出 [66][67] 应用场景实测 - 手办生成效果显著：使用英文提示词生成1/7比例实体模型支持动漫角色宠物及真人全身像转换需搭配圆形透明亚克力底座等细节描述 [10][13][25] - 多图结合控制姿态：支持同时参考3张图片进行创作包括控制角色战斗姿势和双人互动动作 [34][47][49] - 跨次元转换能力：将二次元插画转换为真人cosplay照片背景可设置为漫展等特定场景 [43][51][54] 生态发展计划 - 举办Nano Banana Hackathon黑客马拉松：提供2天免费API额度获奖者可获得开发者积分及Gemini相关奖品 [75][76] - 开放多平台体验通道：用户可通过AI Studio Gemini API或直接集成至Gemini使用该模型 [76][78][80]

nano - banana（Gemini 2.5 Flash Image）

nano - banana（Gemini 2.5 Flash Image）

蚂蚁专用模型超越o3！仅用2K训练样本刷新医疗AI榜单纪录

量子位· 2025-08-29 12:21

MedResearcher-R1团队投稿量子位 | 公众号 QbitAI 不卷参数的专业模型，会不会被通用大模型取代？在医疗领域，这个疑问正在被打破。蚂蚁集团联合研究团队发布的《MedResearcher-R1: Expert-Level Medical Deep Researcher》技术报告，证明了一条关键路径：专业开源模型只要做好领域化设计，有机会在垂直赛道上"以小博大"，反超通用大模型。团队发布的医学AI智能体 MedResearcher-R1 ，靠2100条（约2K规模）训练样本，在权威医疗基准测试MedBrowseComp上，将复杂医疗研究任务的准确回答数量提升至 27.5 。刷新该榜单纪录的同时，超过o3、Gemini 2.5 Pro等领先通用大模型，突破了此前 25.5 的业界准确回答"卡点"。让AI学会像医学专家那样思考 1. 缺"专业储备"：通用模型没有密集的医疗知识，面对罕见病、多病症关联等场景，支撑不了临床推理； 2. 缺"精准工具"：依赖公开网页搜索的通用工具，要么找不到权威医疗数据，要么被错误信息干扰，无法保障推理严谨性。据此，蚂蚁团队提出了知识指引下 ...

马斯克入局AI编程！xAI新模型限时免费用：256K上下文，主打一个速度快

量子位· 2025-08-29 08:54

产品发布与定位 - 马斯克旗下xAI公司推出智能编程模型Grok Code Fast 1 主打快速和经济性支持256K上下文并限时7天免费[1] - 新模型适用于多步骤和工具调用密集的复杂自动化任务定位为轻量级智能编码助手[24] - 与GitHub Copilot、Cursor、Cline、Kilo Code、Roo Code、opencode和Windsurf等平台深度合作优化IDE内指令理解能力[16] 性能表现 - 在ToyBench基准测试中整体排名第5 综合得分62.67% 仅次于GPT-5(93.67%)、Claude Opus 4(84.94%)、Gemini 2.5 Pro(65.00%)和DeepSeek Reasoner(73.83%)[4][5] - 在内部基准SWE-Bench-Verified子集测试中达到70.8%的成绩处于编程模型领先水平[18] - 支持TypeScript、Python、Java、Rust、C++和Go等多语言具备从项目创建到点对点bug修复的全流程能力[18] 技术特性 - 采用全新架构设计使用专用代码语料库预训练并通过真实世界拉取请求与编码任务数据微调[16] - 实现超过90%的指令缓存命中率结合推理加速和提示缓存优化使工具调用响应时间缩短至数秒内[17][18][7] - 通过开发者主观评估与自动化行为监控双重验证确保模型可靠性和任务执行效率[20] 商业化与定价 - 输入tokens定价为每百万0.2美元(约1.4元人民币) 输出tokens为每百万1.5美元(约10.7元人民币) 缓存调用tokens仅需0.02美元(约0.14元人民币)[25] - 价格仅为Claude Sonnet 4(约10.05美元)和GPT-5(约18.77美元)的十分之一性价比显著优于市场主流产品[5][26] - 速率限制为每分钟480请求和每分钟200万tokens 与同系列产品Grok-4保持相同水平[22] 应用案例 - 用户实测显示可快速生成pygame多媒体效果实现丝滑的交互体验[9][10] - 成功构建模拟战斗小游戏支持持续交互功能[2] - 在多指令环境下准确展示时间晶体细节并具备UI设计能力[12][14]

Artificial Intelligence

Grok Code Fast 1

Artificial Intelligence

Grok Code Fast 1

腾讯混元最新开源：一键生成电影级音效，性能表现全面SOTA

量子位· 2025-08-29 08:54

腾讯混元视频音效生成模型开源 - 腾讯混元正式开源端到端视频音效生成模型HunyuanVideo-Foley，专为视频内容创作者打造专业级音频生成工具 [1][2] - 该模型支持多场景音效生成，包括人物互动、动物活动、自然景观、卡通动画及科幻场景，实现音画同步与语义对齐 [10][11] - 模型完全开源，提供官网、GitHub及Hugging Face等访问渠道 [6][31] 技术突破与性能表现 - 解决视频转音频三大挑战：多模态数据集匮乏、语义响应不均衡及音质粗糙问题 [8] - 在VGGSound-Test基准测试中，关键指标全面领先：FDPaNNs为6.07（优于其他模型9.01-33.15），FDPaSST为202.12（优于其他模型205.85-474.56） [22] - 在MovieGen-Audio-Bench主观评测中，音频质量（MOS-Q）、语义对齐（MOS-S）和时间对齐（MOS-T）均超4.1分（满分5分），达到接近专业水准 [23] 核心技术创新 - 构建约10万小时级高质量TV2A数据集，通过自动化标注与数据过滤管线支撑模型泛化能力 [26] - 创新设计双流多模态扩散变换器（MMDiT）架构，实现视频与音频帧级别对齐及文本信息注入 [29] - 采用表征对齐（REPA）损失函数与改进型DAC-VAE技术，提升音频质量至48kHz采样率及128维连续表征 [30] 行业应用场景 - 为短视频创作者提供一键生成背景音效功能，适配搞笑段子、生活vlog及AI视频等内容 [31] - 助力电影制作团队突破传统音效制作周期与成本瓶颈，快速构建环境音与拟音场景 [31] - 为广告公司提供专业级音效定制服务，增强产品宣传片的视觉冲击力与品牌记忆点 [31] - 面向游戏开发者实时生成沉浸式环境音与角色动作音效，提升游戏互动体验 [31]