Workflow
量子位
icon
搜索文档
被OpenAI开除的00后搞投资,700%回报率降维暴击华尔街
量子位· 2025-08-30 12:42
基金业绩表现 - 旗下基金规模在一年内突破15亿美元[1] - 上半年基金回报率达到47% 是华尔街平均水平的700%[2][7][8] - 同期标普500指数回报仅为6% 科技对冲基金指数回报为7%[8] 投资策略与配置 - 投资策略为ALL in AI 专注于AI半导体 基础设施和能源公司[6][10] - 投资组合中SMH PUT占25.29% 市值5.7亿美元 INTC CALL占20.11% 市值4.53亿美元[11] - AVGO持仓占比14.57% 市值3.28亿美元 较上季度增加70.23%[11] - 新增CORZ持仓占比11.86% 市值2.67亿美元 较上季度增加121.20%[11] - 新增VST持仓占比10.96% 市值2.47亿美元 较上季度增加142.31%[11] - 通过空头押注对冲可能因AI被淘汰的行业风险[11] 团队背景与投资人 - 研究主管Carl Shulman曾任职于Peter Thiel的宏观对冲基金[12] - 获得Stripe创始人Patrick和John Collison Meta的Daniel Gross 前GitHub首席执行官Nat Friedman等投资人背书[12] 创始人经历 - 创始人Leopold 23岁 曾任职OpenAI Superalignment团队 在Ilya Sutskever指导下研究AI安全[18][20] - 2024年4月因泄漏OpenAI安全漏洞被解雇[19] - 拥有数学 统计学和经济学三个学位 19岁从哥大毕业[16] - 发布165页报告预测AGI将在2027年实现[12][21]
不愧是中国机器人,乒乓打得太6了
量子位· 2025-08-29 19:37
技术突破 - 清华姚班本科生苏智团队开发出人形乒乓球机器人HITTER 采用分层规划与学习框架实现亚秒级反应下的稳定连续对打[7][8][9] - 高层模型规划器导航球轨迹并预测击球位置、速度与时机 低层强化学习控制器生成协调的手臂和腿部动作执行人类化打击[10][11][17] - 通过人类动作参考训练 机器人展现出类似人类的腰部旋转等击球行为[18][19] 性能表现 - 在26次投球测试中实现96.2%击球率(24次成功)和92.3%回球率 仅出现1次未回球和1次完全失球[21] - 最高实现106次连续对拉 远超休闲人类玩家水平[5][23] - 具备0.42秒极限反应回击扣球能力 并支持并步接球等高难度动作[1][3][24] 系统配置 - 采用宇树G1机器人直接以手掌作为球拍 在标准尺寸球台训练[13] - 配置9个OptiTrack摄像头(360Hz运行频率)实现毫米级球体追踪精度[14] - 感知-行动闭环系统需在极短时间内完成预测、规划和击球操作[29][31] 技术挑战 - 乒乓球运动需应对5米/秒球速 较网球/羽毛球具有更短距离和更快攻防转换[30] - 成功击球依赖敏捷全身运动 包括快速摆臂、腰部转动、垫步和平衡恢复[32] - 动态环境下的快速物体交互需协调关节控制与精密感知-行动闭环[29][33] 应用前景 - 机器人可完全自主运行于匹配对战环境 无需人类干预[25] - 技术验证为动态环境下快速移动物体交互提供研究范例[29] - 突破性表现预示人形机器人在高速反应场景的应用潜力[23][24]
吴恩达最新来信:是时候关注并行智能体了
量子位· 2025-08-29 19:37
并行智能体技术趋势 - 并行智能体通过多个agent协同处理任务提升AI效率 成为提升AI能力的新方向[1][3] - 传统AI能力提升依赖scaling law 通过更多数据和算力获得性能提升但输出结果时间长[4][6] - 并行agent方法在提升性能的同时减少用户等待时间 且因大语言模型token成本下降而更具可行性[8] 并行智能体应用场景 - 多个agent并行抓取分析网页可快速生成深度研究报告[7] - 多个agent协同处理代码库不同部分可加快编程任务完成速度[7] - 多个agent后台并行工作并由监督agent向用户反馈 实现并行异步控制[7] 技术实现与挑战 - 任务分解给多个智能体并行执行存在协调难度 类似人类复杂任务分配的挑战[9][10] - Code Monkeys论文通过并行生成多个轨迹生成多样化候选解决方案 提高编程问题解决效率[11][13] - Together Mixture Of Agents架构同时利用多个大语言模型提升性能 并可调整分层架构进一步优化[14][15] 发展前景 - 最优利用并行agent仍需大量研究与工程探索 高效并行工作的agent数量潜力巨大[18] - 技术发展具有历史延续性 2009年GPU并行计算已为深度学习时代奠定基础[19][20]
港股AGI第一股“云知声”首战告捷:大模型贡献1亿收入,单客价直线提升116.2%,AI保险业务暴涨1386.8%
量子位· 2025-08-29 19:37
核心观点 - 公司完成All In AGI战略转型 大模型成为直接收入增长引擎 形成全栈AI飞轮效应 [1][2][44] - 业务模式清晰 技术路径明确 成为大模型落地关键纲领 [2][19][45] - 公司战略与国家"人工智能+"行动高度契合 在智慧生活和医疗领域形成示范效应 [19][22][42] 财务表现 - 2025上半年总营收4.05亿元 同比增长20.2% [4][9] - 大模型收入9876万元 同比大幅增长457.4% [5][14] - 毛利1.31亿元 同比增长13% [17] - 研发开支1.68亿元 占总收入41.5% 研发团队占比68.7% [14] 业务细分 日常生活业务 - 收入3.35亿元 占总收入82.7% [7][23] - 解决方案收入2.83亿元 占比69.8% 同比增长22.6% [8] - 产品收入0.53亿元 占比13% [8] - AI芯片销售1650万颗 累计出货近1亿颗 [8][9][41] - 芯片及模块收入同比增长5.8% 在白电和教育平板市场表现良好 [8] 医疗业务 - 收入0.70亿元 同比增长22.3% 占总收入17.3% [8] - 客单价从46.9万元大幅增长至101.3万元 增幅达116.2% [8][9] - 保险理赔审核服务收入996.3万元 同比爆发式增长1386.8% [9][12] 技术架构 - 构建"大模型平台+算力设施+自研芯片"AGI能力架构 [33][41] - 山海大模型基于10T级别数据和代码预训练 整合行业知识形成专家级大模型 [35][37] - 支持多模态融合 高效混合推理 MCP协议接入 [38][39] - Atlas AI基础设施支持千级GPU动态调度 优化存储带宽计算能力 [41] - 自研AI芯片形成三大矩阵 累计出货近1亿颗 [41] 应用落地 日常生活场景 - 提供智能家居 智慧交通 智能座舱等一站式系统集成服务 [23] - 开发深圳地铁20号线语音售票系统 将购票时间从15秒缩短至1.5秒 [23] - 交通客服Agent落地厦门高崎机场 上海虹桥机场等场景 [25][26] 医疗场景 - 山海医疗大模型在MedBench评测中稳居第一 [28] - 重点服务北京协和医院 北京友谊医院等三甲医院 [30] - 病历生成与质控产品实现全场景病历自动生成 大幅提升门诊效率 [31] - 智能病历质控系统实现从质控提示到缺陷修改的跨越升级 [31] 商业模式 - MaaS模式API订阅费收入324.3万元 同比增长45.6% [16] - 行业解决方案构建周期缩短40%以上 形成感知-决策-行动业务闭环 [37] - 通过数据飞轮效应将技术优势转化为行业知识和模型壁垒 [37] 行业趋势 - 大模型落地规模化趋势加速 医疗和服务行业需求旺盛 [44] - 智能体被列为重点发展方向 2027年普及率目标超70% [25] - 人工智能在辅助诊疗 健康管理 医保服务等场景加速应用 [28]
10年前押中英伟达:这位复旦学霸如何用AI Agent重新定义投资
量子位· 2025-08-29 14:58
创始人背景与投资理念 - 创始人Vakee拥有复旦大学和帝国理工教育背景 在伦敦从事AI量化投资 后加入百度凤巢搜索广告系统和百度投资部 2015年开始投资AI并购买英伟达股票[11][12][13] - 投资理念强调风险管理第一 投资是胜率和赔率结合 赔率可计算而胜率不可控 需在认知范围内投资[15][16][20] - 认为投资应回归本质 将灵感高效转化为交易机会 投资可以简单有趣 是自我表达方式[5][28][29] 创业动机与公司定位 - 创立RockFlow旨在降低投资门槛 让普通人轻松上手投资 开发AI助手Bobby实现这一目标[3][28][33] - 创业四个维度考量:选择金融大行业 AI最佳落地场景为广告金融游戏 对投资有热情 团队能执行落地[22][23][26][27] - 公司定位为AI驱动的金融交易平台 专注垂类Agent开发 不自研基座模型 享受模型进步红利[50][51][54] 产品演进与AI应用 - 第一阶段推出简化版券商App 创新金融产品如期权交易简化 但功能使用率低[33] - 2023年5月上线交易GPT信息流产品 推送个性化交易机会 9月立项Agent框架聊天机器人Bobby[34][35] - AI解决投资五个关键节点:灵感捕捉 分析 策略制定 订单执行 持仓管理 尤其擅长将普通人灵感转化为交易机会[70][73][86] 商业模式与行业变革 - 预测AI订阅收入将超过传统佣金和利息收入 商业模式从交易收费转向服务订阅[55][56][57] - 金融行业迁移速度慢 互联网三四月相当于金融三四年 需平衡合规与创新[44][61][62] - 年轻用户投资行为变化 Z世代首选期权而非股票 2023年4月纳斯达克个股期权交易量超个股交易量[108] 技术架构与风险控制 - 垂类Agent架构依赖行业Know-How抽象 在时效性准确性和成本间取得平衡 通用Agent难解决金融幻觉问题[68][69][111] - 数据飞轮为核心壁垒 拥有端到端交易数据闭环 包括实时行情 基本面 财报 量价 公告及用户个人交易数据[125][126][117] - 风控绝对优先 当前投资者纪律水平仅10分未达60分 AI优先帮助实现基础风控如止盈止损[90][91][93] 市场影响与用户行为 - AI拉平信息差 使有思考力个人可能成为优秀基金经理 冲击基本面驱动机构 促进市场参与度提升[77][78][79] - 投资年轻化趋势明显 年轻人投资年龄早 消费属性强 通过投资表达生活方式和社交态度[106][107][108] - 产品用户分层明显 成熟用户用Bobby选期权 新用户从对话发现机会到交易完成闭环[103] 未来发展与技术趋势 - 多模态技术将增强数据源分析和交互方式 从文本扩展到语音视频 用更易接受方式呈现信息[127] - 横向市场拓展速度快 新场景落地仅需1-2个月 架构灵活性高可快速复用[128][129] - AI在投资领域短期被高估长期被低估 需推动垂类领域发展 但最终投资结果仍取决于个人认知和风险偏好[110][113][135]
老黄又投了一个核电站
量子位· 2025-08-29 14:58
投资动态 - 英伟达旗下NVentures参与核聚变公司Commonwealth Fusion Systems(CFS)8.63亿美元融资[1] - 投资方包括Khosla Ventures、谷歌母公司Alphabet、主权财富基金及投资银行[2] - CFS累计融资达30亿美元,占全球聚变能源行业融资总额三分之一[4] - 黄仁勋首次投资核电领域为2025年6月参与TerraPower的6.5亿美元融资[7] - 谷歌四年内三次投资核电领域,包括对CFS和TAE Technologies的多轮投资[16][22] 技术进展 - CFS采用与MIT共同开发的高温超导体(HTS)技术建造托卡马克反应堆[7] - 使用稀土钡铜氧化物(REBCO)磁体产生世界最强磁场,实现更紧凑高效的反应堆设计[7] - 原型反应堆Sparc预计2025年启动,2027年实现能量盈亏平衡[9][10] - 聚变示范系统已完成约65%,计划2027年实现关键技术里程碑[12] 商业化规划 - CFS计划在弗吉尼亚州建造全球首座电网规模核聚变发电厂,目标2030年代初运营[8] - 商业发电厂Arc计划2027-2028年开建,设计发电容量400兆瓦[9][11] - 谷歌与CFS签署200兆瓦电力采购协议[15] - 微软与Helion达成全球首个核聚变电力采购协议,发电厂预计2028年建成[20] 行业布局 - 微软投资160亿美元重启三里岛核电站,2028年投运并提供20年电力[21] - 亚马逊领投X-energy的5亿美元融资,支持建设总容量320兆瓦的小型模块化反应堆[21] - 奥特曼个人向Helion投资3.75亿美元[21] - 科技巨头通过资本投入与电力采购协议加速核能技术商业化[19][22]
Nano banana手办玩法火爆出圈!无需抽卡,效果惊了(°o°)
量子位· 2025-08-29 12:21
文章核心观点 - 谷歌Gemini 2.5 Flash Image模型(匿名代号nano-banana)因卓越的图像生成能力爆火 尤其在手办生成领域引发社交媒体创作热潮 [5][7][9] - 该模型通过原生多模态架构和交错式生成技术实现复杂图像编辑 其文本渲染能力成为核心性能评估指标 [57][64][66] - 模型改进基于对前代产品Imagen 2.0用户反馈的系统性收集与测试 解决了像素级编辑 角色一致性和图像质感三大痛点 [68][71][73] 技术特性 - 采用文本渲染作为核心评估指标:提供客观可量化的性能衡量标准 解决传统人类偏好评估的主观性与高成本问题 [58][59][61] - 原生多模态架构实现深度整合:图像理解与生成能力协同工作 支持视觉信号与世界知识的正向迁移 [64][65] - 交错式生成技术支持多轮复杂编辑:可分解包含6-50个编辑要求的提示词 通过连续对话历史理解实现精细化输出 [66][67] 应用场景实测 - 手办生成效果显著:使用英文提示词生成1/7比例实体模型 支持动漫角色 宠物及真人全身像转换 需搭配圆形透明亚克力底座等细节描述 [10][13][25] - 多图结合控制姿态:支持同时参考3张图片进行创作 包括控制角色战斗姿势和双人互动动作 [34][47][49] - 跨次元转换能力:将二次元插画转换为真人cosplay照片 背景可设置为漫展等特定场景 [43][51][54] 生态发展计划 - 举办Nano Banana Hackathon黑客马拉松:提供2天免费API额度 获奖者可获得开发者积分及Gemini相关奖品 [75][76] - 开放多平台体验通道:用户可通过AI Studio Gemini API或直接集成至Gemini使用该模型 [76][78][80]
蚂蚁专用模型超越o3!仅用2K训练样本刷新医疗AI榜单纪录
量子位· 2025-08-29 12:21
MedResearcher-R1团队 投稿 量子位 | 公众号 QbitAI 不卷参数的专业模型,会不会被通用大模型取代? 在 医疗领域 ,这个疑问正在被打破。 蚂蚁集团联合研究团队发布的《MedResearcher-R1: Expert-Level Medical Deep Researcher》技术报告,证明了一条关键路径:专业 开 源 模型只要做好领域化设计,有机会在垂直赛道上"以小博大",反超通用大模型。 团队发布的医学AI智能体 MedResearcher-R1 ,靠2100条(约2K规模)训练样本,在权威医疗基准测试MedBrowseComp上,将复杂医疗 研究任务的准确回答数量提升至 27.5 。 刷新该榜单纪录的同时,超过o3、Gemini 2.5 Pro等领先通用大模型,突破了此前 25.5 的业界准确回答"卡点"。 让AI学会像医学专家那样思考 1. 缺"专业储备":通用模型没有密集的医疗知识,面对罕见病、多病症关联等场景,支撑不了临床推理; 2. 缺"精准工具":依赖公开网页搜索的通用工具,要么找不到权威医疗数据,要么被错误信息干扰,无法保障推理严谨性。 据此,蚂蚁团队提出了 知识指引下 ...
马斯克入局AI编程!xAI新模型限时免费用:256K上下文,主打一个速度快
量子位· 2025-08-29 08:54
产品发布与定位 - 马斯克旗下xAI公司推出智能编程模型Grok Code Fast 1 主打快速和经济性 支持256K上下文 并限时7天免费[1] - 新模型适用于多步骤和工具调用密集的复杂自动化任务 定位为轻量级智能编码助手[24] - 与GitHub Copilot、Cursor、Cline、Kilo Code、Roo Code、opencode和Windsurf等平台深度合作 优化IDE内指令理解能力[16] 性能表现 - 在ToyBench基准测试中整体排名第5 综合得分62.67% 仅次于GPT-5(93.67%)、Claude Opus 4(84.94%)、Gemini 2.5 Pro(65.00%)和DeepSeek Reasoner(73.83%)[4][5] - 在内部基准SWE-Bench-Verified子集测试中达到70.8%的成绩 处于编程模型领先水平[18] - 支持TypeScript、Python、Java、Rust、C++和Go等多语言 具备从项目创建到点对点bug修复的全流程能力[18] 技术特性 - 采用全新架构设计 使用专用代码语料库预训练 并通过真实世界拉取请求与编码任务数据微调[16] - 实现超过90%的指令缓存命中率 结合推理加速和提示缓存优化 使工具调用响应时间缩短至数秒内[17][18][7] - 通过开发者主观评估与自动化行为监控双重验证 确保模型可靠性和任务执行效率[20] 商业化与定价 - 输入tokens定价为每百万0.2美元(约1.4元人民币) 输出tokens为每百万1.5美元(约10.7元人民币) 缓存调用tokens仅需0.02美元(约0.14元人民币)[25] - 价格仅为Claude Sonnet 4(约10.05美元)和GPT-5(约18.77美元)的十分之一 性价比显著优于市场主流产品[5][26] - 速率限制为每分钟480请求和每分钟200万tokens 与同系列产品Grok-4保持相同水平[22] 应用案例 - 用户实测显示可快速生成pygame多媒体效果 实现丝滑的交互体验[9][10] - 成功构建模拟战斗小游戏 支持持续交互功能[2] - 在多指令环境下准确展示时间晶体细节 并具备UI设计能力[12][14]
腾讯混元最新开源:一键生成电影级音效,性能表现全面SOTA
量子位· 2025-08-29 08:54
腾讯混元视频音效生成模型开源 - 腾讯混元正式开源端到端视频音效生成模型HunyuanVideo-Foley,专为视频内容创作者打造专业级音频生成工具 [1][2] - 该模型支持多场景音效生成,包括人物互动、动物活动、自然景观、卡通动画及科幻场景,实现音画同步与语义对齐 [10][11] - 模型完全开源,提供官网、GitHub及Hugging Face等访问渠道 [6][31] 技术突破与性能表现 - 解决视频转音频三大挑战:多模态数据集匮乏、语义响应不均衡及音质粗糙问题 [8] - 在VGGSound-Test基准测试中,关键指标全面领先:FDPaNNs为6.07(优于其他模型9.01-33.15),FDPaSST为202.12(优于其他模型205.85-474.56) [22] - 在MovieGen-Audio-Bench主观评测中,音频质量(MOS-Q)、语义对齐(MOS-S)和时间对齐(MOS-T)均超4.1分(满分5分),达到接近专业水准 [23] 核心技术创新 - 构建约10万小时级高质量TV2A数据集,通过自动化标注与数据过滤管线支撑模型泛化能力 [26] - 创新设计双流多模态扩散变换器(MMDiT)架构,实现视频与音频帧级别对齐及文本信息注入 [29] - 采用表征对齐(REPA)损失函数与改进型DAC-VAE技术,提升音频质量至48kHz采样率及128维连续表征 [30] 行业应用场景 - 为短视频创作者提供一键生成背景音效功能,适配搞笑段子、生活vlog及AI视频等内容 [31] - 助力电影制作团队突破传统音效制作周期与成本瓶颈,快速构建环境音与拟音场景 [31] - 为广告公司提供专业级音效定制服务,增强产品宣传片的视觉冲击力与品牌记忆点 [31] - 面向游戏开发者实时生成沉浸式环境音与角色动作音效,提升游戏互动体验 [31]