Workflow
量子位
icon
搜索文档
奥特曼30亿刀收购案黄了!谷歌迅速出手:Windsurf核心团队打包带走
量子位· 2025-07-12 09:49
收购事件动态 - OpenAI原计划以30亿美元收购AI编程初创公司Windsurf但交易终止 [2] - 谷歌迅速行动将Windsurf核心团队整体纳入麾下采用雇佣式收购策略 [3][11] - 谷歌未控股Windsurf但获得其部分技术的非独家授权具体金额未披露 [11] 交易终止原因 - 微软与OpenAI协议允许微软访问后者所有知识产权导致潜在利益冲突 [9] - 微软旗下GitHub Copilot与Windsurf存在直接竞争关系使收购陷入僵局 [10] - OpenAI最终未能完成30亿美元收购计划 [10] Windsurf公司背景 - 由MIT毕业生Varun Mohan和Douglas Chen于2021年创立前身为Codeium [15] - 累计融资超2亿美元最近一轮融资估值达12.5亿美元 [16] - 拥有超80万开发者用户及约1000家企业用户为全球头部AI编程初创公司之一 [17] 行业人才竞争态势 - 谷歌DeepMind负责人哈萨比斯确认Windsurf团队将参与Gemini项目开发编程Agent [7] - 大模型领域人才争夺白热化Meta曾开出上亿薪酬包挖角OpenAI [19] - 英伟达通过收购OmniML、Lepton等初创公司整合人才资源 [20] - 谷歌持续吸纳高端人才包括Transformer作者Noam Shazeer及前OpenAI员工Logan Kilpatrick [21][22]
吴恩达YC演讲:AI创业如何快人一步?
量子位· 2025-07-11 15:20
核心观点 - 执行速度是衡量AI创业公司成功几率的重要指标 [2] - AI技术加速工程和产品反馈 学习编码对个人意义重大 [3] - 初创公司的机会在应用层 具体想法带来速度优势 快速行动并负责任是关键 [7] AI技术栈与市场机遇 - AI技术栈分为四层:半导体公司 云计算/超大规模云服务商 AI基础模型公司 应用层 [8] - 当前最大创业机会在应用层 因AI应用收入支撑底层技术发展 [10][11] - 智能体AI兴起带来新智能体编排层 使应用开发更易 迭代思考能力提升成果质量 [12][13][14][19] - 初创企业需将原有工作流转换为智能体工作流以抓住机遇 [20] 提升创业速度的四大策略 专注具体想法 - 具体产品想法可让工程师直接构建 模糊想法拖慢进度 [21] - 行业专家直觉可加速高质量决策 [23][24] - 初创公司应专注单一明确想法 数据证伪后快速转向 [25][26][27] 利用AI编码助手 - AI辅助编码使原型构建速度提升10倍 生产级代码效率提高30%-50% [28][30][31] - 工具迭代迅速(Copilot Cursor Windsurf o3) 技术栈转换成本降低 [31][33] - 更多人应学习编码以更好控制计算机 [37] 加快产品反馈 - 工程师速度过快导致产品管理成瓶颈 需建立有效反馈策略 [38][39] - 反馈策略包括:专家直觉 团队试用 陌生人测试 大规模测试 A/B测试 [43] 充分理解AI技术 - 正确技术判断可节省2-10倍时间 紧跟AI发展(如RAG 语音交互 ETL工具) [40][41][44] - 灵活设计构建模块 快速评估并切换新模型 [48][49] 产品与护城河 - 初创公司应先打造用户真正喜欢的产品 而非过早关注护城河 [50][51] - 消费者产品需建立品牌概念和发展势头 企业级产品需考虑市场渠道壁垒 [54][55] AI教育领域潜力 - AI推动教育高度个性化 虚拟形象或聊天机器人形式待探索 [56] - 教育领域智能体工作流尚未成熟 但对初创公司前景广阔 [58]
Grok4全网玩疯,成功通过小球编程测试,Epic创始人:这就是AGI
量子位· 2025-07-11 15:20
核心观点 - Grok4发布后迅速引发广泛测试和讨论,展示出强大的多领域能力,包括物理规律理解、法律推理、代码翻译、数学可视化等 [1][6][10][23][30] - 在多项对比测试中,Grok4表现优于OpenAI的o3模型,尤其在复杂任务处理方面优势明显 [13][16][21] - 用户开发出高阶应用方法如"专家调度器",验证了Grok4在模拟专业协作环境方面的潜力 [52][54][62] 技术能力测试 - **物理规律理解**:通过六边形小球测试验证对物理运动的理解,虽然存在穿墙现象但被证实为设计意图 [2][4][11][12] - **法律推理**:用表格清晰展示公司收购中的债务违约连锁反应,结构化和逻辑性优于对比模型 [14][15][16] - **代码翻译**:成功将Python递归函数转换为Go语言并添加西班牙语注释,完成度高于对比模型 [18][19] - **知识可视化**:四轮对话内生成欧拉恒等式交互式网页,帮助用户直观理解复杂数学概念 [23][24][25][29] 多模态能力 - **SVG绘图**:在美国地图绘制中避免区块重叠错误,在专辑封面设计任务中保持基本正确 [30][38] - **生化知识**:三羧酸循环绘制测试中虽不完美但展示出基础生物化学理解能力 [42][44] - **创意表达**:在模型自画像任务中与其他主流模型相比无明显劣势 [48][51] 高阶应用场景 - **专家协作模拟**:通过精心设计的提示工程,Grok4能在52秒内完成跨领域专家协作的问题解决 [52][54][62] - **动态交互**:成功生成小人动画组成"Hello World"等文字,展示动态模式识别和生成能力 [6] - **专业见解**:对未见过的论文问题提供深刻分析,获得行业领袖认可 [7][8][9] 用户创新应用 - **全面测试框架**:提示词工程师设计8项测试覆盖多领域能力,Grok4全部通过而对比模型仅通过2项 [10][21] - **快速原型开发**:两轮对话即可完成数学可视化工具的核心功能开发 [29] - **社区期待**:用户提出更多潜在测试场景如宝可梦挑战,显示产品持续创新空间 [64]
Kimi新模型数学反超DeepSeek!北大校友刘征瀛等领衔
量子位· 2025-07-11 15:20
模型性能对比 - Kimi新模型在定理证明领域超越DeepSeek-Prover-V2的671B版本,实现SOTA(State of the Art)性能,72B参数模型表现更优[1] - 在普特南测试中,DeepSeek-Prover V2刷新记录至49道题,而Kimina-Prover仅能完成10道[4][5] - miniF2F基准测试中,Kimina-Prover-72B在pass@32时通过率84.0%,纠错后提升至86.4%,TTRL框架下最终通过率达92.2%[31][32][33] 技术创新 - 引入测试时强化学习(TTRL)搜索框架,支持递归分解问题、并行子引理生成及否定过滤,提升复杂问题解决能力[13][16][19][24] - 开发错误修复机制,通过Lean错误信息解读和迭代反馈优化证明可靠性,结合SFT数据集和批量失败重演策略[25][26] - 其他技术包括随机证明切割数据增强和非证明问题求解,进一步强化模型能力[30] 团队背景与合作 - 模型由Numina组织与Kimi团队联合开发,Numina曾获AI-MO竞赛进步一等奖,获陶哲轩颁奖[2][38] - 团队受MistralAI、Meta等机构支持,核心成员包括中山大学博士生Haiming Wang、月之暗面研究员Flood Sung等[36][37][40][42] - 项目有16位组织成员参与,含多名华人学者,如北京大学毕业生刘征瀛、Numina联合创始人李嘉[39][42][43] 模型版本与架构 - 主模型基于Qwen2.5-72B,采用Kimi k1.5强化学习流程训练[8] - 推出精简版Kimina-Prover-Distill-8B和1.7B,分别基于Qwen3-8B和Qwen3-1.7B[10] - 对比DeepSeek-Prover-V2-671B,Kimina-Prover-72B在pass@1和pass@1024通过率分别为63.9%和87.7%,优于前者的61.9%和86.6%[34]
美国版梁文锋来了
量子位· 2025-07-11 14:16
Harmonic AI创业背景 - 美国互联网券商Robinhood CEO Vlad Tenev跨界创立人工智能公司Harmonic AI,路径类似中国DeepSeek创始人梁文锋[1][2] - 公司专注于构建解决复杂数学问题的AI系统,目标创造数学超级智能(MSI)[3] - 联合创始人Tudor Achim为卡内基梅隆大学计算机专业背景,曾参与创立自动驾驶与大模型公司Helm.ai[15] 融资与估值 - 已完成B轮融资1亿美元,由Kleiner Perkins领投,估值达8.75亿美元[4][16][17] - A轮融资7500万美元(Sequoia Capital领投),投后估值3.25亿美元[15] - 公司策略性控制估值增速,未盲目追求独角兽地位[18][19] 创始团队与关联企业 - Vlad Tenev为斯坦福本科、UCLA硕士,曾创立Robinhood并推动其市值达227亿美元[5][6][8] - Robinhood 2025年Q1营收9.27亿美元,净利润3.36亿美元(净利率36%),平台总资产2210亿美元[12] - Robinhood业务涵盖股票、ETF、期权、加密货币交易及现金管理,以低门槛零售经纪服务著称[9][10][11] 技术进展与目标 - 首款模型Aristotle具备自然语言问题形式化能力,在MiniF2F数学基准测试准确率从83%提升至90%[20][23] - 目标构建数学能力超越人类的AI系统,解决未解数学问题并扩展至物理学、计算机科学领域[26][27] - 通过提升AI数学能力增强逻辑推理,以应对"幻觉"等问题,最终推动AGI发展[28] 市场扩张计划 - Robinhood计划2025年进军亚洲市场,总部设于新加坡[7] - Harmonic AI计划2024年向公众开放Aristotle模型[26]
无需CUDA代码给H100加速33%-50%,Flash Attention作者新作火了
量子位· 2025-07-11 14:16
核心观点 - 提出名为QuACK的SOL内存绑定内核库,完全用Python编写,无需CUDA C++代码,借助CuTe-DSL实现高效GPU内核开发[1] - 在带宽3TB/s的H100上,比PyTorch的torch.compile、Liger等深度优化库快33%-50%[2] - 通过优化内存密集型内核的细节处理,使其速度逼近"理论极限"[3] - 利用现代GPU的线程和内存层级结构,结合CuTe-DSL实现高效开发[14] 技术实现 内存密集型内核优化 - 重点优化内存密集型内核(如逐元素运算、归一化、损失函数计算),这类内核大部分时间耗在内存访问而非计算上[14] - 内存密集型内核的算术强度小,吞吐量由每秒传输字节数决定[14] - 逐元素激活操作适合完全并行处理,而softmax、RMSNorm等算子需要归约操作[15][16] GPU内存层级结构 - H100的CUDA执行分为线程、线程块、线程块集群和完整网格四个层级[22] - 每个层级对应不同的内存访问延迟和带宽,寄存器访问最快(100 TB/s),DRAM最慢(3.35 TB/s)[26] - 设计内核时需遵循内存层级,将大部分本地归约操作分配在较高层级,减少低层级传递[27] 硬件感知策略 - 加载和存储策略需优化以最大化HBM带宽利用率,实现内存合并访问[30][31] - 归约策略从线程级到集群级逐层进行,充分利用各层级带宽[39][42] - 集群归约是H100新特性,允许16个线程块通过分布式共享内存协同工作[57][59] 性能对比 - 在H100上测试,QuACK的DRAM吞吐量达3.01TB/s(峰值3.35TB/s的89.7%)[70] - 归约维度≥65k时,QuACK显著优于torch.compile(快近50%)和Liger[81] - Liger在输入规模从32k增至65k时,吞吐量从3.0 TB/s降至2.0 TB/s,而QuACK保持稳定[85] 应用前景 - CuTe-DSL兼具Python开发效率和CUDA C++性能,适合高效GPU内核开发[92] - 未来可能通过大语言模型自动生成高度优化的GPU内核[96] - 作者团队在FlashAttention、Mamba等工作中已有显著成果[105][106]
中科院“二氧化碳制糖”新成果全网热议!不依赖光合作用,“迈向深空前置技术”
量子位· 2025-07-11 14:16
核心技术突破 - 中国科学院天津工业生物技术研究所首次构建体外转化系统,实现"CO₂→甲醇→蔗糖"合成路径[1][5] - 新技术绕过植物光合作用,直接从空气中获取原料制糖,转化效率达86%,产率5.7 g/L[5][7] - 能量消耗显著低于自然路径,仅需2 ATP/蔗糖,而植物自然合成需要37 ATP/蔗糖[6] 技术原理与流程 - 构建ivBT平台将C1-C3低碳小分子转化为高阶碳水化合物(蔗糖、淀粉、纤维低聚糖)[10] - 第一步采用现有电化学还原技术将CO₂固定为甲醇[13][14] - 第二步通过工程改造关键酶(催化效率提高3-71倍)实现甲醇到蔗糖的转化[15] - 具体路径:甲醇→甲醛→DHA→果糖→蔗糖[17][18][19] - 进一步通过amylosucrase催化蔗糖聚合生成直链/支链淀粉,产量达4.3 g/L[21][22] 应用前景 - 可能改变传统农业模式,实现主粮作物车间制造[25][26] - 可同时生产蔗糖、淀粉、蛋白质等多种物质[27] - 为深空探索提供食物解决方案[9] - 节约耕地和淡水资源,减轻农业压力[31] - 提供新型二氧化碳消纳渠道[31] 研究背景 - 团队长期致力于农业工业化研究,去年已在Science发表二氧化碳合成淀粉成果[30] - 目标模拟植物数亿年进化形成的合成系统[29] - 技术可延伸至纤维低聚糖等传统需植物降解产物的直接合成[32]
文档秒变演讲视频还带配音!开源Agent商业报告/学术论文接近人类水平
量子位· 2025-07-11 12:00
核心观点 - PresentAgent是一个多模态智能体,能够自动将结构化或非结构化文档转化为配有语音讲解和同步幻灯片的视频演示,模拟人类演讲者的信息传递方式[1][3] - 该系统在测试集上接近人类水平的表现,适用于商业报告、技术手册、政策简报或学术论文等多种文档类型[4][7][21] - 该技术具有可控性和领域适应性,能够生成高度同步的视觉内容和语音解说,实现动态、有效、易获取的演示格式[20][22] 技术框架 - PresentAgent采用模块化生成框架,流程包括文档处理、结构化幻灯片生成、同步字幕创建和语音合成[9][13] - 具体步骤包括语义分块、布局指导的幻灯片生成、口语化解说文本重写以及语音与幻灯片的时间同步[11] - 系统支持多样化的输入文档形式,如论文、网站、博客、幻灯片或PDF[15][17] 评估方法 - 团队设计了PresentEval评估框架,包含客观测验评估和主观打分评估双路径[18] - 评估维度包括内容忠实度、视觉清晰度和观众理解度,使用视觉-语言模型进行评分[21] - 在30组人工制作的"文档-演示视频对"测试集上,系统表现接近人类水平[21] 应用潜力 - 该技术可显著减少制作高质量演示视频所需的人工精力,涉及内容筛选、幻灯片设计、讲稿撰写等环节[7][8] - 结合语言模型、视觉布局生成与多模态合成,实现可解释、可扩展的自动演示生成系统[23] - 在教育、金融、政策与科研等多个领域具有广泛应用前景[21]
感知错误率降低30.5%:隐式感知损失让模型主动“睁大眼睛” | UIUC&阿里通义
量子位· 2025-07-11 12:00
多模态推理算法PAPO的核心创新 - 提出专注于多模态推理的强化学习算法PAPO,通过隐式感知损失设计解决感知与推理脱节问题 [1][3] - 系统错误分析显示67%多模态推理错误源于视觉感知问题,而非逻辑推理能力 [6][7][9] - 在几何推理任务中,PAPO准确识别关键视觉特征(如30度角对应边),传统GRPO则关联错误 [14][15] 技术实现细节 - 创新隐式感知损失函数:要求模型在原始/损坏图像上输出显著差异分布 [18] - 采用KL散度最大化和感知信息增益比设计,目标函数J_PAPO=J_GRPO+γ·KL_prcp [19][20][21] - 随机遮盖补丁策略优于语义感知遮盖,遮盖比例0.6-0.8时效果最佳 [24][38] 性能提升表现 - 8个基准测试显示整体平均提升4.4%,高视觉依赖任务提升8.0%,感知错误减少30.5% [26] - 3B模型在LogicVista任务从38.14%提升至39.84%,7B模型在Counting任务从73.94%跃升至82.38% [26] - 训练动态更优:25步即显现提升,避免奖励不稳定问题,改进效果持续增强 [28][29] 技术优化与挑战 - 双重熵损失设计有效防止KL_prcp Hacking现象(γ>0.02时易发生崩溃) [45][46][47] - 与移除ReferenceKL约束的组合实现协同效应,7B模型在高视觉任务再提升7.96% [33][34] - 视觉依赖性分级验证:高依赖任务改进最显著(近8%),低依赖任务仍保持稳定提升 [53][54] 实际应用案例 - 几何计算:PAPO准确识别三角形短边关系(GRPO错误关联60度角边) [14][57] - 物体计数:PAPO正确区分并统计多类物体(GRPO感知错误) [8][64] - 多图推理:PAPO精准识别子图特征并完成逻辑推导(GRPO视觉推理错误) [63] 资源开放 - 模型、数据及代码已在GitHub、HuggingFace等平台开源 [5][65]
抱抱脸进军具身智能机器人:5小时成交破百万,299美元起售
量子位· 2025-07-11 12:00
HuggingFace发布开源桌面机器人ReachyMini - 核心观点:HuggingFace推出低成本开源桌面机器人ReachyMini,5小时内销售额超13万欧元(约109万元人民币),体现其向机器人领域的拓展意图 [1][10][14] - 产品定位:模块化轻量级机器人工作站,适用于演示、教学、陪伴及行为测试 [9][17] 产品规格与定价 - 基础参数:身高28cm/体重1.5kg,含可移动头部、旋转身体及动画天线 [2][3] - 硬件配置: - 无线版(499美元):RaspberryPi5计算核心、4麦克风、加速度计、Wi-Fi/电池供电 [6] - 有线版(299美元):需外接电脑,仅2麦克风 [6][7] - 功能特性:六自由度头部运动、广角摄像头、5瓦扬声器,支持Python/JavaScript/Scratch及开源大模型运行 [6][8] 技术生态与社区优势 - AI集成:可直接调用HuggingFace平台15种预设动作,支持用户共享行为库扩展功能 [7] - 战略背景: - 2024年5月推出LeRobot项目降低机器人开发门槛 [11] - 2025年4月收购PollenRobotics后发布3000美元人形机器人HopeJR [13] - 2025年6月开源轻量级SmolVLA模型(450M参数)适配低成本部署 [15] 行业影响与挑战 - 创新价值:通过开源社区驱动模式冲击封闭高价的机器人领域 [16][17] - 现存局限:应用场景较窄,功能映射真实需求存在差距,部分用户对实用性存疑 [19][20]