Workflow
量子位
icon
搜索文档
中科院“二氧化碳制糖”新成果全网热议!不依赖光合作用,“迈向深空前置技术”
量子位· 2025-07-11 14:16
核心技术突破 - 中国科学院天津工业生物技术研究所首次构建体外转化系统,实现"CO₂→甲醇→蔗糖"合成路径[1][5] - 新技术绕过植物光合作用,直接从空气中获取原料制糖,转化效率达86%,产率5.7 g/L[5][7] - 能量消耗显著低于自然路径,仅需2 ATP/蔗糖,而植物自然合成需要37 ATP/蔗糖[6] 技术原理与流程 - 构建ivBT平台将C1-C3低碳小分子转化为高阶碳水化合物(蔗糖、淀粉、纤维低聚糖)[10] - 第一步采用现有电化学还原技术将CO₂固定为甲醇[13][14] - 第二步通过工程改造关键酶(催化效率提高3-71倍)实现甲醇到蔗糖的转化[15] - 具体路径:甲醇→甲醛→DHA→果糖→蔗糖[17][18][19] - 进一步通过amylosucrase催化蔗糖聚合生成直链/支链淀粉,产量达4.3 g/L[21][22] 应用前景 - 可能改变传统农业模式,实现主粮作物车间制造[25][26] - 可同时生产蔗糖、淀粉、蛋白质等多种物质[27] - 为深空探索提供食物解决方案[9] - 节约耕地和淡水资源,减轻农业压力[31] - 提供新型二氧化碳消纳渠道[31] 研究背景 - 团队长期致力于农业工业化研究,去年已在Science发表二氧化碳合成淀粉成果[30] - 目标模拟植物数亿年进化形成的合成系统[29] - 技术可延伸至纤维低聚糖等传统需植物降解产物的直接合成[32]
文档秒变演讲视频还带配音!开源Agent商业报告/学术论文接近人类水平
量子位· 2025-07-11 12:00
核心观点 - PresentAgent是一个多模态智能体,能够自动将结构化或非结构化文档转化为配有语音讲解和同步幻灯片的视频演示,模拟人类演讲者的信息传递方式[1][3] - 该系统在测试集上接近人类水平的表现,适用于商业报告、技术手册、政策简报或学术论文等多种文档类型[4][7][21] - 该技术具有可控性和领域适应性,能够生成高度同步的视觉内容和语音解说,实现动态、有效、易获取的演示格式[20][22] 技术框架 - PresentAgent采用模块化生成框架,流程包括文档处理、结构化幻灯片生成、同步字幕创建和语音合成[9][13] - 具体步骤包括语义分块、布局指导的幻灯片生成、口语化解说文本重写以及语音与幻灯片的时间同步[11] - 系统支持多样化的输入文档形式,如论文、网站、博客、幻灯片或PDF[15][17] 评估方法 - 团队设计了PresentEval评估框架,包含客观测验评估和主观打分评估双路径[18] - 评估维度包括内容忠实度、视觉清晰度和观众理解度,使用视觉-语言模型进行评分[21] - 在30组人工制作的"文档-演示视频对"测试集上,系统表现接近人类水平[21] 应用潜力 - 该技术可显著减少制作高质量演示视频所需的人工精力,涉及内容筛选、幻灯片设计、讲稿撰写等环节[7][8] - 结合语言模型、视觉布局生成与多模态合成,实现可解释、可扩展的自动演示生成系统[23] - 在教育、金融、政策与科研等多个领域具有广泛应用前景[21]
感知错误率降低30.5%:隐式感知损失让模型主动“睁大眼睛” | UIUC&阿里通义
量子位· 2025-07-11 12:00
多模态推理算法PAPO的核心创新 - 提出专注于多模态推理的强化学习算法PAPO,通过隐式感知损失设计解决感知与推理脱节问题 [1][3] - 系统错误分析显示67%多模态推理错误源于视觉感知问题,而非逻辑推理能力 [6][7][9] - 在几何推理任务中,PAPO准确识别关键视觉特征(如30度角对应边),传统GRPO则关联错误 [14][15] 技术实现细节 - 创新隐式感知损失函数:要求模型在原始/损坏图像上输出显著差异分布 [18] - 采用KL散度最大化和感知信息增益比设计,目标函数J_PAPO=J_GRPO+γ·KL_prcp [19][20][21] - 随机遮盖补丁策略优于语义感知遮盖,遮盖比例0.6-0.8时效果最佳 [24][38] 性能提升表现 - 8个基准测试显示整体平均提升4.4%,高视觉依赖任务提升8.0%,感知错误减少30.5% [26] - 3B模型在LogicVista任务从38.14%提升至39.84%,7B模型在Counting任务从73.94%跃升至82.38% [26] - 训练动态更优:25步即显现提升,避免奖励不稳定问题,改进效果持续增强 [28][29] 技术优化与挑战 - 双重熵损失设计有效防止KL_prcp Hacking现象(γ>0.02时易发生崩溃) [45][46][47] - 与移除ReferenceKL约束的组合实现协同效应,7B模型在高视觉任务再提升7.96% [33][34] - 视觉依赖性分级验证:高依赖任务改进最显著(近8%),低依赖任务仍保持稳定提升 [53][54] 实际应用案例 - 几何计算:PAPO准确识别三角形短边关系(GRPO错误关联60度角边) [14][57] - 物体计数:PAPO正确区分并统计多类物体(GRPO感知错误) [8][64] - 多图推理:PAPO精准识别子图特征并完成逻辑推导(GRPO视觉推理错误) [63] 资源开放 - 模型、数据及代码已在GitHub、HuggingFace等平台开源 [5][65]
抱抱脸进军具身智能机器人:5小时成交破百万,299美元起售
量子位· 2025-07-11 12:00
HuggingFace发布开源桌面机器人ReachyMini - 核心观点:HuggingFace推出低成本开源桌面机器人ReachyMini,5小时内销售额超13万欧元(约109万元人民币),体现其向机器人领域的拓展意图 [1][10][14] - 产品定位:模块化轻量级机器人工作站,适用于演示、教学、陪伴及行为测试 [9][17] 产品规格与定价 - 基础参数:身高28cm/体重1.5kg,含可移动头部、旋转身体及动画天线 [2][3] - 硬件配置: - 无线版(499美元):RaspberryPi5计算核心、4麦克风、加速度计、Wi-Fi/电池供电 [6] - 有线版(299美元):需外接电脑,仅2麦克风 [6][7] - 功能特性:六自由度头部运动、广角摄像头、5瓦扬声器,支持Python/JavaScript/Scratch及开源大模型运行 [6][8] 技术生态与社区优势 - AI集成:可直接调用HuggingFace平台15种预设动作,支持用户共享行为库扩展功能 [7] - 战略背景: - 2024年5月推出LeRobot项目降低机器人开发门槛 [11] - 2025年4月收购PollenRobotics后发布3000美元人形机器人HopeJR [13] - 2025年6月开源轻量级SmolVLA模型(450M参数)适配低成本部署 [15] 行业影响与挑战 - 创新价值:通过开源社区驱动模式冲击封闭高价的机器人领域 [16][17] - 现存局限:应用场景较窄,功能映射真实需求存在差距,部分用户对实用性存疑 [19][20]
奖励模型也能Scaling!上海AI Lab突破强化学习短板,提出策略判别学习新范式
量子位· 2025-07-11 12:00
强化学习与奖励模型 - 强化学习已成为AI迈向AGI进程中的关键技术节点,改变了大语言模型的后训练范式 [1] - 奖励模型的设计与训练是制约后训练效果和模型能力提升的瓶颈,缺乏系统性的预训练和扩展方法 [2] - 传统奖励模型基于绝对偏好,难以灵活应对不同定制化场景 [7] POLAR新范式 - POLAR是一种与绝对偏好解耦的奖励建模新范式,具备可扩展性和强泛化能力 [3] - POLAR根据参考答案为模型输出打分,可灵活适配不同风格的定制化需求 [5][7] - POLAR能处理开放问题和闭式问题,提供细粒度的偏好区分 [11] - POLAR完美契合强化微调框架(RFT),使通用场景应用成为可能 [14] POLAR训练方法 - POLAR通过对比学习衡量训练策略与目标策略之间的距离作为奖励信号 [21] - 预训练阶段使用自动化合成数据构建,从131个Base LLM和53个Chat LLM中采样 [22] - POLAR-1.8B使用0.94T Token预训练数据,POLAR-7B使用3.6T Token [23] - 预训练后使用少量偏好数据对齐人类偏好 [23][24] POLAR性能表现 - POLAR展现出Scaling效应,验证集损失随模型参数和计算量增加呈幂律关系下降 [28][29] - POLAR-1.8B在STEM任务中超越最佳基线24.9个百分点,POLAR-7B超越26.2个百分点 [32] - POLAR-1.8B仅1.8B参数即可与27B和72B参数的奖励模型相当 [32] - POLAR-7B微调的Llama-3.1-8B在所有基准测试中平均提升9.0% [34]
这届985毕业生直播带货一把好手!50余款产品热销全网供不应求
量子位· 2025-07-11 12:00
科技小院项目成果与模式 - 中国农业大学毕业生通过拼多多直播带货50余款农产品,累计吸引3000万观众围观并热销[1][5] - 科技小院项目由张福锁院士2009年首创,已扩展至1800多个,覆盖全国乡村,采用"零距离、零时差、零门槛、零费用"服务模式[7][8] - 三亚榴莲科技小院创新使用鱼蛋白肥料加速榴莲生长,首批2000吨国产树上熟榴莲将于7月底上市[9][10][12] 农产品技术创新案例 - 北京通州蔬菜科技小院通过新品种选育和水肥一体化技术,培育出冰淇淋萝卜,使村集体收入增长4倍[15][16] - 云南古生村科技小院毕业生创业将油菜亩产值从1000元提升至5000元,并建立数商兴农科技小院解决销售问题[21][22][24] - 拼多多支持河北曲周"绿色吨半粮"项目,目标实现亩产1.5吨粮食、化肥效率50kg/kg、增产30%及减排30-50%[25] 拼多多的生态化助农战略 - 平台搭建科技小院专区并举办三届全国大赛,累计带动1500名农学研究生参与[26][27] - 捐赠1亿元设立农大研究基金,开设"多多课堂"培训1200万新农人数字化技能[30][31] - 联合FAO举办国际数字农业训练营,覆盖8国18名农业创业者,推动技术跨国输出[32][33][34] 产业闭环与政策支持 - 形成"科研-产业-市场"直接闭环,科技小院承担技术试验田、人才孵化器、模式示范窗三重角色[19][20] - 项目连续两年被写入中央一号文件,成为乡村振兴关键抓手[24][28] - 拼多多从销售平台升级为全链条生态构建者,覆盖技术研发、人才培养、市场渠道全环节[28][29][31]
小扎开价14亿让他换个地方打工,库克连挽留尝试都没有
量子位· 2025-07-11 08:34
核心观点 - Meta以2亿美元(约14亿人民币)的薪酬包挖走苹果基础模型团队负责人庞若鸣,这一金额远超苹果内部除CEO库克外其他高管的薪酬水平 [1][2][3] - Meta超级智能实验室为顶级AI人才提供超高薪酬,如OpenAI挖来的余家辉获得4年3亿美元(第一年解锁1亿美元)的薪酬包 [5][8] - 庞若鸣在AI领域具有深厚背景,曾领导苹果100多人的基础模型团队,负责开发支撑Apple Intelligence的核心模型 [29][43][44] 薪酬对比 - Meta超级智能实验室的薪酬(如庞若鸣2亿美元)远高于Meta其他岗位:软件工程师最高年薪48万美元(约344万人民币),机器学习工程师最高44万美元(约315万人民币) [16][17] - Google软件工程师平均年薪34万美元(约243万人民币),研究科学家收入最高 [22][24] - 硅谷大厂基本年薪(不含股票期权)普遍在30万美元(约210万人民币)水平 [25] 庞若鸣背景 - 1998年上海交大本科毕业,硕博分别就读于南加州和普林斯顿 [29] - 在谷歌工作15年,参与Bigtable Index、ZipIt项目,创立全球统一授权系统Zanzibar(可靠性达99.999%) [30][32][34] - 2017年后领导谷歌大脑语音识别研究,开发Babelfish/Lingvo框架(Google TPU使用率最高的深度学习框架) [38][39] - 2021年被苹果挖走,领导100多人的基础模型团队,开发支撑Apple Intelligence的核心模型 [43][44] - 论文总引用量4万+,最高引用论文为MobileNetV3(专为移动设备优化的轻量化神经网络模型) [47] Meta战略 - 为组建超级智能实验室,Meta收购数据标注公司Scale AI 49%股份(作价143亿美元) [8] - 采用"限时拍卖"式挖人策略,不给思考时间以促成"激情签约" [5] - 新入职的AI人才需完成KPI,帮助公司实现新的增长 [10]
他一人撑起谷歌90%的AI宣传,劈柴真是挖到鬼才了
量子位· 2025-07-10 16:00
核心人物背景 - Logan Kilpatrick现年27岁 曾就读于De Anza学院并毕业于哈佛大学 早期职业生涯包括参与NASA月球车软件研发和苹果机器学习模型训练 [7][8] - 2022年加入OpenAI担任开发者关系负责人 亲历ChatGPT发布过程 被开发者称为"LoganGPT"因响应迅速 [8][9][11] - 2024年受谷歌高管邀请转投谷歌 负责将AI Studio开发者平台从实验室项目迁移至谷歌云部门并商业化 [12][14][15] 职业影响力 - 在谷歌承担90%的AI营销工作 通过X平台高频互动建立开发者社区关系 每周处理上千封开发者邮件并保持日均8小时在线状态 [3][22][32] - 推动谷歌AI资源整合 将AI Studio团队及Gemini API开发团队并入DeepMind体系 强化研究到开发的协同效率 [17][19][20] - 对比OpenAI集中式营销 谷歌面临多产品线分散宣传的挑战 Gemini月活4亿仍落后于ChatGPT的5亿周活 [23][24][25] 运营策略 - 采用"单点爆破"式传播 当竞品发布热点时主动在X平台发布"Gemini"等关键词助推市场热度 [5] - 建立开发者优先的产品理念 通过直接沟通收集需求 其响应速度获得开发者社区高度评价 [28][36][37] - 同步进行天使投资 已布局50余家AI初创公司包括Cursor Cognition等明星项目 [39][40] 行业动态 - 开发者社区透露Gemini 3 0版本即将发布 相关信息已出现在服务器端 [41][44] - 行业评论认为其个人影响力已超越公司背景 成为Gemini事实上的形象代言人 [38]
Manus跑路了吗?
量子位· 2025-07-10 16:00
Manus国内团队约120人, 仅有核心研发团队40人迁往新加坡 ,其余约80名非核心员工被裁。据称裁员补偿待遇优厚,被裁人员能拿到N+3 或2N的赔偿。 事实上,Manus的离开似乎十分丝滑和平静。 现在再来到Manus北京办公室曾经所在地epark海淀花园路社区,园区人员并不知道这家公司撤离的具体时间,园区也不同于3月爆火时媒体 往来与驻扎,一片喧嚣模样。 衡宇 发自 凹非寺 量子位 | 公众号 QbitAI Manus,真的从国内撤了?! 4个月前一夜蹿红起飞的AI Agent产品Manus,刚被曝出背后公司一举 裁掉国内七成团队 。 事实上,Manus总部已在5月搬到了新加坡,国内员工何去何从?现在答案终于落定,一言以蔽之:大刀阔斧地裁员。 当量子位问及相关事宜时, 联合创始人兼CEO肖弘 以他昨日午后在即刻的一篇帖子作为回复。 其中写道: 想要在全球化的市场里做好产品,有很多不是来自业务本身和用户价值本身的烦恼。 但这一切是值得的。一方面因为旅程本身就有很多开心的、让自己和团队成长的事情。另外一方面, 如果最后有不错的结果,证明作为 中国出生的创始人,也能在新的环境下做好全球化的产品,那就太好了! ...
Chrome危!AI浏览器新品大爆发,OpenAI都来抢饭碗
量子位· 2025-07-10 14:51
浏览器市场竞争格局 - AI时代浏览器成为兵家必争之地,英伟达投资的Perplexity推出AI浏览器Comet,挑战谷歌垄断领域 [1][2][3] - OpenAI也将在未来几周内发布AI浏览器,与谷歌Chrome展开直接竞争 [4][33][34] - 谷歌Chrome目前占据2/3浏览器市场份额,地位难以撼动 [6][39] Perplexity的AI浏览器战略 - Comet定位为超级智能助手,通过浏览器入口连接用户日常操作 [8][9] - 已面向每月200美元的Max订阅用户和部分受邀者开放 [12] - 以侧边栏形式出现,能接管浏览器中的各项任务,自动识别浏览内容上下文 [15][18][19] - 在处理简单任务时表现良好,但复杂任务仍有局限 [20][21] - 需要授予对谷歌账户的大量访问权限来完成复杂操作 [22][23] Perplexity的市场优势 - 5月搜索查询量达7.8亿次,月环比增长率超过20% [30] - 通过现有用户为Comet引流,扩大用户群体 [31] - 因被谷歌拒绝设为默认搜索引擎而决定自主开发浏览器 [25][26][27] 新兴竞争者动态 - Dia浏览器:首个AI原生浏览器,可直接与任意网页对话 [36] - FellouAI浏览器:集成了传统浏览器、智能体和自动化工作流 [36] - 国内百度、夸克、360等浏览器也在通过AI功能争夺市场 [40][41] 行业发展趋势 - 下一代"超级入口"的争夺集中在浏览器领域 [42] - 谷歌通过Gemini迭代和Chrome智能升级巩固市场地位 [39] - OpenAI挖角谷歌前资深副总裁加强浏览器开发能力 [33] - 数据收集渠道成为AI浏览器竞争的关键因素 [34]