量子位

搜索文档
谷歌AI试穿神器真神了!上传照片秒出OOTD,视频效果和照镜子没区别
量子位· 2025-06-27 16:09
谷歌Doppl应用 - 谷歌推出最新应用Doppl 支持用户上传照片实现虚拟试穿功能 可生成动态视频展示服装上身效果[1][2][11] - 该应用支持全身照上传 要求照片包含头顶到脚部且服装贴身 也可使用预设AI模特 服装图片需光线自然无褶皱[14][15][16] - 除试穿外 应用可自动搭配未上传的上下装 但不支持鞋子、内衣、泳衣及配饰试穿 涉及隐私或违规服装会输出基础款效果[18][19][21][22][23] - 用户可将试穿效果分享给他人征求意见 目前功能仍在测试阶段 网友期待全球上线[25][27][30] 谷歌购物功能迭代 - 谷歌5月已在Search Labs推出静态试穿功能 用户购物时点击图标上传全身照即可查看服装效果[8][9] - Doppl升级为动态试穿 效果更直观 官网提供使用建议如选择模特双臂下垂的服装图片以优化生成效果[11][12][15] Google Labs其他实验项目 - Portraits项目可生成名人肖像并对话 首个主角为《Radical Candor》作者Kim Scott 利用Gemini提取其言论进行交互[31][32][34][35][36] - Flow项目支持文生视频 可实现摄像头控制及电影级画质生成[37][39][41]
OpenAI连丢4位大将!Ilya合作者/o1核心贡献者加入Meta,苏黎世三人组回应跳槽:集体做出的选择
量子位· 2025-06-27 16:09
核心观点 - Meta近期从OpenAI挖走多名核心AI研究员,包括Trapit Bansal和苏黎世三人组(Lucas Beyer、Alexander Kolesnikov、翟晓华),加强其在推理大模型和多模态领域的布局 [1][10][11] - 公司同时推进语音AI初创公司PlayAI的收购谈判,并已招募语音AI专家Johan Schalkwyk,强化AR眼镜的语音交互能力 [23][24][26] - OpenAI创始人奥特曼公开回应称不担心人才流失,并暗示被挖人员并非其最优秀人才 [12] 人才流动 Trapit Bansal - 2022年加入OpenAI,与Ilya Sutskever合作推动大模型强化学习研究,是o1系统的核心贡献者 [1][6] - 谷歌学术引用量2883次,h指数16,多篇高引论文涉及多智能体强化学习和非平稳环境适应 [7][8] - 加入Meta新成立的超级智能部门,专注推理大模型研发 [2] 苏黎世三人组 - 原谷歌研究员,共同开发ViT架构(论文引用超6.5万次),开创Transformer视觉应用先河 [14][15] - 2023年被OpenAI集体挖走并成立苏黎世工作室,2024年6月又集体跳槽至Meta [10][20][21] - 成员背景:翟晓华(南京大学本科/北大博士)、Lucas Beyer(德国亚琛工业大学博士)、Alexander Kolesnikov(ISTA博士) [16][17][18] 战略布局 语音AI - 拟收购初创公司PlayAI(2024年获2100万美元融资),其技术目标是实现类人类的流畅语音对话 [24][25] - 此前已招募Seasame AI的Johan Schalkwyk,强化端侧语音模型能力 [26] - 行业推测Meta计划将语音AI整合至AR硬件生态 [27] 研究领域 - 推理大模型:通过Trapit Bansal加盟强化前沿技术探索 [2] - 多模态:苏黎世三人组持续深耕视觉-语言交叉领域 [14][20]
DeepSeek-R2为什么还没发?
量子位· 2025-06-27 16:09
DeepSeek-R2项目延期原因 - 核心观点:DeepSeek-R2因CEO对模型表现不满及算力资源短缺导致多次延期[1][2] - 研发受阻主因包括:英伟达H20芯片供应不足(R1训练消耗3万块H20、1万块H800和1万块H100)[3][4] 技术迭代与市场预期 - V3-0324版本升级被实测证实性能显著提升,引发市场对R2的早期预期(2023年12月V3发布后即开始酝酿)[5][6][7] - R1模型基于V3-Base架构开发,强化了V3与R系列的技术关联性[8][9] - 4月DeepSeek联合清华发布SPCT论文,提出通过在线RL优化奖励模型的方法,但未直接推动R2发布[12][13][14] 时间线与关键事件 - 原预期节奏:参照R1在V3发布1个月后上线,市场推测R2将于2024年4月面世[11] - 实际进展:4月仅泄露参数(传1.2T参数、5.2PB数据),5月发布解决硬件瓶颈的论文及R1-0528版本(LiveCodeBench表现接近OpenAI o3-high)[17][20][21][23][24] 行业反馈与技术推测 - 用户对延期态度分化:部分认为"值得等待",部分推测需等待V4版本发布[28][30] - 当前技术瓶颈:V3可能已达性能极限,需新一代基础模型支撑R2开发[31][32]
大模型首次直接理解代码图:不用Agent自动修bug,登顶SWE-Bench开源模型榜单
量子位· 2025-06-27 14:08
核心观点 - 蚂蚁开源的新模型CodeFuse-CGM在SWE-bench Lite上以44%的bug解决率超越所有开源方案,性能媲美闭源模型[1][2] - 该模型首创将仓库代码图模态(CGM)融入大语言模型,直接理解代码结构,显著提升跨文件修复和补全能力[12][14][16] - 完全基于开源模型实现,摆脱对GPT-4等闭源模型的依赖,提供更可控透明的解决方案[6][33] - 通过Graph-RAG框架将传统Agent方案的10个模块精简至4个,效率大幅提升[21][23][28] 技术突破 模型架构 - 采用图-语言多模态设计:图模态包含7种节点类型(函数/类/文件等)和依赖关系边,语言模态处理自然语言提示[14][16] - 创新性技术:节点token压缩(CodeT5+编码器)、512倍上下文扩展适配器、图感知注意力掩码实现GNN式消息传递[17] - 两阶段训练:子图重构预训练(Graph-to-Code任务)和噪声增强微调(10%噪声输入提升鲁棒性)[18][19][20] 性能表现 - SWE-bench Lite:44%解决率,超越最佳开源基线KGCompass 7.33个百分点[5][25] - SWE-bench Verified:50.4%解决率,较开源基线提升10.2%;Java项目提升4.4%至14.29%[26][29] - 代码补全任务:在ComplexCodeEval和CrossCodeEval跨文件场景显著领先同尺寸开源模型[30] 行业意义 - 首次证明开源模型可通过结构融合实现仓库级任务,打破闭源模型垄断[6][12][33] - 验证Graph-RAG框架替代复杂Agent的可行性,核心模块减少60%[21][23] - 技术全栈开源(论文/代码/权重/数据),适配CodeLlama/DeepSeek等多类基座模型[31][34] - 解决传统AI编程仅限函数级任务的局限,实现跨模块的"真正项目理解"[9][32]
阿里发布信息检索Agent,可自主上网查资料,GAIA基准超越GPT-4o | 模型&数据开源
量子位· 2025-06-27 12:40
阿里WebDancer技术发布 - 公司发布端到端自主信息搜索智能体WebDancer,具备多步推理、工具使用和泛化能力,可模拟人类上网行为执行网页遍历、信息搜索等复杂任务[1][3][9] - 该智能体在GAIA和WebWalkerQA基准测试中分别取得61.1%和54.6%的Pass@3分数,平均准确率达46.6%和43.2%,优于基线模型和部分开源框架[4][33] - 技术框架已开源,包含训练范式、模型代码及实现方法,支持其他智能代理获取自主搜索能力[5][11] 四阶段训练范式 - **浏览数据构建**:通过CRAWLQA收集知识网站主URL并模拟点击子链接,结合GPT-4o生成复杂QA对;E2HQA通过实体检索-信息扩展-问题重构实现难度递进[12][14][15][16][17] - **轨迹采样**:采用ReAct框架生成思维-动作-观察轨迹,通过双路径采样(短/长思维链)和漏斗式过滤保留非冗余、目标一致且逻辑准确的轨迹[20][21][22] - **监督微调**:将轨迹转换为标记化输入,计算思维/动作部分损失,保留模型原有推理能力的同时教会任务分解与工具调用[23][25][26] - **强化学习**:采用DAPO算法优化策略,结合格式奖励(权重0.1)和答案奖励(权重0.9)的混合机制提升决策泛化能力[28][29][31][32] 性能验证与对比 - 在BrowseComp英文/中文数据集上分别取得2.8/5.0和13.5/22.2分数,显著优于GPT-4o(英文0.6)和QwQ-32B(中文11.1)等对比模型[35][36] - 闭源框架OpenAI DR在GAIA测试中达74.3分最高,但WebDancer作为开源方案在同类中表现突出,尤其QwQ-32B基础版本达53.8分[33][34] - RL训练后Pass@1性能与SFT基线的Pass@3相当,证明强化学习能更有效采样正确响应,但对语言推理模型的提升主要体现在一致性而非通过率[38]
90后清华博士厨房机器人融资数千万,拿下北京市首张具身智能机器人食品经营许可证
量子位· 2025-06-27 12:40
公司融资与投资方 - 享刻智能完成数千万元Pre-A轮系列融资,投资方包括世纪长河科技集团、启迪之星联合领投,网龙天映创投、广华创投等多家机构跟投 [1] - 公司已累计完成亿元级规模融资,天使轮投资方包括真格基金、中关村智友科学家基金、九阳股份、振邦智能等 [15] - 九阳股份作为天使投资方参与新项目,此前曾全资收购创始人陈震的速感科技 [16] 创始人及团队背景 - 创始人陈震为连续创业者,拥有北航计算机学士、清华计算机硕士学位,目前是清华大学未来实验室博士生 [2] - 2020年创办的速感科技被九阳母公司JS环球生活全资收购,随后出任Shark Ninja机器人研发中心总经理 [3] - 核心团队主要来自原速感团队、Shark Ninja团队及九阳团队,在机器人、人工智能领域拥有超过10年研发和管理经验 [17] 产品与技术 - LAVA机器人获得北京市首张具身智能机器人食品经营许可证,成为全国第一个"持证上岗"的AI厨师 [5] - LAVA机器人能2分钟炸好一盘薯条、做汉堡,未来还将学会做冰淇淋和调饮品 [6] - 机器人通过视觉识别食材,自主判断烹饪时间,并能学习新菜品制作方法 [7] - 已实现连续190天无间断运行,单日处理订单峰值1,732单,累计完成超10万次无故障炸制任务 [7] - 平均40秒/单的制作效率,能耗较传统设备降低62%,管理效率提升40%以上 [7] 市场拓展与商业化 - 公司已与海外知名连锁品牌客户签订千台级量产订单,将于下半年启动海外部署交付 [9] - 选择西式快餐作为切入点,因其标准化程度高,更易实现自动化 [11] - 技术迭代围绕"三机一体"架构:强化机器感官、机器认知和机器关节 [11] 产学研合作 - 与清华珠三角研究院签署合作协议,共建机器人核心技术联合研发平台 [14] - 广华创投作为清华珠三角研究院的投资平台参与本轮融资 [13] 行业定位与发展理念 - 专注垂直场景、拥有清晰商业化路径,成为机器人产业革命的重要推动者 [19] - 强调在真实场景中创造价值,深入理解厨房、餐饮等商业化服务场景 [19] - 创始人提出"在无数次试错中进化"的理念,体现务实发展思路 [19]
建筑生破解60年数学悬案,制成「永远同一面朝上」的单稳四面体
量子位· 2025-06-27 12:40
闻乐 时令 发自 凹非寺 量子位 | 公众号 QbitAI 扔100次,99次「同一面朝上」。 这个由碳纤维和碳化钨 (航空材料) 打造的"几何怪物",竟破解了60年数学悬案。 如果这个发明早一点出现,或许"雅典娜"月球着陆器也不会一侧翻就躺平了(doge)。 早在1966年,数学家约翰·康威和他的搭档查德·盖伊提出了"均匀单稳态四面体"构想。 他们想利用均匀材料制作一个重量分布均匀的四面体,无论将这个四面体如何放置,它总会翻到稳定的那一面朝上。 几年后,这对搭档通过不断尝试,否定了均匀单稳四面体的猜想:这是不存在的。 但是, 如果让重量分配不均匀呢 ? 后来,康威猜测不均匀配重的单稳四面体应该存在,但他未发表任何证明。 半个世纪以后,这个数学猜想由 建筑学者杰尔戈·阿尔马迪"跨界"证实 ,还制作出了实物。 所以,这位建筑学者是如何在数学问题上大展身手的呢? 从连续曲面到尖顶多面体 伟大的数学家约翰·康威对多四面体的排列和平衡方式非常感兴趣。 于是,他和搭档想要构建一个由均匀材料制成的四面体——其重量均匀分布,无论如何翻滚,最终总会翻到其稳定的一面。 很遗憾的是,他们在长达几年的研究之后发现,这种均匀单稳四面 ...
最低仅需2G显存,谷歌开源端侧模型刷新竞技场纪录,原生支持图像视频
量子位· 2025-06-27 12:40
核心观点 - 谷歌发布开源多模态模型Gemma 3n,原生支持文本、图像和音视频处理 [2] - Gemma 3n在10B以下模型中首次突破1300分(1303分),成为性能领先的小规模模型 [3] - 模型通过架构创新实现低内存占用(最低2GB),适配端侧设备 [4][6] 模型架构 - 采用MatFormer(嵌套式Transformer)架构,包含E2B(5B)和E4B(8B)两种型号,通过"有效参数"概念优化资源占用 [10][11] - 嵌套结构允许训练E4B时同步优化E2B子模型,并支持Mix-n-Match方法自定义模型尺寸 [12][15] - 配套工具MatFormer Lab将发布,用于检索最佳模型配置 [16] 端侧优化技术 - 引入逐层嵌入(PLE)技术,将部分参数加载到CPU,仅核心权重需VRAM存储,内存占用降至2B/4B水平 [17][18] - 采用KV缓存共享技术,预填充性能较Gemma 3-4B提升2倍,优化长序列处理 [19] 多模态支持 音频处理 - 集成基于USM的音频编码器,支持160毫秒音频转Token,实现端侧ASR/AST功能 [20] - 流式编码器默认支持30秒音频片段,可通过训练扩展至任意长度 [20] 视觉处理 - 搭载MobileNet-V5-300M视觉编码器,支持256x256至768x768分辨率,Pixel设备处理速度达60FPS [21] - 架构较MobileNet-V4扩大10倍,采用混合深度金字塔模型和多尺度融合VLM适配器 [21] 模型可用性 - 已在谷歌AI Studio及Ollama、llama.cpp等第三方工具上线,权重可通过Hugging Face获取 [8] - 技术细节持续公开,MobileNet-V5技术报告将后续发布 [22]
@所有开发者:Agent变现,阿里云百炼联合支付宝首创「AI打赏」!Agent Store全新发布
量子位· 2025-06-27 12:40
行业趋势 - 2025年成为Agent元年,AI Agent正经历从"玩具"到"工具"的关键转折[1] - 行业面临开发周期长、商业价值验证难等挑战,大量项目卡在POC阶段[2] 阿里云百炼核心升级 - 推出业内首个"Agent打赏"功能,用户可直接为开发者打赏,金额直达AI钱包并可提现[3][4][5][23][24][26][27] - 正式上线Agent Store,提供覆盖各行各业的100+个可一键复制的Agent模板[7][8][10][18][19] - 升级企业级RAG能力至千万级文档处理水平,支持多模态文件统一索引并开源V-RAG方案[29][30][33][34][35] - 升级MCP服务支持KMS加密,免费提供50个加密Key,实现统一鉴权和计量计费[36][37][38] - 发布OpenAPI MCP Server,支持大模型与2W+OpenAPI互联互通[39] 技术能力突破 - 多模态交互开发套件支持低延迟(1.5秒)全双工对话、复杂任务自主规划推理等能力[45][46] - 提供可视化配置界面,开发者可像拼乐高一样自由组合功能[48][49] - 支持后付费或买断License等灵活计费方式[50] 商业化进展 - 已有超50个企业级MCP上架,22000+用户开通服务,构建3万+MCP Agent[41] - 落地案例包括听力熊学习机(扩展50+交互技能)、浙一麻醉评估助手、牧原智能兽医问诊系统等[42][28]
北大发布学术搜索评测ScholarSearch:难倒一众DeepResearch的“开卷考试”
量子位· 2025-06-26 22:11
大语言模型学术检索能力评估 核心观点 - 北京大学DS-Lab发布首个评估大语言模型学术检索能力的数据集ScholarSearch,包含223道高难度学术问题,顶尖纯推理模型(如GPT-4.1、DeepSeek-R1)准确率普遍低于9% [1][15] - 具备搜索功能的模型比无搜索版本性能显著提升(如GPT-4o-mini准确率提升超4倍),但最先进的搜索增强型模型(GPT-4o-search-preview)准确率仅18.83% [2][3][15] - 当前模型在深度学术研究场景存在明显局限,需开发更强大的Deep Research模型 [4][16] 数据集构建方法 - 问题筛选采用双重负向标准:需同时无法被Grok 3 Thinking模式解答,且Grok 3 DeepSearch或Gemini 2.5 Pro Deep Research至少一个失败 [6] - 审核机制确保答案唯一性、来源可访问性和学术正确性,未达标问题需迭代修订 [7][8] - 问题来源于真实学术场景,覆盖15个细分学科(科学与工程+社会科学与人文学科) [11][12] 评估结果分析 - 纯推理模型无法应对学术查询复杂性,证明静态知识库存在局限性 [15] - 搜索能力使模型在科学与工程(18.2%准确率)与社会科学(19.5%准确率)领域表现趋于平衡 [15] - 现有模型在深度多源推理、专业知识整合方面存在技术差距,需突破复杂语境理解与批判性验证能力 [16]