机器之心

搜索文档
清华创业团队打造!国内首个专注AI推理Serverless GPU平台
机器之心· 2025-05-28 11:54
公司介绍 - 共绩科技是全球唯一利用动态闲置资源提供安全稳定服务的分布式计算平台,致力于构建信息、算力、能源一体化的资源调度网络 [1] - 公司核心团队来自清华大学、北京大学及Intel、字节跳动、阿里等知名企业,在分布式资源调度领域深耕多年 [27] - 已承建青海省、河北省省级算力调度平台,累计服务90余家人工智能企业 [27] 产品技术 - 共绩云AI推理Serverless平台支持极简快速部署,RTX 4090价格低至1.68元/小时,按毫秒计费 [2] - 采用Docker容器化技术实现五步部署,提供预制镜像与7x24h免费技术支持 [25][26] - 自研闲时算力调度平台整合26家智算中心资源(包括金山云、火山引擎),形成万卡资源池 [27] 行业痛点 - AI推理市场存在"弹性、稳定、低价"不可能三角,传统整租模式导致闲置成本高或扩容慢 [8][11] - 国内Serverless GPU服务资源稀缺,供需错配造成大量闲置与短租一卡难求并存 [19][12] - 现有服务模式要求长租且管理繁琐,阻碍创业公司快速迭代 [12] 解决方案 - 通过Serverless GPU实现毫秒级按量计费,流量激增时秒级扩容,回落时缩容归零 [23][24] - 独创动态资源调度网络打破单一云厂商边界,将闲置算力转化为可用资源 [21][27] - 支持实时/批量推理、3D渲染等场景,冷启动速度媲美国外RunPod [15][17] 市场活动 - 新用户注册充值可获20%额外积分,邀请好友双方各得50元积分 [3][30] - 活动期限至6月18日,RTX 4090推理服务维持1.68元/小时促销价 [29][30]
4万多名作者挤破头,CVPR 2025官方揭秘三大爆款主题, 你卷对方向了吗?
机器之心· 2025-05-28 11:02
计算机视觉领域热门方向 - CVPR 2025基于全球4万多名作者的13008份投稿统计出三大热门方向 投稿数量同比增长13% 最终接收2878篇论文 接收率22.1% [3] - 研究群体呈现指数级增长趋势 AI领域重要性提升带动相关学位攻读人数增加 [3] 多视角与传感器3D技术 - 该方向投稿量激增 研究重点从单幅图像2D渲染转向复杂3D评估 2020年NeRF技术突破推动领域发展 [4][5] - 高斯泼溅(Gaussian splatting)技术进一步促进计算机视觉与图形学融合 神经渲染研究显著提升3D相关论文数量 [5] 图像与视频合成 - 成为CVPR 2025最大论文类别之一 多模态商业聊天机器人已实现图像/视频生成能力 正朝交互式世界生成演进 [6] - 会议展示的合成方法为生成完整虚拟环境奠定技术基础 [6] 多模态学习 - 视觉、语言和推理合并为投稿量最大类别之一 可能预示新研究趋势 [7][8] - CVPR坚持学术公平原则 每篇论文评审标准独立于作者机构背景 维护领域生态平衡 [8] 行业动态 - CVPR 2025会议即将召开 投稿竞争加剧反映AI研究热度持续攀升 [8] - 机器之心将同步举办论文分享会 提供学术交流平台 [8]
首个面向柔性衣物灵巧操作的仿真平台来了,北大、伯克利联合发布
机器之心· 2025-05-28 11:02
本论文共同第一作者为王昱然、吴睿海、陈越,导师为北京大学董豪老师。课题组致力于统一的物体表征操作研究,以实现具有可解释性和泛化能力的物体操作 策略。 在机器人操作领域,柔性物体,尤其是衣物的操控始终是一个值得关注的难题。与刚体或铰接物体相比,衣服具有近乎无限的状态空间,以及复杂的动力学特 性,这使得现有方法在应对衣物操作时表现欠佳。 董豪课题组已在柔性物体操作领域进行了诸多探索,其中:(1)GarmentLab作为首个全面的衣物和柔体操作环境与基准平台,提供了关于柔体、流体、可变形物 体的各种仿真和针对二指夹抓取的大量操作任务;(2)GarmentPile重点关注堆叠柔性物体的相关操作,通过功能可供性(Affordance)使机器人能够针对不同堆 叠状态下的衣服泛化并高效完成调整和操作。 (3)泛化能力强的策略框架 HALO 提出分层策略 HALO(Hierarchical gArment-manipuLation pOlicy),结合功能可供性(affordance)与扩散方法(diffusion),自动生成可泛化的操作轨迹,在面对 形状与状态变化巨大的衣物时,表现出优于现有模仿学习方法的稳定泛化能力。 然 ...
全靠Claude4!30年FAANG老工程师:AI帮我解决了4年老bug
机器之心· 2025-05-27 17:54
不过等人类回过味来,发现海的那边好像是敌人,AI 导致的失业潮仿佛近在咫尺。还记得七年前(那时候 ChatGPT 都还没发布)本科第一次班会上,老师 问为什么要选这个专业,有同学回答因为这是最不容易被 AI 替代的职业之一(PS. 我学的是建筑,大家别笑得太大声)。 不知是不是预料之内,AI 最先波及的,竟然是写程序这件事本身。Anthropic 的创始人、CEO Dario Amodei 就曾预测,很快 90% 的代码可能都会由 AI 来 编写。 机器之心报道 编辑:+0、泽南 AI 就像一头野驴,跑起来就不停。人类花了几百万年才走上食物链顶端,而大模型只用了不到十年时间,已经能把你和刘亦菲 P 进一张自拍了。奥!最新 进展是已经能自己生成音画同步的超真实脱口秀了。 先不说这个预言什么时候会实现,至少他家的产品确实在往这个方向发展。请问编程最厉害的大模型是哪个?虽然没有定论,但 Claude 肯定榜上有名。 | T A | Model | ৰ Complete | Instruct | ▲ Average | * #Act Params (B) | | --- | --- | --- | --- | --- ...
强化学习解决长上下文推理问题:通义推出QwenLong-L1-32B
机器之心· 2025-05-27 17:54
长上下文推理强化学习范式 - 核心观点:长上下文推理强化学习需要模型先定位外部关键信息再整合内部推理,区别于短上下文的直接内部知识推理[5] - 关键挑战:训练效率低(奖励收敛慢、输出熵降低限制探索)和优化不稳定(KL散度突刺多、输出长度不均导致方差大)[6] QwenLong-L1框架技术突破 - **渐进式上下文扩展技术**:分两阶段强化学习(20K→60K输入长度),结合课程引导分阶段训练、难度感知回顾采样和监督微调预热[11][12][13] - **混合奖励机制**:融合规则验证(严格匹配答案格式)与模型评判(Qwen2.5-1.5B评估语义等价性),取最大值平衡精确性与多样性[14][15][16][17] 模型性能表现 - **QwenLong-L1-14B**:平均Pass@1达68.3,超越Gemini-2.0-Flash-Thinking和Qwen3-32B[21] - **QwenLong-L1-32B**:平均Pass@1达70.7,超越OpenAI-o3-mini和Qwen3-235B-A22B,与Claude-3.7-Sonnet-Thinking持平[9][21] - **训练效率**:仅需1.6K样本即实现显著提升,32B模型RL后平均性能提升5.1[20] 关键实验发现 - **SFT与RL协同效应**:SFT低成本达到基础性能,RL对最优结果至关重要;过度SFT会导致局部最优限制RL潜力[28] - **推理模式动态**:RL自然提升长上下文相关Grounding等推理模式频率,且频率增长与性能正相关[25][28]
开源模型竟被用于窃取下游微调数据?清华团队揭秘开源微调范式新型隐藏安全风险
机器之心· 2025-05-27 17:54
研究背景 - 基于开源模型微调的范式已成为大型语言模型发展的基础,推动其在科研和工业界的广泛应用[5] - 研究揭示该范式中存在此前未被认识到的安全漏洞:开源模型开发者可通过后门注入方式提取下游私有微调数据[5] - 与传统模型蒸馏不同,该后门机制可恢复微调过程中使用的查询语句,这些查询通常包含专有内容或用户特定提示语[5] 方法概览 - 后门攻击实现的关键原因是在微调过程中对训练查询计算损失,这是某些开源大语言模型后训练框架的默认设置[6] - 团队提出两种后门训练方案:基于SFT的方案通过构造特殊数据对增强模型遵循抽取指令能力[7],基于GRPO的方案通过强化学习进一步提升抽取性能[8] - 在抽取阶段采用打分机制识别真实出现的开头词,依据模型拒绝回复的可能性和重复输出频率进行判断[9][10] 实验结果 - 在Dolly数据集测试中,Qwen2 5-32B模型经过SFT训练后Match Ratio均值达49 2%,Max@10达81 3%[14] - 在Finance数据集上,Qwen2 5-32B模型召回率最高达76 3%,精准度在使用50个开头词时超60%[16][17] - 开头词信息已知情况下,完整query召回率可提升至94 9%[16][19] - 后门训练未对模型通用性能产生负面影响,AlpacaEval2和MMLU测试结果保持稳定[12][14] 技术原理 - 后门训练使模型输出分布与实际训练分布匹配度显著提升,KL散度从0 61降至0 11[17] - 通过分析输出分布发现,模型能准确捕捉训练查询中开头词的实际分布特征[17] 防御探讨 - 基于检测的防御手段通过尝试不同抽取指令来识别后门训练,但对乱码指令完全失效[20] - 实验显示当使用乱码抽取指令时,Match Ratio均值从29 8%降至11 2%[20] 研究意义 - 该工作揭示了开源模型微调范式的新型安全风险,具有较大危害性且难以检测[1][5] - 研究启发了后续在攻击防御、数据筛选机制、可控性增强等方面的探索方向[22]
全日程公布|谷歌Veo 3惊艳发布后,这场CVPR分享会值得每个AI人「听个声」
机器之心· 2025-05-27 14:38
前几天,谷歌在 I/O 2025 大会上正式发布了其最新一代 AI 视频生成模型 Veo 3,在生成高质量视频的同时首次实现了音画同步。对于 Veo 3 的震撼效果,有人高 度评价称,「它会是不亚于 OpenAI Sora 的跨时代产品」,标志着 AI 视频进入到了真正的「有声时代」。 从中可以发现,虽然当前 AI 社区已有的大模型已经足够惊艳,但得益于架构的创新、算力集群的投入,仍然会「卷」出一些新东西来。比如视频生成领域,从最 初的无声进化到如今的有声,提升明显;再比如多模态领域,逐渐朝着理解与生成大一统的方向演进。 因此,为让从业者全面了解 AI 社区涌现的最新创新成果和发展趋势,机器之心计划 6 月 8 日在北京举办「CVPR 2025 论文分享会」,围绕着多模态、视频生成等 热门主题邀请顶级专家、论文作者与现场参会观众共同交流。 作为计算机视觉领域中最重要的国际会议之一,CVPR 具有极高的含金量,每年都会吸引大量研究机构和高校参会。今年,CVPR 2025 共收到 13008 份论文投 稿,最终接收 2878 篇论文,整体接收率为 22.1%。 作为一场为国内 AI 人才打造的盛会,本次论文分享会 ...
ETT:打破原生多模态学习视觉瓶颈,重塑视觉tokenizer优化范式
机器之心· 2025-05-27 14:38
核心观点 - 提出ETT(End-to-End Vision Tokenizer Tuning)方法,实现视觉tokenization与目标自回归任务的联合优化,打破传统方法中视觉tokenizer固定不变的局限 [4] - ETT通过引入视觉tokenizer的码本嵌入和token级别字幕损失函数,使视觉tokenizer能根据下游任务反馈调整参数,显著提升多模态任务性能 [6] - 在模型参数和数据规模更小的条件下,ETT在多项基准测试中达到或超越现有最先进视觉语言模型的表现 [12][14][17] 传统方法的局限与ETT的突破 - 传统方法使用冻结的视觉tokenizer离散索引,导致特征表示能力浪费且无法端到端训练 [6] - ETT创新性引入码本嵌入(码本大小131,072,特征维度256)替代离散索引,结合联合优化策略释放视觉tokenizer潜力 [6][10] - 相比Emu3等框架,ETT简化模型架构并减少计算开销,同时提升多模态理解能力 [12] ETT核心架构与训练策略 - 基于改进的IBQ框架,分三阶段训练:前期对齐学习(冻结参数训练投影层)、语义学习(端到端联合优化)、后训练(特定任务微调) [10][11] - 训练中同时优化caption损失函数和重建损失函数,保持图像重建能力的同时增强语义感知 [11] - 投影层采用多层感知机,匹配视觉嵌入与预训练语言模型的隐藏层维度 [10] 性能表现 多模态理解 - MMBench测试中性能与连续编码器模型相当,部分子任务更优(如ETT 58.8 vs QwenVL-Chat 60.6) [12] - 在GQA(59.4)、TextVQA(56.8)等任务中表现优于Chameleon(47.2/4.8)等离散VLM模型 [12] 多模态生成 - 在T2I-CompBench的颜色(81.03)、形状(58.19)、纹理(72.14)子任务上超越Emu3(79.13/58.46/74.22) [15] - GenEval测试中Overall得分0.63,接近DALL-E3(0.67)且优于SDXL(0.55) [15] 视觉重构 - 保留低级细节的同时提升高级语义表示能力,如改善文本渲染效果 [17] 潜在发展与局限 - 当前数据规模和模型容量仍有扩展空间 [19] - 未来计划探索从头训练视觉tokenizer,并扩展至视频、音频等多模态场景 [19] - 方法易于实现集成,有望推动多模态基础模型应用 [25]
让视觉语言模型像o3一样动手搜索、写代码!Visual ARFT实现多模态智能体能力
机器之心· 2025-05-27 12:11
多模态智能体发展趋势 - 大型推理模型正发展原生智能体能力,包括调用外部工具(如浏览器搜索)和编写/执行代码进行图像操作,实现「图像中的思考」[1] - 开源社区在纯文本智能体(函数调用/工具集成)进展显著,但多模态智能体的图像理解/操作及评估体系仍处早期阶段[1] Visual-ARFT核心能力 - 赋予视觉语言模型(LVLMs)「工具智能体」能力,支持看图理解、动脑推理、动手操作[2] - 具体功能:编写执行Python代码读取图像文本、通过互联网搜索回答多模态多跳问题[2][4] - 训练方法全面开源,含代码、数据和模型[1][5] 技术实现与训练策略 - 基于强化微调(GRPO算法),设计rule-based verifiable reward驱动模型探索工具使用[7] - 仅需几十至1.2k训练数据即可实现多模态智能体能力训练[7] - 任务流程结构化:<think>思考→<search>检索→<code>编程→<answer>结论,形成可解释推理路径[9] 任务场景与评测基准 - 针对两类高难度任务:Agentic Search(多跳问题检索整合)和Agentic Coding(复杂图像修复/分析)[12] - 推出MAT-Bench评测基准,含150道MAT-Search(人工标注)和200道MAT-Coding(自动化构建)任务[9][12] 性能表现 - 在MAT测试中,Visual-ARFT加持的Qwen2.5-VL显著超越baseline和GPT-4o[13] - Qwen2.5-VL-7B+Visual-ARFT在MAT-Coding的Hard任务F1达25.38(较baseline提升13.84)[13] - MAT-Search平均分提升10.28,部分子任务超越GPT-4o达18.56[13] - OpenAI-o3表现断层领先,MAT-Coding的F1达72.99[13] 泛化能力验证 - 在Out of Domain的MultihopQA测试(如HotpotQA、MuSiQue)中,仅用几十条数据训练的模型性能显著提升[14]
One RL to See Them All?一个强化学习统一视觉-语言任务!
机器之心· 2025-05-27 12:11
视觉三重统一强化学习系统V-Triune - 核心目标是使用单一训练流程联合训练视觉-语言模型在视觉推理和感知任务上 [6] - 包含三个核心组件:样本级数据格式化、验证器级奖励计算、数据源级指标监控 [8] - 引入动态IoU奖励机制为感知任务提供自适应反馈 [22] 样本级数据格式化 - 在样本级别定义奖励配置实现细粒度控制 [13] - 使用Hugging Face datasets作为统一接口 [15] - 支持将多样化数据集无缝集成到统一训练流程 [16] 验证器级奖励计算 - 采用异步客户端-服务器架构实现模块化设计 [17] - 将奖励计算与主训练循环解耦提高灵活性 [19] - 使用MathVerifyVerifier和DetectionVerifier两种验证器 [23] 数据源级指标监控 - 按数据源分别记录关键性能指标实现精细化追踪 [21] - 监控指标包括各源奖励值、感知任务IoU/mAP等 [24] - 有助于识别问题数据源并支持针对性调试 [21] 动态IoU奖励机制 - 通过动态调整IoU阈值平衡学习效率和精度 [26] - 训练初期使用宽松阈值(0.85)后期采用严格阈值(0.99) [26] - 避免冷启动问题同时确保最终高性能 [26] 训练方法优化 - 冻结ViT参数防止梯度爆炸 [34] - 过滤虚假图像特殊token保持训练稳定性 [38] - 构建CoT提示词池减少提示差异影响 [39] 实验表现 - 在MEGA-Bench Core基准上7B模型提升+3.2 32B模型提升+14.1 [48] - 在MathVista基准上实现超过5%的性能提升 [57] - COCO检测任务上7B模型单目标检测提升+12.17 mAP@50 [58]