机器之心

搜索文档
20万美元奖金等你来拿!首届WBCD 2025双臂机器人挑战赛全球启幕
机器之心· 2025-05-20 15:33
机器之心发布 机器之心编辑部 1. WBCD 2025 介绍 5 月 19-23 日,全球机器人年度盛事 - IEEE 国际机器人与自动化会议(ICRA 2025)将在美国亚特兰大举行,届时,第一届 「探索机器人能力边界双臂机器人挑战 赛(What Bimanual Can Do,简称 WBCD)」 决赛也会在 ICRA 2025 现场拉开帷幕。决赛地点: ICRA Exhibit Hall Booth C08。 作为 ICRA 官方合作的赛事,WBCD 以「真实场景验证」为核心定位,从机器人公司的实际需求出发,设置三大前沿赛题,重点关注 双臂机器人自主感知、预测 规划与精细操纵等落地性能 。 赛事具体设置为: 本届 WBCD 共吸引了 全球 88 支队伍 报名。经过多轮筛选,最终 16 支高校和企业团队入围决赛 。他们来自加州大学伯克利分校、卡内基梅隆大学、普渡大学、 西北大学、佐治亚理工学院、苏黎世联邦理工学院、洛桑联邦理工学院、 梨花女子大学、上海科技大学,上海交通大学、以及 IO.ai、Frodobots、DexForce、TSC Consulting 等企业的代表队。 1. 物流包装挑战 (Pack ...
将对话界面直接引入Web,微软开源NLWeb,实现ChatGPT级别搜索
机器之心· 2025-05-20 15:33
NLWeb项目概述 - 微软在Build 2025开发者大会上推出开源项目NLWeb(Natural Language Web),旨在简化网站自然语言交互界面开发,将任意网站转化为具备AI功能的智能应用平台 [3][4][5] - 微软CEO Satya Nadella将NLWeb类比为"智能体化web世界的HTML",强调其通过自然语言API实现人类与网站的直接交互 [5] - 项目原生支持MCP协议(用于聊天机器人与工具交互),每个NLWeb实例本身也是MCP服务器,核心方法ask支持以自然语言向网站提问 [5] 技术架构与优势 - NLWeb利用schema.org词汇表和RSS等半结构化数据,结合LLM驱动工具创建自然语言界面,通过整合外部知识(如地理数据)增强用户体验 [10] - 技术架构类比HTTP与HTML的关系,MCP协议相当于HTTP,NLWeb相当于HTML,为AI Web构建基础层 [6][10] - 支持所有主流操作系统(Windows/MacOS/Linux)、主流AI模型(OpenAI/DeepSeek/Gemini等)及矢量数据库,技术无关性强 [10] 应用场景与成本优势 - 零售商可基于NLWeb创建购物助手,烹饪网站可构建菜谱推荐系统,仅需几行代码即可实现对话式交互界面 [6] - 相比传统网络搜索索引构建(需爬取全网),NLWeb仅需RSS源+矢量数据库即可运行,显著降低开发成本 [6][7] - 支持调用廉价AI模型,整个部署过程快速简便,成本效益显著优于传统搜索方案 [6][8] 战略定位与行业影响 - 微软目标是将AI搜索优势直接嵌入网站,如同HTML普及网站建设,NLWeb旨在让任何网络发布者都能轻松创建自然语言交互体验 [10] - 项目赋能网络发布者自主参与智能体网络,确保网站可被其他智能体发现并实现互动交易功能 [10] - 打破当前ChatGPT等产品对自然语言交互的垄断,推动去中心化的AI交互生态建设 [6]
75万元奖金池+心动offer,启元实验室2025重磅赛事来袭,三大赛道,等你来战!
机器之心· 2025-05-20 12:58
大赛概况 - 启元实验室启动「启智杯」算法大赛 聚焦卫星遥感图像鲁棒实例分割 无人机对地目标检测 多模态大模型对抗三大方向 旨在推动智能算法从理论创新走向实际落地 [2] - 大赛设立总额75万元奖金池 单赛道奖金25万元 优秀奖获得者享受实验室招聘绿色通道 [13][15] - 赛事面向国内研究机构 企事业单位及其他组织开放 官网提供报名 数据使用 评审评测等全流程保障 [13] 技术赛道分析 卫星遥感图像鲁棒实例分割 - 深度学习实例分割方法在遥感领域展现显著优势 通过时空联合特征表达提升模型精度和适应性 [3] - 实际应用仍面临复杂地表覆盖 多视角成像差异 云雾遮挡等挑战 多目标精细分割和跨场景泛化能力不足 [3] 无人机对地目标检测 - 无人机与智能检测算法融合形成新型目标识别范式 具备空中视角优势和高机动性 可实现高效数据采集与实时分析 [3] - 嵌入式平台部署存在挑战 包括目标密集 尺度变化剧烈 小目标占比高 高分辨率图像对有限算力芯片要求苛刻 [3] 多模态大模型对抗 - 多模态大模型通过跨模态融合重塑AI应用边界 为复杂决策场景提供新解决方案 [3] - 规模化应用面临安全性问题 如模型幻觉导致事实偏差 对抗攻击诱发异常行为 鲁棒性成为制约AI可持续发展的关键 [3] 主办方背景 - 启元实验室为新型科研机构 拥有先进科研设施 与20余所高校 科研院所及工业集团建立战略合作 联合百余家单位推进技术攻关与成果转化 [4] - 赛事定位为科研验证 成果转化和人才交流平台 旨在联通科研 高校与产业主体 构建创新应用生态 [4] 赛程安排 - 赛事分初赛 复赛 决赛多阶段推进 具体时间节点以官网公布为准 [8][9]
代码、多模态检索全面登顶SOTA!智源BGE向量模型三连击,并全面开放
机器之心· 2025-05-20 12:58
向量模型技术突破 - 智源研究院联合多所高校研发三款向量模型BGE-Code-v1、BGE-VL-v1.5和BGE-VL-Screenshot,在代码及多模态检索领域取得最佳效果,并以较大优势登顶CoIR、Code-RAG、MMEB、MVRB等测试基准 [1] - BGE系列自2023年8月发布以来成为中国首个登顶Hugging Face榜首的国产AI模型,并成为2023年全球下载量冠军 [1] - 三款新模型已向社区全面开放,为技术研究与产业应用提供支持 [1] BGE系列模型概况 - BGE系列旨在为各类数据提供高效一站式向量表征与语义检索方案,已推出覆盖中英文、多语言检索及重排模型等多个版本 [2] - BGE凭借高性能与开源特性备受关注,已广泛应用于RAG、神经搜索等场景,累计下载超6亿次,被国内外多家AI企业集成 [2] - 检索增强技术正从传统文本场景拓展至代码与视觉等多模态数据应用 [2] BGE-Code-v1代码向量模型 - BGE-Code-v1是以Qwen2.5-Coder-1.5B为基座打造的新一代代码向量模型,专为代码检索任务设计,同时具备多语言文本理解能力 [7] - 模型基于CoIR训练集和大量高质量代码-文本合成数据进行训练,使用课程学习进一步提升理解能力 [7] - 在CoIR和CodeRAG-Bench基准上以显著优势超越谷歌、Voyage AI等商业/开源模型,登顶SOTA [9] BGE-VL-v1.5多模态模型 - BGE-VL-v1.5基于LLaVA-1.6(7.57B参数)训练,全面升级图文理解能力 [11] - 在300万图文对齐数据基础上收集100万条自然与合成数据进行多任务训练,显著提升泛化性与理解能力 [11] - 在MMEB基准中刷新zero-shot模型最佳表现,微调版本以72.16分登顶SOTA [13] BGE-VL-Screenshot视觉化文档模型 - 针对"可视化信息检索"(Vis-IR)任务设计,基于Qwen2.5-VL-3B-Instruct训练 [16] - 收集超过1300万张截图和700万组标注截图问答样本进行训练 [16] - 在MVRB基准4项任务中以60.61综合得分达到SOTA,并在多语言任务上表现优异 [17]
ICML 2025 Spotlight | 多模态大模型暴露短板?EMMA基准深度揭秘多模态推理能力
机器之心· 2025-05-20 12:58
EMMA基准的核心观点 - EMMA基准揭示了当前多模态大语言模型(MLLMs)在深度视觉与文本融合推理上的重大缺陷,即使最先进模型如GPT-4o、Gemini-2.5-pro-exp-03-25等表现仍落后人类专家超20%[3][4][13] - 该基准通过数学、物理、化学、代码四大领域任务,要求模型必须同时深度依赖视觉和文本信息才能解决问题,突破了传统文本主导或浅层视觉感知的测试局限[9][13] - 核心发现包括:思维链(CoT)提示对视觉密集型任务效果有限甚至负面、测试时计算扩展难以弥补视觉推理短板、视觉空间模拟错误占比高达52.83%[13][18][21] 模型性能表现 - 人类专家在EMMA-mini上的整体准确率达77.75%,显著高于所有模型,其中化学领域表现最佳(86%)[17] - 闭源模型中Gemini-2.0-Flash-Thinking-0121以48%准确率领先,开源模型Qwen2-VL-72B-Instruct达37.25%,均未突破50%门槛[17] - GPT-4o在物理领域表现最佳(44%),但在化学领域仅33%,显示跨学科能力不均衡[17] 数据集构建特点 - 包含2,788个问题,其中1,796个为专家新构建,覆盖数学(892题)、物理(156题)、化学(1,176题)、代码(564题)四大领域[16] - 采用严格筛选机制,排除仅凭文本或简单图文描述可解决的问题,确保必须进行真多模态推理[16] - 每个问题标注细粒度技能标签(如2D变换、3D场模拟等),支持模型能力画像分析[13][16] 技术瓶颈分析 - 视觉推理错误占比超50%,显著高于感知错误(30.19%)和文本推理错误,成为核心瓶颈[21] - 模型依赖结构化文本步骤推理,缺乏人类式视觉化思考和空间模拟能力[6][13] - 模态间信息密度差异导致预训练阶段特征对齐不足,且缺乏视觉状态动态更新机制[23] 未来发展方向 - 需开发视觉动作推理能力,实现跨模态动态协作而非当前语言主导模式[23] - 应突破传统CoT范式,建立新型视觉推理机制以解决空间模拟缺陷[13][18] - 开源社区已发布完整代码、数据和基准(含HuggingFace数据集),加速技术迭代[4]
ICRA 2025|通用多机器人长时任务规划框架破解任务分配难题,成功率+105%、效率+36%
机器之心· 2025-05-20 12:58
2025 年 5 月,美国加州大学河滨分校 (UC Riverside) 与宾夕法尼亚州立大学 (Penn State University) 联合团队在机器人领域顶级会议 ICRA 2025 上发布最新研究成果 LaMMA-P (Generalizable Multi-Agent Long-Horizon Task Allocation and Planning with LM-Driven PDDL Planner)。 技术亮点:语言模型与经典规划算法融合,支撑通用异构多机器人长时协同任务 LaMMA-P 首次将大型语言模型与 PDDL 规划器深度融合,解决了异构多机器人系统中长时任务的自动分解与分配难题,大幅提升多机器人协同规划的智能水平。 该技术在全新基准数据集上经过大量模拟实验验证,相比现有最先进方法 SMART-LLM,任务成功率提高 105% ,执行效率提升 36% ,在复杂长程任务规划上取 得了突破性进展,为异构多机器人协同完成复杂任务提供了全新解决方案。 面对复杂长时任务和异构多机器人系统,LaMMA-P 首创性地将大语言模型的语义理解能力与 PDDL 规划器的严谨性结合,不仅解决了传统方法 ...
AI生成视频总不符合物理规律?匹兹堡大学团队新作PhyT2V:不重训练模型也能让物理真实度狂飙2.3倍!
机器之心· 2025-05-19 12:03
文本生成视频技术发展 - 当前T2V技术正从视觉质量与模型规模扩展阶段转向物理一致性与现实合理性推理驱动阶段 [2] - 物理规律作为建模现实世界的基本知识体系,是高质量视频生成的关键约束 [2] - 主流模型如Sora、Pika、CogVideoX已能生成复杂逼真场景,但在物理规则遵守方面存在显著不足 [5] PhyT2V框架核心机制 - 通过LLM引导的链式推理与迭代自我修正机制优化文本提示,增强现有T2V模型的物理一致性 [3] - 采用三步流程:1)识别物理规则与对象 2)检测提示与视频语义不匹配 3)生成修正提示 [12][13][14] - 无需模型重训练或额外数据,支持3-4轮迭代即可显著提升效果,改进在最初两轮最明显 [14][23] 技术优势与实验表现 - 在CogVideoX-5B模型上实现PC指标2.2倍提升、SA指标2.3倍提升 [23] - 跨模型测试显示对CogVideoX-2B/OpenSora/VideoCrafter均有显著增强效果 [17][21][22] - 在固体力学、流体交互、光学现象等物理场景中表现优异,尤其擅长分布外场景 [18][20] 行业应用价值 - 框架可即插即用适配不同架构T2V模型,落地门槛极低 [3][18] - 突破传统数据驱动方法的泛化瓶颈,通过知识嵌入实现物理规则遵守 [7][10] - 为构建理解物理世界的T2V模型提供新路径,推动技术商业化进程 [26]
AI大厦需要新的地基!
机器之心· 2025-05-19 12:03
数据与AI融合趋势 - 高质量数据短缺成为AI发展瓶颈,前OpenAI首席科学家Ilya Sutskever警告"预训练时代即将终结"[1] - 全球数据量将从2024年147ZB增长至2028年393.9ZB,年增速达28%[4] - 大数据IT投资规模将从2024年3540亿美元增长至2028年6440亿美元[5] - 数据库发展范式转向"Data×AI",即数据与模型一体化融合发展[1][6] OceanBase战略转型 - 提出构建"一体化数据底座"战略,支持SQL、AP和AI混合负载[2][9] - 15年技术积累支撑支付宝核心系统,连续十年稳定支持双11流量洪峰[13] - 全球唯一同时打破TPC-C和TPC-H测试纪录的数据库[13] - 已服务金融、政务等2000多家客户的关键业务系统升级[13] 技术能力突破 - 向量数据库性能领先,在VectorDBBench测试中超越3款开源产品[13] - 引入BQ量化算法使向量数据内存需求降低95%,2亿条1536维数据从1.2TB降至58.6GB[16] - 支持多模态数据包括标量、JSON、全文索引和向量混合检索[17] - 发布PowerRAG服务,封装文档处理全流程,准确率和召回率优于开发者自建方案[17] 产品发展方向 - 四大战略方向:知识底座、打破数据次元壁、AI靠谱参谋、流量冲浪高手[14] - 增强向量能力与融合检索,实现企业知识库动态更新[14] - 深度整合推理引擎与存储引擎,解决AI查询数据不一致问题[14] - 利用云虚拟化+分布式能力弹性应对流量波动[14] 行业生态布局 - 适配主流智能体平台包括Dify、FastGPT、DB-GPT和LangChain[20] - 开源社区用户突破百万,集群部署量超5万且年增长400%[21] - 连续两年位居墨天轮中国开源数据库排行榜第一[21][22] - 成立AI平台与应用部,CTO亲自担任AI战略一号位[21] 行业趋势判断 - 数据库正成为AI时代关键变量,模型能力取决于数据基础[23][24] - AI应用爆发产生两大需求:更海量数据和混合负载能力[24] - 未来所有数据公司都可能成为AI公司,Data×AI是核心竞争力[22][24] - 行业正从模型竞争转向底层数据基础设施建设[25][26]
Index-AniSora:B站开源动画生成模型,斩获多项SOTA入选IJCAI25
机器之心· 2025-05-19 12:03
开源动画视频生成模型 Index-AniSora - 公司开源动画视频生成模型 Index-AniSora 支持番剧、国创、漫改动画、VTuber、动画 PV、鬼畜动画等多种二次元风格视频镜头一键生成 [1] - 该模型基于 AniSora 技术框架实现 是首个专为二次元视频生成打造的技术框架 全面提升动画内容生产效率与质量 [2] - 模型支持将漫画一键转换为动画效果 告别"PPT动画" 支持多种小众画风 [3] 技术原理与功能 - 通过高效数据处理链路构建超过千万条高质量文本-视频对 包含大量不同风格、类型、内容的高质量动画数据 [19] - 开发统一扩散生成框架 引入时空掩码机制 支持图生视频、插帧补全和局部控制等任务 实现对角色口型、动作乃至局部区域的精细控制 [19] - 设计首个面向动画视频的专用评估基准 涵盖多个二次元子类型 填补现有自然视频评估体系空白 [19] - 基于 VLM 模型进行定向优化 使其更好理解动漫语境与 ACG 审美 构建更贴合创作者需求的自动化视频评估系统 [19] 模型版本与性能 - AniSoraV1.0 基于 CogVideoX-5B 基座模型训练 支持视频局部区域引导控制、时序引导控制 4090 可部署 覆盖 80% 应用场景 [43] - AniSoraV2.0 基于 Wan2.1-14B 基座模型训练 效果更稳定 覆盖 90% 应用场景 采用蒸馏加速方案提升推理性能 支持国产芯片华为 910B 高效分布式训练 [43] 数据集与评估系统 - 构建包含 30,000 条人工标注样本的高质量奖励数据集 涵盖六个关键维度的人类偏好标注:视觉平滑度、运动感、视觉吸引力、文本一致性、图像一致性与角色一致性 [47] - 设计 AnimeReward 奖励模型 针对不同维度特征引入专门视觉-语言模型 提出差距感知偏好优化算法(GAPO) 通过显式建模正负样本间偏好差距强化奖励信号 [49] - 开源基于动画数据优化的 Benchmark 系统 专门为动画视频生成领域研发自动化评测系统及标准测试数据集 更符合 ACG 审美要求 [45]
「AI黑客」来袭,Agentic AI如何成为新守护者?
机器之心· 2025-05-19 10:36
AI技术带来的网络安全威胁 - 生成式AI重塑网络诈骗精准度,利用公开社交数据训练模型生成个性化钓鱼邮件,模仿特定用户写作风格,绕过传统垃圾邮件过滤器[4] - 深度伪造(Deepfake)技术可伪造公众人物或亲友身份用于诈骗,如上海某企业财务总监被AI换脸仿冒董事长诈骗380万元[4] - AI驱动的自动化攻击可自动扫描系统漏洞、生成动态攻击代码,实施无差别快速攻击,如DeepSeek官网遭遇3.2Tbps DDoS攻击导致服务瘫痪48小时,损失数千万美元[5] - 数据污染和模型漏洞威胁,攻击者通过训练数据植入虚假信息或利用模型缺陷诱导AI输出错误结果,可能引发自动驾驶误判或医疗AI误诊等灾难性后果[5] AI对抗AI的防御策略 - AI模型内生安全加固技术,如Anthropic发布"宪法分类器"使Claude3.5模型对高级越狱尝试的阻止率从14%提升至95%[9] - 行业级防御应用包括金融AI风控模型、开源生态智能化漏洞猎捕技术、企业AI驱动动态管控体系[9] - 政府与国际协作推进,如新加坡网络安全局发布《人工智能系统安全指南》,美英加启动"AI网络代理计划"[10] - 微软推出Security Copilot智能体,新增六个自研AI智能体用于钓鱼分类、漏洞修复、威胁情报等场景[11][13] 高阶安全智能体"无相"的创新 - 全球首个实现从"辅助型AI"向"自主智能体"(Autopilot)跨越的安全产品,采用"ReAct模式"和"Plan AI + Action AI双引擎架构"[15][16] - 在告警研判场景实现100%告警覆盖率和99.99%研判准确率,将人工工作量削减超95%[17] - 传统需数小时至数天的深度溯源压缩至几十分钟,如Webshell攻击分析可秒级确认攻击有效性[17][22] - 通过多智能体协作形成信息共享研判网络,模拟人类安全团队分工合作逻辑[15] - 实现安全思维从"亡羊补牢"到"未雨绸缪"的范式跃迁,可预测攻击变种演化方向[26]