Workflow
AI前线
icon
搜索文档
智元机器人发布并开源首个机器人动作序列驱动的世界模型
AI前线· 2025-05-26 14:46
智元机器人具身智能领域突破 - 全球首个基于机器人动作序列驱动的具身世界模型EVAC及评测基准EWMBench发布,构建"低成本模拟-标准化评测-高效迭代"开发范式 [1] - 成果全面开源,旨在解决具身智能领域真机验证成本高、仿真系统虚实偏差、数据利用效率低等核心痛点 [2] EVAC世界模型技术亮点 - 实现从传统仿真到生成式模拟的跃迁,动态复现机器人与环境复杂交互 [4] - 核心能力包括物理动作与视觉动态的端到端生成,支持6D位姿与像素级对齐,精准建模抓取/碰撞等复杂动力学行为 [6][8] - 采用Chunk-Wise自回归扩散架构,实现单视图30片段、多视图10片段的长时序稳定生成 [13] EVAC应用价值 - 生成式仿真评测方案与真机评测成功率高度一致,可识别更优模型权重,提升筛选效率 [10] - 数据增广引擎使策略模型任务成功率提升29%,显著改善目标跟随性 [12] - 融合Agibot-World数据集及失败轨迹数据,有效抑制幻觉现象,提升交互动态建模质量 [13] EWMBench评测体系 - 全球首个具身世界模型评测基准,覆盖场景一致性/动作合理性/语义对齐三大维度 [15] - 采用DINOv2/HSD/nDTW/CLIP等多模态评估工具,评测结果与人类主观判断一致性优于VBench [17][20] - 基于AgiBot World百万真机数据集构建,含300测试样本及30%挑战性场景(低光照/遮挡) [22] 技术生态协同 - EVAC与EnerVerse架构形成"训练-验证"闭环,入选IROS 2025官方基线系统 [21] - 开源全流程评测工具支持一键生成标准化报告,降低评估门槛 [22]
印度国家级大模型上线两天仅 300 余次下载,投资人直呼“尴尬”:韩国大学生模型都有20万!
AI前线· 2025-05-26 14:46
印度AI模型Sarvam-M发布与市场反响 - Sarvam AI发布基于Mistral Small构建的240亿参数混合语言模型Sarvam-M,支持10种印度本地语言,但上线两天仅获334次下载,截至发稿累计下载718次[1][3] - 风投人士批评该模型下载量"令人尴尬",对比韩国学生开发的Dia模型获20万次下载,印度政府支持的BharatGen模型Param-1上线后仅12次下载[3][4] - 公司联合创始人强调模型性能超越Llama-4 Scout,与更大规模模型对比表现稳健,但英文知识评估(MMLU)出现1%下降[7] 公司战略与融资背景 - Sarvam AI成立于2023年7月,获4100万美元融资,估值达1.11亿美元,目标是从零构建印度自主AI技术栈[6][11] - 联合创始人Pratyush Kumar提出2040年印度需具备独立训练基础模型能力,认为DeepSeek案例证明无需数十亿美元即可训练强大模型[6] - 公司正开发700亿参数新模型,预估成本4000-5000万美元,此前与Meta合作优化Llama模型但转向自主开发[7] 行业争议与用户反馈 - 反对者指出Google等已提供更便宜且表现更优的多语言模型,质疑4100万美元融资与成果不匹配[11][12] - 支持者列举模型在农业、法律等本土场景的应用潜力,但被反驳印度弱势群体缺乏科技使用基础[12][13] - 开发者社区分歧明显:部分认为模型构建方法论具有参考价值,另一些强调需聚焦数据收集等基础设施重构[13][15] 印度本土AI发展现状 - 印度6亿智能手机用户中大量使用本土语言输入,已有IRCTC等部署本土语言AI客服案例[18] - 行业人士指出本土模型在特定语言场景优于开源权重模型,但需解决算力天花板和应用场景推广问题[18][19] - 谷歌科学家指出印度市场对本土模型存在矛盾期待:既要求自主技术又对实际成果不满[17]
业界对 Agent 的最大误解:它能解决所有问题
AI前线· 2025-05-25 12:24
AI Agent 的核心观点 - 业界对 AI Agent 的最大误解是认为它能解决所有问题,实际上 AI 并非万能,需回归业务场景验证价值 [1][2] - AI Agent 的规模化应用拐点已至,但需避免过度神化技术,重点在于解决企业核心业务问题 [1][28] - 企业级 AI 的本质是业务重构而非炫技,需结合全栈技术、行业 Know-How 和开放生态实现可量化成果 [30] AI Agent 的技术特性 - 区别于传统 AI 助手,AI Agent 能自主规划任务路径、调用多系统资源并动态优化策略 [4] - "假智能体"可通过算力需求识别:真 Agent 需持续消耗算力自主运行,传统自动化工具仅需低算力 CPU [4] - IBM 内部 AskIBM 平台展示 Agent 能力,可自动路由员工查询至 HR、IT 等垂直领域智能体实现全流程自动化 [4] 规模化挑战与解决方案 - 企业规模化应用 AI Agent 面临三大难题:异构系统连接、高 ROI 场景选择、全生命周期管理 [5][6] - watsonx Orchestrate 的三层架构: - 开箱即用垂域智能体(HR、销售、采购智能体,6 月上线)可解决 90% 标准化问题 [8] - 多智能体编排支持跨智能体协作,如销售→市场→客服智能体自动串联 [9] - 开放生态集成 80+ 企业应用(Salesforce、SAP 等),避免重复开发接口 [10] 数据准备与治理 - AI Agent 依赖高质量数据,企业需评估数据可用性及实际作用,90% 非结构化数据未被充分利用 [12] - watsonx.data 通过语义层整合结构化和非结构化数据,自然语言查询准确率高于 RAG 技术 [14][17] - 数据治理工具 watsonx.data intelligence 统一管控多访问方式权限,封装 API/向量数据库供 Agent 实时调用 [18] 流程自动化与集成 - 企业平均上千个异构系统需与 AI Agent 打通,Hybrid Integration 提供跨平台集成能力解决"次元壁"问题 [22][23] - AgentOps 实现全链路可视化运维,Instana 工具实时监控响应延迟并自动扩容 [24] - 27% 云计算浪费可通过自动化平台优化,IBM 收购 HashiCorp 强化基础设施生命周期管理 [26] 业务落地策略 - 企业需分阶段迭代验证 AI Agent ROI,30 天 POC 周期内每周调整方案,优先选择研发/生产/供应链/财务等高价值场景 [29] - 制造业案例显示,IBM 内部已验证 HR、财务、采购智能体的高 ROI,可作为企业模板 [29] - 完备 IT 基础设施是 AI 落地前提,企业需先补齐基础能力再寻找场景痛点 [28][30]
顶刊论文“飙脏话辱骂第二作者”,期刊回应;刚上线就卡塞? 昆仑万维:已限流;马斯克宣布回归 7x24 小时工作状态 | AI周报
AI前线· 2025-05-25 12:24
字节跳动合规管理 - 公司发布端午合规提示,严禁商业伙伴向员工赠送礼品礼金(包括粽子礼盒、现金、红包等)及提供不当招待,违者将被列入永不合作清单 [2] - 强调合作应基于业务水平而非利益输送,体现对腐败行为的"零容忍"态度 [2] 快手员工刷视频争议 - 网传公司强制商业化等部门员工每日刷1小时快手短视频并上报数据,未达标或影响绩效,旨在提升产品体验感知 [3] - 内部人士否认强制要求,称仅倡导员工多使用产品,未与绩效挂钩 [3] 昆仑万维AI产品上线 - 天工超级智能体上线3小时后因用户量过大导致卡塞,公司紧急实施限流措施 [4] - 产品采用AI agent架构,集成5个专家智能体+1个通用智能体,支持多模态内容生成 [4] 零一万物战略调整 - 联合创始人谷雪梅数月前离职,公司业务重心转向轻量化模型训练与市场应用,2025年收入已超去年全年 [5] 英伟达技术突破 - Blackwell GPU在4000亿参数Llama 4模型上实现1000 TPS/User的AI推理速度纪录,通过TensorRT-LLM优化性能提升4倍 [11] - 推出人形机器人基础模型Isaac GR00T N1.5,训练周期从3个月压缩至36小时,环境适应速度提升40% [25] 苹果AI生态开放 - 计划向开发者开放AI大模型权限,刺激应用创新,App Store 600万开发者中10%参与或催生数万款新工具 [12] OpenAI硬件布局 - 以65亿美元收购前苹果设计师创立的AI设备公司io,支付50亿美元现金(已持股23%),为迄今最大收购 [12][13] 腾讯AI产品矩阵 - 升级智能体开发平台TCADP,接入DeepSeek-R1/V3模型并计划开源混合推理模型 [21] - 发布混元游戏视觉生成平台,AIGC工具使游戏美术设计效率提升数十倍 [22][23] 谷歌AI订阅服务 - 推出月费249美元的Google AI Ultra全家桶,整合Gemini高阶功能及30T云存储,支持Veo 3视频生成 [17][18] 京东工业大模型 - 发布供应链核心工业大模型Joy industrial,推出需求代理、商品专家等AI智能体,瞄准汽车/能源等垂直领域 [28] 美团AI编程工具 - 即将上线NoCode工具,定位"氛围编程"方向,由研发质量团队开发并已灰度测试 [20] 微软开发者生态 - Build 2025大会聚焦AI Agent,GitHub Copilot升级为自主任务执行的"同伴编程"工具 [26][27] 智元机器人融资 - 获京东及上海国资基金投资,估值居国内具身智能第一梯队,创始人稚晖君为前华为"天才少年" [14] Anthropic模型进展 - Claude 4系列实现连续7小时自主代码生成,刷新AI纪录,Opus 4模型强化内存管理与规划机制 [16]
打破资源瓶颈!华南理工&北航等推出SEA框架:低资源下实现超强多模态安全对齐
AI前线· 2025-05-24 12:56
多模态大模型安全对齐技术 - 北航彭浩团队提出SEA框架,通过合成嵌入技术解决多模态大模型(MLLMs)低资源安全对齐难题,突破真实多模态数据构建的资源瓶颈[1][6] - SEA框架在模态编码器表示空间中优化合成嵌入,替代真实多模态数据,仅需文本输入即可实现跨模态安全对齐[8][10] - 当前MLLMs安全对齐面临三大挑战:多模态数据集构建成本高、文本对齐对非文本攻击防御弱、新兴模态缺乏通用解决方案[4][5][6] SEA技术实现细节 - SEA框架包含三大组件:模态编码器M(・)、投影层P(・)和大型语言模型(LLM),通过冻结模型参数仅优化嵌入向量实现安全对齐[9][14][16] - 嵌入优化过程采用内容控制样本和风格控制样本,最大化模型生成指定内容的概率,平均优化时间在单张3090上不超过24秒[15][16][36] - 安全对齐阶段将合成嵌入与文本数据集整合,通过修改前向传播过程适配现有训练策略,支持与真实数据集混合使用[19] 评估基准与实验结果 - 构建VA-SafetyBench评估基准,包含视频和音频两大模态,覆盖八大安全场景,攻击成功率最高达71.13%(视频)和65.97%(音频)[20][21][28][29] - 实验显示SEA在图像模态将多模态攻击成功率从62.78%降至2.74%,在视频模态从69.24%降至6.35%,音频模态从34.31%降至4.15%[33][34][35] - 嵌入验证成功率(VSR)达87.76%(图像)、69.52%(视频)和97.15%(音频),证明合成内容与模型语义高度一致[36] 行业应用价值 - SEA框架在Llava-v1.5-7b-hf、Qwen2-VL-7b和Qwen2-Audio-7b等主流模型上验证有效,展现跨模态通用性[31][34][35] - 相比传统方法,SEA显著降低计算成本,单个样本合成时间缩短至12-24秒,支持大规模并行处理[36] - 该技术为新兴模态提供前瞻性解决方案,在高质量真实数据集稀缺阶段可作为安全落地的过渡方案[37]
用印度程序员冒充 AI 的“独角兽”彻底倒闭了!伪 AI 烧光 5 亿美元,连微软和亚马逊都被“坑”了
AI前线· 2025-05-24 12:56
BuilderAI破产事件核心分析 公司背景与融资情况 - 英国AI初创公司BuilderAI曾获微软支持,D轮融资2.5亿美元,估值近10亿美元[2] - 累计融资约5亿美元,投资方包括微软、卡塔尔财富基金QIA和Insight Partners[23] - 2023年收入宣称增长至1.4亿英镑(未证实),但实际收入仅覆盖9%支出(2023财年2300万英镑)[22] 破产直接原因 - 欠亚马逊8500万美元、微软3000万美元债务无法偿还[1][23] - 2024年3月现金储备仅余700万美元,虽紧急融资7500万美元仍无法维持运营[22] - 每日烧钱超50万美元,资金链彻底断裂[20][22] 技术真实性争议 - 核心系统Natasha被宣传为"AI产品经理",声称实现设计语言与编程语言自动转换[3][5] - 实际开发流程高度依赖人力:雇佣数万名低成本开发者完成标榜的"AI自动化"任务[8][12] - 前员工揭露其AI工具(如Figma转React Native代码)生成结果不可用,人工开发效率更高[12] 运营管理问题 - 2024年5月破产前裁员220人(占员工总数28%)[2] - 被曝系统性压榨外包开发者:扣减工时(实际160小时仅支付70-90小时)、拒付费用导致人员流失[12][13] - 前CEO Sachin Dev Duggal涉法律纠纷,2024年3月卸任但仍保留"首席巫师"头衔[14][16] 行业影响与同类案例 - 被比作"AI界的Theranos",多项目未交付却持续接单[11] - 类似"伪AI"模式普遍:Nate公司(融资5000万美元)核心流程自动化率为零[25][26] - 行业现象:人力伪装AI成融资捷径,但无法规模化且成本失控[27][28] 历史争议事件 - 2019年《华尔街日报》揭露其过度依赖人工编程,缺乏专业AI团队[18] - 2021年Gartner魔力象限报告中进入"前瞻者"象限,但技术能力存疑[6] - 与微软合作集成Azure OpenAI服务的宣传未达预期效果[6][19]
大模型时代,数据智能的构建路径与应用落点 | 直播预告
AI前线· 2025-05-24 12:56
从训练数据构建、智能体框架,到 ChatBI 落地挑战,5 月 26 日晚上 20:00,来自DaoCloud、货拉 拉、中电金信与数据项素的多位嘉宾将围绕「大模型时代的数据智能如何演进」展开对话。扫码预 约,不见不散! 直播介绍 直播时间 5 月 26 日 20:00-21:30 主持人 :郭峰,DaoCloud 道客 / 联合创始人兼首席技术官 嘉宾 : 直播亮点 单海军,中电金信研究院 / 副院长 覃睿,数据项素 / 产品副总裁 凌霄,货拉拉 / 大数据专家 从不同视角审视"数据智能"的路径选择 探讨数据智能在企业落地过程中的真实难题与解决思路 数据构建、智能体落地、系统集成等方面的实践与反思 如何看直播? 扫描下图海报 【二维码】 ,或戳直播预约按钮,预约 AI 前线视频号直播。 直播主题 大模型时代,数据智能的构建路径与应用落点 直播嘉宾 如何向讲师提问? 文末留言写下问题,讲师会在直播中为你解答。 ...
腾讯混元TurboS技术报告首次全公开:560B参数混合Mamba架构,自适应长短链融合
AI前线· 2025-05-23 03:57
腾讯混元TurboS模型技术亮点 - 采用创新的Hybrid Transformer-Mamba架构MoE设计,结合Mamba长序列处理效率与Transformer上下文理解优势,实现性能与效率平衡 [2] - 模型激活参数56B(总参数560B),为业界首个大规模部署的Transformer-Mamba专家混合模型 [2] - 引入自适应长短思维链机制,动态切换快速响应与深度思考模式,优化计算资源分配 [7] 模型性能表现 - 在LMSYS Chatbot Arena评测中获1356分,全球排名第7,国内仅次于Deepseek [1][2] - 多语种能力突出,中文/法语/西班牙语并列全球第一,韩文排名全球第二 [4] - 四大关键任务(困难提示/创意写作/多轮对话/长问题)均进入全球前五 [5] 架构与训练创新 - 采用128层交错式"AMF"(Attention→Mamba2→FFN)和"MF"模块设计,FFN层占比50%,Mamba2层占44.5% [14][15] - 预训练使用16万亿Token语料,上下文窗口扩展至256K Tokens [10][18] - 后训练包含监督微调/自适应CoT融合/多轮推敲学习/两阶段强化学习四模块 [22] 基准测试对比 - 数学推理表现仅次于DeepSeek-v3-0324,GSM8K达94.4分,MATH达90分 [41] - 逻辑推理在BBH/DROP/Zebra-Logic基准与DeepSeek-V3共同树立新标杆 [42] - 中文任务表现强劲,C-Eval得分88.7,CMMLU达89.4 [20][42] 基础设施优化 - 自研Angel-RL训练框架集成5种并行技术,ZeroCache技术降低GPU显存压力 [45][46] - 推理部署优化实现1.8倍加速,数学/编程任务Token消耗减少35%-45% [47] - Mamba Kernel优化增强计算并行性,MoE专家并行缓解解码显存瓶颈 [47]
全球最强编码模型 Claude 4 震撼发布:自主编码7小时、给出一句指令30秒内搞定任务,丝滑无Bug
AI前线· 2025-05-23 03:57
Claude 4系列模型发布 - Anthropic在首届开发者大会上正式发布Claude 4系列模型,包含Opus 4和Sonnet 4两个型号 [1][3] - Opus 4是公司迄今最强大的AI模型,能连续处理长达7小时的长期任务,被描述为"世界上最好的编码模型" [6][8] - Sonnet 4定位经济高效,取代3.7版本,在编码效率和响应精确度上显著提升,走捷径概率降低65% [13] 技术性能突破 - 编码能力:Opus 4在SWE-bench和Terminal-bench分别达到72.5%和43.2%准确率,领先竞品 [4][8] - 推理能力:Opus 4在研究生级推理测试GPQA中达79.6%/83.3%,工具使用准确率81.4% [4][10] - 内存优化:模型可创建"内存文件"存储关键信息,提升长期任务连贯性,如游戏导航指南 [11] 行业竞争格局 - 2025年AI行业转向推理模型,Poe报告显示推理类交互占比从2%激增至10% [32][35] - 主要厂商差异化竞争:OpenAI强于通用推理,谷歌擅长多模态,Anthropic专注编码和持续性能 [35] - 模型更新节奏加快,Anthropic在OpenAI发布GPT-4.1五周后即推出竞品 [35] 商业化进展 - 定价策略:Opus 4每百万token 15-75美元,Sonnet 4为3-15美元,与旧版持平 [15] - 营收增长:第一季度年化营收达20亿美元,较上季度翻倍,10万美元以上客户数同比增8倍 [23] - 融资动态:获25亿美元五年期循环信贷额度,增强行业竞争流动性 [23] 开发者生态 - 发布Claude Code命令行工具,支持GitHub Actions及VS Code/JetBrains原生集成 [17] - API新增代码执行工具、文件API等功能,支持提示缓存1小时 [21] - 提供"扩展思考"测试版功能,允许模型在推理中交替使用网络搜索等工具 [19][20] 用户实测反馈 - 网友实测显示Opus 4能30秒生成CRM仪表盘,Sonnet 4可无bug通关游戏并执行多任务 [24][26] - 艺术创作测试中,模型仅凭简单提示即生成包含光影效果的3D作品 [28]
砸65亿美元招揽58岁乔布斯门生!55名苹果元老工程师尽归OpenAI,奥特曼终拿下“盯了”两年多的AI产品!
AI前线· 2025-05-22 12:30
收购交易细节 - OpenAI以65亿美元全股权收购IO公司 其中50亿美元用于收购剩余77%股份(此前已持有23%)[1][2] - 交易涉及IO公司55名工程师和产品开发人员并入OpenAI 包括前苹果核心团队成员Scott Cannon Evans Hankey和Tang Tan [2] - Jony Ive及其设计工作室LoveFrom保持独立 但将在OpenAI和IO公司承担创意设计责任 [3] 战略布局与产品规划 - 收购旨在开发新一代"AI原生设备" 目标超越智能手机时代 推动"环境计算"发展 [3][7] - 首批产品预计2026年推出 团队已探索耳机等可穿戴设备和AI驱动相机设备 [5][6] - 原型机被Altman称为"全世界将见过的最酷科技产品" 强调技术使用体验的革新 [7][8] 财务与资源整合 - OpenAI今年3月完成软银牵头的400亿美元融资 但面临年底重组压力 [3] - 公司预计2025年销售额37亿美元 2026年116亿美元 同时洽谈30亿美元收购Windsurf [4] - ChatGPT等技术开发成本极高 公司需要提高收入支撑硬件研发投入 [4] 核心团队背景 - Jony Ive为苹果工作30年 主导iPhone等产品设计 其子介绍ChatGPT促成与Altman合作 [6] - 合作源于对智能手机负面影响的反思 旨在通过AI帮助人们"在喧嚣中理清头绪" [7] - 团队整合苹果硬件基因与OpenAI的AI技术 被业界视为"自乔布斯后最令人兴奋的硬件组合" [8] 行业影响与定位 - 尝试解决AI技术尚未在实体设备找到理想形态的问题 突破当前手机应用局限 [8] - 对比Humane公司Ai Pin失败案例 体现OpenAI对硬件落地的差异化思考 [8] - 市场评价认为此次合作可能使OpenAI成为"真正的硬件玩家" 重塑行业格局 [8]