大语言模型
搜索文档
清华、北信科、复旦团队解读具身智能!大语言模型与世界模型如何让机器人懂物理、会思考?
机器人大讲堂· 2025-10-06 12:05
当机器人能像人类一样理解自然语言指令,还能预判环境变化、自主规避物理风险时,通用人工智能的落地似 乎不再遥远。 近日,清华大学计算机科学与技术系,北京信息科学与技术国家研究中心,复旦大学可信具身 智能研究所联合发布《 Embodied AI: From LLMs to World Models》。 系统 性 梳理了具身智能的技术 脉络,尤其聚焦大语言模型与世界模型的协同 。 ▍ 先搞懂什么是具身智能?它和普通 AI 有啥不一样? 单模态与多模态具身智能 纯视觉的机器人,在昏暗环境或动态场景里很容易迷路;纯语言控制的机器人,可能会因为没考虑物理规律提 出离谱指令。 | | | Embodied AI: From LLMs to World Models | | | --- | --- | --- | --- | | EAI § II | EAI with LLMs/MLLMs § III | EAI with WMs § IV | EAI with MLLMs and WMs § V | | The Historical View § II-A | LLMs Boost EAI § III-A | WMs Bo ...
从「知题」到「知人」:UserRL让智能体学会「以人为本」
机器之心· 2025-10-05 14:42
"知人者智,自知者明。"——《道德经》 古人早已洞见:真正的人类智慧,不仅仅在于公式推演、掌握技艺,更是能理解他人、洞察人心。今天的大语言模型已能在代码、数学与工具使用上 出色 地完 成 任务 ,然而距离成为真正的 用户伙伴 ,它们依旧缺少那份 "知人" 的能力。这主要源于现实交互远比解题更加复杂: 这正是智能体面临的下一个时代课题: 从 "会解题" 迈向 "懂用户" 。而要真正回答这一课题,我们需要全新的动态评测框架与训练机制:不仅能测量模型在交互 中的表现,还能驱动其学会在用户不确定与多目标的世界里,问之有道,断之有衡,答之有据。为此,来自 UIUC 与 Salesforce 的研究团队提出了一套系统化方 案: 二者相辅相成,把 "以用户为中心" 从理念落地为 可复现的流程、接口与评测指标 。 UserBench 论文链接:https://arxiv.org/pdf/2507.22034 UserBench 代码仓库:https://github.com/SalesforceAIResearch/UserBench 现实交互中, 用户目标常常未在最初完全成形 (underspecification)、而是 ...
理想基座模型负责人近期很满意的工作: RuscaRL
理想TOP2· 2025-10-03 17:55
文章核心观点 - 理想基座模型团队提出RuscaRL框架,旨在通过结合教育心理学的脚手架理论和量规学习,解决大语言模型在强化学习中面临的探索瓶颈问题,以提升模型的推理能力和智能上限 [1][2][8][12] - 该技术被视为一个体系性创新,其价值在于算法与基础设施的融合,而非单一算法的突破,有望同时受益于面向数字世界的MindGPT和物理世界的MindVLA [2][9] - 团队认为强化学习是大模型智能提升的关键,而当前的关键问题是如何让模型在更广泛的问题上实现能力泛化,其核心挑战在于奖励函数在非客观且结果难以准确量化的场景中的应用 [1][8] RuscaRL框架的技术原理 - 框架核心是引入“显性脚手架”机制,通过为每个任务提供包含不同评价标准的量规来指导模型生成响应,并采用组内差异化和跨步退化策略,逐步减少外部支持以促进模型独立推理 [12][14] - 框架采用“可验证奖励”机制,利用量规设计多维度评分标准,并借助大语言模型作为评判器来生成稳定可靠的奖励信号,以增强探索的多样性和训练稳定性 [13][15] - 该框架被类比为英伟达Eureka水准的工作,同属创建元框架来解决强化学习中的关键难题,但不同于DPO那种基础理论层面的突破,其贡献更偏向框架创新和应用成效 [6] 技术价值与行业定位 - 该工作被定位为探索前景广阔但不成熟领域的高水平工作,其价值体现在明确了强化学习领域的关键问题,并提供了创新且可应用的解决方案 [8][9] - 技术潜在瓶颈包括对人工设计的高质量量规依赖较高,以及因多次采样和复杂评估导致的较大训练量和计算开销 [16] - 创新被认为源于体系能力建设,智能体强化学习的关键问题已从单点算法突破转向算法与基础设施融合的体系性问题解决 [2][9]
人工智能就是大语言模型?丨中新真探
中国新闻网· 2025-10-03 16:40
人工智能与大语言模型的关系 - 大语言模型只是人工智能技术中的一种,二者并不等同 [1] - 人工智能是一个广泛的研究领域,包括机器学习算法、图像识别、语音识别、机器人行动策略优化以及自然语言处理等 [1] - 大语言模型最初是人工智能在自然语言处理领域的突破性进展,并在多模态技术帮助下可处理声音、图片和视频等信息 [1]
苹果2026年智能眼镜前瞻:五大关键功能值得期待
环球网资讯· 2025-10-03 11:51
产品定位与战略 - 公司正加速研发智能眼镜,旨在与Meta的雷朋系列展开竞争 [1] - 面对Meta已推出带显示屏的智能眼镜,公司希望加快其首代产品的开发进程,甚至已暂停下一代Vision Pro的部分工作以优先推进眼镜产品上市 [1] - 与初代Apple Watch类似,苹果眼镜将首先定位为一款时尚配饰,而非款式有限或造型笨重的设备 [4] - 公司计划提供多种镜框与镜腿材质选项,以满足用户的个性化审美,预计将推出不同颜色、尺寸和形状供选择 [4] 核心功能与技术 - 设备将主要依赖语音控制,Siri将扮演核心角色,公司只有在下一代功能全面升级的Siri准备就绪后才会正式发布这款眼镜 [5] - 基于大语言模型重构的更智能Siri版本将于2026年春季推出,其体验将更接近Claude、Gemini或ChatGPT [5] - 用户可通过语音结合眼镜内置摄像头实现多种功能:对所见场景提供反馈、查找信息、翻译外语、记忆位置、提供任务指导、播放音乐、发送信息等 [5] - 首代眼镜将不会配备显示屏,但会具备与Meta基础款雷朋眼镜同等级的AI能力、摄像头与音频功能,支持拍摄照片、录制视频、播放音频、提供导航、回答问题、描述环境、视觉识别、拨打电话、发送信息、语言翻译等功能 [6] - 眼镜将搭载基于Apple Watch芯片的公司自研芯片,但无法完全独立运行,仍需配合iPhone才能启用AI处理等完整功能,任务交由iPhone处理有助于延长眼镜续航 [7] 发布时间与定价 - 公司可能在2026年底正式展示该产品,并于2027年初正式上市 [7] - 关于售价目前仍无确切消息,但Meta Ray-Bans起售价为380美元,预计公司会为其版本制定具有竞争力的价格 [7]
美股高开 半导体板块走强 Q3交付超预期特斯拉涨2.2%
格隆汇APP· 2025-10-02 21:52
西方石油涨0.6%,伯克希尔将以97亿美元收购其石化业务。 格隆汇10月2日|美股开盘,道指开涨0.04%,标普500指数开涨0.26%,纳指涨0.59%。 Rivian跌超3%,公司下调本财年交付量。 Nebius涨6.6%,微软将使用Nebius数据中心进行大语言模型开发。 特斯拉涨2.2%,第三季度交付量超出预期; 美股半导体板块走强,阿斯麦涨3.45%,英伟达涨1.50%。 AMD涨近3%,报道称英特尔正与台积电展开早期洽谈,拟将AMD纳入代工客户名单。 ...
美股小幅高开 半导体板块走强 Q3交付超预期特斯拉涨2.2%
格隆汇· 2025-10-02 21:45
美股开盘,道指开涨0.04%,标普500指数开涨0.26%,纳指涨0.59%。 美股半导体板块走强,阿斯麦涨3.45%,英伟达涨1.50%。 西方石油涨0.6%,伯克希尔将以97亿美元收购其石化业务。 Nebius涨6.6%,微软将使用Nebius数据中心进行大语言模型开发。 特斯拉涨2.2%,第三季度交付量超出预期; AMD涨近3%,报道称英特尔正与台积电展开早期洽谈,拟将AMD纳入代工客户名单。 Rivian跌超3%,公司下调本财年交付量。 ...
英伟达持仓概念股Nebius盘前涨超6%
格隆汇APP· 2025-10-02 18:58
格隆汇10月2日|英伟达持仓概念股Nebius美股盘前涨超6%,微软据悉将使用Nebius数据中心进行大语 言模型开发。 ...
28岁融资过亿,他说大语言模型已“撞墙”,3D是蓝海
混沌学园· 2025-10-01 19:58
公司概况 - VAST是一家专注于AI 3D大模型研发的公司,其产品Tripo能够通过文字、图片或多模态输入生成完整的3D内容[13] - 公司已完成三轮融资,每轮融资额达数千万美金[14],团队规模约110人[15] - 创始人宋亚宸具有跨学科背景,曾在商汤从事AI与动画、游戏结合的工作,并于2021年参与创立MiniMax,2023年创立VAST[17] 3D大模型技术进展 - Tripo 3.0于2024年8月发布,其核心突破在于首次实现"pipeline-ready",用户可直接生成可用于3D打印的模型,无需二次修改[46] - 技术升级涉及系统性优化,包括数据量扩充、算法改进及模块优化,尤其在几何精细度上取得显著进步[47] - 公司研发了新型3D表达形式SparseFlex(SF),该技术已开源,能降低生成成本、提升速度,并支持上千空间维度的高精细度生成[49] - 当前模型覆盖全球三四百万专业创作者及超4万家企业客户,其中700多家为大型客户[46] 产品战略与商业化 - Tripo Studio作为AI原生工作流工具,于2024年5月31日上线后收入增长超两倍[51],其功能包括万物自动语义分割、万物骨骼绑定及低模生成等独有能力[52][55] - 公司战略强调同时推进基模与应用开发,通过Tripo Studio贴近用户反馈,指导大模型迭代,形成技术与产品的闭环[71] - 商业化路径优先聚焦产品技术打磨,而非早期大规模推广,因当前产品差异化显著且用户无信息差[118][119] - 长期愿景是构建面向UGC的3D创作者社区,推动零门槛、零成本的实时3D创作生态[76][95] 行业竞争与差异化 - 3D大模型领域面临数据、算法、算力三要素挑战:数据方面,公司拥有全球最大规模高质量3D原生数据集(超4000万样本)[83];算法方面,团队汇聚数十位清华博士等顶尖科学家[85];算力方面,公司为赛道内融资规模最大企业之一[86] - 与语言模型不同,3D模型仍处于快速迭代期,应用层需与基模同步开发,否则易被下一代技术覆盖[70] - 竞争对手多聚焦游戏公司定制化服务或工具开发,而VAST定位为构建完整创作者平台与社区,路径差异显著[112][115] 市场前景与愿景 - 3D内容市场潜力巨大,全球游戏市场规模约2600亿美金,未来3D UGC平台规模可能超过现有图文视频平台总和的两到三倍[79][80] - 科技发展被视为"解压缩"过程,3D作为信息密度最高的形态,将逐步取代文字、图片、视频成为互联网终极表达形式[103][108][109] - 公司愿景长期稳定,旨在通过降低3D创作门槛,推动"第四产业"(内容与体验产业)发展,未来人类价值将更多体现在创意带来的体验时间总和[125][126]
2025年中国企业级AI Agent应用实践研究报告
搜狐财经· 2025-10-01 12:17
市场概况与规模 - 2025年中国企业级AI Agent市场规模约为232亿元,2023至2027年复合增长率达120% [1][54][55] - 2025年中国AI大模型应用市场规模约为328亿元,2022至2027年复合增长率达131%,预计2027年市场规模将达到785亿元 [1][28][29][30] - 企业级AI Agent市场呈现“头部引领、中小踌躇”特征,头部企业为采购主力,70%愿为定制方案付费,而中小企业采购率不足15% [1][62] 技术定义与演进 - AI Agent是具备环境感知、自主决策与行动执行能力的智能系统,其核心架构包含大模型、规划能力、记忆能力和行动能力四大关键维度 [8][12][13] - AI Agent发展可划分为L1聊天机器人至L5组织者五个阶段,当前智能体处于L3阶段,正从“普及级”向“融合级”过渡 [8][15][39] - AI大模型分为通用大模型、垂直大模型、单模态大模型、多模态大模型、开源大模型和闭源大模型等多种类型 [6][7] 应用场景与渗透率 - 智能客服是AI Agent规模化落地的标杆场景,在各行业渗透率超70%,尤其在互联网、通信、金融行业渗透率突破80% [1][41][43] - 数据分析场景成为第二增长曲线,整体渗透率达60%,在工业、金融领域渗透率超70%,是业务决策的核心支撑 [1][41][44] - 研发、营销、知识助手等场景渗透率相对较低,但孕育着下一轮爆发点 [41] 竞争格局与厂商布局 - 全球AI巨头在应用层、基础模型层、云端推理层、加速器硬件层四大价值链环节布局呈现显著分化 [31] - 谷歌实现四大环节深度全覆盖,百度、华为、微软、亚马逊均已达成全链条布局,而DeepSeek、阿里、字节跳动在加速器硬件领域布局滞后 [31] - 市场分化为“通用平台型”与“垂直场景型”两大路径,科技巨头打造通用平台,垂直厂商深耕特定行业解决方案 [59] 性能对比与发展趋势 - GPT-5提升全球标准,国产大模型如Qwen3和deepseek-R1快速追赶,综合性能与国际头部模型差距已缩窄至5% [33][35] - 中美Agent性能差距显著缩小,国际产品在泛化能力上占优,国产Agent在垂直场景深耕,在强本土化场景中任务准确率显著领先 [36][37] - AI Agent在SaaS行业渗透速度远超预期,2025年7月渗透率约为30%,至9月已迅速攀升至40%以上 [59] 采购特征与关键指标 - 企业采购AI Agent的TOP6关键因素分别是召回准确率92%、首字延时78%、数据安全合规70%、多模态推理能力64%、跨系统协同水平52%、长任务收敛度45% [62][63] - 头部企业偏好高精准度、定制化方案,中小企业更倾向低成本试点和订阅式SaaS服务 [62][63] - 传统软件AI升级受制于历史包袱,而AI原生软件以需求预判式数据融合为核心,推动软件从被动工具蜕变为主动业务引擎 [65][66]