机器之心 - 财报，业绩电话会，研报，新闻

机器之心

搜索文档

机器之心· 2025-06-18 14:09

大语言模型(LLM)技术发展 - LLM在不到十年内将人工智能能力普及给全球数亿用户，实现自然语言创作、编程和推理[2] - LLM技术版图快速扩张，包括模型竞赛和自主执行任务的智能体发展[2] - MIT CSAIL发布的50个关键问题指南帮助深入理解LLM核心概念与技术[3][5] 核心架构与基本概念 - Token化将文本分解为更小单元，对处理多语言和稀有词汇至关重要[7][9] - 注意力机制通过查询、键和值向量分配不同重要性级别，增强上下文理解[10][12] - 上下文窗口定义模型短期记忆能力，平衡窗口大小与计算效率是关键[13] - 序列到序列模型由编码器和解码器组成，应用于机器翻译等场景[15] - 嵌入向量捕获token语义特征，通常随机初始化或使用预训练模型[17] 模型训练与微调技术 - LoRA通过低秩矩阵实现高效微调，QLoRA进一步量化至4位精度减少内存使用[34] - 模型蒸馏训练小模型复制大模型输出，实现设备端部署[38] - PEFT通过冻结大部分参数缓解灾难性遗忘，保持预训练知识[43] - 超参数如学习率直接影响模型收敛性和性能表现[45] 文本生成与推理优化 - 束搜索保留多个候选序列，相比贪婪解码产生更连贯输出[51] - 温度参数控制输出随机性，0.8通常实现创造力与连贯性平衡[53] - 提示工程通过精心设计输入显著提升零样本/少样本任务性能[56] - RAG结合检索外部知识提高生成内容的事实准确性[57][58] - 思维链提示将复杂问题分解为逻辑步骤，增强推理能力[61] 训练范式与模型类型 - 掩码语言建模通过预测隐藏token实现双向语言理解[68] - 自回归模型(GPT)与掩码模型(BERT)分别在生成和理解任务中表现突出[70] - 零样本学习利用预训练知识执行未经专门训练的任务[77] - 少样本学习仅需少量示例即可适应新任务，降低数据需求[79] 高级模型与系统演进 - GPT-4相比GPT-3在多模态处理和复杂对话方面显著进步[100] - Gemini通过统一架构处理多模态输入，上下文窗口达25000 token[101][102] - 专家混合(MoE)激活特定子网络，实现万亿参数模型高效运行[106] - 知识图谱集成提供结构化事实信息，减少模型幻觉[107][108] 应用挑战与行业影响 - LLM部署面临计算资源密集、偏见延续和隐私保护等挑战[116] - 传统统计语言模型相比LLM在长距离依赖处理能力上存在局限[115] - 修复偏见输出需分析数据模式、改进数据集和针对性微调[113][114]

冠军队独享200万，进决赛就有直通offer，腾讯广告算法大赛报名开启

机器之心· 2025-06-18 14:09

多模态生成在广告行业的应用 - 多模态生成技术已在广告行业成功试水并带来实际收益，部分企业正加大投入以变革广告内容生产与分发流程[3] - 生成式AI在广告领域的渗透从2022年起步，目前已覆盖文案生成、数字人卖货、图片/视频创作等场景，显著提升生产效率[6][7] - 腾讯广告妙思平台整合商品混剪、数字人口播、图生图等技术，将AI应用扩展至审核、分发等全流程环节[7] 生成式AI驱动的广告推荐系统 - 传统广告推荐依赖判别式模型，存在负面样本定义不准确、内容库局限等问题[9] - 生成式推荐系统突破现有物品库限制，通过多模态数据处理能力生成个性化内容，但面临新用户冷启动、实时性等挑战[10] - 腾讯广告算法大赛聚焦全模态序列生成式推荐（AMGR），要求基于用户多模态行为数据预测广告交互，推动技术前沿探索[14][16] 腾讯广告算法大赛的价值 - 提供脱敏真实业务数据，帮助参赛者理解用户行为复杂性并培养商业思维[17][18] - 总奖金池达360万元，冠军团队独享200万元，并开放实习Offer及转正机会[19][21] - 往届参赛者入职后快速成长，如Bid Shading算法实现大盘收入提升3%[22] 行业动态与人才需求 - 腾讯2025Q1营销服务收入同比增长20%至319亿元，AI技术升级成为核心驱动力[26] - 广告行业对生成式AI人才需求上涨，大赛为在校生提供零基础切入机会[27][28] - 报名面向全球高校学生，截止日期为7月31日，优胜者可申请深圳人才政策支持[23][29]

统一框架下的具身多模态推理：自变量机器人让AI放下海德格尔的锤子

机器之心· 2025-06-18 14:09

当前AI机器人技术瓶颈 - 现有机器人无法实现人类直觉式工具使用，每次交互都需重新认知工具[2] - 主流多模态模块融合范式存在表征瓶颈，跨模态信息传递导致关键细节丢失[6][7] - 模块化设计阻碍物理世界因果规律学习，无法实现整体性具身理解[8] 统一架构革命性方案 - 主张端到端统一架构，消解视觉/语言/行动边界为单一信息流[4][10] - 核心是将所有模态转换为共享高维token序列，实现跨模态无损交互[11][12] - 采用多任务多模态生成监督机制，强制建立深层跨模态对应关系[12] 涌现的具身多模态能力 - 符号-空间推理：二维图形解构→字母组合理解→三维物理操作同步完成[17][18] - 物理空间推理：在潜在空间直接推演重力约束/结构稳定性/操作因果链[19][20] - 自主探索能力：整合视觉/记忆/常识构建连贯推理链条实现环境交互[22][23] - 视频学习能力：从人类操作视频推断深层意图并自主执行协作任务[26][27] 范式转换的本质特征 - 实现感知/推理/行动并行融合处理，替代传统串行模块化流程[30][31] - 统一表征空间使机器人能同时处理物理属性/任务作用/空间约束/动作规划[31] - 架构突破使跨模态因果推理和通用操作能力自然涌现[32][34]

刚刚，Gemini 2.5系列模型更新，最新轻量版Flash-Lite竟能实时编写操作系统

机器之心· 2025-06-18 09:24

Gemini 2.5系列模型更新 - 谷歌CEO Sundar Pichai宣布新推出的Gemini 2.5 Flash-Lite是目前性价比最高的2.5系列模型 [1] - 2.5 Flash-Lite定位为适合量大且注重成本效率的任务，2.5 Pro适合编程和高复杂度任务，2.5 Flash适合需要较快速度的日常任务 [2] - 2.5 Pro和2.5 Flash已发布稳定版，2.5 Flash-Lite开启预览 [3] 模型功能与性能 - 2.5 Flash-Lite支持多模态输入和100万token上下文，可通过API参数动态控制思考预算，默认关闭思考功能 [4] - 2.5 Flash-Lite在AIME 2025和FACTS Grounding等少量指标上表现优于其他版本 [5] - 2.5 Flash-Lite整体性能低于2.5 Flash，开启思考功能的版本表现更强 [5] 定价策略 - 2.5 Flash-Lite定价为每百万输入/输出token 0.1/0.4美元，音频输入为0.5美元 [8] - 2.5 Flash价格为每百万输入/输出token 0.3/2.5美元，音频输入为1美元 [8] - 2.5 Pro价格最高，为每百万输入/输出token 1.25/10美元 [8] 应用案例 - 2.5 Flash-Lite在Google AI Studio和Vertex AI上线预览版 [9] - 开发者Simon Willison测试显示2.5 Flash-Lite生成SVG成本最低(0.0829美分) [16] - 2.5 Flash-Lite在转录Twitter Space录音时出现错误，而2.5 Pro效果最佳 [17] - 2.5 Flash-Lite可在17.1秒内完成贪吃蛇游戏编程任务 [21] 技术特性 - Gemini系列组成了当前LLM的佩雷托前沿，是性价比最高的系列模型 [10] - 报告提到2.5 Pro在游戏过程中出现"智能体恐慌"现象 [12] - 开发者使用2.5 Pro革新交互式3D设计，可通过自然语言生成对象和场景 [18]

Gemini 2.5 Flash-Lite

Gemini 2.5 Flash-Lite

Gemini 2.5 Pro

想知道你的LLM API被过度收费了吗？隐藏的Tokens终于可以被审计了

机器之心· 2025-06-17 16:52

本文作者来自马里兰大学的 CASE ( C ollaborative, A utomated, S calable, and E fficient Intelligence) Lab，主要参与者为博士生孙国恒与王子瑶，指导教师为李昂教授。研究背景：在商业保护与用户知情间寻求平衡论文标题： Invisible Tokens, Visible Bills: The Urgent Need to Audit Hidden Operations in Opaque LLM Services arXiv 链接：https://arxiv.org/pdf/2505.18471 近年来，大型语言模型（LLM）在处理复杂任务方面取得了显著进展，尤其体现在多步推理、工具调用以及多智能体协作等高级应用中。这些能力的提升，往往依赖于模型内部一系列复杂的「思考」过程或 Agentic System 中的 Agent 间频繁信息交互。然而，为了保护核心知识产权（如防止模型蒸馏或 Agent 工作流泄露）、提供更流畅的用户体验，服务提供商通常会将这些中间步骤隐藏，仅向用户呈现最终的输出结果。这在当前的商业和技术环境下 ...

商业不透明大模型服务

token数量膨胀

语义有效性验证

Artificial Intelligence

Artificial Intelligence

LLM API

CoIn

从扭秧歌到跑半马：机器人离「iPhone时刻」还有多远？

机器之心· 2025-06-17 12:50

具身智能行业发展现状 - 具身智能技术从想象进入现实阶段，但行业仍面临技术瓶颈、落地场景选择、用户真实需求定义等核心问题[2] - 国内外平台型企业争相布局具身智能计算开发平台，英伟达推出Jetson Thor，高通、英特尔跟进，国内地平线推出RDK S100[3] - RDK S100已覆盖20+头部具身智能客户合作，50+合作伙伴正在测评，成为英伟达之外的主要选择[4] 技术路径与解决方案 - 行业存在一体化端到端和分层模型两条技术路径，前者通用性强但资源消耗大，后者可控性高但泛化性弱[7][8] - 分层决策大小脑模型是当前更可行的方案，大脑负责感知决策（CPU+BPU），小脑负责运动控制（MCU）[8][9] - RDK S100采用CPU+BPU+MCU超级异构架构，实现单SoC上的"算控一体"，算力达80 TOPS[4][9] - BPU基于车端验证的Nash架构，支持160+ONNX标准算子，优化视觉/点云检测、LLM/VLM模型性能[10][11] 产品定位与场景适配 - 未来三年量产突破场景可能是四足/轮足机器人、机械臂或物流车，而非人形机器人[13] - RDK S100针对近2-3年落地场景精准卡位，提供百TOPS级匹配算力[13][14] - 通过共享内存核间通信机制和SDK封装，降低开发者使用复杂度[12] 开发者生态建设 - 提供ModelZoo算法仓含110+感知/决策/行动模型及性能指标[19] - 配套工具链支持算法量化、模型调优和快速部署[20] - 端云一体数据闭环工具链+Sim2Real仿真方案解决高质量数据缺失问题[20] - "地心引力计划"已汇聚200+初创公司，提供硬件优惠、技术支持、产业链对接等服务[28] 商业化落地案例 - 在宇树G1人形机器人实现高效运动控制，BPU推理占用率仅2%，CPU占用降低250%[22] - 在宇树Go2四足机器人复现多种仿生步态，适应复杂地形[23] - 在HuggingFace双臂方案实现零卡顿自主叠衣，整套成本低于5000元[24] - 20+头部客户中部分已进入量产开发阶段，覆盖人形/四足/智能化方案商[26] 行业发展趋势 - 技术路径有望收敛，计算平台将呈现"算控一体"中等算力方案和端到端大算力方案双线并行[28] - 公司目标建立类似英伟达CUDA的生态体系，通过基础设施支撑行业创新[28]

首个全面梳理语音大模型发展脉络的权威综述，入选ACL 2025主会

机器之心· 2025-06-17 12:50

语音大模型技术综述核心观点 - 语音语言模型(SpeechLM)通过端到端处理实现自然语音交互，突破传统ASR-LLM-TTS流程的三大痛点：信息丢失、延迟严重、错误累积 [4][5][6] - 该技术由香港中文大学团队系统梳理，形成领域首篇ACL 2025收录的综述论文，包含技术架构、训练策略、评估体系等完整框架 [1][31] 技术架构核心组件 - **语音分词器**：分为语义理解型/声学生成型/混合型三类，实现音频信号到token的转换 [16] - **语言模型**：基于Transformer的自回归架构，扩展词汇表处理多模态token [16] - **声码器**：将语言模型输出token转换为可听波形，完成最终语音生成 [16] 交互范式 - 全双工建模技术实现实时交互，包含用户中断能力和同时响应能力两大特性 [18] - 流式处理架构支持双向同时通信，突破传统"你说完我再说"的交互模式 [17][18] 训练策略三阶段流程 - **预训练阶段**：冷启动或基于文本语言模型继续预训练，关键在文本-语音表示空间对齐 [12] - **指令微调阶段**：通过大规模指令数据集赋予多样化任务处理能力 [13] - **后对齐阶段**：采用人类反馈强化学习优化输出质量与安全性 [14] 应用场景语义相关 - 统一框架支持语音对话/翻译/识别/关键词检测等任务，无需单独训练专用模型 [20] 说话人相关 - 实现说话人识别/验证/分离，支持特定音色语音生成，推动个性化语音助手发展 [21] 副语言学 - 识别情绪状态并生成对应情感色彩的语音，增强交互生动性 [22] 评估体系多维指标 - 自动评估覆盖表示质量/语言学能力/生成质量等6大维度，建立客观比较基准 [25] - 人工评估采用MOS评分，主观衡量自然度/韵律质量/音色相似度等感知特征 [26] 发展挑战技术瓶颈 - 需解决组件选择优化/端到端训练/实时生成等技术难题，特别关注安全防护机制建设 [28][29] - 资源稀缺语言支持是推动技术普惠的关键方向 [29]

首个转型AI公司的新势力，在全球AI顶会展示下一代自动驾驶模型

机器之心· 2025-06-17 12:50

核心观点 - L3级别智能驾驶的关键在于大算力、大模型、大数据[1] - 端到端智能驾驶正沿着大模型Scaling Laws的路径快速发展[2] - 小鹏G7作为全球首款L3级算力AI汽车，搭载2200TOPS算力芯片和VLA+VLM模型，实现行业突破[3][4][5] - 自动驾驶基座模型通过云端训练+车端蒸馏的技术路线，显著提升复杂场景处理能力[20][27][28] - 公司验证了自动驾驶领域的Scaling Laws，并建成万卡智算集群支持模型迭代[49][50] 技术突破 - 小鹏G7首发智驾大脑+小脑VLA-OL模型，首次加入运动型决策能力[4] - VLM视觉大模型作为车辆理解世界的AI中枢，支持多语言交互和主动服务[5] - 自动驾驶基座模型参数达720亿，训练数据超2000万条30秒视频片段[20] - 模型具备链式推理(CoT)能力，可处理训练中未见的复杂场景[21][24] - 车端token处理量压缩70%，流式多处理器利用率达85%[60][63] 行业地位 - 小鹏在CVPR 2025与Waymo、英伟达等顶流同台，展示技术领先性[6][13] - 公司是国内首个验证自动驾驶Scaling Laws的团队[49] - 建成汽车行业首个万卡智算集群，算力达10 EFLOPS，迭代周期快至5天[50][51] - 云端模型工厂采用FP8混合精度训练，计算效率达行业顶尖水平[55][58] 未来方向 - 世界模型将作为实时反馈系统，持续提升基座模型能力[36][41] - 技术将扩展至AI机器人、飞行汽车等新领域[43] - 从"软件开发汽车"转向"AI开发汽车"，建立全链路自研体系[61][62] - 年内G7将推出重大新功能，持续进化AI能力[65]

同一天开源新模型，一推理一编程，MiniMax和月之暗面开卷了

机器之心· 2025-06-17 11:22

大模型技术进展 - MiniMax发布全球首款开源权重的大规模混合注意力推理模型MiniMax-M1，支持100万token输入和8万token输出，是DeepSeek R1上下文规模的8倍 [18][19] - MiniMax-M1采用混合专家(MoE)架构与闪电注意力机制，总参数量456B，每个token激活45.9B参数，在生成长度10万token时FLOPs仅为DeepSeek R1的25% [18][20] - 月之暗面发布开源编程大模型Kimi-Dev-72B，在SWE-bench Verified基准上取得60.4%成绩，创开源模型新SOTA [10][37] 模型性能对比 - MiniMax-M1在17个主流评测集中表现突出，在软件工程、长上下文处理和工具使用等生产力场景具有显著优势 [25] - MiniMax-M1-80k在大多数基准测试中优于MiniMax-M1-40k，验证扩展计算资源的有效性 [27] - 实测显示MiniMax-M1-80K生成代码一次通过，而Kimi-Dev-72B需要Claude-4-Sonnet修复3个bug才能运行 [13] 技术创新 - MiniMax开发CISPO新颖算法，强化学习收敛速度比DAPO等算法快一倍 [20] - MiniMax混合注意力设计提升强化学习效率，仅用512块H800三周时间，租赁成本53.47万美元 [23] - Kimi-Dev-72B采用BugFixer与TestWriter协作机制，通过中期训练和强化学习优化代码修复能力 [40][43] 应用场景 - MiniMax-M1支持UI组件聚焦、交互式应用程序和游戏开发，可快速生成HTML页面和Web应用 [5][6][8] - Kimi-Dev-72B能够自主在Docker中修补真实代码仓库，符合现实开发标准 [37] - MiniMax-M1已集成到MiniMax Chat中，提供不限量免费使用和业内最低价API [4][28] 行业影响 - MiniMax采取开放策略，新模型保持免费使用并以低价提供API，性价比高于DeepSeek-R1 [28][31] - 月之暗面计划扩展Kimi-Dev-72B功能，探索与IDE、版本控制系统和CI/CD流水线的深度集成 [48] - 大模型厂商同日发布新模型，显示行业竞争加剧，技术迭代速度加快 [1]

大模型

强化学习

Artificial Intelligence

Artificial Intelligence

MiniMax-M1

Kimi-Dev-72B

MiniMax Chat

突破多智能体系统边界，开源方案OWL超越OpenAI Deep Research，获17k star

机器之心· 2025-06-17 11:22

核心观点 - 港大与camel-ai等机构联合提出Workforce多智能体框架及OWL训练方法，在GAIA基准测试中取得69.70%准确率，超越商业系统及开源方案[1][18] - 该框架通过解耦设计解决多智能体系统跨领域迁移难题，实现模块化架构与低成本迁移[8][12] - OWL训练方法通过两阶段优化（SFT+DPO）显著提升规划器性能，使Qwen2.5-32B模型准确率从36.36%提升至52.73%[19][21] 技术架构 - **解耦设计**：分为领域无关规划器（Planner Agent）、智能协调器（Coordinator Agent）和可替换工作节点（Worker Nodes）[11] - **模块化优势**：仅需更换工作节点即可适应新领域，核心规划机制保持不变，迁移成本降低70%以上[12] - **通信机制**：协调器通过共享"任务通道"管理任务依赖与中间结果整合[11] 训练方法 - **两阶段训练**： 1 监督微调（SFT）使用1599个高质量轨迹数据集初始化规划器[19] 2 强化学习优化（DPO）提升决策质量，使规划器超越简单模仿[19] - **性能提升**：OWL训练使Qwen2.5-32B模型超越未训练的72B模型（49.09% vs 52.73%）[21] 性能表现 - **GAIA基准**：Workforce框架在validation集pass@1达69.70%，超越OpenAI Deep Research（67.36%）和所有开源系统[18] - **多维度优势**：Level 1任务准确率84.91%（Claude-3.7-Sonnet），Level 3达42.31%[20] - **自我纠错**：任务失败时触发动态调整机制，重新规划后性能持续提升[25] 应用挑战 - **现实问题**：需处理信息源差异（如不同答案）、时效性（动态变化）、语言歧义性（模糊查询）及网络限制[23][26] - **稳定性**：在多能力任务中保持性能稳定，单智能体方法性能下降超30%[25] 行业影响 - **开源生态**：代码已获GitHub 17k star，加速行业应用落地[2][4] - **通用AI路径**：模块化设计为通用AI助手提供可扩展基础，降低部署门槛70%[25][27]

多智能体系统

通用人工智能

Artificial Intelligence

Artificial Intelligence

Workforce框架

OWL训练方法

Previous Next