机器之心

搜索文档
信息过载时代,如何真正「懂」LLM?从MIT分享的50个面试题开始
机器之心· 2025-06-18 14:09
大语言模型(LLM)技术发展 - LLM在不到十年内将人工智能能力普及给全球数亿用户,实现自然语言创作、编程和推理[2] - LLM技术版图快速扩张,包括模型竞赛和自主执行任务的智能体发展[2] - MIT CSAIL发布的50个关键问题指南帮助深入理解LLM核心概念与技术[3][5] 核心架构与基本概念 - Token化将文本分解为更小单元,对处理多语言和稀有词汇至关重要[7][9] - 注意力机制通过查询、键和值向量分配不同重要性级别,增强上下文理解[10][12] - 上下文窗口定义模型短期记忆能力,平衡窗口大小与计算效率是关键[13] - 序列到序列模型由编码器和解码器组成,应用于机器翻译等场景[15] - 嵌入向量捕获token语义特征,通常随机初始化或使用预训练模型[17] 模型训练与微调技术 - LoRA通过低秩矩阵实现高效微调,QLoRA进一步量化至4位精度减少内存使用[34] - 模型蒸馏训练小模型复制大模型输出,实现设备端部署[38] - PEFT通过冻结大部分参数缓解灾难性遗忘,保持预训练知识[43] - 超参数如学习率直接影响模型收敛性和性能表现[45] 文本生成与推理优化 - 束搜索保留多个候选序列,相比贪婪解码产生更连贯输出[51] - 温度参数控制输出随机性,0.8通常实现创造力与连贯性平衡[53] - 提示工程通过精心设计输入显著提升零样本/少样本任务性能[56] - RAG结合检索外部知识提高生成内容的事实准确性[57][58] - 思维链提示将复杂问题分解为逻辑步骤,增强推理能力[61] 训练范式与模型类型 - 掩码语言建模通过预测隐藏token实现双向语言理解[68] - 自回归模型(GPT)与掩码模型(BERT)分别在生成和理解任务中表现突出[70] - 零样本学习利用预训练知识执行未经专门训练的任务[77] - 少样本学习仅需少量示例即可适应新任务,降低数据需求[79] 高级模型与系统演进 - GPT-4相比GPT-3在多模态处理和复杂对话方面显著进步[100] - Gemini通过统一架构处理多模态输入,上下文窗口达25000 token[101][102] - 专家混合(MoE)激活特定子网络,实现万亿参数模型高效运行[106] - 知识图谱集成提供结构化事实信息,减少模型幻觉[107][108] 应用挑战与行业影响 - LLM部署面临计算资源密集、偏见延续和隐私保护等挑战[116] - 传统统计语言模型相比LLM在长距离依赖处理能力上存在局限[115] - 修复偏见输出需分析数据模式、改进数据集和针对性微调[113][114]
冠军队独享200万,进决赛就有直通offer,腾讯广告算法大赛报名开启
机器之心· 2025-06-18 14:09
多模态生成在广告行业的应用 - 多模态生成技术已在广告行业成功试水并带来实际收益,部分企业正加大投入以变革广告内容生产与分发流程[3] - 生成式AI在广告领域的渗透从2022年起步,目前已覆盖文案生成、数字人卖货、图片/视频创作等场景,显著提升生产效率[6][7] - 腾讯广告妙思平台整合商品混剪、数字人口播、图生图等技术,将AI应用扩展至审核、分发等全流程环节[7] 生成式AI驱动的广告推荐系统 - 传统广告推荐依赖判别式模型,存在负面样本定义不准确、内容库局限等问题[9] - 生成式推荐系统突破现有物品库限制,通过多模态数据处理能力生成个性化内容,但面临新用户冷启动、实时性等挑战[10] - 腾讯广告算法大赛聚焦全模态序列生成式推荐(AMGR),要求基于用户多模态行为数据预测广告交互,推动技术前沿探索[14][16] 腾讯广告算法大赛的价值 - 提供脱敏真实业务数据,帮助参赛者理解用户行为复杂性并培养商业思维[17][18] - 总奖金池达360万元,冠军团队独享200万元,并开放实习Offer及转正机会[19][21] - 往届参赛者入职后快速成长,如Bid Shading算法实现大盘收入提升3%[22] 行业动态与人才需求 - 腾讯2025Q1营销服务收入同比增长20%至319亿元,AI技术升级成为核心驱动力[26] - 广告行业对生成式AI人才需求上涨,大赛为在校生提供零基础切入机会[27][28] - 报名面向全球高校学生,截止日期为7月31日,优胜者可申请深圳人才政策支持[23][29]
统一框架下的具身多模态推理:自变量机器人让AI放下海德格尔的锤子
机器之心· 2025-06-18 14:09
当前AI机器人技术瓶颈 - 现有机器人无法实现人类直觉式工具使用,每次交互都需重新认知工具[2] - 主流多模态模块融合范式存在表征瓶颈,跨模态信息传递导致关键细节丢失[6][7] - 模块化设计阻碍物理世界因果规律学习,无法实现整体性具身理解[8] 统一架构革命性方案 - 主张端到端统一架构,消解视觉/语言/行动边界为单一信息流[4][10] - 核心是将所有模态转换为共享高维token序列,实现跨模态无损交互[11][12] - 采用多任务多模态生成监督机制,强制建立深层跨模态对应关系[12] 涌现的具身多模态能力 - 符号-空间推理:二维图形解构→字母组合理解→三维物理操作同步完成[17][18] - 物理空间推理:在潜在空间直接推演重力约束/结构稳定性/操作因果链[19][20] - 自主探索能力:整合视觉/记忆/常识构建连贯推理链条实现环境交互[22][23] - 视频学习能力:从人类操作视频推断深层意图并自主执行协作任务[26][27] 范式转换的本质特征 - 实现感知/推理/行动并行融合处理,替代传统串行模块化流程[30][31] - 统一表征空间使机器人能同时处理物理属性/任务作用/空间约束/动作规划[31] - 架构突破使跨模态因果推理和通用操作能力自然涌现[32][34]
刚刚,Gemini 2.5系列模型更新,最新轻量版Flash-Lite竟能实时编写操作系统
机器之心· 2025-06-18 09:24
Gemini 2.5系列模型更新 - 谷歌CEO Sundar Pichai宣布新推出的Gemini 2.5 Flash-Lite是目前性价比最高的2.5系列模型 [1] - 2.5 Flash-Lite定位为适合量大且注重成本效率的任务,2.5 Pro适合编程和高复杂度任务,2.5 Flash适合需要较快速度的日常任务 [2] - 2.5 Pro和2.5 Flash已发布稳定版,2.5 Flash-Lite开启预览 [3] 模型功能与性能 - 2.5 Flash-Lite支持多模态输入和100万token上下文,可通过API参数动态控制思考预算,默认关闭思考功能 [4] - 2.5 Flash-Lite在AIME 2025和FACTS Grounding等少量指标上表现优于其他版本 [5] - 2.5 Flash-Lite整体性能低于2.5 Flash,开启思考功能的版本表现更强 [5] 定价策略 - 2.5 Flash-Lite定价为每百万输入/输出token 0.1/0.4美元,音频输入为0.5美元 [8] - 2.5 Flash价格为每百万输入/输出token 0.3/2.5美元,音频输入为1美元 [8] - 2.5 Pro价格最高,为每百万输入/输出token 1.25/10美元 [8] 应用案例 - 2.5 Flash-Lite在Google AI Studio和Vertex AI上线预览版 [9] - 开发者Simon Willison测试显示2.5 Flash-Lite生成SVG成本最低(0.0829美分) [16] - 2.5 Flash-Lite在转录Twitter Space录音时出现错误,而2.5 Pro效果最佳 [17] - 2.5 Flash-Lite可在17.1秒内完成贪吃蛇游戏编程任务 [21] 技术特性 - Gemini系列组成了当前LLM的佩雷托前沿,是性价比最高的系列模型 [10] - 报告提到2.5 Pro在游戏过程中出现"智能体恐慌"现象 [12] - 开发者使用2.5 Pro革新交互式3D设计,可通过自然语言生成对象和场景 [18]
想知道你的LLM API被过度收费了吗?隐藏的Tokens终于可以被审计了
机器之心· 2025-06-17 16:52
本文作者来自马里兰大学的 CASE ( C ollaborative, A utomated, S calable, and E fficient Intelligence) Lab,主要参与者为博士生孙国恒与王子瑶,指导教师为李昂 教授。 研究背景:在商业保护与用户知情间寻求平衡 论文标题: Invisible Tokens, Visible Bills: The Urgent Need to Audit Hidden Operations in Opaque LLM Services arXiv 链接:https://arxiv.org/pdf/2505.18471 近年来,大型语言模型(LLM)在处理复杂任务方面取得了显著进展,尤其体现在多步推理、工具调用以及多智能体协作等高级应用中。这些能力的提升,往往 依赖于模型内部一系列复杂的 「 思考 」 过程或 Agentic System 中的 Agent 间频繁信息交互。 然而,为了保护核心知识产权(如防止模型蒸馏或 Agent 工作流泄露)、提供更流畅的用户体验,服务提供商通常会将这些中间步骤隐藏,仅向用户呈现最终的 输出结果。这在当前的商业和技术环境下 ...
从扭秧歌到跑半马:机器人离「iPhone时刻」还有多远?
机器之心· 2025-06-17 12:50
具身智能行业发展现状 - 具身智能技术从想象进入现实阶段,但行业仍面临技术瓶颈、落地场景选择、用户真实需求定义等核心问题[2] - 国内外平台型企业争相布局具身智能计算开发平台,英伟达推出Jetson Thor,高通、英特尔跟进,国内地平线推出RDK S100[3] - RDK S100已覆盖20+头部具身智能客户合作,50+合作伙伴正在测评,成为英伟达之外的主要选择[4] 技术路径与解决方案 - 行业存在一体化端到端和分层模型两条技术路径,前者通用性强但资源消耗大,后者可控性高但泛化性弱[7][8] - 分层决策大小脑模型是当前更可行的方案,大脑负责感知决策(CPU+BPU),小脑负责运动控制(MCU)[8][9] - RDK S100采用CPU+BPU+MCU超级异构架构,实现单SoC上的"算控一体",算力达80 TOPS[4][9] - BPU基于车端验证的Nash架构,支持160+ONNX标准算子,优化视觉/点云检测、LLM/VLM模型性能[10][11] 产品定位与场景适配 - 未来三年量产突破场景可能是四足/轮足机器人、机械臂或物流车,而非人形机器人[13] - RDK S100针对近2-3年落地场景精准卡位,提供百TOPS级匹配算力[13][14] - 通过共享内存核间通信机制和SDK封装,降低开发者使用复杂度[12] 开发者生态建设 - 提供ModelZoo算法仓含110+感知/决策/行动模型及性能指标[19] - 配套工具链支持算法量化、模型调优和快速部署[20] - 端云一体数据闭环工具链+Sim2Real仿真方案解决高质量数据缺失问题[20] - "地心引力计划"已汇聚200+初创公司,提供硬件优惠、技术支持、产业链对接等服务[28] 商业化落地案例 - 在宇树G1人形机器人实现高效运动控制,BPU推理占用率仅2%,CPU占用降低250%[22] - 在宇树Go2四足机器人复现多种仿生步态,适应复杂地形[23] - 在HuggingFace双臂方案实现零卡顿自主叠衣,整套成本低于5000元[24] - 20+头部客户中部分已进入量产开发阶段,覆盖人形/四足/智能化方案商[26] 行业发展趋势 - 技术路径有望收敛,计算平台将呈现"算控一体"中等算力方案和端到端大算力方案双线并行[28] - 公司目标建立类似英伟达CUDA的生态体系,通过基础设施支撑行业创新[28]
首个全面梳理语音大模型发展脉络的权威综述,入选ACL 2025主会
机器之心· 2025-06-17 12:50
语音大模型技术综述 核心观点 - 语音语言模型(SpeechLM)通过端到端处理实现自然语音交互,突破传统ASR-LLM-TTS流程的三大痛点:信息丢失、延迟严重、错误累积 [4][5][6] - 该技术由香港中文大学团队系统梳理,形成领域首篇ACL 2025收录的综述论文,包含技术架构、训练策略、评估体系等完整框架 [1][31] 技术架构 核心组件 - **语音分词器**:分为语义理解型/声学生成型/混合型三类,实现音频信号到token的转换 [16] - **语言模型**:基于Transformer的自回归架构,扩展词汇表处理多模态token [16] - **声码器**:将语言模型输出token转换为可听波形,完成最终语音生成 [16] 交互范式 - 全双工建模技术实现实时交互,包含用户中断能力和同时响应能力两大特性 [18] - 流式处理架构支持双向同时通信,突破传统"你说完我再说"的交互模式 [17][18] 训练策略 三阶段流程 - **预训练阶段**:冷启动或基于文本语言模型继续预训练,关键在文本-语音表示空间对齐 [12] - **指令微调阶段**:通过大规模指令数据集赋予多样化任务处理能力 [13] - **后对齐阶段**:采用人类反馈强化学习优化输出质量与安全性 [14] 应用场景 语义相关 - 统一框架支持语音对话/翻译/识别/关键词检测等任务,无需单独训练专用模型 [20] 说话人相关 - 实现说话人识别/验证/分离,支持特定音色语音生成,推动个性化语音助手发展 [21] 副语言学 - 识别情绪状态并生成对应情感色彩的语音,增强交互生动性 [22] 评估体系 多维指标 - 自动评估覆盖表示质量/语言学能力/生成质量等6大维度,建立客观比较基准 [25] - 人工评估采用MOS评分,主观衡量自然度/韵律质量/音色相似度等感知特征 [26] 发展挑战 技术瓶颈 - 需解决组件选择优化/端到端训练/实时生成等技术难题,特别关注安全防护机制建设 [28][29] - 资源稀缺语言支持是推动技术普惠的关键方向 [29]
首个转型AI公司的新势力,在全球AI顶会展示下一代自动驾驶模型
机器之心· 2025-06-17 12:50
核心观点 - L3级别智能驾驶的关键在于大算力、大模型、大数据[1] - 端到端智能驾驶正沿着大模型Scaling Laws的路径快速发展[2] - 小鹏G7作为全球首款L3级算力AI汽车,搭载2200TOPS算力芯片和VLA+VLM模型,实现行业突破[3][4][5] - 自动驾驶基座模型通过云端训练+车端蒸馏的技术路线,显著提升复杂场景处理能力[20][27][28] - 公司验证了自动驾驶领域的Scaling Laws,并建成万卡智算集群支持模型迭代[49][50] 技术突破 - 小鹏G7首发智驾大脑+小脑VLA-OL模型,首次加入运动型决策能力[4] - VLM视觉大模型作为车辆理解世界的AI中枢,支持多语言交互和主动服务[5] - 自动驾驶基座模型参数达720亿,训练数据超2000万条30秒视频片段[20] - 模型具备链式推理(CoT)能力,可处理训练中未见的复杂场景[21][24] - 车端token处理量压缩70%,流式多处理器利用率达85%[60][63] 行业地位 - 小鹏在CVPR 2025与Waymo、英伟达等顶流同台,展示技术领先性[6][13] - 公司是国内首个验证自动驾驶Scaling Laws的团队[49] - 建成汽车行业首个万卡智算集群,算力达10 EFLOPS,迭代周期快至5天[50][51] - 云端模型工厂采用FP8混合精度训练,计算效率达行业顶尖水平[55][58] 未来方向 - 世界模型将作为实时反馈系统,持续提升基座模型能力[36][41] - 技术将扩展至AI机器人、飞行汽车等新领域[43] - 从"软件开发汽车"转向"AI开发汽车",建立全链路自研体系[61][62] - 年内G7将推出重大新功能,持续进化AI能力[65]
同一天开源新模型,一推理一编程,MiniMax和月之暗面开卷了
机器之心· 2025-06-17 11:22
大模型技术进展 - MiniMax发布全球首款开源权重的大规模混合注意力推理模型MiniMax-M1,支持100万token输入和8万token输出,是DeepSeek R1上下文规模的8倍 [18][19] - MiniMax-M1采用混合专家(MoE)架构与闪电注意力机制,总参数量456B,每个token激活45.9B参数,在生成长度10万token时FLOPs仅为DeepSeek R1的25% [18][20] - 月之暗面发布开源编程大模型Kimi-Dev-72B,在SWE-bench Verified基准上取得60.4%成绩,创开源模型新SOTA [10][37] 模型性能对比 - MiniMax-M1在17个主流评测集中表现突出,在软件工程、长上下文处理和工具使用等生产力场景具有显著优势 [25] - MiniMax-M1-80k在大多数基准测试中优于MiniMax-M1-40k,验证扩展计算资源的有效性 [27] - 实测显示MiniMax-M1-80K生成代码一次通过,而Kimi-Dev-72B需要Claude-4-Sonnet修复3个bug才能运行 [13] 技术创新 - MiniMax开发CISPO新颖算法,强化学习收敛速度比DAPO等算法快一倍 [20] - MiniMax混合注意力设计提升强化学习效率,仅用512块H800三周时间,租赁成本53.47万美元 [23] - Kimi-Dev-72B采用BugFixer与TestWriter协作机制,通过中期训练和强化学习优化代码修复能力 [40][43] 应用场景 - MiniMax-M1支持UI组件聚焦、交互式应用程序和游戏开发,可快速生成HTML页面和Web应用 [5][6][8] - Kimi-Dev-72B能够自主在Docker中修补真实代码仓库,符合现实开发标准 [37] - MiniMax-M1已集成到MiniMax Chat中,提供不限量免费使用和业内最低价API [4][28] 行业影响 - MiniMax采取开放策略,新模型保持免费使用并以低价提供API,性价比高于DeepSeek-R1 [28][31] - 月之暗面计划扩展Kimi-Dev-72B功能,探索与IDE、版本控制系统和CI/CD流水线的深度集成 [48] - 大模型厂商同日发布新模型,显示行业竞争加剧,技术迭代速度加快 [1]
突破多智能体系统边界,开源方案OWL超越OpenAI Deep Research,获17k star
机器之心· 2025-06-17 11:22
核心观点 - 港大与camel-ai等机构联合提出Workforce多智能体框架及OWL训练方法,在GAIA基准测试中取得69.70%准确率,超越商业系统及开源方案[1][18] - 该框架通过解耦设计解决多智能体系统跨领域迁移难题,实现模块化架构与低成本迁移[8][12] - OWL训练方法通过两阶段优化(SFT+DPO)显著提升规划器性能,使Qwen2.5-32B模型准确率从36.36%提升至52.73%[19][21] 技术架构 - **解耦设计**:分为领域无关规划器(Planner Agent)、智能协调器(Coordinator Agent)和可替换工作节点(Worker Nodes)[11] - **模块化优势**:仅需更换工作节点即可适应新领域,核心规划机制保持不变,迁移成本降低70%以上[12] - **通信机制**:协调器通过共享"任务通道"管理任务依赖与中间结果整合[11] 训练方法 - **两阶段训练**: 1 监督微调(SFT)使用1599个高质量轨迹数据集初始化规划器[19] 2 强化学习优化(DPO)提升决策质量,使规划器超越简单模仿[19] - **性能提升**:OWL训练使Qwen2.5-32B模型超越未训练的72B模型(49.09% vs 52.73%)[21] 性能表现 - **GAIA基准**:Workforce框架在validation集pass@1达69.70%,超越OpenAI Deep Research(67.36%)和所有开源系统[18] - **多维度优势**:Level 1任务准确率84.91%(Claude-3.7-Sonnet),Level 3达42.31%[20] - **自我纠错**:任务失败时触发动态调整机制,重新规划后性能持续提升[25] 应用挑战 - **现实问题**:需处理信息源差异(如不同答案)、时效性(动态变化)、语言歧义性(模糊查询)及网络限制[23][26] - **稳定性**:在多能力任务中保持性能稳定,单智能体方法性能下降超30%[25] 行业影响 - **开源生态**:代码已获GitHub 17k star,加速行业应用落地[2][4] - **通用AI路径**:模块化设计为通用AI助手提供可扩展基础,降低部署门槛70%[25][27]