Workflow
AI科技大本营
icon
搜索文档
长文本向量模型在4K Tokens 之外形同盲区?
AI科技大本营· 2025-03-27 10:23
大语言模型评估方法 - NoLiMA是一种新型大语言模型长文本理解能力评估方法,通过设计需要深层语义推理的问题来测试模型性能,区别于传统依赖关键词匹配的NIAH测试[2][3] - 在32K词元长度下,10个受测LLM表现比处理短文本(<1K词元)时下降超50%,表现最好的GPT-4o准确率从99.3%降至69.7%[4] 向量模型实验设计 - 实验采用jina-embeddings-v3模型,构建10本5万+词元的公版书作为文本库,生成128-8192词元不同长度的测试上下文[14][18] - 设计22组"问题-关键信息"组合,涵盖饮食限制/医疗状况/语言能力/职业背景等类别,关键信息需单跳推理才能关联问题[11][12] - 采用归一化相似度分数作为核心指标,计算问题-上下文相似度与问题-关键信息基准相似度的比值[19][22] 关键研究发现 - 文本长度显著影响性能:128词元时归一化相似度0.37,8K词元时降至0.10,1K词元内下降速度最快[24][26] - 模型区分能力急剧退化:128词元时AUC 0.81,1K词元时降至0.66,8K词元时接近随机猜测的0.5[37][40] - 信息类型影响显著:地点类信息检索准确率高于饮食/医疗类信息,后者在长文本中性能下降更快[28][30] 技术优化尝试 - 查询扩展实验显示:添加100个相关词效果最佳,250个词会引入语义噪声,但均无法根本解决长文本性能下降问题[49][53] - 关键信息位置影响检索:文本开头最容易发现,中间位置最难,短文本中末尾位置也较易识别[41][43] - 字面匹配实验证实:即使问题与答案存在相同关键词,长文本环境下模型性能仍会大幅下降[58][59] 行业技术启示 - 当前语义搜索技术存在明显局限:向量模型和LLM均难以在长文本中保持深层语义推理能力[7][60] - 检索增强生成(RAG)系统中,向量模型的性能瓶颈直接影响整体系统效果,需架构级创新突破[4][63] - 查询扩展等优化手段具有边际效益,但无法解决注意力机制处理长文本的根本性缺陷[55][66]
超越 Suno,全球首个 CoT 音乐模型Mureka O1 来了!
AI科技大本营· 2025-03-26 18:20
AI音乐生成行业发展 - 2023年全球数字音频工作站市场规模达30亿美元 预计2026年70%企业将采用AI辅助创作[1] - AI音乐生成技术显著降低创作门槛 支持多语言歌曲生成和音色克隆功能[7][11] - 行业呈现"人人可创作"趋势 平台提供音轨分离下载功能便于二次创作[6] Mureka产品技术突破 - 2024年3月发布V6和O1两款大模型 V6采用ICL技术提升声场与人声质感 O1为首个应用CoT技术的音乐模型[19][21] - MusiCoT技术通过预生成音乐结构 使旋律连贯性提升35% 歌词契合度提高40%[32][34] - 在评测中O1整体听感得分6.93 超越Suno V4的6.85 乐器多样性达7.10分[22][23] 商业化应用生态 - 开放音乐生成与语音合成两类API 支持私有数据微调模型 覆盖游戏配乐等场景[36][38] - 已服务全球100+国家用户 提供品牌音乐定制等B端解决方案[21][40] - 模型微调功能严格保障数据隐私 不用于基座模型训练[38] 公司战略布局 - 昆仑万维2023年确立"All in AGI与AIGC"战略 2024年更新使命为"实现通用人工智能"[40] - 创始人提出未来30年是"自我表达爆发期" AI将把创作门槛降低1000倍[40] - 技术路线聚焦音乐生成领域创新 包括MusiCoT等前沿技术应用[32][40]
美国机器人“四小龙”:通用机器人仍需十年,专用机器人即将出现,机器人的扩展法则会在五年内被探索出来 | GTC 2025
AI科技大本营· 2025-03-26 18:20
人形机器人行业现状 - 全球人形机器人领域已形成以美国公司为主导的竞争格局,主要参与者包括特斯拉、Google、NVIDIA等科技巨头以及Figure、Agility Robotics等新兴企业 [5] - 行业融资规模差异显著:Figure以26亿美元融资领跑,Physical Intelligence和Skild AI分别获得24亿和15亿美元,Agility Robotics和波士顿动力融资规模在10-12亿美元区间 [5] - 日本企业Telexistence和加拿大公司Sanctuary AI分别获得5.3亿和4亿美元融资,显示全球资本在该领域的广泛布局 [5] - 挪威公司1X Technologies和美国企业Mentee Robotics融资规模相对较小,分别为3.75亿和1.2亿美元 [5] 技术突破驱动力 - 模型层面突破:大型基础模型如ChatGPT的出现使系统具备推理能力,多模态模型显著提升对3D视觉世界的理解能力 [17] - 数据获取革新:GPU加速模拟技术可在3小时内生成相当于过去十年的训练数据,突破数据匮乏瓶颈 [17] - 硬件成本下降:人形机器人硬件价格从2001年150万美元降至当前4万美元水平,接近汽车价格区间 [17] - 模拟技术突破:物理环境模拟速度已超越真实世界时间流逝,大幅加速算法开发效率 [18] - 零部件商品化:消费电子产业推动电池、摄像头等技术发展,使机器人组件可模块化整合 [18] 技术范式转变 - 从控制理论主导转向经验学习:行业思维模式从"编程经验"转变为"通过经验学习",更贴近生物学习方式 [19] - 硬件稳健性提升:新一代机器人硬件可靠性显著增强,能够承受真实环境中的持续互动而不易损坏 [21] - 跨具身性研究:探索通用大脑控制不同硬件平台的可行性,英伟达GR00T项目致力于构建适配多型号机器人的统一模型 [22] - 数据策略创新:采用金字塔结构整合真实机器人数据、模拟数据和神经模拟数据,通过潜在动作提取算法提升训练效率 [22] 企业技术路径 - 英伟达GR00T项目采用端到端模型设计,追求"从光子到动作"的直接映射,模型参数仅20亿但性能出色 [21][22] - Skild AI专注于构建机器人通用大脑,主张通过单一共享模型解决数据稀缺问题 [8] - Agility Robotics强调真实场景部署,其Digit机器人已应用于制造业和物流领域 [10] - 波士顿动力保持技术延续性,在采用AI新技术同时保留传统控制理论工具 [18] - 1X Technologies探索远程操作界面抽象化,通过高级指令引导机器人自主完成精细操作 [27] 行业未来展望 - 硬件多样化趋势:当前人形机器人硬件同质化严重,未来将出现更多突破传统人体结构的设计创新 [30] - 专业型机器人先行:特定场景的"任务专家型"机器人将率先普及,解决劳动力短缺问题 [36] - 技术融合加速:机器人AI与数字AI界限逐渐模糊,真实世界互动数据将提升AI系统的验证能力 [33] - 社会接受度关键:机器人技术普及速度取决于社会接受程度和生产规模扩张能力 [36] - 长期颠覆性影响:十年内机器人技术可能像电力普及一样深刻改变社会生产和生活方式 [36]
大模型“神仙打架”,掀起复现潮、技术大升级后,我们需要关注什么? | 万有引力
AI科技大本营· 2025-03-25 09:45
大模型技术竞赛与行业动态 - DeepSeek连续五天开源引发复现热潮,阿里巴巴通义实验室和腾讯分别推出ViDoRAG系统和混元快思考模型Turbo S,加速大模型演进 [1] - 马斯克用20万张GPU训练Grok 3超越业界标杆,验证"大力出奇迹"定律 [1] - Claude 3.7 Sonnet编码能力大升级,AI编程技术平权时代加速到来 [1] - DeepSeek论文与Kimi"撞车",稀疏注意力与线性注意力机制成为Transformer后的关键探索方向 [1] - Manus模式的"虚拟机"概念迅速走红,正在重塑大模型运行方式 [1] DeepSeek的技术突破与影响 - DeepSeek R1发布引发全球热议,首次展示模型能以类似人类方式思考,采用第一人称表达推理过程 [6][7] - DeepSeek开源周发布五大项目,涉及算力加速、通信优化和存储处理三大领域 [20][22] - DeepSeek利润率高达545%,颠覆行业对大模型MaaS盈利能力的认知 [33] - DeepSeek的技术路线侧重小粒度Expert,强调效率,相比Grok 3的"暴力美学"更为高效 [45] - DeepSeek的推理架构为搜索体验带来颠覆性变化,推动"边搜边想"的新搜索逻辑 [7] 行业竞争格局与趋势 - 行业可能出现两条发展路径:少数企业继续堆砌算力追求极致模型,大多数企业选择小模型路线 [46] - "百模大战"第一阶段暂时由DeepSeek领先,竞争可能向多模态和具身智能演进 [30][31] - 新兴公司在AI基础设施和大模型训练领域面临巨大投入挑战,难以与头部企业竞争 [27][28] - 阿里Qwen在国际市场表现不俗,但在推理方面未能取得DeepSeek级别的突破 [26] - 量化公司如九坤转型成立AI部门,在系统优化和数据处理方面具有优势 [27] 技术演进与创新方向 - Attention机制面临算法复杂度高的问题,改进方向包括稀疏化和状态空间模型(SSM) [62][63] - DeepSeek提出的NSA(Neural Sparse Attention)在减少计算量的同时提升模型效果 [65] - 合成数据成为重要方向,在多模态、具身智能等领域应用广泛,精准度超越传统数据增强 [75][77] - 长上下文支持技术变革搜索领域格局,Gemini的100万token窗口展现强大能力 [50] - 代码模型可能成为通往AGI的路径,通过持续学习和技能库扩展实现能力进化 [81][83] 应用场景与商业化 - AI编程是首个经过PMF验证的应用场景,Claude 3.7和DeepSeek在代码能力上仍有提升空间 [78][80] - AutoPilot类工具如Devin更适合"万事开头难"场景,成本低于雇佣实习生 [78] - MaaS商业模式面临上游价格和下游支付意愿的双重挑战,运营效率成为关键壁垒 [33][34] - 私有化部署需求增长但面临数据治理挑战,建议企业优先使用API进行验证 [36][39] - 2B领域数据治理和处理服务需求旺盛,国内加速推进数据要素市场建设 [36] 基础设施与工程实践 - 训练大模型成本极高,智源发起OpenSeek开源项目,已吸引100多位贡献者 [9][10] - OpenSeek处理约100亿网页数据,构建4亿条CoT数据集,计划全面开源 [11] - 系统训练层面缺乏成熟框架支持,DeepSeek公开自研五个项目提升训练效率 [12] - 行业Infra团队和人才稀缺,更多关注0到1搭建而非1到100的优化 [21] - 虚拟机技术可能走红,因工具调用需要沙盒化环境执行任务 [84]
2025人工智能系列活动全景透视,慕尼黑上海电子展邀您共探未来!
AI科技大本营· 2025-03-25 09:45
人工智能联合展区 - 展区位于上海新国际博览中心N5馆N5.749 展期2025年4月15-17日 聚焦智能驾驶、云计算与数据中心、消费电子、医疗工业四大热门应用领域[3] - 企业可通过单个展示桌形式发布产品和技术 提供与行业观众线下交流的平台[3] AI技术创新论坛 - 论坛位于上海新国际博览中心M50会议室(N5馆二楼) 时间2025年4月15日 议题包括下一代AI芯片架构设计、数据安全与隐私保护、AI与存储联合挑战等[4] - 演讲嘉宾包括Imagination Technologies、香港浪潮云服务、兆易创新、英飞凌、得一微电子、达摩院等企业代表 涵盖AI算力、云计算、Flash需求、电源解决方案、端侧训推一体方案等技术方向[6][7] - 论坛设产业对话环节 抽奖活动 会议日程以当天公告为准[7] 人形机器人展示区 - 展区位于上海新国际博览中心N3馆N3.655 展期2025年4月15-17日 集产品展示、技术展示、应用体验和行业交流于一体[8] - 展示最新人形机器人技术和应用 呈现未来生活潜力 推动技术创新和商业化落地[8] 人形机器人创新论坛 - 论坛位于上海新国际博览中心M47会议室(N5馆二楼) 时间2025年4月16日下午 议题包括人形机器人技术、核心部件协同支持、应用场景等[10] - 演讲嘉宾来自上海青心意创、鑫精诚传感、ADI、上海傲意信息、苏州睿柏智悦、MPS等企业 涵盖拟人应用、力学传感器、产品设计、人机交互、供电系统等方向[14][15][16][17][19] - 论坛设讨论群 可添加微信munihei520入群 会议日程以当天公告为准[22] 医疗电子创新论坛AI主题 - 论坛位于上海新国际博览中心M46会议室(N4馆二楼) 时间2025年4月15日 探讨人工智能在医疗领域的落地应用[23] - 演讲嘉宾包括东南大学教授、江苏一影医疗董事长、上海交通大学医学院附属瑞金医院副院长等 涵盖穿戴式健康医疗、影像设备、ICU应用等方向[25][26] - 论坛设讨论群 可添加微信munihei520入群[27] 嵌入式系统创新论坛AI主题 - 论坛位于上海新国际博览中心M51会议室(N5馆二楼) 时间2025年4月15日 探讨人工智能技术与应用[27] - 演讲嘉宾来自意法半导体、上海科技大学、瑞萨电子等 涵盖高效AI计算、AI定义嵌入式系统、RISC-V端侧处理器等方向[29][30] - 论坛设讨论群 可添加微信munihei520入群 会议日程以当天公告为准[31] 展会整体布局与参与 - 展区涵盖半导体、传感器、电源、测试测量、人工智能、人形机器人等1800家海内外优质展商 包括ST、TI、英飞凌、ADI、TDK、村田、国巨、TE、Amphenol、Molex等企业[32][36] - 同期活动聚焦电动车、汽车电子、人形机器人、三代半、嵌入式系统、人工智能、物联网、储能、智能制造、医疗电子等热门应用市场[38][39]
OpenAI研究负责人诺姆·布朗:基准测试比数字大小毫无意义,未来靠token成本衡量模型智能|GTC 2025
AI科技大本营· 2025-03-24 16:39
行业技术发展 - 诺姆·布朗提出范式更改比算力条件更重要,正确方法和算法可使多人扑克AI提前20年实现[2] - 推理计算被长期忽视但实际带来巨大差异,验证新范式需要大量计算投入[2] - 从Libratus到Pluribus,算法改进使六人扑克AI训练成本降至150美元,推理技术优化是关键[23][30] - CICERO项目突破自然语言博弈难题,但技术特定于《强权外交》游戏无法直接应用于现实谈判[39][40] 公司研发动态 - OpenAI o1-preview源自Q*项目,是全球首个推理模型,复现难度导致行业追赶受阻[4][6] - DeepSeek-R1于2025年1月发布并开源研究成果,终结行业闭源竞争局面[7] - 英伟达通过DLSS技术将图形渲染效率提升8-10倍,Megatron系统推动大模型训练扩展[21][22] - Meta开发Pluribus仅用28个CPU核心,每手牌20秒推理时间实现低成本高性能[24] 技术演进路径 - 从快思考(System 1)到慢思考(System 2)的转变标志AI推理能力质变[9][41] - 预训练与推理技术需协同发展,小模型无法支撑复杂推理能力[35][41] - 矩阵乘法主导AI系统设计,算法与硬件协同进化形成良性循环[33][35] - 单位成本智能成为新评估标准,需平衡token产出与计算资源消耗[41][42] 行业未来展望 - 推理计算规模将快速增长,专用硬件研发成为英伟达重点方向[41][44] - AI与人类智能成本差距显著,专业领域应用潜力巨大[42][45] - 多智能体环境技术尚未成熟,开放研究问题仍需解决[42][43] - 技术轨迹显示AI将持续突破现有局限,加速科学与社会进步[42][45]
小红书技术专家解密语音识别与推荐算法,干货满满|ML Summit 2025
AI科技大本营· 2025-03-24 16:39
2025全球机器学习技术大会 - 大会将于4月18-19日在上海虹桥西郊庄园丽笙大酒店举行,汇聚50余位学术界和工业界顶尖专家,聚焦智能体、联邦学习、多模态大模型等AI技术实践 [2] - 小红书将派出两位技术负责人分享语音识别与推荐算法领域的最新研究成果 [2] 小红书语音技术突破 - 音频技术负责人解奉龙博士将分享基于大模型的语音/音乐技术综合解决方案FireRed,其团队开发的FireRedASR在字错误率(CER)上较SOTA模型Seed-ASR降低8.4% [4][6] - FireRedASR-LLM在混合场景测试集(含短视频、直播等)上,CER较行业领先服务商降低23.7%~40.0% [6] - FireRed系列技术包括:支持zero-shot语音克隆的TTS2.0、超低延时对话系统FireRedChat、小红书风格音乐生成方案FireRedMusic [9] 小红书推荐算法创新 - 推荐算法负责人严岭将探讨大模型在社区推荐场景的应用,包括利用LLM提升内容理解能力、解决冷启动问题及打破信息茧房 [8][11] - 严岭团队重点研究跨业务流量调控、基于人群的推荐系统,并强调通过LLM推理能力实现可解释的兴趣探索 [8][11] 大会附加价值 - 大会设置AI创新展区,展示产业链企业技术产品方案,目前展位所剩不多 [12] - 活动定位为AI生态融合与行业协同创新平台,推动技术走向更广阔应用场景 [12]
杨立昆“砸场”英伟达:不太认同黄仁勋,目前大模型的推理方式根本是错的,token 不是表示物理世界的正确方式|GTC 2025
AI科技大本营· 2025-03-21 14:35
英伟达GTC 2025大会核心观点 - 杨立昆从视觉派角度否定当前主流语言派AI技术路线 认为token不是表示物理世界的正确方式 [8][9] - 杨立昆提出联合嵌入预测架构(JEPA)作为替代方案 强调需要在抽象表示空间而非像素层面进行预测 [14][15] - 杨立昆预测高级机器智能(AMI)可能在十年内实现 但当前大模型扩展路线是错误的 [19][20] AI技术发展方向 - 当前大语言模型已进入产业优化阶段 未来重点应转向机器理解物理世界、持久记忆、推理规划四大方向 [10][11][12] - 世界模型概念被提出 认为人类通过内部物理世界模型处理现实 未来AI需要完全不同架构 [13] - 系统1(快思考)与系统2(慢思考)的区别被强调 当前大模型仅实现系统1水平 [36][37] 硬件与计算技术 - 神经形态硬件和光学计算近期难有突破 量子计算应用前景受质疑 [39][43] - 内存计算技术在边缘设备如智能眼镜上有应用潜力 [40][41] - 视网膜处理机制被作为高效感知系统的生物参考 [43] 开源与创新生态 - Llama系列模型下载量超10亿次 开源模式推动行业创新 [30] - 全球分布式训练开源基础模型被认为是未来趋势 [32] - 中国科学家贡献被肯定 DeepSeek和ResNet案例显示创新可来自任何地方 [8][27] AI应用前景 - AI在医疗影像、自动驾驶等感知领域已产生实际价值 [20] - 科学研究和药物设计是AI最具潜力的应用方向 [20] - AI助手多样化发展需要开源平台支持 未来人机关系将转向管理者-虚拟员工模式 [32][58] 技术挑战与突破 - 残差连接等工程技巧对深度学习发展至关重要 [51] - 为JEPA架构寻找有效"配方"是当前主要挑战 [56] - 视频预测任务显示联合嵌入架构相比重建方法更具优势 [45]
阶跃星辰 Tech Fellow 段楠:Step-Video 系列模型的关键技术解读
AI科技大本营· 2025-03-21 14:35
2025全球机器学习技术大会 - 大会将于4月18-19日在上海虹桥西郊庄园丽笙大酒店举行 设有12大技术专题 汇聚50+位院士 IEEE Fellow等顶尖专家 [2] - 专题涵盖智能体 联邦学习 多模态大模型 强化学习等前沿议题 [2] - 大会设置AI企业创新展区 展示产业链技术产品方案 展位所剩不多 [9][11] 段楠博士技术分享 - 阶跃星辰Tech Fellow段楠博士将在「多模态大模型前沿」专场分享《视频生成基础模型进展 挑战和未来》 [2] - 段楠博士曾任微软亚洲研究院资深首席研究员12年 专注自然语言处理 多模态基础模型等领域 [4] - 分享将围绕开源Step-Video系列模型 剖析文生视频 图生视频等任务的最新进展 [6] 阶跃星辰开源模型 - Step-Video-T2V为300亿参数视频生成模型 支持8-10秒540P视频 覆盖11类内容生成需求 中英双语输入 [5][6] - Step-Audio是首款工业级开源语音交互模型 支持多语种实时高保真生成 适用于客服 翻译等场景 [5][6] - 两款模型在多项指标上超越现有开源模型 已应用于自动驾驶 影视创作等领域 [6] 行业影响与参与 - 大会为科研学者 技术专家提供前沿洞见 推动AI技术变革与应用落地 [8] - 活动旨在促进AI生态融合 探索产业升级路径 拓展应用场景 [9][11]
3小时复刻传奇,OpenManus一作梁新兵:通用Agent的构建与赋能
AI科技大本营· 2025-03-20 17:07
2025全球机器学习技术大会(ML-Summit 2025) - 大会将于4月18-19日在上海虹桥西郊庄园丽笙大酒店举行 [2] - 汇聚50余位重磅嘉宾包括院士、IEEE Fellow及企业技术专家 [2] - 专题涵盖智能体、联邦学习、多模态大模型等前沿技术领域 [2] - 设置AI创新展区展示产业链优秀企业技术方案 [9][11] OpenManus项目 - 开源框架采用模块化架构结合Computer Use和MCP执行机制 [7] - 突破传统function calling模式实现智能任务拆解与工具协同 [7] - 具备自主规划能力与策略自适应特性 [7] - 已在数据分析、信息处理等场景实现落地应用 [7] 梁新兵技术贡献 - MetaGPT核心贡献者主导OpenManus项目开发 [5][6] - 团队仅用3小时完成对Manus的复刻并在GitHub走红 [5] - 研究成果包括Data Interpreter/Self-Supervised Prompt Optimization论文 [5] - 将分享通用Agent构建的技术创新与实践经验 [7]