机器之心

搜索文档
一个气泡水广告,为何几十万人围观?原来整个都是Veo 3生成的
机器之心· 2025-07-06 14:06
AI视频生成技术进展 - Veo 3模型实现「音画同步」功能,推动AI视频创作进入声画一体化新阶段,显著降低视频创作门槛[4] - 完全由AI制作的广告在X平台获得超30万次观看,展示技术商业化潜力[2] - 案例视频在10个场景切换中保持角色一致性,仅出现车窗等细节微小跳跃,体现生成质量突破[7] 技术实现关键方法 - 采用超精细提示(Hyper-specific Prompting)技术,通过详尽上下文指令减少模型自由发挥空间[9][10] - 人类仍主导创意、脚本及最终剪辑环节,AI作为执行工具遵循概率而非创造性思维[11] - 扩散模型存在固有局限:依赖概率统计而非真实理解、局部与全局协调矛盾、帧间连贯性挑战及训练数据质量问题[19] AI视频应用创新方向 - 突破当前猎奇同质化内容,探索电影平行宇宙、游戏角色跨界等创意催化场景[17][18][22] - 商业应用潜力包括概念影片制作、企业网站建设等高效内容生产[24][25] - 技术瓶颈体现在角色一致性维护,需解决容貌突变、物体错乱等典型问题[8][14]
求医十年,病因不明,ChatGPT:你看起来有基因突变
机器之心· 2025-07-06 11:49
AI在医疗诊断中的应用趋势 - 用AI辅助看病正在成为新趋势,但目前仍需要人类医生作为最终决策者[2] - 典型案例显示AI能整合化验报告和症状史,成功诊断出人类医生多年未发现的基因突变(纯合型A1298C MTHFR基因突变,影响7%-12%人群)[4][5] - 多个Reddit用户案例证实AI在疑难杂症诊断中的辅助价值,包括15年未解决的呕吐症状和宠物误诊案例[7][8][9] AI医疗的优势与局限性 - AI具备快速检索海量医学文献的能力,在信息处理速度和数据容量方面超越人类医生[14] - 对于罕见病和多学科协作需求高的疑难症,AI能有效弥补人类医生的经验盲区[17] - 当前AI存在生成幻觉问题,无法承担误诊责任,必须与人类医生协同使用[22] 行业发展动态 - 微软等科技公司正在开发专业医疗AI产品,市场反馈积极[20] - 未来医疗行业可能形成"AI辅助+医生决策"的协作模式,AI将作为医生的"外挂大脑"[23] - 患者使用AI医疗建议时需保持谨慎,需经专业医生复核确认[22]
原来Scaling Law还能被优化?Meta这招省token又提效
机器之心· 2025-07-06 11:49
Transformer架构演进 - 2017年《Attention Is All You Need》论文提出Transformer架构,现引用量接近19万次,成为AI领域基础范式[1][2] - Transformer核心改进方向包括Multi-Token Attention和Multi-matrix Factorization Attention等新型注意力机制[2] - Meta最新研究提出旋转不变型三线性注意力机制,性能可改变Scaling Law系数[4] 2-simplicial Transformer技术突破 - 2-simplicial Transformer源自2019年研究,将点积注意力扩展为三线性形式[7][19] - 新型注意力机制通过三线性积构建三阶张量,计算复杂度为O(n^3)[22][23][35] - Meta采用滑动窗口参数化(O(n×w1×w2))降低计算负担,最优配置为w1=512,w2=32[32][37] Scaling Law理论框架 - 神经Scaling Law公式:L(N,D)=E+A/N^α+B/D^β,其中E为不可约损失[13][14] - Hoffmann等(2022)实验得出a≈0.49,b≈0.5,表明token数量需与模型规模同步扩展[15][17] - 2-simplicial Transformer展示更优参数扩展指数,token增长可慢于参数增长[10][50] 实验性能对比 - 在1B参数模型中,2-simplicial注意力使GSM8k和MBPP任务分别提升0.79%和0.88%[43] - 参数规模超过2B后,2-simplicial注意力优势减弱,3.5B模型在MMLU-pro任务下降2.15%[43][45] - 2-simplicial注意力斜率α更陡峭,显示其Scaling Law指数优于传统Transformer[49][50] 计算优化实现 - Meta使用Triton实现新型注意力机制,采用分组查询注意力(GQA)比率64提升计算效率[38] - 对比标准点积注意力(复杂度2n^2),窗口化2-simplicial注意力复杂度为6πw1w2[33][35] - 引入在线softmax等核优化技术,延迟最优配置达55.1ms(16k窗口)[32][39]
集成20+先进算法,优于GPT-4o,自主因果分析智能体来了
机器之心· 2025-07-06 11:49
来自加利福尼亚大学圣迭戈分校(UC San Diego)Biwei Huang 实验室的研究团队提出了一种自主因果分析智能体 Causal-Copilot。该实验室专注于因果推理与机 器学习的交叉研究,在因果发现和因果表征学习领域取得了多项重要成果。论文共同第一作者 Xinyue Wang、Kun Zhou 和 Wenyi Wu 均来自 Biwei Huang 教授实 验室,他们在因果推理与大语言模型结合方面开展了这项创新性研究。同时这项研究也得到了创业公司 Abel.ai 的大力支持和协助。 一个普遍的困境 想象这样一个场景:你是一位生物学家,手握基因表达数据,直觉告诉你某些基因之间存在调控关系,但如何科学地验证这种关系?你听说过 "因果发现" 这个 词,但对于具体算法如 PC、GES 就连名字都非常陌生。 或者你是一位社会学家,想要评估教育政策对学生成绩的真实影响。你知道简单对比可能受其他因素干扰,但面对双重差分、倾向得分匹配等方法及其不同假设 条件,你感到无从下手。 这就是因果分析的现状:理论越来越丰富,工具越来越强大,但使用门槛却始终居高不下。 预训练模型的局限性 当前的 AI 系统,包括最先进的大语 ...
邱锡鹏团队开源MOSS-TTSD!百万小时音频训练,突破AI播客恐怖谷
机器之心· 2025-07-05 13:53
技术突破 - MOSS-TTSD首次基于百万小时音频训练,成功破除AI播客的「恐怖谷」魔咒,实现超高拟人度的逼真对话语音合成[3][5] - 模型采用离散化语音序列建模方法,在约100万小时单说话人语音数据和40万小时对话语音数据上进行训练,具备中英双语语音合成能力[13] - 创新性开发XY-Tokenizer语音离散化编码器,采用8层RVQ音频Codec将比特率压缩至1kbps,支持最长960秒音频生成[15][16][22] 性能表现 - 在中文播客生成测试中,MOSS-TTSD与商业产品豆包在多个维度表现相当[8] - 说话人分离模型在AISHELL-4等测试集上DER指标显著优于开源及商用版本(9.7 vs 11.1/11.7)[28][29] - 在500条中英文双人对话测试集中,音色克隆保真度和语音韵律自然度大幅领先开源模型MoonCast[31][34] 应用场景 - 特别适合播客、影视配音、长篇访谈、数字人对话带货等需要长语音生成的场景[22] - 展示案例包括邓紫棋&周杰伦、潘长江&嘎子等音色克隆,以及原神游戏讨论等长播客生成[11] - 支持电商直播、体育解说等需要多人对话语音合成的商业应用场景[1][5] 技术架构 - 基于Qwen3-1.7B-base模型进行续训练,采用自回归加Delay Pattern进行语音token生成[13][14] - 数据清洗流水线通过说话人分离模型和DNSMOS评分(≥2.8)确保语音质量[24][27] - 两阶段多任务学习:第一阶段训练ASR和重建任务,第二阶段通过GAN损失补充细粒度声学信息[17][18][19][21]
想清楚再动手:具身智能也要学会脑补未来和择优执行 | RSS 2025
机器之心· 2025-07-05 13:53
研究团队与背景 - 第一作者吴怡琳为卡内基梅隆大学机器人学院博士生,研究方向为开放世界物体操控与机器人终身学习,曾获ICRA最佳论文等荣誉[1] - 第二作者田然是UC Berkeley博士生兼NVIDIA研究科学家,专注于机器人基础模型的安全与偏好对齐研究,获多项国际奖项[2] - 该研究获2025 ICLR World Model Workshop最佳论文奖,并被2025 Robotics: Science and Systems会议接收[3] 研究核心问题 - 当前具身智能模型在真实部署中面临"学得像但用不好"的困境,面对环境扰动时成功率常低于30%[3][21] - 核心难题在于如何让机器人在部署阶段具备"推理能力"(Test-Time Intelligence),无需额外数据即可预判风险并调整策略[5] FOREWARN框架设计 - 采用"预见(Foresight)"与"深思(Forethought)"双模块架构,分解为"模拟未来"和"评估未来"两大任务[11] - 世界模型在低维隐空间预测候选动作的环境状态变化,通过离线学习实现高效未来推演[11] - 多模态语言模型将隐空间预测解码为自然语言,结合任务目标与用户意图进行语义评估[12] 系统工作流程 1 候选动作采样与聚类:保留K个代表性动作[16] 2 隐空间未来预测:世界模型预测动作的未来演化[16] 3 语义转译:多模态语言模型将预测转为自然语言描述[16] 4 最优方案筛选:基于语义评估选择最契合意图的动作[16] 创新亮点 - 首次实现世界模型隐空间与多模态语言模型语义空间的对齐[18] - 实现端到端自动化决策,无需人工示范即可实时筛选最优方案[19] - 在基础操作和复杂任务中均展现卓越泛化能力[20] 实验结果 - 引入FOREWARN后成功率从30%提升至70%-80%[21] - 在任务指令变化或感知干扰时仍能维持60%-80%成功率[21] - 有效弥合离线训练与在线部署的能力鸿沟[21] 未来挑战 - 需提升底层生成策略的多样性与泛化能力[23] - 世界模型对大规模数据依赖较强,数据稀缺时性能可能下降[23] - 需优化大模型设定下的推理效率与算力成本[23]
从诡异视频到假论文,AI正把互联网变成巨型「垃圾场」
机器之心· 2025-07-05 12:19
AI生成内容的流量逻辑 - AI生成的夸张视频在社交媒体上获得巨大流量,例如一个胖女人跳海的视频在ins上获得2.52亿次浏览量和325.7万次点赞[2][3] - 视频通过夸张情节和身材歧视嫌疑吸引观众,博主随后制作更多类似视频以获取流量[5] - AI工具如Veo3只需简单提示词就能生成高度逼真的视频,例如食物长人脸并自相残食的内容[9][10] AI生成内容的负面影响 - AI生成的惊悚视频引发观众强烈不适,例如人身猪面的跳水者、丧尸形象的受访者等[7] - 食物长人脸并自相残食的视频在Reddit疯传,视觉上令人毛骨悚然[12][15] - 网友评价两极分化,有人认为有创意且能轻松赚取广告费,有人则认为恶心且是噩梦[14] AI对学术领域的侵蚀 - 瑞典布罗斯大学学院研究发现谷歌学术平台上有上百篇疑似AI生成的论文[20] - 同行评审中AI常用词汇频率激增,如"meticulous"使用频率是去年的34倍[21] - AI生成的低质量论文通过同行评审并发表在期刊上,例如包含错误解剖图和乱写文字的医学论文[23] AI生成内容的深层问题 - 平台算法推崇能快速吸引眼球的内容,促使创作者制作更极端和非传统的视频[17] - AI工具的低成本和高效性加剧了垃圾内容的产生[18] - AI生成的低质量内容不仅危害学术公信力,也消耗了科学的真正价值[24][25]
刚刚,Grok4跑分曝光:「人类最后考试」拿下45%,是Gemini 2.5两倍,但网友不信
机器之心· 2025-07-05 10:46
Grok 4基准测试结果泄露 - Grok 4和Grok 4 Code的基准测试结果疑似泄露,引发行业关注 [2] - Grok 4在HLE(人类最后考试)标准得分35%,使用推理技术后提升至45%,显著高于OpenAI o3的20%和GPT-4o的四到五倍 [3][5] - Grok 4在GPQA(研究生级物理和天文学问题)得分87-88%,与OpenAI o3顶级表现相当,超过Claude 4 Opus的75% [6] - Grok 4在AIME '25(美国数学奥赛)得分95%,远超Claude 4 Opus的34%,略优于OpenAI o3的80-90% [7] - Grok 4 Code在SWEBench得分72-75%,与Claude Opus 4的72.5%持平,略高于OpenAI o3的71.7% [8] Grok 4模型特性与开发进展 - Grok 4仅支持文本模式,视觉、图像生成等功能即将推出,支持13万tokens上下文窗口,较竞争对手前沿模型更小 [16] - Grok 4将包括函数调用、结构化输出和推理能力,定位为自然语言、数学和推理方面"拥有无可匹敌的能力"的通才模型 [16][17] - Grok 4 Code是专为编程设计的模型,用户可直接提问代码问题或嵌入代码编辑器 [18] - 马斯克表示正"通宵达旦开发Grok 4",模型已完成训练但需"最后一次大规模训练",特别是代码模型方面 [20] 行业反应与潜在影响 - 泄露的基准成绩刺激行业,Grok 4在HLE的45%得分几乎是Gemini 2.5 Pro的两倍,若属实意味着通过AI基准测试最艰难一关 [9] - 网友对HLE高分存疑,认为xAI可能使用不同报告方法,但爆料者称数字真实但配置未知 [12][13][14] - 行业推测Grok 4可能近期发布,若成绩属实将推动AI大模型发展 [25][26]
ICML 2025 | 多智能体的ChatGPT时刻?上交MAS-GPT实现工作流一键生成
机器之心· 2025-07-05 10:46
多智能体系统(MAS)发展现状 - OpenAI将"组织级智能(Organizational AI)"设定为通向AGI的第五阶段,多智能体系统是实现该目标的重要探索方向[1] - 现有MAS方法(ChatDev/DyLAN/AFlow等)存在三大根本问题:结构依赖人工调试、多轮LLM调用成本高昂、泛化性低[5][7] - 当前处理大规模并发请求的类ChatGPT系统若采用传统MAS范式,可扩展性与鲁棒性将无法满足需求[5] MAS-GPT技术突破 - 提出生成式MAS设计范式,通过一句Query即可自动生成可执行的多智能体系统,构建过程"像与ChatGPT聊天一样简单"[2][4][9] - 将MAS设计转化为语言生成任务,输出为Python代码实现的完整系统,实现"模型写MAS"而非人工编写[9] - 基于11K高质量数据样本进行监督微调(SFT),训练出MAS-GPT模型[10] 性能优势 - 在8个基准任务×5种主流模型的对比中,平均准确率较最强基线提升3.89%[16][17] - 推理成本仅为竞品的0.5倍,在GPQA/SciBench等未见任务上保持稳健表现[17][18] - 与OpenAI o1/DeepSeek-R1等强推理模型结合时,在AIME-2024数学挑战中分别提升13.3%和10.0%[22] 技术特性 - 具备极强兼容性,生成的MAS适配任何LLM驱动均能带来性能提升[20] - 可自动生成新颖MAS结构,为未见任务设计合理分工协作方案[24][29] - 为每个MAS附加推理说明,解释设计逻辑[29] 行业影响与发展 - 开创"为每个Query自动生成MAS"的新范式,理论上可整合领域内所有多智能体系统[25] - 成立MASWorks开源社区,连接全球研究者推动MAS领域发展,将在ICML 2025举办MAS-2025研讨会[28][30][31] - 随着基座模型能力提升和数据丰富,未来可能实现为每个问题量身定制智能系统的愿景[26][27]
ICCV 2025|降低扩散模型中的时空冗余,上交大EEdit实现免训练图像编辑加速
机器之心· 2025-07-05 10:46
核心观点 - 上海交通大学EPIC Lab团队提出了一种无需训练的高效缓存加速编辑框架EEdit,用于加速基于流匹配扩散模型的图像编辑任务 [6][7] - EEdit通过反演过程特征复用和区域分数奖励控制区域标记计算频率,解决了图像编辑中的时空冗余性问题 [9] - 该框架支持多种输入类型引导的编辑任务,包括参考图像引导、提示词引导和拖拽区域引导 [10] - 相比于未加速版本,EEdit实现了2.4倍推理速度提升,最快可达10倍加速 [8] 研究动机 - 基于扩散模型的图像编辑存在时间步数量多、反演过程开销大、非编辑区域计算浪费等问题 [6] - 在将猫编辑为虎的案例中发现非编辑区域存在高空间冗余,反演过程存在高时间冗余 [14] - 当前学界对图像编辑任务中时空冗余性带来的计算开销问题研究较少,是一片蓝海 [6] 方法简介 - EEdit采用输出特征复用方式压缩反演过程时间步,使用区域分数奖励控制区域标记更新频率 [7] - 设计了空间局域缓存算法(SLoC),利用编辑区域掩码作为空间知识先验来针对性更新feature tokens [20] - SLoC算法包括分数图初始化、区域分数奖励、feature tokens选择和递增补偿等步骤 [21][22][23] - 采用缓存索引预处理(TIP)技巧,将缓存更新逻辑转为离线预处理算法 [24] 实验结果 - 在FLUX-dev开源权重上进行实验,覆盖PIE-bench等四个数据集 [26] - 定量评估显示SLoC+ISS方案在PSNR(31.97)、LPIPS(1.96)、SSIM(0.94)等指标上最优 [27] - 计算开销(264.5T FLOPs)和推理时间(4.60s)显著优于其他方法 [27] - 定性实验显示EEdit在编辑区域精确度和背景一致性上表现优越 [28] - 与其他缓存算法相比,SLoC在前景保持度上效果提高50%以上 [29]