Workflow
机器之心
icon
搜索文档
这才是IMO奥赛战神:满分,5战3金,刚被MIT录取
机器之心· 2025-07-23 18:36
机器之心报道 编辑:Sia 最近,IMO 是真的热闹。 不过,大家谈论的重点都是 AI 在国际数学奥林匹克( IMO )上的表现。 这不,除了海外的 OpenAI、谷歌,国内的字节跳动 Seed 团队也刚刚公布了他们的 IMO 竞赛结果: 今年 IMO 全球共有五位选手以满分 42/42 的成绩脱颖而出。其中一位,是加拿大队的 11 年级学生 Warren Bei 。 六道题,全部解答正确,这个成绩极其罕见。IMO 作为全球最难的中学生竞赛之一,每年全球能拿到 满分的学生屈指可数,他们往往是国家级选拔赛的冠军、备战数年、几乎把整本高等数学内化的顶尖天 才。 Warren Bei 正是其中之一,也是队里唯一的满分选手。 | Year | Contestant [♀♂][←] | | | | P1 P2 P3 P4 P5 P6 Total | | | | Rank | | Award | | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | | | | | | | | | | | Abs. | Rel. | | | 20 ...
ICCV高分论文|可灵ReCamMaster在海外爆火,带你从全新角度看好莱坞大片
机器之心· 2025-07-23 18:36
此外,ReCamMaster 在 4D 重建、视频去抖动、自动驾驶、具身智能 等领域有较强的应用价值。 本文第一作者白健弘,浙江大学26届博士生,研究方向为视频生成,目前正在寻找工业界全职岗位。 作为视频拍摄爱好者,你是否曾因为设备限制无法完成想要实现的运镜效果?例如想要将镜头上移拍摄风景的全貌,但没有入手拍摄无人机;又或是对拍摄素材 很满意,但拍摄时手抖影响了成片质量。作为 AI 视频创作者,是否对于生成视频的内容很满意,然而运镜却不尽人意? 为了解决以上问题, 可灵研究团队提出了一种可将输入视频沿新相机轨迹重新运镜的视频生成模型 ReCamMaster 。用户可以上传任意视频并指定新相机拍摄轨 迹,实现已有视频的重运镜。该工作还发布了一个高质量 多相机同步拍摄的视频数据集 MultiCamVideo-Dataset,数据集和训练、测试代码均已开源 。 论文标题:ReCamMaster: Camera-Controlled Generative Rendering from A Single Video 1.ReCamMaster 能力展示 项目主页:https://jianhongbai.github.i ...
无线合成数据助力破解物理感知大模型数据瓶颈,SynCheck获顶会最佳论文奖
机器之心· 2025-07-23 16:57
在万物互联的智能时代,具身智能和空间智能需要的不仅是视觉和语言,还需要突破传统感官限制的能力;无线感知正成为突破这些物理限制的关键技术:通过 捕捉无线信号的反射特性,它让不可见的目标变得可感知,使机器能够 "看见" 墙壁后的动静、"感知" 数米外的动作,甚至捕捉到人类难以察觉的微妙变化。这种 全新的感知维度,能对环境中人机行为实现无感监测与精准解析,正在重塑人机交互的边界。 从感知到决策,离不开具有强大语义理解能力的大模型。但怎样构建一个除了视觉和语言之外,能够理解物理原理(电磁场、光学、声学等)、与物理世界交互 的大模型? 这一问题并不能复制语言、视觉大模型的经验,因为大模型可以从人类几千年的文字资料中学习语言,可以从整个互联网的视频学习视觉;但除此以外,能提供 给模型学习的数据微乎其微;仅依赖真实世界的数据采集,难以支持大模型所需的海量数据。 为解决数据稀缺这一最大挑战,北京大学的许辰人教授团队和匹兹堡大学的高伟教授联合提出 SynCheck ,为机器学习提供与真实数据质量相近的合成数据。相关 工作发表在移动计算领域旗舰会议 MobiSys 2025 上,并获得会议的最佳论文奖。 论文标题: Data C ...
用户暴涨近300万,国产AI音乐神器Mureka重磅升级V7,我们拿它复刻了「印度神曲」
机器之心· 2025-07-23 16:57
AI音乐生成技术发展 - AI音乐生成技术已实现高度拟真,部分作品在网易云音乐获得15万点赞,但仍有音质糊、人声失真等可识别特征[4] - 行业呈现加速进化态势,AI音乐作品正从"牙齿漏风"向"真假难辨"快速迭代[4][5] - 昆仑万维Mureka V7成为当前国产最强音乐大模型,在平均表现评分(57.7%)、人声真实感(70%)等关键指标超越海外竞品Suno V4.5[6][8] Mureka V7技术突破 - 相比前代V6实现全面升级:旋律动机质量从59.5%提升至72%,编曲质量从41%提升至51.5%,人声真实感从48.5%跃升至70%[7][8] - 创新性推出"自定义歌手"功能,可基于音频/视频链接模仿特定音色(如成功复现王菲空灵声线与气声唱法)[12][16] - 新增自动MV生成能力,支持土味风格视频创作,包含黄色描边歌词等特色元素[20] 核心技术MusiCoT - 采用音乐思维链技术(MusiCoT)实现三大创新:先规划结构后生成(符合人类创作逻辑)、生成结构可解释可控、主客观验证效果全面领先[27][28][32] - 通过CLAP模型实现音乐风格的可控输入,支持任意长度参考音频作为提示[31] - 技术升级推动生成作品结构完整度提升71%,旋律连贯性优化59%,达到行业顶流水准[33][34] 商业化应用场景 - 面向普通用户:支持文字Prompt生成免版权BGM(如"回忆童年的温暖钢琴旋律"),大幅降低创作门槛[23] - 面向专业音乐人:生成作品可提供创作灵感,加速从灵感到成品的转化过程[35] - 新增Mureka TTS V1音频模型,语音质量超越ElevenLabs TTS V2,支持通过文本定义音色特征(如12岁女童音、新闻播音员等)[37][44] 行业竞争格局 - 垂直领域大模型(音乐/视频)成为技术博弈新焦点,各厂商加速抢占AIGC商业化落地场景[48] - 昆仑万维形成"基础研究-基座模型-产品矩阵"全产业链,Mureka系列新增用户近300万[49][51] - 行业呈现从基础模型竞赛向垂直应用转型的趋势,音乐创作正向"全民表达"方向发展[47][52]
夸克健康大模型万字调研报告流出:国内首个!透视主任医师级「AI大脑」背后的深度工程化
机器之心· 2025-07-23 16:57
编者荐语: 该报告全面阐述了夸克健康大模型的打造全过程,其中技术亮点与工程实践值得深入研读。 以下文章来源于亲爱的数据 ,作者亲爱的数据 亲爱的数据 . 第一,通用大模型能力虽快速增长,但要在高专业度的 健康医疗领域 "炼成"性能高且可靠的推理模型,仍极具挑战。业界主流方向早期由 DeepSeek R1 验证有效。当下,或蒸馏 DeepSeek R1 模型数据,或在小数据集上探索较为常见;然而,在选择合适预训练模型的基础上,从头设计并搭建整套流程,并 用于业务一线,较为罕见。尤其在健康 医疗 领域,自建整套流程化系统,能够明确模型从哪些数据,以何种方式学到哪些知识,哪个环节学得不好;不 仅提高性能,而且能提高可解释度和信任度。调研发现,夸克健康大模型直接支持搜索业务一线,并支持智能体夸克健康助手、夸克深度研究产品(仅开 放试用)。 (二)推理数据情况特色 (三)推理数据产线一:冷启动数据与模型微调 (四)推理数据产线一:推理强化学习训练 (五) 推理数据产线二: 高质量不可验证数据集 (六)强化学习推理系统:高质量推理数据质量评估 (七)强化学习推理系统:多阶段训练 第二,高质量的思考数据( Chain-of ...
新的CodeBuddy IDE测了,我们感受到腾讯搞定创意人士的野心
机器之心· 2025-07-23 16:57
腾讯AI编程工具CodeBuddy发布 - 腾讯正式发布AI IDE CodeBuddy并开启内测,该工具已覆盖腾讯内部90%员工,43%代码由AI生成补全[4] - CodeBuddy从插件升级为覆盖"产品-设计-研发部署"全流程的AI一体化开发工作台,定位为首个产设研一体AI全栈工程师[6][15] - 工具集成多AI Agent功能,支持非专业用户完成从想法到产品发布的全生命周期开发[17][18] 智能体演进路线图 - 腾讯提出AI智能体五级演进范式,类比自动驾驶分级,当前行业处于L3项目级自动化阶段[8][10] - L4阶段将实现产品需求到生产部署全流程自动化,L5阶段将形成多AI代理协作的完整开发团队[11] - 公司计划2027年实现L5级智能体,CodeBuddy是向L4多智能体协作迈进的关键一步[12][13] 产品功能特性 - UI设计突出AI交互功能区,淡化传统编程元素,界面由QQ团队参与开发,注重非专业用户体验[22][23][24] - 国际版支持Claude/GPT/Gemini等大模型,国内版将接入DeepSeek和混元大模型[25][26] - 实测显示工具可在5分钟内完成HTML程序雏形,2分钟实现功能迭代,支持PRD文档生成、云端部署等全流程[28][29][35][36][39] 市场定位与战略意义 - 工具瞄准创意人士市场,通过降低技术门槛激发非专业用户创意实现[45][48][49] - 结合腾讯开发生态,可能推动创意软件井喷式发展,改变产品开发范式[50] - 演示案例显示工具具备Figma转代码等高频需求解决能力,UI设计规范性和功能完整性突出[42][43][47]
ICML2025|清华医工平台提出大模型「全周期」医学能力评测框架MultiCogEval
机器之心· 2025-07-23 09:04
本文工作由清华大学电子系医工交叉平台吴及教授和刘喜恩助理研究员所领导的医学自然语言处理团队,联合北邮、科大讯飞、无问芯穹等单位共同完成。 第一作者周宇轩为清华大学电子工程系博士生,其研究方向聚焦于大模型的医疗垂类能力评估与优化,此前已提出 MultifacetEval(IJCAI 2024)与 PretexEval(ICLR 2025)等医学知识掌握的多面动态评估框架体系。吴及教授和刘喜恩助理研究员所领导的医学自然语言处理团队长期致力于面向真实需 求驱动的医工交叉前沿技术研究与产业变革,曾在 2017 年联合科大讯飞研发了首个以 456 分高分通过国家临床执业医师资格考试综合笔试测试 AI 引擎 Med3R(Nature Communications 2018)并在全国 400 多个区县服务于基层医疗;2021 年联合惠及智医研发了首个基于全病历内容分析的智慧医保 AI 审核引擎,获得国家医保局智慧医保大赛一等奖,并在全国多个省市进行示范应用。 大语言模型(Large Language Models,LLMs)技术的迅猛发展,正在深刻重塑医疗行业。医疗领域正成为这一前沿技术的 "新战场" 之一。大模型具备 强 ...
DeepMind刚拿完IMO金牌,科学家就被Meta挖走了,都是华人大牛
机器之心· 2025-07-23 09:04
机器之心报道 编辑:泽南、Panda 这下轮到皮查伊难受了。 上周 IMO 2025 奥数,Google DeepMind 和 OpenAI 的新模型拿了金牌,结果获益最大的却是 Meta? 我们刚刚见证了 AI 领域人才「大洗牌」的新一轮高潮。 Meta 挖走 DeepMind IMO 金牌成员 今天凌晨,有外媒报道说三位参加奥数夺金模型的 Google AI 研究者,被 Meta 挖走了。 Meta 首席执行官马克・扎克伯格继续努力,为了重振 Llama 系列,进行了前所未有的 AI 人才引进。 据三位知情人士透露,Meta 最新挖走的三位研究者均为华人:Tianhe Yu、Cosmo Du 和 Weiyue Wang,他们曾参与谷歌 Gemini 系列模型最新版本的研发。 就在本周一,谷歌宣布 搭载深度思考的 Gemini 进阶版正式达到 IMO 2025 国际数学奥林匹克竞赛金牌标准 。Gemini(与 OpenAI 新模型)是首批获得 IMO 正式评 分和认证的 AI 参赛队伍,其评分标准与学生解决方案相同,可以说实现了 AI 领域的一次技术突破。 然而让人没有料到的是,DeepMind 还没高兴几 ...
刚刚,OpenAI星际之门要建5GW数据中心,马斯克祭出AI基建5年计划
机器之心· 2025-07-23 09:04
机器之心报道 编辑:Panda 昨天,《华尔街日报》报道称,OpenAI 和软银在推迟了 6 个月的 星际之门(Stargate) 项目上出现了争执,并大幅缩减了近期计划。 报道援引知情人士透露的信息称,软银和 OpenAI 共同领导了「星际之门」项目,但在合作的关键条款上一直存在分歧,包括数据中心建设地点。尽管两家公司在 1 月份的声明中承诺「立即」投资 1000 亿美元,但该项目目前设定了一个更为温和的目标,即在今年年底前建造一个小型数据中心,很可能位于俄亥俄州。 或许正是为了回应这个报道,OpenAI 公布了星际之门计划的新进展:OpenAI 正式宣布正与甲骨文(Oracle)在美国合作开发另外 4.5 GW 的星际之门数据中心容 量。 此外,他们德克萨斯州阿比林的 Stargate I 数据中心即将上线。两者相加,OpenAI 与甲骨文合作开发的星际之门 AI 数据中心容量将超过 5 GW 。 更直观地对比一下,根据《上海电力供应环境可持续性关键绩效指标报告(2024 年度)》,2024 年上海电网夏季最高用电负荷达 4030 万千瓦,也即 40.3 GW。 「这显著推进了我们兑现今年 1 月在白宫宣 ...
重塑注意力机制:GTA登场,KV缓存缩减70%、计算量削减62.5%
机器之心· 2025-07-22 16:59
首当其冲的是计算冗余问题。在 MHA (多头注意力) 架构中,每个注意力头都像一个独立的 "工作单元",各自独立地计算查询 (Query)、键 (Key) 和值 (Value) 向 量,这导致了大量的重复计算。特别是在处理长序列任务时,浮点运算次数 (FLOPs) 会呈平方级增长,严重拖慢了模型的处理效率,使得原本复杂的任务变得更 加耗时。 其次是内存瓶颈。每个注意力头都需要完整存储其对应的键值对 (KV) 缓存,这使得内存需求随序列长度和注意力头数量的增加而快速膨胀。例如,在处理长序列 时,KV 缓存的规模可以轻松突破数 GB,如此庞大的内存占用极大地限制了大型模型在智能手机、物联网设备等边缘设备上的部署能力,使其难以真正走进千家 万户。 最后是推理延迟问题。高昂的计算和内存需求直接导致了推理速度的显著下降,使得像语音助手实时响应、在线翻译无缝切换等对延迟敏感的实时应用难以提供 流畅的用户体验。尽管业界的研究者们曾尝试通过 Multi-Query Attention (MQA) 和 Grouped-Query Attention (GQA) 等方法来优化效率,但这些方案往往需要在性能 和资源消耗之间做出艰难 ...