Workflow
机器之心
icon
搜索文档
医疗领域DeepSeek时刻:蚂蚁 · 安诊儿医疗大模型正式开源,登顶权威榜单
机器之心· 2026-01-09 10:53
AI医疗应用趋势 - 全球ChatGPT对话中超过5%与医疗健康相关,每天有4000万人向ChatAI寻求健康问题答案[3] - 用户主要使用AI探索症状(60%)和理解医学术语或临床建议(52%),越来越多的医生在撰写医疗报告时应用AI[3] - OpenAI已发布ChatGPT健康,整合个人健康信息与大模型能力以辅助健康决策[3] 蚂蚁安诊儿医疗大模型(AntAngelMed)概述 - 模型由蚂蚁集团联合浙江省卫生健康信息中心、浙江省安诊儿医学人工智能科技有限公司开源[4] - 总参数量达到1000亿,激活参数为61亿,是迄今为止参数量最大的开源医疗领域专业模型[5] - 在HealthBench、MedAIBench等权威评测中表现超过GPT-oss、Qwen3、DeepSeek-R1等通用模型及现有医疗增强推理模型,达到开源模型第一[5] - 在MedBench中国医疗健康领域LLM权威基准中位列第一,综合得分68.0[7][8] 模型技术架构与训练 - 采用专业三阶段训练流程构建医学能力[12] - 第一阶段为持续预训练,在蚂蚁百灵通用基座模型Ling-flash-2.0-base上引入大规模高质量医学语料以构建完整医学知识结构[13][14][15] - 第二阶段为监督微调,引入高质量医疗指令数据,重点微调模型推理过程表达,使其在真实场景中能更好理解语境并给出符合医疗逻辑的回应[16][17] - 第三阶段为强化学习,采用GRPO算法,通过推理强化学习和通用强化学习双阶段路径,优化模型因果推理清晰度并控制行为边界与风险意识[18][19][20][21][22] 模型性能与效率 - 采用高效混合专家架构,仅激活1/32参数(61亿),相比同等规模Dense架构可实现高达7倍的效率提升[26][29][30] - 仅需6.1B激活参数即能实现约40B稠密模型的性能,资源占用更低、可扩展性更强[30] - 在H20硬件环境下推理速度超过200 tokens/s,约为36B稠密模型的3倍,适合高并发医疗场景[31] - 采用YaRN外推技术将上下文长度扩展至128K,增强处理长病历文档能力[33] - 采用FP8量化结合EAGLE3优化方案,在并发数为32时显著提升推理吞吐量,在HumanEval、GSM8K和Math-500数据集上提升幅度分别为71%、45%和94%[34] 行业影响与展望 - 模型开源将极大降低前沿医疗AI技术应用门槛,使大量机构和研究者可进行下游任务微调[44] - 蚂蚁集团将依托国家平台持续推进“AI+医疗”开源生态与技术创新,普惠更多开发者与用户[45]
明天上市,MiniMax上市额度已经被抢疯了
机器之心· 2026-01-08 22:24
IPO认购与市场热度 - 即将于1月9日上市的MiniMax创下港股IPO机构认购历史记录,参与认购机构超过460家,超额认购达70多倍[1] - 国际配售订单需求达320亿美元,最终超460家机构下单190亿美元,剔除基石部分后超额认购约79倍[2] - 暗盘交易显示股价表现强劲,开盘后最高达211.2港元,收盘报205.6港元,涨幅24.6%[3] 投资者结构与基石 - 认购受到众多长线基金及国家主权基金青睐,包括新加坡、南非、中东、加拿大等主权基金,其中多家认购金额超10亿美元[2] - 长线基金认购订单总额超过60亿美元[2] - 基石投资者包括14家机构,如中东阿布扎比基金、韩国未来资产基金等[2] 收入构成与业务模式 - 公司收入主要来自两部分:AI原生产品、开放平台及其他基于AI的企业服务[3] - 截至2025年6月底,AI原生产品收入达3802万美元,占总收入超70%;平台及企业服务收入1541万美元,占比28.9%[3] - 收入结构呈现多元化趋势,具体产品线包括MiniMax应用、Glow AI、MiniMax语音及Talkie/星野等[6] 用户规模与付费情况 - 截至2025年9月底,AI原生产品累计用户达2.12亿,其中付费用户超过177.1万[3] - 各产品变现方式包括应用内充值、订阅及在线营销服务等[6] 财务表现与亏损 - 截至2025年9月底,公司亏损约为1.8亿美元,现金持有超过3.62亿美元[4] - 财务数据显示亏损额逐年扩大,但经调整亏损净额(非国际财务报告准则)在2025年九个月为1.8628亿美元[5] - 部分投资者认为其商业模式清晰且营收方式逐步多元化,对公司未来实现收支平衡抱有信心[5] 历史收入数据 - 公司总收入从2023年的346万美元,快速增长至2024年的3052.3万美元,并在2025年前九个月达到5343.7万美元[4][6] - AI原生产品收入占比从2023年的21.9%大幅提升至2025年前九个月的71.1%[4][6] - 开放平台及企业服务收入占比从2023年的78.1%下降至2025年前九个月的28.9%[4][6]
博士申请终极指南:「从准备到抉择」手把手教你拿下理想offer
机器之心· 2026-01-08 17:34
文章核心观点 - 文章基于加州大学圣地亚哥分校教授Lucy Lai的经验,系统性地阐述了博士申请的全过程,旨在为申请者提供一份详尽的“内部参考指南”,内容涵盖从前期准备、材料撰写到面试技巧及最终择校的各个环节 [1] 一般申请技巧 - 申请前需明确读研决心,若材料不够优秀可考虑休学积累,并咨询研究导师以评估自身竞争力和申请策略 [7] - 申请过程耗时耗力,建议尽早开始,在计划申请季前的夏天就应缩小学校范围并列出感兴趣的导师名单 [8] - 选择课程和学校主要取决于研究兴趣与导师匹配度,专业名称的差异在博士生涯中后期重要性降低,应咨询导师获取项目声誉和导师推荐 [9] - 申请学校数量取决于感兴趣的实验室数量,普遍原则是申请至少有2-3位感兴趣导师的学校,建议申请6到10所,以平衡选择余地与申请负担 [10][11] - 申请费用高昂,例如斯坦福大学申请费为125美元,但大多数学校提供费用减免,可通过搜索政策或联系招生主任节省费用,案例中节省了约600美元 [12][13] - 申请前联系项目负责人(PI)主要对申请者自身有益,可为后续面试带来主观优势,但不应指望其对申请审核有决定性帮助 [14] 申请材料与面试 - 申请后首要目标是获得面试机会,但并非所有项目都有面试环节,例如许多工程系项目直接根据在线申请决定录取 [17] - 面试是双向选择过程,只有排名前5%到15%的申请者能获得面试机会,学校通常会承担所有差旅费用 [18] - 面试时应自信,准备好阐述研究经历、兴趣及择校原因,面试本质是对话,多数导师旨在了解申请者是否适合,通常持续30-40分钟 [18][19] - 核心申请材料包括成绩单、简历、3封推荐信、个人陈述(SoP),部分学校可能要求研究陈述或多元化陈述 [20] - 推荐信极其重要,最佳方案是请三位不同研究经历的导师分别撰写,个人陈述需回答为何读博、研究经验、未来研究计划及择校原因等核心问题 [20] - 面试结构通常包括自我介绍、研究兴趣阐述、了解面试官实验室以及提问环节 [21] 录取考量因素与面试官视角 - 录取决定关键因素包括研究方向的契合度和整体印象 [23] - 拥有受人尊敬且知名的推荐人支持是巨大优势 [27] - 申请者需能清晰阐述自己对研究项目的具体贡献 [27] - 面试官看重申请者能否就科学展开生动有趣的对话,展现积极倾听和深入讨论的能力 [27] - 录取的核心是双向的“匹配度”,即项目与申请者相互评估适应性 [27] - 从面试官角度看,优秀的申请者应具备谦逊、好奇心、创造力、韧性、勤奋、友善和正直等特质 [23] 如何选择学校 - 收到录取通知后,可通过制作评分表格来辅助择校,为科研契合度、院系文化等类别打分(0-10分),以厘清自身看重的方面 [25][26]
「听觉」引导「视觉」,OmniAgent开启全模态主动感知新范式
机器之心· 2026-01-08 17:34
核心观点 - 浙江大学、西湖大学、蚂蚁集团联合提出了一种名为OmniAgent的“音频引导”主动感知智能体,通过“思考-行动-观察-反思”闭环机制,实现了从被动响应到主动探询的范式转变,旨在解决端到端全模态大模型在跨模态对齐和细粒度理解上的痛点 [2] - 在多个基准测试中,OmniAgent的准确率超越了包括Gemini 2.5-Flash和Qwen3-Omni在内的主流开闭源模型,证明了其方法的有效性 [2][13] 背景与痛点 - 端到端全模态模型虽实现视听统一,但面临高昂训练成本与困难的跨模态特征对齐问题,导致细粒度跨模态理解表现不佳 [7] - 基于固定工作流的智能体依赖人为设定僵化流程,缺乏细粒度与灵活性,无法根据问题自主进行规划与信息获取 [7] - 基于视频字幕的智能体需预先构建整个视频的帧字幕数据库,计算成本高且难以捕捉细节的跨模态信息 [8] 方法论与创新 - OmniAgent摒弃固定工作流,采用“思考-行动-观察-反思”闭环机制 [10] - 在思考阶段,智能体会根据问题自主决定“听”还是“看” [15] - 在行动阶段,智能体从构建的多模态工具库中选取合适工具调用,工具库包括:首创的音频引导事件定位工具(用于快速锁定关键时间窗口)、视频工具(全局问答与片段问答)、音频工具(全局描述、细粒度问答、语音转录) [15] - 在观察与反思阶段,智能体评估现有证据能否正确回答问题,并进行跨模态一致性检查,确保视听证据互证,以解决幻觉与对齐问题 [11] 性能表现 - 在Daily-Omni基准测试中,OmniAgent准确率达到82.71%,超越Gemini 2.5-Flash的72.7%和Qwen3-Omni-30B的72.08%,提升幅度超10% [13] - 在OmniVideoBench长视频理解任务中,OmniAgent准确率达59.1%,大幅领先Qwen3-Omni-30B的38.4% [14][16] - 在WorldSense基准测试中,OmniAgent平均准确率达61.2%,领先于Video-SALMONN 2+的56.5%和Gemini 2.5 Flash的50.9% [17] 未来愿景与意义 - OmniAgent的设计理念具有高扩展性,能够继续结合其他模态的工具 [19] - 该智能体能够帮助生成高质量的COTT数据,用于构建可以自我调用工具的下一代智能体全模态模型 [19] - 该工作证明了音频引导的主动感知策略是解决全模态理解任务中跨模态对齐困难、提升细粒度推理能力的有效路径,为未来全模态Agent算法设计提供了新的范式参考 [19]
拓宽百年奥运「赛场边界」,阿里云AI让人人皆可上场
机器之心· 2026-01-08 17:34
AI视频生成技术发展现状 - AI视频生成技术进化迅速,真实与AI生成内容的界限已变得模糊,越来越多“真实”视频被质疑为AI生成,而AI生成内容被误认为真实拍摄[1][2] - 技术超越不应仅在于对现实的复刻,更应在创新应用中想象更美好的未来[4] 阿里云与米兰冬奥会AIGC大赛 - 作为2026年米兰冬奥会官方云服务合作伙伴,阿里云联合国际奥委会及米兰冬奥组委会,在冬奥会倒计时30天之际发起全球AIGC大赛[5][6] - 大赛Slogan为“YOUR EPIC VIBE”,与本届冬奥口号“IT's Your Vibe”相呼应[8] - 大赛规则要求参赛者使用阿里云“万相大模型”,在花样滑冰、短道速滑、高山滑雪、单板滑雪四个经典项目中任选其一生成冬奥视频[9] - 阿里巴巴AI产品生态为大赛提供全栈式支持,包括开源开发者社区Modelscope、AI创作工具通义万相和堆友[9] - 国际奥委会将从四个项目中各选25个最佳作品,纳入奥林匹克博物馆收藏,并组合成奥运史上首个AIGC数字艺术影像作品集《YOUR EPIC VIBE》[9] - 这是自1896年现代奥运首次举办以来,AI首次以这种方式被写进奥运历史[10] - 大赛Top 100中将评选出10位在叙事创意、情感深度和美学构图上表现最好的获奖者,他们将获得米兰冬奥会现场门票[11] 万相大模型Wan2.6的技术能力 - Wan2.6于去年12月登场,面向专业级影视制作和图像创作场景[15] - 该模型提升了画质、音效、指令遵循能力,并新支持多镜头叙事及最长15秒视频生成[18] - 在国内首次支持角色扮演功能,用户本人可以入镜,并用自己的声音出演AI视频[18] - 模型在冬奥冰雪项目上表现出高可玩性,能生成如雪人滑雪、毛绒怪兽滑雪、小王子滑雪等富有童趣和想象力的场景[20][21][23] - 角色扮演功能允许指定角色生成视频,例如让奥特曼进行速滑,或让马斯克表演花样滑冰[25][26] - 在动态表现和视觉冲击力上表现突出,能自动实现稳定、贴近动作的动态运镜,模拟低机位跟拍带来的速度感与冲击力[28][29] - 能处理高难度慢镜头,清晰展现高速运动中的细节[29] - 能够稳稳驾驭高难度的多人场面,保持人物间相对位置、运动方向与节奏清晰,无混叠或错乱[30] - 在高速运动、多人互动及音画同步等关键场景下性能超高,能自然融入虚构角色或真人形象,完成连贯表演[31] - 生成过程中镜头会随运动推进自动调整视角并切换,具备基本的分镜逻辑与节奏变化[31] Wan2.6的核心技术突破 - 实现了超真实还原,解决了物理规律准确模拟、时序一致性、细节高度还原、原生音视频逻辑一致等技术挑战[35] - 提供音画一体的多模态参考生成能力,通过对输入参考视频进行多模态联合建模与学习,实现从画面到声音的全感官一致性保持与迁移[35] - 能输出衔接连贯的多镜头,可一键完成单人、多人、人与物合拍的视频,并自动实现多镜头切换,保持主体像素级统一[36] - 保证叙事完整不偏离主题,解决了AI的时间记忆和逻辑常识挑战,最长支持15秒1080P视频生成,能轻松搞定完整叙事的Vlog视频[37] - 一系列底层能力突破使其打破视觉、听觉与物理规律之间的藩篱,成为生产力级别的视觉生成引擎[38] AI技术普及与奥运应用的意义 - 全球AIGC大赛成为“AI for all”理念的实践阵地,AI赋予了普通人更沉浸的奥运体验[42] - 在高山滑道、花滑冰场或单板U型场,普通人可以成为主角,这是奥运级AI科技首次大规模应用于粉丝互动[42] - 阿里云以万相大模型为主导的交互范式变革,正将“智能技术无处不在、人人可及”的愿景落地[42]
刚刚,智谱敲钟上市了,市值达528亿港元
机器之心· 2026-01-08 10:06
上市概况与市场表现 - 智谱华章于2026年1月8日在香港联交所上市,成为全球首家以通用人工智能基座模型为核心业务的上市公司 [1][3] - 公司股票代码为02513.HK,首日开盘价为120港元/股,市值达到528.28亿港元 [4] - 本次IPO发行价为每股116.20港元,募资总额超过43亿港元(“绿鞋”前) [4] - 香港公开发售获得1159.46倍认购,国际发售获得15.28倍认购,显示出极高的市场热度 [4] - 吸引了由国资、保险、公募、私募及产业投资人构成的11家基石投资者,合计认购29.8亿港元 [4] 公司定位与技术实力 - 公司是中国最早投身大模型研发的厂商之一,被誉为“中国的OpenAI” [6] - 原创性地提出了基于自回归填空的通用预训练范式GLM,并率先发布了中国首个百亿模型、首个开源千亿模型、首个对话模型、首个多模态模型以及全球首个设备操控智能体 [6] - GLM架构已实现全国产化突破,适配超过40款国产芯片,成为业内通用性最高的模型体系之一 [7] - 2025年12月,新一代基座模型GLM-4.7在Artificial Analysis综合能力榜和Code Arena编码榜中,均位列开源模型与国产模型榜首 [8] - GLM-4.7发布两个月内,吸引了来自184个国家的15万开发者为其编程订阅产品付费,并有超过50家海内外开发平台工具选择接入 [8] 研发投入与资金用途 - 公司坚持高比例研发投入,2022年至2024年研发投入分别为8440万元、5.289亿元、21.954亿元,2025年上半年为15.947亿元,累计约44亿元 [8] - 研发人员占比高达74% [8] - GLM系列模型保持快速迭代,每2-3个月完成一次基座迭代 [8] - 本次IPO募集资金净额的70%(约29亿港元)将用于通用AI大模型研发,10%(约4.2亿港元)将用于优化MaaS平台及基础设施建设 [10] 市场地位与商业化进展 - 根据弗若斯特沙利文报告,按2024年收入计算,公司在中国独立通用大模型开发商中排名第一,在所有通用大模型开发商中排名第二 [13] - 截至2025年9月30日,公司模型赋能全球12000家企业客户(其中互联网客户占50%)、超过8000万台终端用户设备及超过4500万名开发者 [13] - 公司是中国赋能终端设备最多的独立通用大模型厂商 [13] - 2022年至2024年,公司收入分别为5740万元、1.245亿元、3.124亿元,年复合增长率高达130% [13] - 2025年上半年收入为1.91亿元,同比增长325% [13] - 2022年至2024年,公司毛利率分别为54.6%、64.6%、56.3%,2025年上半年毛利率为50% [13] 商业模式与增长动力 - 公司自2021年开始布局MaaS模式,早于行业商业化时间两年 [14] - 形成了以MaaS为核心的标准化产品体系,通过API调用、模型订阅及本地化部署等方式向企业及开发者输出通用智能能力 [14] - MaaS平台已汇聚超过300万家企业及应用开发者,是国内最活跃的大模型API平台之一 [14] - 编程订阅产品表现突出,上线短时间内即实现过亿的年度经常性收入,并在海外开发者社群中快速渗透 [14] 行业背景与发展前景 - 全球资本的AI投资叙事正从“能力验证”转向“规模扩张” [16] - 根据联合国贸发会议预测,全球AI市场规模将从2023年的1890亿美元增长至2033年的4.8万亿美元,十年内增幅达到25倍 [17] - 随着《人工智能大模型》系列国家标准正式实施,中国AGI发展进入“规范有序”的下半场 [17] - 公司作为“全球大模型第一股”上市,标志着中国AGI企业正式迈入资本市场舞台中央,开启与国际巨头同台竞技的新阶段 [17]
深入感知级别图像理解:UniPercept 统一图像美学、质量与结构纹理感知
机器之心· 2026-01-08 10:06
核心观点 - 研究团队发布了UniPercept,这是首个统一了美学、质量、结构与纹理三个维度的感知级图像理解框架,旨在解决多模态大语言模型在理解“图像看起来怎么样”这一感知层面的不足 [3] - 该工作建立了层次化的感知属性定义系统,构建了大规模基准测试集UniPercept-Bench,并开发了一个通过领域自适应预训练和任务对齐强化学习训练的强基准模型 [5] - UniPercept在视觉评分和视觉问答任务上全面超越了包括GPT-4o在内的18个现有顶尖模型,并在下游应用中展示了作为生成模型奖励模型和评估指标的潜力 [28][33] 技术框架与基准 - **统一的感知评价体系**:UniPercept-Bench的定义体系分为3个领域、17个类别和44个细分准则,精细程度远超此前图像评估基准 [10] - **图像美学评估**:侧重于构图设计、视觉元素与结构、情感和整体视觉吸引力,关注图像是否“好看” [11] - **图像质量评估**:侧重于感知保真度和降质因素,如噪声、模糊、压缩伪影,回答图像是否“技术性达标” [11] - **图像结构与纹理评估**:首次系统化提出的维度,强调局部特征、几何规律性、材质属性和细节丰富度,回答图像的“场景、结构、纹理和构成与复杂程度” [11] - **任务与数据流水线**:基准支持视觉评分和视觉问答两种任务形式,并通过三阶段自动化流水线(初始生成、拒绝采样、人工精修)确保数据质量,其中拒绝采样阶段剔除了约40%的不合格样本 [17][24] 模型训练方法 - **两阶段训练框架**:采用领域自适应预训练和任务对齐强化学习对基础多模态模型进行持续演进 [21] - **领域自适应预训练**:整合了约80万个样本的大规模语料库,涵盖文本描述、结构化标注和数值评分,使模型习得跨领域的底层视觉特征 [22] - **任务对齐强化学习**:采用GRPO算法进行策略优化,并针对感知任务设计特定奖励函数 [23] - **视觉问答任务**:采用二元奖励,鼓励模型输出准确的离散答案 [23] - **视觉评分任务**:创新性地设计了自适应高斯软奖励,根据预测值与参考分数的偏差动态调整平滑系数,并引入评分Token策略以缓解模型生成数字时的幻觉倾向 [25] 性能表现 - **视觉评分表现**:在UniPercept-Bench上,UniPercept在美学、质量、结构三个领域均取得了最高的斯皮尔曼相关系数和皮尔逊相关系数,全面超越评估的18个模型 [29] - 例如,在美学评估的多个数据集上,UniPercept的平均SRCC/PLCC达到0.590/0.586,显著高于GPT-4o的0.431/0.410 [30] - 在结构与纹理评估的ISTA-10K数据集上,UniPercept的SRCC/PLCC为0.778/0.767,而GPT-4o仅为-0.003/0.116,填补了现有模型对细节纹理判断的空白 [30] - **视觉问答表现**:UniPercept在处理精细感知问题上展现出显著优势 [31] - 在图像美学评估领域,准确率超越GPT-4o约16个百分点 [31] - 在图像质量评估领域,展现出极强的对细微损伤的定位与判断能力 [31] - 在图像结构与纹理评估领域,准确率突破80%,能够准确分辨不同材质的表面特性 [31] - 总体准确率达到81.07%,显著高于GPT-4o的66.36% [32] 下游应用 - **作为生成模型的奖励模型**:整合进文生图模型的微调流水线,从美学、质量、结构纹理三个方面对生成模型进行优化,当三个维度的奖励信号协同作用时,生成的图像在视觉吸引力和技术保真度上均达到最优 [34][37] - **美学引导**:显著改善生成图像的构图平衡和光影和谐度 [36] - **质量引导**:增强图像细节的锐度和清晰度,减少常见的伪影干扰 [36] - **结构纹理引导**:丰富了场景的复杂程度、结构的丰富度、物体的表面肌理 [37] - **作为生成模型的评估指标**:可以从美学、质量、纹理与结构三方面对图像进行全方位评估,准确反映不同模型输出图像的表现 [38] - **生成图像“感知档案”**:不仅能给出评分,还能从美学、质量、纹理与结构三个方面针对具体维度给出详细的文字解析与结构化输出 [41]
从过拟合到通用!ViMoGen开启3D人体动作生成新纪元
机器之心· 2026-01-07 17:30
行业背景与问题 - 3D人体动作生成领域相较于AIGC视频生成发展滞后,现有模型在标准数据集上表现良好,但泛化能力存在明显瓶颈,面对训练集未见的复杂交互或罕见动作时,生成结果往往缺乏自然性、崩坏或退化为简单平均姿态,严重限制了其现实应用[2] 核心解决方案:ViGen-to-MoGen - 研究提出将视频生成模型已习得的通用物理规律和人类行为知识“蒸馏”给3D人体动作生成模型的新思路[3] - 来自南洋理工大学、商汤科技、清华大学、香港中文大学和英伟达的研究团队,从数据、模型、评估三个维度重新定义了通向通用动作生成的路径[7][8] 数据支柱:ViMoGen-228K数据集 - 引入ViMoGen-228K数据集,包含约22.8万条高质量动作样本,实现了规模与多样性的双重飞跃[9][10] - 数据集包含文本-动作、文本-视频-动作多模态三元组[11] - 数据来源多样:结合了从30个动作捕捉数据集中筛选的高精度数据、从海量互联网视频提取的动作序列,以及利用视频生成模型合成的、在真实动作捕捉中极难获取的长尾动作数据,突破了传统数据采集的物理限制[15][16] 模型支柱:ViMoGen架构 - 采用Text-to-Motion与Motion-to-Motion双分支架构[15] - 通过门控机制,将视频生成模型的广泛语义先验与动作捕捉数据的精准物理先验相统一[15][18] - 该模型在传统测评和提出的新测评基准上均表现出色[18] 评估支柱:MBench基准 - 提出首个面向“泛化性”的评测基准MBench,从动作质量、文本忠实度、泛化能力三大维度细分为9项指标,是目前最全面的动作生成评测方式[15] - 传统指标如FID只能衡量与特定数据集的相似度,无法评估处理复杂罕见指令时的真实泛化能力[20] - 动作质量层面关注物理可实现性,如地面接触、穿模、脚步抖动和平滑度[21] - 指令忠实度层面利用多模态大模型评估生成动作与复杂文本描述的一致性[21] - 开放世界泛化力层面设计了一系列分布外测试案例,涵盖极端动作、长尾语义及复合指令,专门考验模型在未见过场景下的稳定性[21] 性能表现 - 在基于HumanML3D数据集的测评中,ViMoGen-light模型在R Precision (Top 1, Top 2, Top 3)、FID等多项指标上优于或媲美TM2T、T2M、MDM、MotionDiffuse、T2M-GPT、MoMask、Motion-LCM、MLD等现有模型[13] - 在MBench测评中,ViMoGen模型在动作一致性、泛化性、动态程度、脚步滑动、身体穿透、姿态质量等多个指标上表现领先或具有竞争力[14] 应用前景:赋能具身智能 - 可为具身智能与人形机器人控制研究提供海量高质量动作数据,传统机器人训练数据局限于几套标准动作,而ViMoGen-228K能提供大量长尾、边缘场景的高质量动作[23] - ViMoGen凭借强大泛化能力,能够批量产出特殊需求的动作数据,让智能体在虚拟训练阶段预演复杂动态,从而在现实部署中具备更强抗干扰能力[23] - MBench对动作质量的评估能为下游的从真实到模拟过程进行初步筛选,排除可能导致机器人频繁跌倒或关节自锁的无效动作[24] 生成效果展示 - 模型能够根据复杂文本指令生成多种高质量、复杂的3D人体动作,例如:空翻、多球杂耍、引体向上、空手道组合动作、推箱子等[26][28][30][32][34]
没错,马斯克的二次元「女友」被雷蛇装到外设里了
机器之心· 2026-01-07 17:30
产品发布与定位 - 雷蛇在CES 2026上展示了一款名为Project Ava的“桌面AI伙伴”,其核心形态是一个5.5英寸的桌面全息胶囊,内部呈现动态的3D立体二次元虚拟形象[1][3] - 该产品的官方定位是“与您形影不离的AI桌面伴侣”,目标受众是热衷于定制桌面设备的科技爱好者[3][8] - 该项目于去年以AI游戏教练的概念首次推出,今年实现了实体化,并计划于今年下半年正式推出,目前支持20美元的费用预定,具体售价尚未公布[5][8] 产品设计与功能 - 产品采用圆柱形桌面设备,顶部装有朝外摄像头,需与电脑屏幕并排放置,作为AI助手的专用显示屏[7] - 核心功能在于“既看你,也看你的电脑屏幕”,通过摄像头持续观察用户和屏幕内容,实现眼球追踪、面部表情识别和唇形同步,从而更全面地感知用户情境[3][7] - 设备配备高清摄像头、环境光传感器和双远场麦克风,具备多模态感知与交互能力,无需启动按钮或唤醒词即可实时在线交互[7][19] - 应用场景包括:在游戏中提供攻略、给予安慰鼓励;在工作场景中提供专业咨询、解决方案,并帮助安排日程和规划日常活动[7] 虚拟形象与个性化 - 目前提供5种全息投影形象选择,每种都有独特风格,例如能量球形式的AVA、二次元少女KIRA、肌肉型男ZANE、电竞选手FAKER以及日本网红SAO[5] - 虚拟形象支持自定义,用户可以从零开始创建自己的角色,未来官方还将继续开发新形象,包括与网络红人合作提供角色[5] - 所有虚拟形象共用一个由马斯克xAI的Grok大模型驱动的“灵魂”[10] 技术驱动与市场反响 - 产品的AI能力由马斯克xAI的Grok大模型驱动,这延续了Grok此前“智能伴侣”功能的风格,部分体验者认为其交互带有“调情”或过度热情的特质[10][15][16] - 尽管尚未正式发售,但官方豪言计划卖出“十亿台”[9] - 公司表示,未来Project Ava也将支持其他AI平台[17] 潜在争议与用户顾虑 - 产品“既看你,也看你的电脑屏幕”的卖点引发了关于隐私过度让渡的争议,AI可能通过观察用户表情主动发起话题甚至评价穿搭,这种“打破第四面墙”的交互在隐私敏感环境下可能引起用户不适[19] - 由Grok驱动的交互风格,例如角色KIRA在CES展会上表现出的过度热情和特定语气,让部分体验者感到其风格接近“调情”,这延续了此前用户对Grok“智能伴侣”功能中某些角色设计的负面反馈[14][15][16]
AAAI 2026 新加坡在吗?中国电信 TeleAI 邀你晚宴
机器之心· 2026-01-07 15:10
公司战略与人才计划 - 中国电信人工智能研究院(TeleAI)推出面向全球顶尖人才的“TeleAI Top Talents”高层次人才专项计划,旨在引入与培育人工智能头部人才[6][7] - 该计划为入选者提供极具竞争力的薪酬福利和高规格资源,支持青年人才主导核心项目研发,以发挥高端人才对AI技术的引领作用[7] - TeleAI将于2026年1月24日在新加坡AAAI 2026会议期间举办“TeleAI Top Talents”人才之夜活动,为人才提供与专家、学者深入交流的平台[3][7][9] 公司背景与领导力 - 中国电信人工智能研究院(TeleAI)于2024年5月在上海注册成立,同年7月在世界人工智能大会上正式揭牌,由集团CTO、首席科学家李学龙教授牵头组建[22] - 李学龙教授是AAAI Fellow,也是AAAI自1979年成立以来唯一一位来自中国大陆的执委,并积极支持2026年AAAI大会在新加坡举办[22] 技术布局与研究成果 - TeleAI前瞻布局智传网研究方向,研发生成式智能传输技术,推动相关技术在弱信号和无信号场景下落地应用[23] - 公司创新推出的新一代世界模型TeleWorld具备因果推理、物理一致性与实时交互能力,在国际权威榜单WorldScore排名第一[23] - TeleAI构建了大小脑协同、软硬件协同的具身智能技术体系,实现从前沿技术探索到场景验证落地的创新闭环[23] - 公司打造的“全模态、全尺寸、全国产”星辰大模型体系凭借全栈创新实力与广泛的产业赋能成效,成功入选“2025年度央企十大国之重器”[23] - TeleAI的研究方向广泛,包括智传网、生成技术、具身智能、大模型、AI安全与治理以及科学智能等多个领域[24][25] 市场活动与招聘 - TeleAI将在AAAI 2026会议期间设置展台,展示包括智传网、世界模型、具身智能、大模型在内的一系列前沿创新成果,并进行技术解读与分享[18] - 公司展台位于Hall 3 A45,展示时间为2026年1月22日至25日[18][19] - AAAI 2026将于1月24日下午举办“招聘会”环节,TeleAI设有专属展位,由招聘专家提供人工智能职业探索及规划指导[20] - 招聘会展位位于Hall 4 J04[21]