Workflow
Suno V4.5
icon
搜索文档
腾讯研究院AI速递 20250721
腾讯研究院· 2025-07-21 00:02
开源模型竞争 - Kimi K2超越DeepSeek成为全球开源模型第一,总榜排名第五,紧追顶尖闭源模型 [1] - K2继承DeepSeek V3架构并进行参数调整,包括增加专家数量、减半注意力头数、保留第一层Dense及专家无分组 [1] - 全球TOP 10开源模型中唯二入选的均来自中国,"开源=性能弱"的印象正被打破 [1] 视频生成技术突破 - Decart发布MirageLSD,首个实时(40毫秒延迟)、无时长限制的扩散视频模型,可处理任意视频流 [2] - Karpathy成为天使投资人,预见其在实时电影制作、游戏开发和AR领域的广泛应用 [2] - 技术突破在于实时流扩散(LSD)架构,通过逐帧生成和历史增强方法解决误差累积问题 [2] AI音乐创作升级 - Suno V4.5+版本提供人声与器乐分层生成与融合功能,用户可上传个人人声或伴奏进行AI辅助创作 [3] - 新增"Inspire"模式允许用户上传3秒至8分钟的个人干声,AI学习演唱特点后创作符合个人声音气质的音乐 [3] - 谱乐AI平台已同步上线Suno V4.5+核心生成能力,优化创作门槛并提升AI协作效率 [3] 音乐AI助手整合 - 腾讯元宝App 2.30版本正式接入QQ音乐服务,实现"一句话搜歌、划线即播"功能 [4] - 混元大模型与DeepSeek-R1双引擎驱动,能识别模糊音乐描述并结合情境推荐 [4] - 用户体验包括无缝账号体系连接、多模态交互和创作辅助功能 [4] AI Agent竞争 - OpenAI推出ChatGPT agent,面向Pro用户,但遭到Manus、Genspark等竞品公司的直接对比和批评 [5] - ChatGPT agent整合了Deep Research、Operator和ChatGPT功能,能自动完成退休计划、购物清单等任务 [5] - 实测各有特色,Manus输出更美观,Minimax提供多种格式报告,Kimi内容详细且询问用户具体需求 [5] 角色动画技术 - PhysRig是UIUC与Stability AI提出的角色动画可微物理绑定框架,将刚性骨架嵌入弹性软体 [6] - 通过MPM可微分物理模拟替代传统LBS,解决了体积丢失与变形伪影问题 [6] - 在17类角色和120组动画测试中全面优于传统方法,支持跨物种动作迁移 [6] 通用推理模型突破 - OpenAI的神秘通用推理模型在IMO 2025中解出5道题目,获得35分,达到金牌水平 [7] - 该模型具备持续数小时的深度创造性思维能力,远超以往AI的秒级或分钟级推理 [7] - 这是通用强化学习突破而非特定任务训练的成果 [7] AI工具设计理念 - 最佳AI编程工具应是简单、通用的"乐高积木",而非功能堆砌的复杂系统 [8] - Claude Code创造者主张将控制权还给用户,工具不应替你决定工作流,而是提供底层能力 [8] - 有效工作流包括:先探索规划再由用户确认后编码、使用测试驱动开发、对照目标迭代改进 [8] AI产品战略 - 聚焦Agent:预训练模型已含工具知识,只需激发能力,智能上限由模型决定 [9] - 开源:提升知名度、获取社区贡献,防止用技术捷径粉饰效果,倒逼模型真正进步 [9] - 选择DSV3架构:实验证明自研结构无法胜过DSV3,资源有限下避免引入无效变量 [9] AI未来发展方向 - 许多人构建的辅助工具与路由系统最终会被扩展模型取代,真正遵循扩展法则的方向是直接提高模型能力 [10] - 当前AI模型学习数据效率远低于人类,算法改进比简单扩大数据规模更重要 [10] - 多智能体研究新方向:研究如何让模型从15分钟推理扩展到数小时甚至数天,建立AI"文明" [10]
腾讯研究院AI速递 20250507
腾讯研究院· 2025-05-06 18:46
生成式AI - OpenAI放弃完全营利性转型,将由非营利组织继续控制,同时营利性机构转为公益公司(PBC)[1] - 公司架构调整后取消利润上限制度,采用常规股权结构,非营利组织将成为PBC主要股东[1] - 承诺继续专注AGI发展造福人类使命,并计划开源部分高性能模型[1] - 英伟达发布Llama-Nemotron开源模型家族,包含8B到253B三种规格,支持动态切换推理模式,遵循开放商业许可[1] - LN-Ultra运用Puzzle框架和FFN融合技术优化部署效率,在推理性能和吞吐量上超越DeepSeek-R1[1] - 通过Qwen和DeepSeek-R1教师模型支持,结合多阶段训练和强化学习,全面提升模型推理与通用对话能力[1] Grok PDF功能 - Grok新增PDF渲染功能,支持一句话指令快速生成格式化PDF文档,免费和付费用户均可使用[2] - 功能基于LaTeX代码实现,支持学术论文、简历、菜单等多种文档类型,可通过对话优化或直接修改代码[2] - 相比ChatGPT依赖第三方库的PDF生成功能,Grok在排版质量和用户体验上有明显优势[2] Suno音乐生成 - V4.5版本支持长达8分钟的音乐生成,并新增punk rock、jazz house等细分风格,支持跨界混搭创作[3] - 人声表现力全面升级,实现从耳语到高音的动态音域,并优化了颤音、呼吸控制等专业级细节[3] - 提升了音乐描述识别能力,可精准理解抽象表达,并支持乐器分层、环境音效等音乐元素的精细解构[3] 英伟达语音识别 - 英伟达开源的Parakeet TDT 0.6B语音识别模型创下纪录,能在1秒内转录60分钟音频,词错误率仅6.05%[3] - 模型采用FastConformer-TDT架构,可一次性处理24分钟音频片段,支持标点符号预测和时间戳[3] - 以CC-BY-4.0许可开源,参数量600M,支持商用,但目前仅支持英语识别[3] ACE-Step音乐生成 - ACE-Step结合深度压缩自编码器、扩散模型和线性Transformer,在A100上20秒可生成4分钟音乐,比基线快15倍[5] - 支持19种语言音乐生成,覆盖流行、摇滚等多种风格,并具备人声克隆、歌词编辑等高级控制功能[5] - 采用Apache License 2.0开源协议,已开放训练代码和LoRA模块,将陆续推出RapMachine、StemGen等专业功能[5] AI考古发现 - 2025年研究人员首次非侵入性读取到赫库兰尼姆古卷PHerc. 172的标题,内容为斐洛德谟的《论恶习》第一卷[5] - 该发现由两个团队同时完成,获奖团队Marcel Roth和Micha Nowak利用AI图像分割和墨迹检测技术,获得6万美元奖金[5] - 这些古卷源自公元79年维苏威火山爆发被掩埋的罗马贵族别墅,AI技术为解读这些碳化的古代智慧开创新途径[5] AI数学工具 - 陶哲轩在ChatGPT协助下,仅用4小时独立开发了一个验证数学估计的开源工具,可自动判断涉及正参数的不等式是否成立[6] - 他与ChatGPT的交互过程从基础类编写开始,逐步完善功能,显示了AI在复杂数学工具开发中的实用价值[6] - 作为早期接受AI的顶级数学家,陶哲轩认为到2026年AI将成为数学研究的可靠合作者,并建议数学家与程序员协作开发此类工具[6] AI版权问题 - 法律主要保护具体的"表达"而非抽象的"风格",单纯模仿吉卜力画风通常不构成侵权,但使用其具体角色和情节可能侵权[6] - AI训练数据未经授权存在法律风险,但传统"先授权后使用"模式已不适用,目前缺乏相关立法和豁免机制[6] - 面对AI挑战,艺术家的核心竞争力在于思想深度和时代洞察,应关注作品的独特视角而非技术层面的复制能力[6]