腾讯研究院AI速递 20250507

生成式AI - OpenAI放弃完全营利性转型，将由非营利组织继续控制，同时营利性机构转为公益公司（PBC）[1] - 公司架构调整后取消利润上限制度，采用常规股权结构，非营利组织将成为PBC主要股东[1] - 承诺继续专注AGI发展造福人类使命，并计划开源部分高性能模型[1] - 英伟达发布Llama-Nemotron开源模型家族，包含8B到253B三种规格，支持动态切换推理模式，遵循开放商业许可[1] - LN-Ultra运用Puzzle框架和FFN融合技术优化部署效率，在推理性能和吞吐量上超越DeepSeek-R1[1] - 通过Qwen和DeepSeek-R1教师模型支持，结合多阶段训练和强化学习，全面提升模型推理与通用对话能力[1] Grok PDF功能 - Grok新增PDF渲染功能，支持一句话指令快速生成格式化PDF文档，免费和付费用户均可使用[2] - 功能基于LaTeX代码实现，支持学术论文、简历、菜单等多种文档类型，可通过对话优化或直接修改代码[2] - 相比ChatGPT依赖第三方库的PDF生成功能，Grok在排版质量和用户体验上有明显优势[2] Suno音乐生成 - V4.5版本支持长达8分钟的音乐生成，并新增punk rock、jazz house等细分风格，支持跨界混搭创作[3] - 人声表现力全面升级，实现从耳语到高音的动态音域，并优化了颤音、呼吸控制等专业级细节[3] - 提升了音乐描述识别能力，可精准理解抽象表达，并支持乐器分层、环境音效等音乐元素的精细解构[3] 英伟达语音识别 - 英伟达开源的Parakeet TDT 0.6B语音识别模型创下纪录，能在1秒内转录60分钟音频，词错误率仅6.05%[3] - 模型采用FastConformer-TDT架构，可一次性处理24分钟音频片段，支持标点符号预测和时间戳[3] - 以CC-BY-4.0许可开源，参数量600M，支持商用，但目前仅支持英语识别[3] ACE-Step音乐生成 - ACE-Step结合深度压缩自编码器、扩散模型和线性Transformer，在A100上20秒可生成4分钟音乐，比基线快15倍[5] - 支持19种语言音乐生成，覆盖流行、摇滚等多种风格，并具备人声克隆、歌词编辑等高级控制功能[5] - 采用Apache License 2.0开源协议，已开放训练代码和LoRA模块，将陆续推出RapMachine、StemGen等专业功能[5] AI考古发现 - 2025年研究人员首次非侵入性读取到赫库兰尼姆古卷PHerc. 172的标题，内容为斐洛德谟的《论恶习》第一卷[5] - 该发现由两个团队同时完成，获奖团队Marcel Roth和Micha Nowak利用AI图像分割和墨迹检测技术，获得6万美元奖金[5] - 这些古卷源自公元79年维苏威火山爆发被掩埋的罗马贵族别墅，AI技术为解读这些碳化的古代智慧开创新途径[5] AI数学工具 - 陶哲轩在ChatGPT协助下，仅用4小时独立开发了一个验证数学估计的开源工具，可自动判断涉及正参数的不等式是否成立[6] - 他与ChatGPT的交互过程从基础类编写开始，逐步完善功能，显示了AI在复杂数学工具开发中的实用价值[6] - 作为早期接受AI的顶级数学家，陶哲轩认为到2026年AI将成为数学研究的可靠合作者，并建议数学家与程序员协作开发此类工具[6] AI版权问题 - 法律主要保护具体的"表达"而非抽象的"风格"，单纯模仿吉卜力画风通常不构成侵权，但使用其具体角色和情节可能侵权[6] - AI训练数据未经授权存在法律风险，但传统"先授权后使用"模式已不适用，目前缺乏相关立法和豁免机制[6] - 面对AI挑战，艺术家的核心竞争力在于思想深度和时代洞察，应关注作品的独特视角而非技术层面的复制能力[6]