OpenAI发布GPT-Realtime,AI Agent进入超逼真对话时代;腾讯混元开源视频音效生成模型丨AIGC日报
OpenAI语音AI技术突破 - 发布专用于语音AIAgent的多模态模型GPT-realtime 能够生成更自然流畅的语音并完美模仿人类语调、情感及语速 [2] - 新增Marin与Cedar两种特色语音 同时对原有8种语音进行全面升级 [2] - 支持图像理解并与语音或文本对话结合 适用于客服、教育、金融及医疗等领域智能体开发 [2] 农业基因编辑AI技术创新 - 中国农业科学院开发AI大模型AlphaCD 基于全球最大实验验证数据集构建 [2] - 模型可高效预测超过2万种胞嘧啶脱氨酶的酶活特征 并设计新型高性能碱基编辑工具 [2] - 研究成果发表于国际期刊《细胞研究》 [2] 阿里巴巴数据分析Agent升级 - 旗下瓴羊发布数据分析Agent Quick BI智能小Q升级三大核心能力(问数、解读和报告) [2] - 完整Agent能力将于9月9日全面开放给所有企业用户 [2] 腾讯开源视频音效生成技术 - 腾讯混元开源端到端视频音效生成模型HunyuanVideo-Foley 支持视频与文字描述输入生成电影级音效 [2] - 开源模型可通过GitHub、Hugging Face下载 或通过混元官网直接体验 [2] 行业数据资源服务 - 提供超过2万LP数据、10万基金数据及1万专精特新小巨人企业数据 [6] - 覆盖全生命周期各维度权威榜单及产业图谱 [6]