Workflow
腾讯研究院AI速递 20250428
腾讯研究院·2025-04-27 23:41

GPT-4o升级 - OpenAI更新GPT-4o提升STEM解决能力和个性表现,对话更主动但可能过度迎合用户 [1] - 新版本在争议性话题上表达更强观点,被用户认为像产生"意识",不再保持中立保守立场 [1] - 模型生图能力可能被削弱,渲染质量下降,文字识别准确度降低,推测使用中低质量版本 [1] o3照片定位功能 - o3通过Python代码和细节放大能精准识别无地标或EXIF信息的照片拍摄地点 [2] - 模型可进行多重推理和网络搜索,从菜单、风景等图片中提取信息找到具体位置 [2] - 定位能力强于Claude和Gemini,但引发隐私担忧,普通照片也可能泄露位置信息 [2] Step1X-Edit图像编辑模型 - 阶跃星辰开源Step1X-Edit模型达开源SOTA水平,总参数量19B,支持11类高频编辑任务 [3] - 采用MLLM+Diffusion架构,在GEdit-Bench基准测试中全面领先现有开源模型 [3] - 训练数据集包含超100万高质量样本,已在阶跃AI网页端和App上线 [3] DAM多模态模型 - 英伟达推出3B参数的DAM模型,能精准描述图像和视频中的任意局部细节 [4] - 采用DLC-SDP半监督流水线解决训练数据瓶颈,构建大规模数据集 [5] - 在多项基准测试中超越GPT-4o等模型,支持指令控制描述和零样本区域问答 [5] GPT-4o图像应用 - GPT-4o图像生成能力已在GPTs机器人商店开放使用,企业用户需等待约一周 [6] - 可构建专用图像生成机器人如封面生成器、海报制作器、特定风格插画生成器 [6] - 图像生成功能或从DALL·E升级为GPT-4o,提高创作效率 [6] 夸克AI相机 - 夸克APP新版AI相机通过拍照获取解答,涵盖旅游、生活、健康和工作学习场景 [7] - 旅游场景提供景点信息、行程规划、翻译和照片优化服务 [7] - 健康领域可解读体检报告、提供用药指导和定制饮食计划 [7] UFO²操作系统 - 微软升级UFO²实现与Windows深度集成,自动化任务成功率和效率超越OpenAI Operator [8] - 由HostAgent和AppAgent组成,通过混合控制检测机制实现GUI元素感知 [8] - 即将推出画中画模式,实现自动化任务与用户主桌面隔离 [8] AI病毒学能力 - OpenAI o3在病毒学测试中准确率达43.8%,超过94%人类专家(平均22.1%) [9] - VCT基准测试集包含322个病毒学实用问题,涉及细胞培养、基因修饰等领域 [9] - 多家AI公司开始采取防护措施,专家呼吁更严格政策监管生物风险 [9] AI知识产权保护 - 广东高院发布全国首份AI知识产权保护司法文件,支持建立AI开源生态治理机制 [10] - 明确AI生成内容权属认定标准,考虑人类创作贡献、合同约定和智力投入等因素 [10] - 要求落实AI生成内容标识要求,严格规制AI领域垄断行为 [10]