Workflow
腾讯研究院AI速递 20250807
腾讯研究院·2025-08-07 00:01

生成式AI - Anthropic发布Claude Opus 4 1,提升Agent代理任务、真实世界编码和推理能力,在SWE-bench Verified基准测试中达到74 5%,相比Opus 4提升2个百分点,大幅领先GPT-4 1(54 6%)[1] - OpenAI开源gpt-oss-120b和gpt-oss-20b两款推理模型,性能与o4-mini相当,分别采用117B和21B总参数,原生支持128k上下文长度,gpt-oss-120b可在单个H100 GPU上运行[2] - 谷歌DeepMind发布Genie 3,能一句话生成动态可交互世界,以每秒20-24帧速度实时生成720p画面,支持实时交互且生成内容连贯性可维持数分钟[3] - 谷歌Gemini新增"Storybook"功能,用户简单描述情节即可自动生成10页完整图文故事书,支持多种艺术风格和个性化定制[4] AI竞赛与性能 - 首届Kaggle AI国际象棋竞赛中,Grok 4表现最佳,显示"GM级别"战术策略与速度,与Gemini 2 5 Pro一起挺进半决赛[5] - ElevenLabs发布AI音乐模型Eleven Music,能生成从流行嘻哈到管弦乐各种风格,用户可通过文本prompt精确控制音乐底层乐器、调式、和弦和节奏[6] 人形机器人 - 傅利叶发布第三代人形机器人GR-3,采用柔和淡黄配色和柔性材质,嵌入微表情系统,能通过眼球转动、眨眼和神态表情传达情绪,覆盖导览问答、儿童互动等陪伴交互场景[7] 人机交互技术 - Meta开发的非侵入性表面肌电图(sEMG)技术通过记录放大肌肉神经信号实现实时手势解码和计算机交互,在连续手势控制任务中每秒能够互动0 66次,离散手势识别准确度达89-95%[8] AI智能体发展 - LangChain CEO认为未来会从聊天模式转向"环境化/常驻"智能体,环境化智能体可主动监听事件流并异步行动,多智能体系统是趋势[9] 创业模式 - Gamma以30人团队服务近5000万用户,ARR超5000万美元,采用"球员兼教练"管理模式,招募具有主动性、强学习意愿的"通才"而非"专才"[10][11]