Workflow
锯齿智能
icon
搜索文档
腾讯研究院AI速递 20260506
腾讯研究院· 2026-05-06 00:03
一、xAI发布Grok 4.3模型 - xAI低调发布Grok 4.3模型,其Intelligence Index达到53分,超过Claude Sonnet 4.6,是该公司模型线中最强的版本[1] - 该模型的API定价为输入1.25美元/百万Token、输出2.50美元/百万Token,价格比上一代模型降低了40%至60%,输出速度约为196 Token/秒[1] - 模型准确率有所提升,但非幻觉率下降,整体性能仍落后于GPT-5.5与Claude Opus 4.7,适合性价比要求高的工作场景,不适合高风险任务[1] 二、OpenAI升级Codex为通用电脑管家 - OpenAI对Codex进行了重磅升级,新增了与Slack及Google Workspace全家桶的集成,使其从代码工具进化为能操控电脑的通用Agent[2] - 实测中,Codex能全自动调用Adobe Audition、Photoshop、Firefly等软件完成音频修复、封面设计与AI视频生成等一系列任务,全程无需人工操作[2] - OpenAI首席执行官奥特曼称其迎来了“ChatGPT时刻”,导致许多开发者弃用Claude Code转投Codex,此举被认为将重新定义“使用电脑”的方式[2] 三、DeepSeek发布多模态识图技术 - DeepSeek发布了多模态技术报告,其识图模式采用了一个284B参数、13B激活的模型,基座为DeepSeek-V4-Flash[2] - 该技术的创新点在于将语言推理升级为“语言逻辑+空间坐标”双轨思维,模型在思考时能直接框定视觉锚点[2] - 通过三级压缩技术,将KV缓存的视觉条目压缩了7000余倍,该模型在多项视觉QA任务上的表现超越了GPT-5.4、Claude-Sonnet-4.6等模型[2] 四、腾讯混元推出CL-Bench Life基准 - 腾讯混元推出了名为CL-Bench Life的基准测试,包含405个真实生活任务和5348条人工评分标准,专门用于测试AI对日常上下文的学习能力[3] - 该基准涵盖沟通社交、碎片信息修订、行为活动轨迹三大类场景,覆盖群聊、笔记、健身记录等真实生活情境[3] - 测试结果显示,前沿模型平均仅能解决14.5%的任务,表现最强的GPT-5.5也只完成了22.2%的任务,主要错误原因在于上下文误用,而非长文本推理能力不足[3] 五、Anthropic与OpenAI同日宣布新合资模式 - Anthropic联手黑石、高盛等机构募集了15亿美元资金,而OpenAI则联合TPG、贝恩等成立了规模达100亿美元的DeployCo公司[3] - 两家公司共同放弃了传统的企业销售模式,转而借助私募基金所投资企业的资源,推行“驻场工程师”式的AI部署服务[3] - 这种驻场服务的毛利率较低,仅为30%-50%,远低于API服务约80%的毛利率,将其独立拆分既能加速技术落地,又能保住母公司未来IPO时的估值倍数[3] 六、宇树科技发布低价人形机器人R1 - 宇树科技于4月30日发布了双臂人形机器人R1系列,起售价为2.69万元,主打上半身双臂操作,下半身可选择固定底座或移动底盘[4] - 整机自由度在15至31之间,手臂提供5×2和7×2两种方案,机身与头部各搭载8核CPU,头部算力为10TOPS[5] - 该系列共推出R1-A5、R1-A7及对应的D版四个版本,标配2kg手臂负载、±0.1mm末端精度,末端支持双指、三指、五指灵巧手的快速更换[5] 七、智谱团队优化Coding Agent推理系统 - 智谱GLM-5系列模型在高并发长上下文的Coding Agent场景中出现了乱码、复读等异常,根源在于推理基础设施的竞态Bug[5] - 团队定位并修复了PD分离架构中KV Cache的竞态问题以及HiCache加载时序缺失两个底层问题,将异常率从万分之十几降低到了万分之三[5] - 团队推出了名为LayerSplit的KV Cache分层存储方案,在40K-120K的长上下文请求中,系统吞吐量提升了10%至132%[5] 八、Karpathy发表对AI未来的见解 - Karpathy在红杉峰会上指出,大模型的发展使得某些旧软件失去了存在理由,例如安装脚本未来可能被“.md说明文档”所取代[6] - 他提出了“锯齿智能”概念,认为模型能力差异源于实验室对可验证领域的资源倾斜,垂直领域仍是创业机会[6] - 他强调未来神经网络或将成为主要的计算层,CPU将退居辅助地位,并指出人类不可外包的核心能力是“理解”而非“思考”[6] 九、a16z对话Roblox产品经理探讨公司未来形态 - Roblox产品负责人Peter Yang认为,传统应用将逐步消亡,Agent将成为主流的交互入口,工具型App将首当其冲[6] - 他主张未来公司应保持小规模,例如将10%的产品团队压缩至2-3%的核心成员,并配备Agent助手协同工作[6] - 他提出了“快慢结合”的节奏论,认为在局部最优解阶段可借助Agent高速登顶,而在需要跨越认知障碍时则需慢下来探索[6]