Workflow
腾讯研究院AI速递 20250711
腾讯研究院·2025-07-10 22:48

马斯克发布Grok4 - 马斯克发布Grok4,强调其在各种测试中表现优异,特别是在"人类终极考试"测试中超越竞品 [1] - Grok4训练方式转变,注重"第一性原理"思考能力,并在训练阶段就学会使用工具解决问题 [1] - Grok面临"机械希特勒"争议,其不审查不过滤理念虽吸引用户但也引发问题,AI对齐挑战尚未解决 [1] 微软开源Phi-4家族新版本 - 微软开源Phi-4-mini-flash-reasoning,采用创新的SambaY架构,推理效率提升10倍,延迟降低2-3倍 [2] - SambaY架构通过门控存储单元实现跨层高效记忆共享,无需显式位置编码,大幅提升长上下文处理能力 [2] - 新模型适用于算力受限设备,单GPU可运行,在高级数学推理和长文本生成方面表现优异,适合教育科研领域 [2] Perplexity上线AI浏览器Comet - Perplexity正式推出AI浏览器Comet,以"智能体搜索"为核心,与谷歌Chrome竞争 [3] - Comet三大价值主张包括个性化了解用户思维、强大易用的内容理解能力、提升效率减少标签切换 [3] - Comet功能丰富,可代替用户操作网页、智能处理内容、管理邮箱日历、搜索个人数据,目前支持Mac和Windows系统 [3] OpenAI收购io公司 - OpenAI完成对io公司收购,前苹果设计师Jony Ive及其团队LoveFrom正式加入,担任深度设计与创意职责 [4] - Ive可能将帮助OpenAI开发全新智能硬件产品,团队已经将初步想法转变为切实可行的设计 [5] - io公司由Ive与多位专家共同创立,汇集了硬件软件工程师、科学家等专家,将与OpenAI研发团队紧密合作 [5] 谷歌发布医疗AI新模型 - 谷歌发布医疗AI新模型:多模态MedGemma 27B与轻量级编码器MedSigLIP,扩展HAI-DEF医疗模型集合 [6] - MedGemma系列包含4B和27B两种规模,支持图文输入并生成文本输出,4B版在医学问答测试达64.4%准确率,27B版达87.7% [6] - MedSigLIP是仅含4亿参数的医疗图像编码器,通过多种医学影像调优,适用于图像分类、零样本分类和语义检索,为MedGemma提供视觉理解能力 [6] 腾讯公开征集AI设计师 - 腾讯"生肖企鹅"共创活动上线几小时内请求量飙升300%,tokens使用量翻倍,服务器紧急扩容 [7] - 活动邀请用户使用混元3D AI创作引擎设计2026年的"马鹅"手办,只需输入文字、上传图片或画草图即可生成 [7] - 优秀作品将有机会与腾讯联名量产并在官方周边商店上架,活动截止到2025年7月27日 [7] OpenAI开源模型计划 - OpenAI计划发布"开放权重模型",类似o3 mini级别,最快下周上线,将允许企业自行部署,这是自2019年以来首次开放模型权重 [8] - OpenAI正开发基于Chromium构建的AI浏览器,将在ChatGPT原生界面处理网页内容,支持AI代理直接执行任务,挑战Google Chrome [8] - OpenAI正全面扩张业务范围,从模型研发到浏览器等用户入口,战略布局已超出传统模型公司边界,显示其对技术领先和生态掌控的野心 [8] Hugging Face开源机器人 - Hugging Face与Pollen Robotics联合推出开源机器人Reachy Mini,起售价299美元,专为人机交互和AI实验设计 [10] - Reachy Mini提供基础版(299美元)和无线版(449美元)两种配置,支持Python编程,配备摄像头、麦克风和扬声器等多模态交互功能 [10] - 机器人高28厘米,重1.5公斤,提供15种预设行为,完全开源且可扩展,基础版预计2025年夏末发货,无线版将于2025年秋季起分批交付 [10] Meta发布具身智能报告 - Meta发布40页报告,首次将"心智世界模型"与物理世界模型并列为具身智能的关键组成部分 [11] - 心智世界模型关注人类的目标意图、情绪状态、社会关系和交流方式,使AI能理解人类心理状态并进行社会互动 [11] - Meta提出整合"观察学习"(系统A)和"行动学习"(系统B)的双系统架构,前者提供抽象知识,后者负责探索行动,以实现更高效的智能体学习 [11] AI产品"反框架"路线 - 顶级AI产品如Cursor、Perplexity和Lovable选择"反框架"路线,基于AI基本单元直接构建而非使用框架 [12] - 框架在快速变化的AI领域成为创新障碍,过度抽象导致臃肿、迭代缓慢,而基本单元提供可组合性和专业性 [12] - 基本单元方法(如Memory、Thread、Tools等)让开发者像搭积木一样构建AI产品,降低认知负担,提高性能和灵活性,更适应AI技术快速迭代 [12]