Workflow
OmniFlow
icon
搜索文档
腾讯研究院AI速递 20250618
腾讯研究院· 2025-06-17 23:40
一、DeepSeek-R1在编程领域表现优异 - DeepSeek-R1在LMArena榜单中整体排名第6,是开源模型中的第一名,编程测试排名第2 [1] - 在WebDev Arena网页编程竞赛中,DeepSeek-R1与Claude Opus 4并列第一,分数超过Claude Opus 4 [1] - 该模型在MIT开源协议下提供领先性能,标志着开源AI在编程领域达到与顶级闭源模型相当水平 [1] 二、MiniMax开源高效推理模型MiniMax-M1 - MiniMax-M1仅用380万元、3周时间训练完成,支持100万token输入和8万token输出,生成效率是DeepSeek-R1的4倍 [2] - 采用Lightning Attention混合架构和CISPO强化学习算法,训练效率提升2倍 [2] - 在多项基准测试中表现可比或超越DeepSeek-R1、Qwen3等开源模型,在工具使用和软件工程任务上甚至超越OpenAI o3和Claude 4 Opus [2] 三、Kimi发布开源代码模型Kimi-Dev - Kimi-Dev仅72B参数,在SWE-bench Verified中取得60.4%成绩,成为开源SOTA [3] - 核心设计融合BugFixer和TestWriter双角色,通过自我博弈协调bug修复与测试编写能力 [3] - 以Qwen2.5-72B为基础模型,利用GitHub数据中期训练和强化学习优化,采用MIT协议完全开源 [3] 四、阿里开源Qwen3全系列MLX量化模型 - 阿里开源32款Qwen3全系列MLX量化模型,每款提供4bit、6bit、8bit和BF16四种精度版本 [4] - MLX框架使Mac、iPad及iPhone均可部署Qwen模型,已在魔搭社区和Hugging Face开源 [5] 五、腾讯元宝上线AI编程模式 - 腾讯元宝电脑版使用DeepSeek V3模型,通过@AI编程指令实现一句话写代码功能 [6] - 支持双栏展示界面,左侧提需求右侧实时显示代码,支持HTML即时预览和多种语言在线运行 [6] - 适用于教学辅助、亲子编程、开发辅助等场景,可生成网页、图表、游戏等多种应用 [6] 六、松下发布多模态大模型OmniFlow - OmniFlow支持文本到图像、文本到音频、音频到图像等多种模态间任意转换生成任务 [7] - 采用模块化设计理念,各组件可独立预训练后灵活合并微调,提高训练效率和模型扩展性 [7] - 在MSCOCO-30K等基准测试中表现优异,文本到图像任务FID值显著降低 [7] 七、13岁少年创立AI智能体公司FloweAI - FloweAI开发通用AI智能体,可完成PPT制作、文档撰写、航班预订等任务 [8] - 支持网页端使用,免费用户每月10次任务,付费105元可无限使用并解锁高级功能 [8] - 已吸纳大学生加入团队,创始人设定月入1万美元目标并寻找联合创始人 [8] 八、中科院研制超高并行光计算芯片"流星一号" - "流星一号"首次实现超100并行度光子计算,50GHz主频下理论峰值算力达2560TOPS [10] - 通过波分复用技术和孤子微梳源提供超百波长信道,算力提升2个数量级 [10] - 未来单芯片算力有望突破5000POPS [10] 九、Django创始人警告AI Agent三大致命威胁 - AI Agent存在"致命三重威胁":访问私人数据、暴露于不可信内容、具备外部通信能力 [11] - 攻击者可诱导其窃取用户数据并外泄,LLM会遵循任何输入内容中的指令而无法判断来源可信度 [11] - 目前缺乏100%可靠的防范措施,用户需主动避免"致命三重威胁"组合以确保安全 [11] 十、Anthropic公开Claude深度研究功能构建细节 - Claude采用"指挥家-演奏家"多智能体架构,性能比单智能体高出90.2%但token消耗达15倍 [12] - 系统包含主智能体负责规划分解任务、子智能体并行执行、外部记忆存储和引用智能体验证 [12] - 总结提示工程八大原则和评估三大原则,需解决状态累积、调试困难、部署协调等可靠性挑战 [12]