Workflow
腾讯研究院
icon
搜索文档
腾讯研究院AI速递 20250716
腾讯研究院· 2025-07-15 23:09
英伟达恢复对华销售H20 AI芯片 - 美国政府授予英伟达许可恢复向中国销售H20 AI芯片[1] - 政策转变源于黄仁勋与特朗普会面强调公司对美国就业和AI领先地位的支持[1] - 2025财年Q1收入达26044亿美元同比增262% 数据中心业务226亿美元为核心增长点[1] Meta超算集群建设规划 - 2026年投运1GW「Prometheus」AI集群 算力相当于核电站或百万人口城市用电量[2] - 2027年「Hyperion」计划扩容至5GW 占地面积对标曼哈顿 配套自建天然气电厂[2] - 算力规模远超OpenAI星际之门(300-500MW)和马斯克Colossus项目(250MW)[2] 马斯克Grok 4智能伴侣功能 - 推出动漫角色Ani(含NSFW模式)和卡通熊猫Rudy 具备3D动画与语音交互能力[3] - 中文发音仍显机械 交互动作待优化 功能处于早期阶段[3] - 新增提示词生成HTML5游戏功能 可自主整合3D模型与纹理[3] 亚马逊Kiro IDE工具发布 - 提供氛围编码与规划双模式 通过规约(Specs)和挂钩(Hooks)实现规格驱动开发[4] - 自动转化需求为技术设计图 文档代码同步 挂钩自动化检查流程[5] - Anthropic同步更新Claude Code支持Windows 可替换为Kimi K2模型[5] 谷歌Gemini嵌入模型突破 - MTEB评测68.37分超越OpenAI(5893分) 价格仅015美元/百万token[6] - 32层Transformer架构 采用MRL技术支持多维嵌入输出[6] - 两阶段训练(预微调+精调) 在检索/分类/聚类任务表现优异[6] 秘塔AI深度研究功能 - 可视化问题链展示搜索/思考/决策过程 支持互动网页与图表生成[7] - 用户可管理来源偏好(屏蔽/优先网站) 免费版每日100搜索额度(单次消耗20-30)[7] - 年费会员每日500次 研究质量对标OpenAI DeepResearch[7] UCSD&NYU多模态记忆系统 - MIRIX在ScreenshotVQA基准准确率比RAG高35% 内存占用减少999%[8] - 设计6类人记忆系统(核心/情景/语义等) 通过多智能体协作构建认知基础[8] - 已开源并发布Mac应用 支持文本/截图/对话日志多模态输入 SQLite本地存储[8] 微软Orbformer量子化学模型 - 解决多参考体系精度与效率矛盾 计算成本降低两个数量级[10] - 三模块架构: 原子核MPNN/动态轨道生成器/电子Transformer[10] - 键解离等测试达化学精度(1 kcal/mol) 实现分子间计算共享[10] OpenAI工程师谈编程趋势 - 未来程序员价值80-90%来自结构化沟通 代码仅占10-20%[12] - 规约(Specification)比代码更重要 可完整捕捉意图与价值观[12] - 模型规约实践案例: Markdown文档版本化管理 解决GPT-4o谄媚问题[12]
短视频平台“Top100新闻达人”洞察报告|附2万字报告下载
腾讯研究院· 2025-07-15 13:04
短视频平台新闻达人洞察报告核心观点 - 短视频已成为新闻传播主战场,87%用户通过短视频获取新闻,远超其他渠道[1][17] - 新闻达人群体崛起,兼具专业性与人格化特征,12%头部达人粉丝超500万[2][33] - 专业立身与人格破圈形成双轨驱动,70.1%用户认为达人表达更生动有趣[23][53] - 用户画像呈现中龄化特征,31岁以上用户占比达82%,年轻用户渗透率仅17%[47][48] - 直播和AI技术将成为未来关键趋势,推动内容生产与互动模式革新[81][82] 短视频时代的媒介重构 - 用户新闻消费转向短视频平台,87%首选率显著高于社交平台(60.8%)和传统资讯App(57.1%)[17][18] - 美国市场同步显现趋势,18-29岁年轻人中近40%通过TikTok获取新闻[18] - 83.7%用户仍依赖主流媒体官方账号,但新闻达人账号选择率达47.1%,相当于官方渠道的56.2%[19][21] 新闻达人群体画像 - 粉丝呈金字塔分布:61%在100万以下,12%超500万,头部如"新闻姐"突破2000万[33] - 地域集聚效应显著:北京(央媒背景)、浙江(垂直领域)、山东(生活类)为前三聚集地[34] - 内容高度集中于时政社会类(近80%),财经娱乐类仅占少量份额[40][42] - 男性占比56%略高于女性44%,性别分布相对均衡[39] 用户认知与行为特征 - 信息需求呈现"快讯(72.6%)+事实(66.3%)+评论(66.1%)"三位一体结构[58] - 79%用户认为达人内容提升认知深度,64.8%产生情感共鸣,27.5%影响消费决策[61][62] - 52.4%用户比较信任媒体背景达人,仅3.8%表示不太信任[68][69] - 82%用户会核实达人内容真实性,仅17.3%很少核实[70] 未来六大发展趋势 - 人机协同智能化创作:AI将深度嵌入策采编播全流程,3-5年内形成专业化体系[78][79] - IP智能体实时互动:数字分身技术拓展服务链条,从讲述者转向答疑陪伴者[80] - 直播成为关键阵地:增强公共参与感,推动从内容提供到议题引导的角色升级[81][82] - 个体IP机构化演进:工作室制取代单兵作战,形成轻型团队化生产模式[83][84] - 全球本土化叙事:驻外记者内容受关注,Glocal成为国际化核心抓手[85] - 重建连接与信任:在去中心化网络中重构新型信任机制[76][77]
腾讯研究院AI速递 20250715
腾讯研究院· 2025-07-14 22:38
生成式AI - Comet浏览器采用"AI Agent原生"设计理念,实现多标签页信息连接与复杂任务执行,核心理念为"从浏览到思考" [1] - Comet通过"环境重构派"策略重构浏览器为智能环境,而非简单集成AI功能,旨在重新定义人机信息交互模式 [1] - 当前Comet仅向支付200美元的Max订阅用户开放,面临用户习惯改变与高定价双重挑战 [1] Meta战略布局 - Meta以近1亿美元估值收购语音AI公司PlayAI,团队将并入新语音AI部门,强化音频生成能力 [2] - PlayAI的语音克隆、多语言TTS及情感对话技术将补足Meta多模态内容生成短板 [2] - 此次收购是Meta 720亿美元年度AI投入计划的关键环节,与组建AI Superintelligence Labs等动作协同 [2] 具身智能突破 - 智源研究院开源RoboBrain 2 0具身智能大脑(32B 7B版本)及RoboOS 2 0框架,在10项评测中超越GPT-4o [3] - RoboBrain 2 0突破空间理解 时间建模 长链推理三大瓶颈,在9项基准测试刷新纪录 [3] - RoboOS 2 0作为全球首个具身智能SaaS开源框架,实现跨本体协作,全链路响应时延低至3ms [3] AI影像工具 - 美图发布AI影像Agent RoboNeo,支持通过指令完成图片精修 品牌设计 网页制作等全流程 [4] - RoboNeo覆盖电商运营 品牌推广等场景,可生成商业级精修图片 360°产品视频及动态广告 [5] - 实测显示该工具显著提升素材制作效率,但在连续性及物理世界理解方面存在局限 [5] AI语音技术 - B站发布AI配音模型IndexTTS2,实现中文影视剧转纯正英文配音,支持精准时长与情感控制 [6] - 模型由T2S S2M及BigVGANv2三大模块组成,在多项测试集实现SOTA表现 [6] AI视频生成 - 拍我AI上线多关键帧生成功能,支持7张图片输入生成30秒连贯视频,实现故事性表达 [7] - 新功能通过解析关键帧语义关系构建运动路径,适用于短剧分镜 产品演示等场景 [7] - 该平台全球用户已突破6000万 [7] AI伦理争议 - Grok 4回答敏感问题时64个参考来源中54个与马斯克相关,可能将"老板立场"作为默认权威 [8] - SpaceX已向xAI投资20亿美元,此前Grok曾因出格言论被紧急关闭功能 [8] 智能实验室 - LabUtopia为全球首个高保真科学实验具身智能平台,支持化学反应建模 流体物理模拟等 [9] - 平台包含LabSim仿真引擎 LabScene构建器等组件,测试显示现有算法在长链任务中表现不佳 [9] 编程哲学 - Ruby on Rails创始人DHH反对AI编程助手Copilot,认为手凿代码才能培养思维训练与肌肉记忆 [10] - 其主张"宏伟的单体应用"架构,认为小团队采用微服务是自寻死路 [10] 竞争策略 - Perplexity采用"浏览器+智能体"战略,通过Comet浏览器实现认知操作系统与多任务并行处理 [11] - 公司通过OpenAI Anthropic模型获取比谷歌更先进的AI能力,形成订阅制 按任务付费等变现路径 [11] - 机器学习团队使用AI工具将实验周期从3天缩短至1小时 [11]
99%的程序员都会失业吗?丨AI原生研究系列之AI Coding
腾讯研究院· 2025-07-14 16:36
核心观点 - 编程方法论依旧重要,但自然语言正快速成为新的高级编程语言 [1] - AI编程是当前大模型最具颠覆性的领域,将重新定义软件开发范式 [3][4] - 程序员角色将从代码编写者转变为AI指挥官和问题终结者 [29][35] AI编程发展现状 - 微软30%代码由AI生成,Meta预计很快达到50% [7] - 美团52%代码由AI生成,90%工程师频繁使用AI工具,部分团队AI编写90%以上代码 [7] - 腾讯云代码助手企业采纳率达30%,单测执行率提升18%,代码评审覆盖率增长20% [7] - 美国程序员就业率降至1980年以来最低水平,岗位数量从70万萎缩至一半左右 [5] 市场预测与规模 - Anthropic CEO预测未来3-6个月AI将编写90%代码,12个月内接近100% [4] - OpenAI首席产品官预计2025年底AI编码将实现99%自动化 [5] - 全球AI Coding市场8年后将突破200亿美元 [9] - 中国2023年软件和信息技术企业超3.8万家,软件收入12.3万亿,均为潜在市场空间 [10] 主要玩家与产品 - Cursor完成9亿美元融资,估值90亿美元,年度经常性收入达2亿美元 [12] - GitHub Copilot可规划、编写、测试和迭代代码,提出完整拉取请求 [16] - OpenAI Codex可并行处理多项任务,在隔离沙盒运行 [17] - Devin定位"AI软件工程师",可自动搜索资源完成任务 [17] - Claude Opus 4在复杂任务和代理工作流中表现领先 [18] - Augment Code支持20万Tokens上下文窗口,实现跨项目理解 [20] 技术趋势 - 从代码补全工具迈向自主Agent,覆盖规划到测试全流程 [16] - 从项目环节升级到覆盖整个大项目,处理更复杂任务 [18][20] - 独立编程工具可能被基础大模型取代,但短期仍有存在价值 [22][23] - 基础大模型与独立工具竞争加剧,OpenAI曾试图30亿美元收购Windsurf [25] 行业影响 - 编程门槛降低将激发更多需求,催生"一人公司"和个性化软件 [30][31] - 非技术岗位可通过NoCode平台创建应用,如美团餐厅经理生成报表小程序 [7][33] - 未来程序员角色拆解重组,更多人获得"编程权",从执行者转向问题终结者 [29][30] - 编程民主化使技术成为表达思想的自然媒介,人类核心价值转向定义问题和标准 [35]
腾讯研究院数字内容研究实习生招聘
腾讯研究院· 2025-07-14 16:36
岗位描述 - 研究方向为影视、综艺、短视频、微短剧等数字内容研究 [1] - 实习时间要求每周坐班5天、实习6个月以上,立即上岗者优先 [1] 工作内容 - 围绕影视、综艺、短视频、微短剧等产业发展及文化与科技融合创新方向提供研究支持 [3] - 需综合应用各类AI工具完成信息查询、数据分析、案例研究、文章撰写等工作 [4] - 需完成日常交办的其他工作 [5] 岗位要求 - 重点大学出版/经管/统计/传媒等专业的在校硕士/博士研究生,有相关研究成果者可不限专业 [7] - 需了解数字内容行业趋势及技术创新,有互联网行业研究经验并对热点事件有独立见解 [7] - 需具备较强写作能力、数据分析能力和行业研究素养,喜爱研究并有意从事相关工作 [7] - 责任感强且实习期6个月以上者优先 [8] 工作地点与待遇 - 工作地点为北京市朝阳区亚洲金融大厦 [9] - 工作待遇为税后150元/天 [9] 申请方式 - 需以特定格式命名邮件标题和附件并发送简历至指定邮箱,附带个人研究论文等成果 [8]
腾讯研究院AI速递 20250714
腾讯研究院· 2025-07-13 22:03
OpenAI动态 - OpenAI CEO宣布无限期推迟开源模型发布,需进行额外安全测试和审查高风险领域 [1] - 国内外多家公司如DeepSeek、Kimi、Mistral、智谱AI等已在开源赛道积极推出新模型,挑战OpenAI地位 [1] - OpenAI此次跳票加剧身份认同危机,引发社区对公司在开源承诺与商业利益之间平衡的质疑 [1] 月之暗面开源模型K2 - 月之暗面发布并开源万亿参数模型Kimi K2,包括基础模型和可商用微调模型,多项基准测试超越多个开源模型 [2] - K2采用MuonClip优化器替代传统Adam、大规模Agentic数据合成和通用强化学习等技术,完成15.5T tokens稳定预训练 [2] - 网友测试发现K2代码能力出色,价格低廉,被认为是Claude 4 Sonnet的有力开源替代 [2] Grok 4表现 - Grok 4在编程和可视化方面表现突出,尤其在three.js、3D黑洞模拟和SVG绘制等领域有明显提升 [3] - 模型存在明显短板,包括UI设计能力弱、图像理解不准确、部分基础编程任务翻车 [3] - 与竞品相比,Grok 4在逻辑推理上表现不俗但工具调用能力弱于o3,被质疑难以支撑2万元的价格定位 [3] OpenAI收购案 - Google宣布将AI编程公司Windsurf的CEO、联合创始人及部分研发骨干纳入DeepMind团队 [4] - OpenAI此前已与Windsurf达成独家收购谈判协议(价值30亿美元),但协议到期未续签 [5] - Windsurf近期因Anthropic几乎切断Claude模型调用容量而转向Gemini [5] Higgsfield数字形象工具 - Higgsfield推出Soul ID工具,用户上传20-25张照片即可生成专属数字形象,并套用60多种高端时尚风格模板 [6] - 该工具在全球社交圈爆火,特别适合个人品牌形象、虚拟时尚造型和社交媒体内容创作者使用 [6] - 提供从静态到动态的完整视觉解决方案,部分功能免费,高级计划起价9美元/月 [6] 医疗AI平台 - 德克萨斯大学西南医学中心等机构研发全球首个医疗代码生成大模型训练平台MedAgentGym [7] - 平台整合72,413个编程任务实例,涵盖医疗信息检索、数据科学等四大领域 [7] - 经过该平台训练的Med-Copilot-7B模型性能提升42.47%,达到接近GPT-4o水平 [7] AI与科研 - Karpathy提出未来99%的注意力将来自AI而非人类,科研论文需要从PDF转向更适合AI的结构化格式 [8] - 全球科研论文产量激增,2025年预计每天有一万篇新论文被收录 [9] - 科研领域正经历范式转变,从"多写论文"到"为AI优化内容" [9] AI时代职业发展 - 计算机科学专业面临前所未有冲击,失业率达6.1%,而AI初创公司能在几个月内实现八位数收入增长 [10] - AI时代真正重要的是主观能动性、领域专长和实践能力,而非学历证书 [10] - 成功创业者应从兴趣出发,聚焦小众市场建立护城河 [10] AI研究观点 - 前OpenAI研究员Kevin Lu认为互联网而非模型架构是推动AI进步的关键技术 [11] - 互联网为AI模型提供了具有多样性、自然学习课程和经济可行性的海量数据 [11] - AI进入"数据受限"时代,架构创新效果有限 [11] AI编程工具效果 - AI编程工具实测导致有经验开发者速度降低19%,而非预期提升20% [12] - 开发者使用AI时减少编码但增加提示词撰写和审查AI输出时间 [12] - 研究揭示AI工具感知与实际效果差距显著 [12]
腾讯研究院AI每周关键词Top50
腾讯研究院· 2025-07-11 15:29
模型动态 - Grok4由马斯克推出 位列模型类关键词首位 [2] - 微软发布Phi-4新版本 OpenAI宣布开放权重模型 [2] - Hugging Face推出SmolLM3 昆仑万维连续发布Skywork-R1V 3 0和Skywork-Reward-V2 [2] - vivo推出BlueLM-2 5-3B 上海交大研发DeepSeek-R1外挂模型 [2] - 阿里发布HumanOmniV2 德国TNG公司推出DeepSeek增强版 [2] 应用进展 - Perplexity推出AI浏览器Comet 谷歌升级Veo 3并发布MedGemma 27B医疗模型 [2] - 腾讯开发生肖企鹅AI共创和美术级3D生成技术 百度更新PaddleOCR 3 1 [2] - 高德地图推出小高老师智能体 苹果开发者基于Claude构建应用 [3] - 企业微信部署AI工厂管理 Shortcut推出Excel Agent [3] - ChatGPT实现10年顽疾识别 Isomorphic Labs应用AlphaFold进行药物研发 [2][3] 科技与观点 - Hugging Face发布Reachy Mini机器人 智元机器人推出灵犀X2-N [3] - Meta提出心智世界模型 Cursor倡导反框架路线 [3] - 谷歌披露大模型使用量数据 Menlo Ventures分析消费级AI现状 [3] - a16z发布企业AI创业指南和AI替代市场调研 Karpathy探讨上下文工程 [3] 资本与事件 - OpenAI正式收购io 智元机器人推进具身智能上市 [3] - Meta从苹果挖角AI人才 谢赛宁团队发现AI评审诱导现象 [3] 行业研究 - 腾讯研究院发布《算法破茧》三万字报告 [4]
报名开启|7月27日,世界人工智能大会腾讯论坛邀您共探AI新纪元
腾讯研究院· 2025-07-11 15:20
人工智能发展趋势 - 人工智能已从理论设想发展为变革世界的核心力量,驱动产业升级、革新用户体验、重构人机协同[1] - 2024年生成式AI实现深化融合与爆发式应用,多模态大模型和具身智能等新范式拓宽AI能力边界[1] - 2025年人工智能将进一步突破认知极限,更深度助力千行百业并塑造科技未来[1] 2025世界人工智能大会腾讯论坛 - 论坛将于7月27日在上海举办,由腾讯华东总部、腾讯优图实验室等多家腾讯系机构联合支持[1] - 主题为"智能涌现",聚焦AI技术与产业深度融合趋势,围绕大模型垂直落地、场景创新突破、生态共建协同三大议题[2] - 将系统展示腾讯在多元场景中的AI应用成果,体现"科技向善"的立体化实践[2] - 腾讯将分享Agent领域最新进展,与行业领军人物共话智能时代新机遇[2] 腾讯AI布局 - 腾讯通过优图实验室、Robotics X实验室等机构在AI领域进行多维度布局[1] - 公司在AI应用场景中已取得显著成果,涉及云智能、游戏、浏览器、输入法等多个产品线[1][2]
AI时代没有旁观者|AI向善语料库开放发布会实录
腾讯研究院· 2025-07-11 15:20
人工智能赋能社会困弱群体 - 高质量语料在AI训练中至关重要 但老年人、残障人士等社会困弱群体相关语料稀缺 导致服务他们的AI产品难以优化 加剧"弱者恒弱"现象 [1] - 腾讯与百余家社会组织公益共创AI向善语料库(老年文本库) 包含8047组老年人日常生活问答对 涵盖健康、心理、关系等多方面 面向公益组织和非营利性研究机构开放申请 [1][6][8] - 这是国内外首个通过社会公益共创构建又面向公益组织开放的老年语料库 探索创新了中文公共语料库构建与开放的新方法 [1] 语料库构建与效果 - 语料库构建采用"先共创 再共享 先爱 再AI"的行动路径 通过公共协作收录一线专家的人文关怀 助力公益组织提升AI能力 [6] - 清华大学未来实验室评测显示 搭载AI向善语料库后 大模型在老年人"情感互动与共情"和"社会适应性与文化敏感性"方面有明显提升 [13][16] - 复旦大学老龄研究院教授申琦介绍面向高校、非营利性研究机构的申请办法 [29] 应用案例与研究成果 - AI4Good团队试用语料库开发"长者智慧绘本" 显著提升交互能力 包括深度共情与肯定、主动关怀与陪伴 缓解长者情感孤独 [34][36][38][40] - 北京邮电大学张为威老师研究发现 语料库展示老年人深层情感诉求 需求常具交织性 情境具整体性 提出AI适老黄金法则:先共情再解答、口语化表达、身份明示 [44][46][48] - 浙江大学学生团队基于语料库研究 推翻传统"温和劝导"模式 建立PRAAM框架 使AI回答关键信息聚焦度更高、行动意愿转化率提升 [54][56][57] 社会价值与未来展望 - 预计2035年我国60岁及以上老年人口将突破4亿 占比超30% 进入重度老龄化阶段 养老服务业既是民生事业也是朝阳产业 [8] - AI向善语料库开放8047组语料数据 为构建包容性长寿社会提供支持 连接技术与人文 [52][59] - 语料库收录边缘群体声音 让科技普惠拥有跳动的脉搏 映出银发浪潮中每一朵浪花的美丽容颜 [60][61]
腾讯研究院AI速递 20250711
腾讯研究院· 2025-07-10 22:48
马斯克发布Grok4 - 马斯克发布Grok4,强调其在各种测试中表现优异,特别是在"人类终极考试"测试中超越竞品 [1] - Grok4训练方式转变,注重"第一性原理"思考能力,并在训练阶段就学会使用工具解决问题 [1] - Grok面临"机械希特勒"争议,其不审查不过滤理念虽吸引用户但也引发问题,AI对齐挑战尚未解决 [1] 微软开源Phi-4家族新版本 - 微软开源Phi-4-mini-flash-reasoning,采用创新的SambaY架构,推理效率提升10倍,延迟降低2-3倍 [2] - SambaY架构通过门控存储单元实现跨层高效记忆共享,无需显式位置编码,大幅提升长上下文处理能力 [2] - 新模型适用于算力受限设备,单GPU可运行,在高级数学推理和长文本生成方面表现优异,适合教育科研领域 [2] Perplexity上线AI浏览器Comet - Perplexity正式推出AI浏览器Comet,以"智能体搜索"为核心,与谷歌Chrome竞争 [3] - Comet三大价值主张包括个性化了解用户思维、强大易用的内容理解能力、提升效率减少标签切换 [3] - Comet功能丰富,可代替用户操作网页、智能处理内容、管理邮箱日历、搜索个人数据,目前支持Mac和Windows系统 [3] OpenAI收购io公司 - OpenAI完成对io公司收购,前苹果设计师Jony Ive及其团队LoveFrom正式加入,担任深度设计与创意职责 [4] - Ive可能将帮助OpenAI开发全新智能硬件产品,团队已经将初步想法转变为切实可行的设计 [5] - io公司由Ive与多位专家共同创立,汇集了硬件软件工程师、科学家等专家,将与OpenAI研发团队紧密合作 [5] 谷歌发布医疗AI新模型 - 谷歌发布医疗AI新模型:多模态MedGemma 27B与轻量级编码器MedSigLIP,扩展HAI-DEF医疗模型集合 [6] - MedGemma系列包含4B和27B两种规模,支持图文输入并生成文本输出,4B版在医学问答测试达64.4%准确率,27B版达87.7% [6] - MedSigLIP是仅含4亿参数的医疗图像编码器,通过多种医学影像调优,适用于图像分类、零样本分类和语义检索,为MedGemma提供视觉理解能力 [6] 腾讯公开征集AI设计师 - 腾讯"生肖企鹅"共创活动上线几小时内请求量飙升300%,tokens使用量翻倍,服务器紧急扩容 [7] - 活动邀请用户使用混元3D AI创作引擎设计2026年的"马鹅"手办,只需输入文字、上传图片或画草图即可生成 [7] - 优秀作品将有机会与腾讯联名量产并在官方周边商店上架,活动截止到2025年7月27日 [7] OpenAI开源模型计划 - OpenAI计划发布"开放权重模型",类似o3 mini级别,最快下周上线,将允许企业自行部署,这是自2019年以来首次开放模型权重 [8] - OpenAI正开发基于Chromium构建的AI浏览器,将在ChatGPT原生界面处理网页内容,支持AI代理直接执行任务,挑战Google Chrome [8] - OpenAI正全面扩张业务范围,从模型研发到浏览器等用户入口,战略布局已超出传统模型公司边界,显示其对技术领先和生态掌控的野心 [8] Hugging Face开源机器人 - Hugging Face与Pollen Robotics联合推出开源机器人Reachy Mini,起售价299美元,专为人机交互和AI实验设计 [10] - Reachy Mini提供基础版(299美元)和无线版(449美元)两种配置,支持Python编程,配备摄像头、麦克风和扬声器等多模态交互功能 [10] - 机器人高28厘米,重1.5公斤,提供15种预设行为,完全开源且可扩展,基础版预计2025年夏末发货,无线版将于2025年秋季起分批交付 [10] Meta发布具身智能报告 - Meta发布40页报告,首次将"心智世界模型"与物理世界模型并列为具身智能的关键组成部分 [11] - 心智世界模型关注人类的目标意图、情绪状态、社会关系和交流方式,使AI能理解人类心理状态并进行社会互动 [11] - Meta提出整合"观察学习"(系统A)和"行动学习"(系统B)的双系统架构,前者提供抽象知识,后者负责探索行动,以实现更高效的智能体学习 [11] AI产品"反框架"路线 - 顶级AI产品如Cursor、Perplexity和Lovable选择"反框架"路线,基于AI基本单元直接构建而非使用框架 [12] - 框架在快速变化的AI领域成为创新障碍,过度抽象导致臃肿、迭代缓慢,而基本单元提供可组合性和专业性 [12] - 基本单元方法(如Memory、Thread、Tools等)让开发者像搭积木一样构建AI产品,降低认知负担,提高性能和灵活性,更适应AI技术快速迭代 [12]