Gemini 2.5 Pro模型
搜索文档
大模型首次拥有“脖子”!纽大团队实现360度类人视觉搜索
量子位· 2025-11-27 15:30
研究核心概念 - 提出“类人视觉搜索”新任务,使智能体能在360度全景环境中通过自主旋转头部搜索目标物体或路径[6] - 该研究将视觉空间推理从“脱离身体的被动范式”转向“具身的主动范式”[9] - 旨在解决大模型目前只能处理单张静态低分辨率图像、无法改变初始视角获取视野外信息、缺乏物理实体移步换景的局限[12] 技术框架与特性 - 类人视觉搜索具备交互性和具身性两大特性:智能体从窄视角开始行动,每次头部旋转改变视觉输入;将视觉推理与物理动作结合,要求智能体有意识协调头部运动[13] - 具体分为两类搜索问题:类人物体搜索定位目标物体,难度根据初始可见度比率分为简单中等困难三个等级[12];类人路径搜索识别可通行路径并调整身体朝向,难度分为四个级别由文本线索存在及一致性决定[16] - 将搜索问题构建为多模态推理任务,通过策略网络实现工具使用与头部旋转,仅利用决策点采集的单个360°全景图构建闭环搜索环境而无需3D模拟器或硬件[17] 基准测试与数据集 - 构建全新针对性基准测试H*Bench,突破传统测试多聚焦简单家庭场景的局限,涵盖交通枢纽大型零售场所城市街道公共机构等真实世界复杂环境[7][8] - H*包含约3000个带标注任务实例,来源于多样化高分辨率全景视频,通过为每个任务实例设置四个不同起始方向获得12000个搜索回合[21][22] - 数据来源于全球大都市地区自行采集素材及开放平台,场景包含零售环境交通枢纽城市街道公共机构办公室娱乐场所六个主要类别[22][24] 模型训练与性能表现 - 基于Qwen2.5-VL-3B-Instruct模型展开pipeline,经训练后目标搜索准确率从14.83%提升至47.38%,路径搜索准确率从6.44%提升至24.94%[28] - 训练流程包括监督微调灌输基本任务导向推理和工具使用能力,以及多轮强化学习精炼策略鼓励长程推理[31] - 研究发现更大模型尺寸并不保证更好性能,较小4B/3B模型在类人物体搜索任务中超越较大12B/7B模型,在类人路径搜索任务中表现持平[32][33] 错误分析与性能瓶颈 - 类人物体搜索错误主要源于感知能力不足和感知动作差距[36] - 类人路径搜索错误更为复杂,包括缺乏物理常识缺乏社会空间常识以及视觉动作不匹配[36] - 研究表明后训练能有效提高低级感知运动能力,但暴露了高级推理方面根本瓶颈,这些推理需要物理空间和社会常识[34]
谷歌为 5 亿 Jio 用户狂撒福利!科创人工智能ETF华夏(589010) 早盘探底回升,科技成长板块调整中显露企稳信号
每日经济新闻· 2025-11-05 10:42
科创人工智能ETF市场表现 - 截至10点11分,科创人工智能ETF(589010)早盘报1.365元,跌幅1.59% [1] - 分时走势呈现冲高后快速下探,最低触及1.357元,随后在分时均线附近企稳并小幅反弹 [1] - 成分股普遍承压,30只中仅4只上涨,石头科技和天准科技涨幅约2%,思看科技小幅上扬 [1] - 下跌阵营占多数,合合信息与福昕软件跌逾5%,复旦微电、海天瑞声等跌幅居前 [1] - 成交活跃度维持平稳,上午成交额超2千万元,换手充分 [1] 全球AI产业动态 - 谷歌宣布与印度最大电信服务商信实Jio合作,免费向其逾5亿名用户提供Gemini人工智能服务 [1] - 合作方案包括Gemini 2.5 Pro模型、NotebookLM学习与研究工具的扩展使用权,以及2TB云端储存空间 [1] - 谷歌将向Jio用户分阶段提供AI Pro方案,每名用户方案价值约35100卢比,首批针对18至25岁使用无限5G方案的年轻用户提供18个月早期使用权 [1] - 英伟达、OpenAI、阿里等全球AI巨头同频加速投入算力底座及生态建设,验证市场需求旺盛,AI商业化加速落地 [2] - AI商业化正逐渐形成商业闭环,并对全球AI基础设施投资注入信心 [2] AI行业前景与ETF特征 - 未来AI将有望在医疗、教育、科研、产业等更多场景全面落地 [2] - 科创人工智能ETF华夏(589010)紧密跟踪上证科创板人工智能指数,覆盖全产业链优质企业 [2] - 该ETF兼具高研发投入与政策红利支持特征,20%涨跌幅与中小盘弹性有助于捕捉AI产业"奇点时刻" [2]
腾讯研究院AI速递 20250718
腾讯研究院· 2025-07-17 22:12
谷歌DeepMind新架构MoR - MoR架构结合参数共享与自适应计算,以更少参数实现大模型性能[1] - 动态路由机制根据token复杂度分配递归深度,减少冗余计算并优化KV缓存[1] - 实验显示推理吞吐量最高提升2.06倍,训练时间减少19%,峰值内存下降25%[1] 亚马逊AI Agent全家桶 - Bedrock AgentCore预览版提供7大AI agents核心服务,包括运行时、记忆、身份验证等[2] - 推出Nova定制选项和Strands Agents V1.0,简化多agents协同开发[2] - Amazon S3 Vectors云对象存储降低90%向量存储成本,Kiro AI IDE优化开发者体验[2] 马斯克Grok AI伴侣生态 - Grok男性AI伴侣征名"Draven",形象参考《暮光之城》风格[3] - 开源3D数字伴侣"Bella"分三阶段演进:感知核心、生成式自我和主动式陪伴[3] - 计划加入语音识别和好感度系统,但当前仅保留美少女形象[3] 谷歌搜索AI通话功能 - AI代打电话可自动预约本地服务如宠物美容[4] - 集成Gemini 2.5 Pro模型和Deep Search功能处理复杂查询并生成深度报告[4] - 新功能已在美国上线并将逐步全球推广[4] Claude Sonnet 4回归Windsurf - Pro用户每月可享250次免费调用Claude Sonnet 4模型[6] - 模型具备跨文件智能重构、20万token上下文窗口和精准代码补全[6] - 合作回暖是Windsurf在OpenAI收购失败后的战略举措[6] Anthropic人才与业务动态 - 两周内挽回Claude Code核心负责人Boris Cherny和Cat Wu[7] - Claude Code周下载量增长6倍达300万次,贡献超2亿美元年化收入[7] - 直接销售模型毛利率60%,但通过AWS/谷歌云销售为负30%[7] CrePal AI视频创作Agent - 通过一句话指令自动调度多种模型完成视频制作全流程[8] - 系统自动规划脚本、生成画面、添加音效,整合分散工具为一体化方案[8] - 创新点在于改变创作流程,降低技术操作门槛[8] 苹果MLX框架适配CUDA - MLX框架新增CUDA支持,允许开发者用英伟达GPU训练后部署回苹果设备[8] - 苹果向拥有500万开发者的英伟达生态妥协[8] - 虽2018年停止对英伟达显卡支持,现出于合规和生态考量重新合作[8] 他山科技触觉传感技术 - 研发全球首款AI触觉感知芯片,基于电容层析成像技术[10] - 实现"感控一体"融合,服务国内70%以上机器人厂商[10] - 从硬件提供商转型为整体触觉解决方案提供商[10] AlphaFold与AI4Science前景 - AlphaFold通过统一框架实现蛋白质结构原子级精度,被引用35000次[11] - 算法研究价值是数据的100倍,推动结构生物学发展速度提升5-10%[11] - 预言AI4Science将更通用化,各科学领域应用遍地开花[11]
AI开发工具领域正经历重要变革,科创100指数ETF(588030)午后翻红上扬,近2周规模增长显著
新浪财经· 2025-07-01 14:19
科创100指数ETF表现 - 截至2025年7月1日13:58 科创100指数上涨0.30% 成分股荣昌生物上涨10.76% 心脉医疗上涨8.22% 泽璟制药上涨7.26% 神州细胞上涨5.56% 芯源微上涨4.96% [3] - 科创100指数ETF最新价报1.02元 近1周累计上涨3.99% [3] - 近1年日均成交4.02亿元 排名可比基金第一 盘中换手3.52% 当日成交2.22亿元 [3] - 近2周规模增长2.56亿元 新增规模位居可比基金2/11 [4] - 最新融资买入额达1250.05万元 融资余额达2.17亿元 [4] 科创100指数ETF历史业绩 - 近6月净值上涨13.69% 在指数股票型基金中排名416/3427(前12.14%) [5] - 成立以来最高单月回报27.67% 最长连涨月数3个月 最长连涨涨幅37.87% 上涨月份平均收益率8.57% [5] - 近3个月超越基准年化收益0.92% 近1年夏普比率1.03 [5] - 今年以来相对基准回撤0.20% [5] - 管理费率0.15% 托管费率0.05% 为可比基金最低 [5] - 近半年跟踪误差0.021% 跟踪精度较高 [5] 上证科创板100指数构成 - 从科创板选取市值中等且流动性较好的100只证券作为样本 与科创板50指数共同构成规模指数系列 [6] - 前十大权重股合计占比22.99% 包括百济神州 睿创微纳 华虹公司 泽璟制药 翱捷科技 中科飞测 安集科技 纳芯微 芯源微 国盾量子 [6] 人工智能开发工具进展 - 谷歌开源Gemini CLI项目 基于Gemini 2.5 Pro模型 支持100万token上下文窗口 [4] - 整合文本 图像 视频等多模态能力 可能成为未来多模态本地Agent标准入口 [4] - 采用开源+高额度免费策略降低使用门槛 与Google Cloud形成协同效应 [4]