Gemini 2.5系列

搜索文档
谷歌I/O的AI新叙事:从大模型到一站式服务,AI与XR会师
36氪· 2025-05-22 08:15
AI大模型与产品发布 - Gemini 2.5 Pro确认6月上线,号称世界最智能AI模型,ELO基准测试1448分,在USAMO 2025、LiveCodeBench、MMMU等测试中领先Gemini 2.5 Pro [2] - Gemini 2.5 Flash为轻量级模型,效率提升22%,Token使用减少20%-30% [2] - 新增文本转语音能力,支持丰富细节如窃窃私语,适合影视配音 [4] - 推出文本扩散模型Gemini Diffusion,在编程和数学领域表现更优 [4] - Project Mariner(原Jarvis)为可操作浏览器/软件的AI智能体,能监督10个同时任务并通过用户操作学习 [4] AI应用与商业化 - AI搜索新增图表生成、票务查找、视频/地图展示等功能,月活用户达15亿 [1][4] - 智能购物功能支持衣物虚拟试穿,提升购物体验 [6] - 发布文生图模型Imagen 4,生成速度提升3-10倍,分辨率2K,支持复杂物体细节 [6] - 视频生成模型Veo 3首次支持带音频视频,物理模拟和口型同步效果突出 [7] - 内容创作应用Flow整合Veo、Imagen、Gemini,支持文字/素材生成视频,B端定价AI Pro 19.99美元/月,AI Ultra 249.99美元/月 [8][10] XR平台与设备 - 安卓XR平台获数百家软件商支持,首款设备三星Project Moohan搭载骁龙XR2 Plus Gen 2,独立运行,2025年发售 [11] - 第二款设备Xreal Project Aura为首款安卓XR AR眼镜,支持OST/VST透视 [11] - 平台集成Gemini,支持自然语言交互如信息查询、实时导航 [12] - 统一生态降低开发者适配成本,Gemini优化交互逻辑实现"全场景可见即可说" [20] 安卓系统更新 - Wear OS 6引入Material 3设计语言,适配圆形屏幕,新增动态色彩主题和表盘API [21] - 安卓16主打Live Updates功能,显示导航/外卖/网约车状态进度条 [21][23] - 支持桌面模式,升级安全性/UI/相机/大屏适配等 [24] - 全能AI助手Project Astra可主动制定解决方案,基于Gemini Nano视觉识别跨应用操作 [24] 行业趋势与挑战 - AI行业进入能力变现期,谷歌侧重应用场景落地以增强营收 [10] - AI/XR头部企业短期难盈利,数据中心建设投入将持续高于营收 [27] - XR生态建设需数年,性能/续航依赖芯片和电池技术突破 [27] - 更多眼镜品牌如Gentle Monster、Warby Parker加入安卓XR生态,有望降低设备成本 [27]
谷歌年度大招:所有AI模型全升级一遍!Gemini2.5大杯中杯霸榜前二,新版视频/图像模型亮相
量子位· 2025-05-21 04:33
谷歌AI技术升级 - 谷歌最新版Project Astra展示终极AI助手能力 实时观察环境 指导修自行车并自动电话询问周边商店库存 [1] - Gemini 2.5 Pro和Gemini 2.5 Flash预览版霸榜竞技场前两名 [3] - 视频生成模型Veo 3实现视频与音频原生集成 支持角色对话语音生成及口型同步 [4] 产品AI化重构 - 谷歌搜索增加端到端AI搜索模式 整合推理和多模态分析能力 将问题分解为子问题并发多个查询 [8] - Google Meet支持实时双语翻译配音 保留对话双方音色 首批支持英语-西班牙语 [9] - Chrome浏览器集成Gemini模型 可快速总结内容或根据网页上下文完成任务 [10] 新型AI产品矩阵 - 裸眼3D视频通话Project Starline升级为AI驱动的Google Beam 头部追踪精度达毫米级 帧率60fps [12][13] - AI眼镜与Gentle Monster等合作 配备摄像头和麦克风 通过Gemini模型实现全天候环境感知与辅助 [17][18] - AI电影制作工具Flow集成多模态模型 支持角色场景连贯复用 美国Pro/Ultra订阅用户已可用 [19][72] Gemini模型性能突破 - Gemini 2.5 Pro以1415分ELO领先WebDev Arena编码榜 较前版提升142分 [22] - 2.5 Pro在USAMO数学测试和MMMU多模态基准分别表现惊艳 后者得分84.0% [28] - 2.5 Flash推理效率提升 token使用减少20-30% 已在Google AI Studio等平台开放预览 [30][31] 多模态生成技术 - Veo 3实现原生音画同步生成 支持物理效果模拟与口型同步 美国Ultra用户已可访问 [61][64] - Imagen 4生成速度比前代快10倍 支持2K分辨率与复杂细节刻画 已登陆Gemini app等平台 [65][69] - Flow工具集成Veo/Imagen/Gemini 支持语言描述生成电影级画面 允许素材跨场景复用 [70][71] 商业化应用进展 - 谷歌搜索AI Mode采用query fan-out技术 未来将推出Deep Search百次跨领域搜索功能 [47][48] - 智能购物整合5亿+商品数据 支持虚拟试穿与自动比价结账 [54][56][58] - 公司AI处理量一年增长50倍 达每月480T+ tokens [74][75]
DeepSeek,突传大消息!高盛发声!
券商中国· 2025-03-26 09:54
DeepSeek-V3模型升级 - DeepSeek宣布V3模型完成小版本升级,新版本号为DeepSeek-V3-0324,用户可通过关闭深度思考体验新版本 [1][2] - 新版V3模型在推理、前端开发、中文写作、中文搜索等方面能力优化,成为得分最高的非推理模型,超过xAI的Grok3和OpenAI的GPT-4.5(preview)[1] - 模型参数约660B,开源版本上下文长度为128K(网页端、App和API提供64K上下文),采用MIT许可证允许自由修改、分发及商业化应用 [2][3] 模型性能提升 - 新版V3模型借鉴DeepSeek-R1模型的强化学习技术,在数学、代码类评测集上得分超过GPT-4.5 [2] - 代码能力显著提升接近Claude 3.7水平,能一次性生成800行无错误的网页代码并实现动态响应式布局和交互效果 [3] - 数学与逻辑推理能力增强,在经典"4升水壶问题"和AIME 2025数学竞赛题上表现接近专业推理模型 [3] 行业竞争动态 - OpenAI推出4o图像生成功能,集成至GPT-4o,所有用户将陆续体验该功能,企业版与教育版即将接入 [4] - 谷歌发布Gemini 2.5系列人工智能推理模型,首个版本Pro Experimental支持100万Token上下文窗口,单次可处理约75万英文单词 [4][5] - Gemini 2.5 Pro Experimental在大模型竞技场得分比GPT-4.5高出40分,未来将支持200万Token输入长度 [5] 中国市场动态 - 腾讯元宝接入两大模型:腾讯混元T1正式版和DeepSeek V3-0324最新版 [6] - 高盛预计人工智能将每年提升中国每股收益预测2.5%,带来潜在超过2000亿美元投资组合资金流入 [6] - 投资者认为中国人工智能叙事是游戏规则改变者,相比贸易战1.0中国更有能力应对外部需求逆风 [6]