Workflow
Gemini Code Assist
icon
搜索文档
谷歌推出Gemini AI编码工具
环球网· 2025-06-26 10:49
产品发布 - 谷歌推出Gemini CLI命令行界面工具,集成AI问答、内容生成等功能,旨在通过人工智能技术简化开发流程,提升开发效率 [1] - 该工具搭载自研Gemini 2.5 Pro推理模型,支持高达100万个token的超大上下文窗口,可处理海量信息 [1] - 与Gemini Code Assist代码助手深度整合,内置模型上下文协议(MCP)并接入谷歌搜索功能 [1] 功能特点 - 开发者不仅能将其用于编程工作,还可在内容创作、任务管理、问题解决等多领域发挥其AI能力 [1] - 可联动谷歌Veo 3模型生成视频、通过Deep Research代理产出研究报告,或借助谷歌搜索获取实时信息,更能连接外部数据库 [3] - 免费用户每分钟可发起60次模型请求,每日限额1000次,远超开发者平均使用量的两倍 [3] 市场定位 - 与OpenAI的Codex CLI、Anthropic的Claude Code等命令行AI工具形成直接竞争 [3] - 谷歌按Apache 2.0宽松许可证开源Gemini CLI,鼓励开发者在GitHub平台参与项目贡献 [3] - 当前处于预览阶段,开发者凭借个人谷歌账户即可获取免费的Gemini Code Assist使用许可证 [3] 行业现状 - 自今年4月推出Gemini 2.5 Pro模型以来,谷歌AI技术已获开发者广泛关注,甚至带动Cursor、GitHub Copilot等第三方AI编程工具的应用热潮 [3] - Stack Overflow 2024年调查显示,仅43%开发者认可AI工具的准确性 [4] - 多项研究指出,AI生成代码可能引入错误或难以修复安全漏洞 [4]
谷歌太壕了!编程Agent大招至简:开源且免费,百万上下文、多模态、MCP全支持
量子位· 2025-06-26 10:11
谷歌推出Gemini CLI - 公司推出开源免费的Gemini CLI工具,允许用户在终端直接访问Gemini模型,提供业界最高免费限额:100万上下文窗口的Gemini 2.5 Pro,每分钟60次请求,每天上限1000次 [2] - 工具不仅限于编程,还支持多模态功能,如通过命令行生成视频(调用Veo和Imagen)和图像 [3][4] - 发布后GitHub仓库标星一夜飙升至10.8k,引发广泛讨论,网友认为其免费策略对竞品(如Cursor、Claude Code、OpenAI Codex CLI)形成冲击 [4][5] Gemini CLI核心功能 - 能力覆盖代码理解、文件操作、命令执行和动态故障排除,支持自然语言指挥模型写代码和Debug [8][9] - 编码功能包括:支持100万上下文窗口查询编辑大型代码库、集成GitHub自动执行任务(如管理pull requests和分支)、根据PDF或草图生成App [11] - 多模态支持:调用Imagen、Veo、Lyria生成图像视频,并整合谷歌搜索功能 [11] 技术细节与安装 - 工具与谷歌AI编程助手Gemini Code Assist技术共享,采用Apache 2.0开源协议 [13][14] - 安装需Node.js 18+环境,通过npx或npm命令部署,登录谷歌账号即可获取免费额度,更高用量需申请API密钥 [15][16][17] - 官方提供prompt示例,如自动化生成幻灯片展示近期git历史,更多用例可在GitHub仓库查看 [18][19][20]
谷歌开源AI Agent框架Gemini CLI
快讯· 2025-06-26 06:06
谷歌开源AI Agent框架Gemini CLI - 公司开源了AI Agent框架Gemini CLI,将Gemini大模型直接融入终端 [1] - 框架最大亮点是可直接调用视频模型Veo和图像模型Imagen,并集成MCP、谷歌搜索、自定义自动化等功能 [1] - 框架可调用专业AI开发助手Gemini Code Assist,支持编写代码、修复BUG、迁移代码等开发任务 [1] - 开源项目在Github已获得超过9000颗星,显示开发者社区高度关注 [1]
谷歌发布AI智能体Gemini CLI,一个在所有环境下都能用的谷歌版Cursor
36氪· 2025-06-25 21:57
产品发布 - 谷歌推出开源AI智能体Gemini CLI 将大模型能力集成到开发者命令行界面中 [2] - Gemini CLI与Gemini Code Assist深度结合 使开发者能在所有编程环境中调用AI辅助 [2] - 产品当前处于预览阶段 支持代码理解、文件操作、命令执行及动态故障排查等核心功能 [5] 功能特性 - 提供轻量级命令行访问方式 支持内容生成、问题解决、深度研究、任务管理等多元场景 [3] - 内置谷歌搜索实时网页内容 支持Model Context Protocol和多种扩展插件 [7] - 允许自定义提示和指令 支持非交互式脚本调用实现任务自动化 [7] - 完全开源采用Apache 2.0许可 开发者可参与代码审查与贡献 [7] 技术架构 - 与Gemini Code Assist共用同一技术底层 在VS Code中支持多步骤智能体模式 [7] - 智能体模式可自动修复错误、编写测试、扩展功能并进行代码迁移 [7] - 支持通过系统提示文件和个人/团队配置实现深度定制 [7] 商业模式 - 免费版提供Gemini 2.5 Pro及100万token上下文窗口 每分钟60次/每天1000次请求配额 [3][8] - 专业用户可通过Google AI Studio或Vertex AI密钥实现按需计费 [5] - 标准版和企业版Gemini Code Assist提供更高级功能 [5] 行业定位 - 采用"注入式"策略 将AI能力融入开发者现有工作流而非创建新环境 [9] - 区别于Cursor等AI原生编辑器的"替代式"方案 保留开发者原有工具链 [9] - 通过插件和命令形式增强现有开发工具 降低用户迁移成本 [9]
微软和Google都找到了自己的AI重心
36氪· 2025-05-27 07:39
微软Build 2025大会 - 核心战略聚焦开放代理网络(Open Agentic Web),构建AI智能体在个人、组织及业务流程中的协同体系[1][3] - 推出四类关键工具:开发环境(Windows/Azure AI Foundry)、效率提升(GitHub Copilot支持1500万开发者)、载体(Teams升级)、网络连接(MCP协议与NLWeb概念)[4][5][6][7] - 类比AI发展阶段为1991年Win32级别,强调B端布局而非C端爆发[3] Google I/O开发者大会 - 以Gemini为核心打造AI操作系统雏形,CEO提出"Gemini时代"概念[1][8] - 模型能力显著升级:Gemini 2.5 Pro、视频模型Veo 3、生图模型Imagen 4获正面评价[8] - C端产品深度整合:AI搜索覆盖全美用户,Gemini App月活超4亿,扩展至Android XR/手表/汽车等硬件[9][10] 中美科技公司AI战略对比 - 国内巨头(阿里/腾讯/字节)尚未形成统一战略旗帜,布局分散[2][12] - 阿里侧重to B生态构建(大模型+云服务),但C端依赖夸克转型[12] - 腾讯模仿Google路径改造C端产品(如QQ浏览器),但模型能力弱于Gemini[13] - 字节积极布局多模态与硬件,缺乏to B生态基础[13] 行业趋势 - AI进入应用落地阶段:微软通过基础设施赋能开发者,Google通过系统化改造直接服务C端[12] - 协议标准化成为关键:微软MCP协议定位为"AI时代的HTTP",NLWeb类比HTML[6][7] - 开发者生态竞争加剧:GitHub Copilot用户达1500万(占GitHub总用户10%)[5]
电子行业周观点:AI模型显著升级,AI与XR深度融合
国盛证券· 2025-05-25 14:23
报告行业投资评级 - 行业评级为增持(维持) [6] 报告的核心观点 - AI处于景气周期,随着基础模型不断优化、端侧以及AI应用与模型互相正向推动,整个AI产业链将受益 [1] 根据相关目录分别进行总结 1. AI融入业务生态系统,谷歌重回AR眼镜市场 1.1 各大模型全面爆发,Gemini系列模型成为核心焦点 - 2025年5月21日Google I/O 2025开发者大会,谷歌发布或升级系列AI相关工具和服务,基础模型是亮点,Gemini系列为核心焦点 [11] - 谷歌对Gemini全面升级,2.5 Pro版本性能卓越,在学术基准测试及全球排行榜领先,DeepMind为2.5 Pro和2.5 Flash新增三大功能,Deep Think提升2.5 Pro能力 [11] - 最高效主力模型Gemini 2.5 Flash多维度提升,效率进一步提升,使用token减少20 - 30%,2.5 Flash已面向所有用户开放,6月初将正式发布更新版本,2.5 Pro也将很快发布 [12] - 谷歌在Gemini API和Vertex AI引入思维摘要功能,扩展思维预算到2.5 Pro,增加对MCP工具支持 [14] - 谷歌宣布新模型Gemini Diffusion,用「扩散」技术探索新语言模型方向,生成速度是谷歌最快模型五倍,编程性能相当 [15] - 谷歌将Gemini扩展为世界模型,愿景是打造成通用AI助手,过去一年集成功能到Gemini Live,还进行了语音输出、记忆功能和计算机控制功能的创新 [16] - 编程工具领域,谷歌宣布编程智能体Jules,可与用户代码库集成,异步运行,默认为私有,不使用用户私有代码训练,隔离用户数据 [17] - 谷歌宣布Gemini Code Assist新升级,个人版和GitHub版正式发布,Gemini 2.5支持免费版和付费版,提供更多自定义选项,标准版和企业版开发者可用200万token上下文窗口,可提高开发者完成常见开发任务成功率2.5倍 [19][20] - 谷歌推出全新AI驱动式UI工具Stitch,能基于自然语言描述或图像提示词生成UI设计及前端代码,可对话迭代设计,导出为CSS/HTML或Figma [20] - 谷歌宣布Colab和Firebase Studio功能升级,Colab将有全新智能体体验 [21] - 视频和图像生成领域,谷歌最新模型Veo 3和Imagen 4打破媒体生成界限,全新AI电影制作工具Flow用上最先进模型 [21] - Veo 3提高质量且可生成带音频视频,为Ultra在美国用户和Vertex AI企业用户服务;Veo 2更新添加新功能 [23][26] - Flow整合先进模型,让用户无缝创作电影级片段、场景和故事;Imagen 4细节清晰,表现出色,可创建多种宽高比图像,拼写和排版提升,将推出比Imagen 3快10倍的变体 [30] - 视频通信领域,谷歌Starline项目演变为3D视频通信平台Google Beam,借助AI将2D视频流转化为3D体验,还探索语音翻译功能,今日在Google Meet上线,最初支持英语和西班牙语,未来几周支持更多语言 [31][34] - 搜索领域,谷歌搜索AI概览功能升级,覆盖200多个国家和地区,支持40多种语言,新增多种语言支持,速度快,本周将在美国引入Gemini 2.5定制版本 [35] - 谷歌在美国正式推出AI模式,无需注册Labs,推理和多模态分析能力先进,采用查询扇出技术,将引入深度搜索功能,还为搜索引入实时功能、Project Mariner智能体功能、个人上下文与定制图表等能力 [38][41] - 谷歌推出全新AI购物体验,将Gemini功能与Shopping Graph结合,Shopping Graph有超500亿条商品信息,每小时超20亿条信息更新,用户可虚拟试穿服装 [44] - 谷歌推出Gemma 3n预览版本,是可在多设备流畅运行的开放式多模态模型,还推出新订阅套餐Google AI Ultra,每月249.99美元 [49] 1.2 联手XREAL打造Project Aura眼镜,面对竞争激励的AR眼镜市场 - 2025年谷歌I/O开发者大会,谷歌和XREAL共同开发Project Aura全新Android XR设备,基于OST技术路线,搭载高通骁龙XR芯片,有摄像头、视觉传感器模组、扬声器和麦克风阵列 [53] - 该设备外观与普通眼镜相近,佩戴舒适度初步接近普通Ray - Ban眼镜,单镜设计未影响使用体验,反而可能成亮点 [55] - 设备集成Gemini多模态助手,按住右侧镜腿触控区域可激活,能实时分析周围环境,Project Astra可用于视障人士辅助 [56] - 谷歌与XREAL合作类似安卓开放生态扩张经验,还预告与时尚眼镜品牌合作,Project Aura发布标志谷歌加入消费级AR硬件竞赛 [60] 2、相关标的 - 谷歌产业链相关标的有胜宏科技、天弘科技、lumentum、FINISAR [61] - 海外AI相关标的有胜宏科技、工业富联、沪电股份、麦格米特 [61] - 国产算力相关标的有中芯国际、寒武纪、海光信息等多家公司 [61] - 存储相关标的分企业级存储(香农芯创、澜起科技等)和AI端侧存储(兆易创新、东芯股份等) [61] - 消费电子相关标的涵盖代工厂&终端、电池、结构件&功能件等多个类别,涉及华勤技术、珠海冠宇等多家公司 [61] - 智能驾驶相关标的涉及智驾芯片、智驾域控、车载CIS等多个领域,包括地平线、比亚迪电子等多家公司 [61][63]
大模型全面爆发,所有榜一都是Gemini!谷歌一夜站到了台前
机器之心· 2025-05-21 08:33
核心观点 - 谷歌在Google I/O 2025开发者大会上展示了多项AI技术的重大突破,包括Gemini系列模型的升级、编程工具的创新、视频/图像生成模型的优化以及搜索和购物体验的革新 [1][2][3][61] Gemini模型升级 - Gemini 2.5 Pro在学术基准测试中表现优异,成为WebDev Arena和LMArena排行榜领先模型 [7][8] - DeepMind为2.5 Pro和2.5 Flash新增原生音频输出、安全保障和Project Mariner计算机使用功能 [9] - Deep Think实验性推理模式可提升2.5 Pro处理复杂数学和编码的能力 [10] - Gemini 2.5 Flash在推理、多模态、代码和长上下文等基准上均有提升,token使用减少20-30% [12] - Gemini Diffusion新模型采用扩散技术,生成速度达12秒10095 token,是现有最快模型的5倍 [16][18] 编程工具创新 - 编程智能体Jules可异步运行,支持代码库克隆、测试编写、功能构建等任务 [21] - Gemini Code Assist个人版和GitHub版正式发布,支持200万token上下文窗口 [22][23] - 数据显示Gemini Code Assist可将开发任务成功率提高2.5倍 [24] - AI驱动UI工具Stitch可根据自然语言生成高质量UI设计和前端代码 [24] - Colab将推出全新智能体体验,支持目标导向的代码修复和转换 [26] 视频/图像生成模型 - Veo 3视频生成模型新增音频功能,质量优于Veo 2 [28][29] - Imagen 4图像模型在细节清晰度、拼写排版等方面显著提升,支持2k分辨率 [35] - AI电影制作工具Flow整合Veo、Imagen和Gemini模型,支持精细控制角色和场景 [33] - Imagen 4变体即将推出,速度比Imagen 3快10倍 [38] 搜索与购物体验 - AI概览功能覆盖200+国家和地区,支持40+语言,响应速度为业内最快 [47] - AI模式采用查询扇出技术,可分解问题并同时发出多个查询 [50] - 实时搜索功能整合Project Astra技术,支持摄像头交互 [51] - AI购物模式结合Gemini与Shopping Graph,包含500亿+商品信息 [56] - 虚拟试穿功能支持上传照片试穿数十亿种服装 [57][59] 其他创新 - Starline项目进化为3D视频通信平台Google Beam,支持逼真3D体验 [41][42] - Google Meet语音翻译功能初期支持英语和西班牙语 [43][44] - Gemma 3n预览版发布,支持多模态处理且可在移动设备运行 [60]
速递|OpenAI推出AI编程Codex,可多任务并行测试至代码通过
Z Potentials· 2025-05-18 11:43
OpenAI推出AI编程助手Codex - 公司推出由codex-1驱动的最强AI编程工具Codex研究预览版 该模型生成的代码比o3更清晰 精准遵循指令 并能迭代运行测试直至通过[1] - Codex运行在云端沙盒环境 可连接GitHub预加载代码库 处理简单功能编写 漏洞修复 代码库问答等任务耗时1-30分钟 且不限制用户访问本地设备[1] - 工具初期面向ChatGPT Pro 企业版及团队版用户开放 未来将扩展至Plus和教育版 公司计划实施速率限制 用户可通过购买额外积分突破限制[3][4] 行业竞争格局 - AI编程工具市场快速增长 谷歌和微软CEO透露其30%代码由AI生成 Anthropic和谷歌近期分别推出Claude Code和Gemini Code Assist[5] - 头部AI编程平台Cursor年化营收达3亿美元 估值90亿美元 公司正以30亿美元收购竞品Windsurf 强化工具链布局[5] 产品功能与定价 - 用户可通过ChatGPT侧边栏调用Codex 使用"Code"按钮分配任务 "Ask"按钮获取代码解答 并实时跟踪进度[5] - 同步更新Codex CLI终端工具 搭载o4-mini模型 API定价为输入token每百万1.5美元 输出token每百万6美元[9] 技术特性与局限性 - Codex采用物理隔离设计 无法访问外部网络 内置安全措施可阻止恶意软件生成 但可能影响实用性[8] - 与同类生成式AI类似 Codex存在错误率问题 研究显示领先模型在可靠调试方面仍有缺陷[8] 战略布局 - 公司将Codex定位为"虚拟队友" 目标替代工程师需数小时至数天的任务 内部已用于重复性工作 功能框架搭建等[6] - 此次发布是ChatGPT功能扩展的最新举措 此前已新增Sora视频平台 Deep Research代理等订阅福利[9]