Workflow
Gemini CLI
icon
搜索文档
AI编程时代的生存原则是什么?吴恩达:快速行动,承担责任
36氪· 2025-09-23 07:30
近日,吴恩达(Andrew Ng)在首届Buildathon上发表主题演讲,内容围绕AI辅助编程、快速开发产品原型,以及AI工程师技能需求展开。 吴恩达是人工智能与机器学习领域的国际权威学者。他是谷歌大脑项目的创始人之一,也是在线教育平台Coursera的联合创始人。2014年,吴恩达加入百 度,担任首席科学家,2024年吴恩达进入亚马逊董事会。他近年来活跃于AI投资和创业领域,创立了AI Fund和DeepLearning.AI等项目。 吴恩达提出,原型开发对安全性、扩展性要求较低,AI进一步降低了试错门槛。他推崇"快速行动,承担责任"(Move fast and be responsible)原则,建议 在沙盒环境中大胆实验,再决定是否投入生产化改造。 2、代码正在贬值,开发者需要转型为系统设计者和AI指挥者。 编程工具已经历多代进化:从GitHub Copilot到IDE,再到高度代理化的编程助手。工具迭代速度创造实质性效率差距,落后半代即可能显著影响产出能 力。 代码价值本身正在降低。AI可自动生成代码、迁移数据库架构,使架构决策变得更可逆。开发者需要从代码编写者转型为系统设计者和AI指挥者,重点 把 ...
AI Coding 的下半场,何去何从?
AI科技大本营· 2025-09-22 17:17
AI Coding 演化进行时。 作者 | 董超 责编 | Echo Tang 出品丨AI 科技大本营(ID:rgznai100) 过去三年里,AI 编码从"补一句代码"跃迁为"承包一次变更"。Coding 可能是第一个找到所谓 PMF 的方向…如今 AI Coding 已经进入下半场,Coding 到底是 AGI 的子集还是新路径,我们一起略窥一二。 三年演进:范式落地 → 开源上位 → 执行力为王 2023:范式落地,"可执行代理"苗头已现 如果要给 2023 下一个极简注解,那就是:范式被大型平台坐实,开源在边缘地带萌芽。前者不难理解——Copilot 与 ChatGPT 把"人写—AI 辅"的协 作方式带进了日常;后者更值得留心:初创公司和个人开发者开始探索"不仅会说,还要能做"。我们能在当年的两个方向上嗅到这种味道: 它们还不是"产业级代理",却清晰地为次年的开源 Code Agent 热身:从"能聊代码"迈向"能动手"。 2024:Coding Agent 上位,社区百花齐放 来到 2024,Coding Agent 从舞台边侧走到中央,形成两股彼此强化的潮流。 第一股:可执行的 Coding A ...
击败ChatGPT登顶App Store,Google这套AI全家桶,个个都是王炸
36氪· 2025-09-15 15:58
Google Gemini应用排名表现 - Google Gemini凭借Nano Banana图像编辑功能登顶App Store免费榜首位 将ChatGPT挤至第二位[1][2] - Gemini在App Store免费榜所有类别中排名第一 成为Google的爆款AI应用[2] Google AI产品矩阵 - Gemini定位为通用助手 包含Nano Banana生图模型、Canvas画布、Veo3视频生成、Storybook故事板和Deep Research等功能[3] - NotebookLM作为知识库工具支持上传300个文件 可将文档总结为音频、视频、思维导图等六种形式[3][17] - Flow专注于高质量视频生成 支持竖屏9:16格式和1080p高清 免费用户每月赠送100积分[4] - AI Mode为搜索增加推理能力 提供比AI Summary更严谨的结果 支持五种语言(不含中文)[5] - Gemini CLI是本地助手工具 支持下载视频、转GIF、压缩文件等操作[5] - AI Studio和Labs Google提供音乐生成、语言学习等实验性功能[6] Gemini技术特性 - 提供Gemini 2.5 Pro和Flash两个模型 具备跨对话记忆功能 与Google生态无缝衔接[3][6] - 免费用户每天可使用2.5 Pro最多5条提示 付费版Google AI Pro可达100条 Ultra版达500条[8] - 上下文窗口大小从3.2万token(免费版)到100万token(Ultra版)不等[8] - 图像生成功能免费用户每天100张 Ultra版每天1000张[8] - 视频生成功能Pro版每天可使用Veo 3 Fast生成3个视频 Ultra版可生成5个视频[8] 模型性能表现 - 在LMArena排行榜中 Gemini 2.5 Pro文本能力排名第一 但网页开发能力不及GPT和Claude[11] - 在文生视频竞技场 Veo3系列模型占据前四名 其中Veo3-fast-audio以1405分位列第一[34] - Gemini 3.0 Flash能力预计将超过2.5 Pro[15] 产品功能更新 - Gemini新增Canvas画布功能 支持点选元素并用自然语言修改[12] - 支持上传音频文件 可直接处理会议录音等材料[13] - NotebookLM新增视频介绍、Quiz测验和Flashcard闪卡功能[23][26] - Flow的Veo 3 Fast从0.4美元/秒降价至0.15美元/秒[33] - AI Mode新增日语、韩语、葡萄牙语等语言支持[40] 实际应用案例 - NotebookLM可处理297篇学术论文 生成多种形式的内容总结[18][19] - 支持企业财报分析 通过思维导图清晰展示多家公司一季度财报内容[28] - 与OpenStax合作将教科书转化为交互式笔记本 涵盖生物学、化学等学科[30] - Gemini CLI可自动下载X视频并转换为5-10MB的GIF文件[51][52] - 支持本地文件处理 如将3.3MB图片压缩至445KB[55][56] 市场竞品动态 - 微软Edge浏览器升级为AI浏览器 深度集成Copilot功能[36] - OpenAI被爆料正在开发自己的AI浏览器[36] - Atlassian以6.1亿美元收购Dia浏览器[36]
蚂蚁开源2025外滩大会发布大模型全景图,AI开发现三大趋势:工具、路线与生态分化
搜狐财经· 2025-09-14 23:25
在2025 Inclusion·外滩大会AI开源见解论坛上,蚂蚁开源与Inclusion AI联合发布了《全球大模型开源开发生态全景与趋势报告》2.0版本。该报告基于GitHub 全平台项目分析,结合OpenRank算法筛选排名,收录了22个技术领域的114个高关注度开源项目,涵盖AI Agent与AI Infra两大方向。蚂蚁开源技术委员会副 主席王旭在论坛上指出,报告通过数据驱动的方式,客观呈现了全球AI开源生态的真实状况,既为行业提供参考,也彰显了中国在AI开源领域的活跃度。 报告指出,随着大模型能力提升,程序员的工作模式或将发生转变。未来,重复性工作可能更多由AI工具完成,开发者将更聚焦创意设计和复杂问题解 决。这一趋势可能重塑软件开发行业的分工模式,全球开发者对"AI助手"的需求持续攀升。 论坛上同步发布的2025大模型发展时间线全景图,梳理了当年1月至今国内外主流厂商的大模型发布动态,涵盖开放参数模型与闭源模型,并标注了模型参 数、模态等关键信息。该全景图为开发者和社区理解厂商竞争态势提供了直观参考。 报告还指出,当前大模型发展呈现几大关键方向:中美开源与闭源路线分化明显;模型参数在MoE架构下趋 ...
蚂蚁开源2025全球大模型全景图出炉,AI开发中美路线分化、工具热潮等趋势浮现
搜狐财经· 2025-09-14 22:39
大模型开源开发生态全景 - 报告收录22个技术领域114个最受关注开源项目 分为AI Agent和AI Infra两大技术方向[1] - 62%开源项目诞生于2022年10月之后 平均年龄仅30个月 体现高速迭代特性[1] - 全球36万开发者参与 美国占比24% 中国占比18% 中美合计贡献超四成核心力量[1] 中美开源策略差异 - 中国厂商更倾向开放权重开源模型路线 美国头部厂商多采用闭源模式[1] - 中国在积木共享上的积极性让全球生态更具活力[1] AI编程工具发展 - AI编程工具呈现爆发式增长 主要分为命令行工具和集成开发环境插件两类[1] - 2025年新出现Coding工具平均获得3万以上开发者Star关注[1] - Gemini CLI开源3个月星标数突破6万 成为增长最快项目之一[1] 开发效率提升路径 - 模型厂商从命令行工具切入 注重用户体验团队从集成开发环境入手[2] - 未来程序员将更多重复性工作交给AI工具 聚焦创意设计和复杂问题解决[2] 大模型发展趋势 - 大模型发展呈现中美开源闭源路线分化 MoE架构下参数趋于规模化[4] - 基于强化学习提升Reasoning能力 多模态模型进一步成为主流[4] - 模型评价方式发展出基于主观投票和客观评测的不同模式[4]
蚂蚁开源发布2025全球大模型开源生态全景图,揭示AI开发三大趋势
搜狐财经· 2025-09-14 19:36
报告概述 - 蚂蚁开源联合Inclusion AI发布《全球大模型开源开发生态全景与趋势报告》2.0版本 全面揭示人工智能开源领域发展现状和未来趋势 并纳入百余天内开源社区新动向 [1] - 报告通过数据驱动方式客观呈现全球AI开源生态真实状况 展现中国在AI开源领域重要地位 [3] 开源生态特征 - 报告数据来源于GitHub全平台项目 使用OpenRank算法筛选和排名 收录22个技术领域的114个最受关注开源项目 分为AI Agent和AI Infra两大技术方向 [3] - 62%大模型生态下开源项目诞生于2022年10月"GPT时刻"之后 平均年龄仅30个月 反映AI开源生态高速迭代特性 [3] - 参与全景图项目开发的约36万全球开发者中 美国开发者占比24% 中国开发者占比18% 印度8% 德国6% 英国5% 中美两国合计贡献超四成核心力量 [4] 开源策略差异 - 中国厂商更倾向于开放权重的开源模型路线 美国头部厂商多采用闭源模式 [4] - 中国在积木共享上的积极性正让全球生态更具活力 [4] AI编程工具发展 - AI编程工具爆发式增长 能自动生成修改代码大幅提升程序员效率 成为开源社区最热门领域 [4] - 工具主要分为命令行工具(如Google Gemini CLI)和集成开发环境插件(如Cline) [4] - 2025年新出现Coding工具平均获得3万以上开发者Star关注 Gemini CLI开源仅3个月星标数突破6万 成为增长最快项目之一 [5] - 做模型厂商偏好命令行工具切入 注重用户体验团队从集成开发环境入手 两种路线共同推动编程效率革命 [5] 行业影响与趋势 - 随着大模型能力提升 程序员可能将更多重复性工作交给AI工具 转而聚焦创意设计和复杂问题解决 这一趋势或将重塑软件开发行业分工模式 [5] - 蚂蚁开源同步发布2025大模型发展时间线全景图 梳理2025年1月至今国内外主流厂商大模型发布时间线 包含开放参数模型和闭源模型 标注模型参数模态等关键信息 [6] 大模型发展方向 - 中美大模型开源与闭源路线分化明显 [8] - 模型参数在MoE架构下趋于规模化发展 [8] - 基于强化学习提升模型Reasoning能力 [8] - 多模态模型进一步成为主流 [8] - 模型评价方式发展出基于主观投票和客观评测的不同模式 [8]
「开发者私下更喜欢用GPT-5写代码」,Claude还坐得稳编程王座吗?
机器之心· 2025-08-27 11:18
编程模型性能比较 - Anthropic的Claude Opus 4.1在软件编程权威基准SWE-bench Verified测试中表现优异 尤其在多文件代码重构方面有显著进步[1] - OpenAI的GPT-5在编程赛道获得更多青睐 用户反馈其编程能力优于Claude 可处理复杂编程任务和大规模代码重构[3][5][6] - 用户实际使用中 GPT-5在指令遵循方面表现突出 能够处理"把这个改得更像那个"等复杂重构指令[6] 模型适用场景差异 - Claude被部分用户认为是"偏科型选手" 在编程领域表现出色但其他领域幻觉率较高 尤其在健康医疗类问题上存在严重幻觉风险[9][10] - GPT-5在多领域表现均衡 幻觉率显著低于Claude 在商品搜索等实际应用中能提供准确结果[9][10] - Claude在代码补全速度方面优于GPT-5 在VIM编辑器中使用Opus进行代码补全速度更快[4] 用户使用偏好变化 - 开发者开始转向使用GPT-5进行编程工作 有人表示已基本完全不用Claude Opus[3] - 用户同时使用多个模型 Claude Code与GPT-5 reasoning high组合使用获得更多信任[4] - 根据旧金山"小道消息" 很多人私下更偏好使用GPT-5写代码 这与"Claude更擅长编程"的流行叙事相反[7] 模型特性对比 - GPT-5的幻觉率和通用实用性显著优于Claude 在各个领域表现都不错[8][11] - Claude在写作方面"温度感"更强 作为学习伙伴能引导用户逐步接近答案而非直接给出答案[9] - GPT-5具备强大的搜索功能 能处理具体尺寸、颜色等要求的商品搜索任务[9]
AI编程界炸出新黑马!吊打Cursor、叫板Claude Code,工程师曝:逆袭全靠AI自己死磕
AI前线· 2025-08-02 13:33
AI编程工具AmpCode的崛起 - AmpCode与Claude Code并列S级,成为AI编程领域的顶级产品,而Cursor仅位列A级[2] - 该产品由Sourcegraph推出,研发时间早于Claude Code发布[4] - 核心设计理念强调"代理性",能深度参与开发流程并具备高度自治能力[4] 产品差异化设计 - 采用"放权"架构,赋予模型完整的对话记录、工具访问和文件系统权限[5] - 与Cursor等产品相比,交互更直接,消除了抽象隔层[22] - 通过VS Code插件等多平台支持降低使用门槛,无需更换开发环境[25] 技术实现突破 - 基于Claude 3.7和Sonnet 3.7模型构建,仅需300行代码即可实现基础代理功能[7] - 模型展现出自主解决问题的能力,如通过echo命令修改未授权文件[7] - 采用透明可控的工具调用机制,模型按预设协议格式发出操作信号[9] 开发者体验变革 - 测试套件90%可自动生成,UI组件状态预览等重复工作实现自动化[66] - 开发效率提升显著,例如20秒完成组件功能同步等机械性工作[67] - 使构建调试工具等辅助程序的门槛大幅降低,促进工程实践创新[70] 行业影响与趋势 - 代码价值结构改变,90%机械性工作价值下降,10%设计决策价值倍增[57] - 初级和资深工程师获益最大,中间层面临技能转型挑战[33][34] - 开源生态面临重构,标准化库的价值被即时生成能力削弱[75][77] 产品定位与商业模式 - 采用高价策略,不限制token用量以释放模型全部潜力[21] - 面向企业提供团队协作功能,如对话记录共享和使用统计[25] - 保持架构灵活性,准备随时整合更强大的模型能力[26][30]
文件被 Gemini 当场“格式化”,全没了!网友控诉:Claude、Copilot 也爱删库,一个都跑不了
AI前线· 2025-07-25 20:40
核心观点 - Gemini CLI在执行基础文件管理任务时出现严重"AI幻觉",导致用户数据丢失且无法恢复[1][2][7] - 该事件反映出当前SOTA模型(如Gemini、Claude、Copilot等)普遍存在的系统性缺陷:在不确定情境下缺乏中止能力[5][34] - 模型训练导向鼓励持续输出而非审慎操作,在具备执行能力的Agent模式下可能造成实际破坏[5][30] 技术故障分析 操作流程 - 用户要求Gemini重命名文件夹并移动文件,模型正确识别无法直接重命名当前目录[9][10] - 模型提议先创建新目录再移动文件的合理方案,但mkdir命令实际执行失败[12][13] - 模型错误认定创建成功,后续move命令导致文件被重命名覆盖而非移动[14][15][29] 错误机制 - Windows CLI特性:当目标目录不存在时,move命令会将源文件重命名为目标路径名称[30] - 通配符move *导致每个文件被依次重命名为相同名称,最终仅保留最后处理的文件[30] - 安全沙盒限制阻止模型在项目目录外搜索"丢失"文件[25][30] 系统性缺陷 - 缺乏操作验证:未检查mkdir实际结果及move后文件状态[30][34] - 错误处理缺失:未能正确解析Windows命令退出码和错误信息[29][30] - 训练偏差:模型被鼓励持续输出而非在不确定时中止[5][34] 行业影响 - 多款主流AI工具(Claude 4 Opus、GitHub Copilot)存在类似误删数据案例[3][4][5] - 用户转向付费Claude Code以避免免费工具风险,月省100美元的成本优势被可靠性问题抵消[6][32] - 开发者建议通过git备份应对AI工具潜在风险[5][30]
如何用AI构建个人知识库?
虎嗅· 2025-07-22 16:30
核心观点 - Gemini CLI作为开源AI智能体工具,将Google Gemini多模态大模型能力集成到本地命令行环境,实现自然语言交互与自动化任务执行,特别适合构建个人知识库系统 [4][12][17] - 该工具标志着AI从"建议引擎"向"本地环境主动协作伙伴"的范式转变,为知识工作者提供无需编程基础的智能化信息管理解决方案 [12][20][22] - 相比ChatGPT Agent的付费模式,Gemini CLI免费提供Gemini 2.5 Pro模型能力,在成本效益和多模态处理方面具有显著优势 [24][28][22] 产品特性 - 支持自然语言命令行交互,内置文件编辑、搜索、网络获取等11种核心工具(ReadFile/FindFiles/GoogleSearch/WriteFile等) [17][36][37] - 具备多模态处理能力,可解析图片、视频内容,支持从零生成应用程序和专业级多媒体内容 [22][29] - 采用本地优先(local first)架构,保障数据隐私的同时提升与个人知识库的交互质量 [84][93] 应用场景 - 知识管理:自动化整理本地文件(如清理Downloads文件夹、格式转换),将400个笔记转化为结构化知识图谱 [31][38][40] - 研究辅助:基于个人知识库进行深度信息检索、数据关联分析和复杂问题解决 [29][34] - 内容创作:结合Model Context Protocol服务器生成视频/图片内容,自动化工作流程 [29][34] 技术优势 - 基于Google Search技术积累和DeepMind团队研发,在信息检索质量和推理能力方面表现突出 [24][25][26] - 无需编程基础,通过自然语言指令自动下载所需工具包完成任务,降低使用门槛 [12][43] - 与Obsidian等本地笔记软件无缝集成,支持Markdown格式转换,优化LLM数据处理效率 [31][72][73] 行业意义 - 推动AI应用从云端向本地化部署发展,改变传统"文件柜"模式的知识管理范式 [21][68][84] - 实现人类智能与机器智能的协同,通过神经网络模仿人脑工作方式构建知识关联 [55][56][128] - 开创超个性化自适应学习(Adaptive Learning)模式,通过上下文工程(context engineering)提升AI辅助学习效果 [86][88][129] 用户定位 - 知识工作者(knowledge worker)和基于信息的投资者(informed investor) [7] - 需要处理大量信息输入输出的学习群体,特别是非技术背景的文科用户 [10][12] - 注重隐私安全且追求高质量信息处理的本地化应用倡导者 [70][93] 实施效果 - 10分钟内完成下载文件夹整理,大幅提升文件处理效率 [38][39] - 节省约20美元/月的ChatGPT Agent订阅费用,同时获得更优的多模态处理能力 [28] - 将80%的重复性笔记整理工作自动化,显著降低知识管理时间成本 [75][76]