AI前线

搜索文档
文件被 Gemini 当场“格式化”,全没了!网友控诉:Claude、Copilot 也爱删库,一个都跑不了
AI前线· 2025-07-25 20:40
核心观点 - Gemini CLI在执行基础文件管理任务时出现严重"AI幻觉",导致用户数据丢失且无法恢复[1][2][7] - 该事件反映出当前SOTA模型(如Gemini、Claude、Copilot等)普遍存在的系统性缺陷:在不确定情境下缺乏中止能力[5][34] - 模型训练导向鼓励持续输出而非审慎操作,在具备执行能力的Agent模式下可能造成实际破坏[5][30] 技术故障分析 操作流程 - 用户要求Gemini重命名文件夹并移动文件,模型正确识别无法直接重命名当前目录[9][10] - 模型提议先创建新目录再移动文件的合理方案,但mkdir命令实际执行失败[12][13] - 模型错误认定创建成功,后续move命令导致文件被重命名覆盖而非移动[14][15][29] 错误机制 - Windows CLI特性:当目标目录不存在时,move命令会将源文件重命名为目标路径名称[30] - 通配符move *导致每个文件被依次重命名为相同名称,最终仅保留最后处理的文件[30] - 安全沙盒限制阻止模型在项目目录外搜索"丢失"文件[25][30] 系统性缺陷 - 缺乏操作验证:未检查mkdir实际结果及move后文件状态[30][34] - 错误处理缺失:未能正确解析Windows命令退出码和错误信息[29][30] - 训练偏差:模型被鼓励持续输出而非在不确定时中止[5][34] 行业影响 - 多款主流AI工具(Claude 4 Opus、GitHub Copilot)存在类似误删数据案例[3][4][5] - 用户转向付费Claude Code以避免免费工具风险,月省100美元的成本优势被可靠性问题抵消[6][32] - 开发者建议通过git备份应对AI工具潜在风险[5][30]
一个月重写三次代码库、三个月就换套写法!吴恩达:AI创业拼的是速度,代码不重要
AI前线· 2025-07-25 13:36
整理 | 褚杏娟 近期,吴恩达 (Andrew Ng) 在 Y Combinator 发表了最新演讲,分享了自己的创业心得。他提出为创 业公司成败的关键在于执行速度,执行速度比以往任何时候都更加重要,此外,他还详细阐述了创业 公司应该如何提速。 期间,吴恩达提出,创业者最大机会是在应用层,因为只有应用才能创造更多收入,反哺云、模型和 芯片公司。创业中,不要有类似"我要用 AI 优化医疗资源"这样的想法,因为不够具体、难以落地。 系统性地做 20 个原型产品去试错,很多最后不会投入生产,但没关系,因为试错成本足够低。 实践中,要善用 AI 编程工具提速,吴恩达指出,和最新工具比起来,即便只是落后半代、一代,差 距就会非常明显。"现在我团队里的工程师,和三个月、六个月前比,写软件的方法已经很不一样 了。"他还表示,鉴于当前研发速度已经远超产品设计速度,产品经理与研发人员的人数比已经出现 反转趋势。 在问答环节,他表示 AGI 被过度炒作:过去两年,有些公司为了营销、融资、影响力,故意把某些 说法炒得很大,就是为了让这些公司看起来更厉害。另外,很多开发者太担心 token 成本,他表 示,大多数创业公司根本还没到那 ...
“AI大神”李沐终于开源新模型,爆肝6个月,上线迅速斩获3.6k stars!
AI前线· 2025-07-25 13:36
整理 | 褚杏娟 7 月 23 日,"AI 大神"李沐宣布开源了 Higgs Audio v2,这是一个音频基础模型,构建在 Llama-3.2- 3B 基础之上,预训练数据包括超过 1000 万小时的音频以及丰富的文本数据。该模型目前在 Github 上已获得 3.6k stars。 "去年我们一直关注的是文本语言模型,让它智商足够高、能听从人的指示,一方面可以陪人玩游 戏,另一方面也能帮忙处理一些文案工作,简单来说就是能读能写。今年我们在想,能不能让模型能 听也能说。"李沐在 B 站发布的视频中说道。 随后,他表示,"语音是 AI 中一个相对比较悠久的领域,我其实并不是语音方面的专家。作为一个新 手,我的想法很简单,就是我不要去训练单独的语音模型,而是在文本大语言模型训练时加入大量的 语音数据,大力出奇迹,就想让文本语言模型智商不要下降,但同时掌握了用语音沟通的能力。" 李沐是全球知名 AI 深度学习科学家、深度学习框架 MXNet 作者之一,2008 年毕业于上海交通大学 计算机系,曾于微软亚洲研究院实习。毕业后任香港科技大学研究助理,2011 年加入百度任高级研 发;2012 年赴卡耐基梅隆大学攻读博 ...
怎么把 AI 用出生产力?| 直播预告
AI前线· 2025-07-24 14:56
直播信息 - 直播时间为7月25日20:00~21:30 [1] - 主题聚焦AI生产力应用 包括游戏研发 制造业和办公场景的智能实践 [5] - 嘉宾阵容涵盖网易游戏 腾讯文档及国际头部ERP企业的一线技术专家 [4] 核心内容亮点 - 探讨AI在制造 游戏 文档等场景的实际落地案例 [4][5] - 分析AI能力建设路径及组织应用方法论 [4][5] - 前瞻下一阶段AI应用布局方向 [4][5] 行业实践案例 - 网易游戏展示AI在游戏产品策划中的实践 [4] - 腾讯文档分享后台技术支持AI落地的经验 [4] - 制造业专家呈现ERP系统与AI的结合案例 [4] 技术动态关联 - 提及阿里Qwen3-Coder模型支持百万级上下文处理能力 [8] - 对比Claude Code等开发工具的技术迭代 [8] - 讨论Agent技术应用中成本优化90%的实践 [8] 参与方式 - 通过扫描二维码或点击预约按钮参与直播 [2] - 开放文末留言提问通道 专家将现场解答 [7]
“连我也要被GPT-5踹了!”Altman再发暴论:写款软件就花7毛钱,大批高级程序员岗也说没就没
AI前线· 2025-07-24 14:56
整理 | 华卫 "要是给地球上每个人都免费配备一个 GPT-5,让它全天候为大家服务,会意味着什么:有些经济体 将会发生飞速变革,一切都靠人工智能运转,成本仅为原来的 1/100。" 刚刚,OpenAI 首席执行官 Sam Altman 在一档播客中突然宣布了有关 GPT-5 的消息。据他称, GPT-5 在"几乎所有方面都比人类更聪明",并让他本人都深感自己"无用",甚至由此直接预言: AI 淘汰其当上 OpenAI CEO 的那一天,恐怕也不会太遥远。 而就在昨日(7 月 23 日)美联储理事会华盛顿举办的 "大型银行资本框架会议"上,Altman 同样谈到 了 AI 对就业市场正带来的影响及社会变革。 "有些领域,我认为会完全、彻底地消失。"Altman 在与美联储副主席 Michelle Bowman 对话时这样 表示。他描绘了一幅令人不寒而栗的未来图景——就业市场将发生重大变化,某些职业类别将因 AI 的发展而消失,并特别提到了客服岗位,"比如客服这个领域,我敢说,以后你打电话咨询客服时, 对接的肯定是 AI,这很正常。"并且,他强调了 AI 在医疗保健领域的变革潜力。"顺便说一句,如今 的 Cha ...
AGICamp 第 004 周 AI 应用榜单发布:算力自由 GPU 云平台、insight- AI 健康分析搭子、小葵上榜
AI前线· 2025-07-24 14:56
AGICamp 第 004 周 AI 应用榜来啦,004 周上线了 5 款 AI 应用,面向企业端(2B)和面向个人端 (2C)的应用都有上新,比如面向企业算力自由 GPU 云平台、硅基流动 SiliconnFlow;和面向个人 的应用,insight - AI 健康分析搭子、小葵和 Moody Watch 等。 值得一提的是,本周健康监测类应用表现亮眼,如 insight - AI 健康分析搭子 和 MoodyWatch 都聚焦 于利用 Apple Watch 和健康数据,为用户提供深度的健康分析和情绪监测,体现了 AI 在个人健康管 理方面的潜力。 本周详细榜单如下 同时,在过去的一周中,AGICamp 产品根据开发者和用户的积极反馈,我们也进行了快速迭代: AGICamp PC 端首页性能优化,首页整页加载时间降低到 800 毫秒,打开速度大幅提升,优 化用户体验。 上周二 AI 应用榜单第三次发布(8500 人次阅读),AI 应用开箱直播第二期各平台观看总人数 破万,本周四将继续进行"产品开箱"直播,不仅有最新 AI 应用深度测评,更有惊喜抽奖环节, 诚邀大家一起玩转 AI 应用。 AGICamp 微 ...
请回答 WAIC 2025!我们对 AI 好奇的一切,会找到答案吗?| Q推荐
AI前线· 2025-07-23 08:22
2025世界人工智能大会(WAIC) - 全球AI领域规模最大、专业度最高、影响力最强的顶级盛会之一,本届规模创历届之最[1] - 展览面积首次突破7万平方米,吸引800余家企业参展[1] - 集中展示3000余项前沿展品,包括40余款大模型、50余款AI终端产品、60余款智能机器人以及100余款"全球首发""中国首秀"新品[1] - 大会涵盖大模型与智能体应用、算力新基建及大数据、AI for Science、智能终端与具身智能等多个关键方向[1] InfoQ探展直播 - 将于7月26日下午三点深入大会现场进行探展直播[1] - 技术编辑将走进技术核心地带,直面企业一线代表提出最具挑战性问题[2] - 直播后将制作问题集锦和多篇独家深度报道,呈现AI领军人物的深度洞察[2] AICon全球人工智能开发与应用大会 - 首届大会将于8月22-23日在深圳举行[3] - 以"探索AI应用边界"为主题,聚焦Agent、多模态、AI产品设计等热门方向[3] - 邀请头部企业、大厂及明星创业公司专家分享大模型实践经验和前沿洞察[3] AI行业动态 - Manus首次公开上下文工程秘诀,称一个任务50次调用可降低成本90%[4] - OpenAI新Agent遭中国24人初创团队碾压,实测成本和质量均不如[4] - 定制"二次元女友"AI火爆,马斯克开出44万美元年薪抢工程师[4]
阿里Qwen3-Coder携1M上下文杀来!5分钟生成网站,开发者狂欢:Claude Code可以卸载了
AI前线· 2025-07-23 08:22
阿里发布Qwen3-Coder代码模型 - 核心观点:阿里发布迄今为止最具代理能力的代码模型Qwen3-Coder,具备卓越的代码和Agent能力,支持358种编程语言,在多项评测中取得开源模型最佳效果[1] - Qwen3-Coder采用混合专家MoE架构,参数规模达480B,激活参数35B,原生支持256K token上下文,可通过YaRN扩展到1M token[1] - 模型在Agentic Coding、Agentic Browser-Use和Agentic Tool-Use等任务上表现优异,可与Claude Sonnet4媲美[1] 模型性能表现 - 在Terminal-Bench评测中得分37.5,优于Kimi-K2 Instruct的30.0[2] - SWE-bench Verified得分69.6,SWE-bench Live得分26.3,均领先其他模型[2] - Multi-SWE-bench mini得分25.8,优于Kimi-K2 Instruct的19.8[2] - WebArena评测得分49.9,Mind2Web得分55.8,表现优异[3] - BFCL-v3评测得分68.7,TAU-Bench Retail得分77.5,展示强大工具使用能力[3] 技术特点与创新 - 训练数据总量达7.5T,其中代码占比70%[8] - 采用扩展Code RL训练方法,通过自动扩展测试样例构造高质量训练实例[7] - 实现可验证环境的扩展系统,可同时运行20k独立环境[10] - 利用Qwen2.5-Coder对低质数据进行清洗与重写,提升数据质量[8] 应用场景与效率提升 - 可帮助程序员完成基础编程任务,如写代码、补全代码、修Bug等[14] - 编程工作效率大幅提升,代码测试、查询生成等工作从数小时降至数分钟[14] - 刚入行程序员一天可完成资深程序员一周的工作[4] - 生成一个品牌官网最快只需5分钟[4] 开发者生态与商业化 - 已在魔搭社区、HuggingFace等平台开源,Github获得5.1k stars[5] - 将接入阿里AI编程产品通义灵码,API已上线阿里云百炼[5] - 阿里云百炼提供API服务,输入Token成本从$1/百万到$6/百万不等[20] 开发者反馈 - 开发者称赞模型速度快,可替代每月200美元的Claude Code[13] - 有开发者反馈模型在逐步推理提示下表现更好[19] - 部分开发者遇到基本操作失败的问题[20]
开源套壳叫板Google?Perplexity新品发布,印度裔CEO放言5万美金撬走彭博千亿生意
AI前线· 2025-07-22 17:32
Perplexity推出Comet浏览器 - 公司推出基于Chromium内核的AI浏览器Comet,整合自家AI搜索工具和智能助手,目前仅面向每月支付200美元的高级用户开放[1] - 浏览器定位为"认知操作系统",具备自动化工作流、理解屏幕内容、执行复杂指令等能力,目标实现"以思想的速度浏览"[14][15] - 底层技术依赖Google主导的开源项目Chromium,与Chrome和Edge同源[3] 挑战Google的战略布局 - 公开表示要挑战市占率66.6%的Google Chrome,并计划收购Chrome如果法院强制Google剥离[1] - CEO透露曾寻求成为Chrome默认搜索引擎被拒,成为自研浏览器的导火索[2] - 采用"横向平台"战略而非垂直领域,认为垂直市场天花板低且缺乏技术挑战[6][26] 商业模式与数据战略 - 浏览器旨在获取用户全域行为数据,优化广告投放质量[2] - 推出出版商计划与内容方分成收入,区别于Google的流量截取模式[38][39] - 金融领域锁定Bloomberg Terminal市场,瞄准每日数十万亿美元的金融决策价值,计划通过AI研究能力颠覆年费2万美元的传统终端[8][36] 产品技术路线图 - 搜索产品分为三种模式:普通搜索(快速回答)、深度研究(3-4分钟报告)、Labs模式(10-15分钟生成可视化内容)[31][32][33] - Labs模式可自动生成网站、仪表盘、分析图表等,提供完整代码文件下载[33] - 未来将通过浏览器获取个人上下文,构建"专属仪表盘"实现任务管理和流程优化[34] 创始人创业理念 - 坚持解决"AI complete"级别问题,认为搜索是随AI进步持续进化的领域[21][24] - 早期仅用5万美元开发产品,获Marc Andreessen投资支持横向平台战略[7][28] - 拒绝垂直领域建议,认为只有挑战巨头才能吸引顶尖人才[6][25] 行业竞争格局 - 选择在OpenAI传闻发布AI浏览器前抢先推出产品[1] - 指出Bloomberg Terminal界面陈旧,AI分析能力将使其合规优势归零[36] - 认为浏览器是AI落地的关键平台,兼具云端智能与本地数据控制的优势[15][17]
Altman 秀新模型“翻车”,谷歌补刀躺赢!OpenAI 前员工爆肝3天,编程再赢老东家模型!
AI前线· 2025-07-22 17:32
OpenAI新模型进展 - OpenAI近期测试多款未公开新模型 包括疑似GPT-5的o3-alpha-responses-2025-07-17模型和编程竞赛亚军模型OpenAIAHC [1][5][7][8][10] - o3 Alpha模型在Web开发测试中表现惊艳 仅上线5-6小时后下架 可能在未来几周正式发布 [5][7][8] - OpenAI CEO曾暗示公司内部有全球前50编程能力的模型 2025年底可能推出超人类级编程模型 [8] 国际数学奥林匹克竞赛表现 - OpenAI宣布实验性AI模型在IMO取得金牌成绩 达到前9%人类选手水平 在4.5小时限制下完成6道证明题 [2][3] - 谷歌DeepMind的Gemini Deep Think在IMO六题中答对五题 达到金牌水平 此前AlphaProof和AlphaGeometry 2仅获银牌 [2][4] - OpenAI因提前公布成绩和自行评分引发争议 被质疑违反IMO保密协议和评分标准 [3][4] 编程竞赛表现 - OpenAI的OpenAIAHC模型在AtCoder世界巡回赛总决赛中获得亚军 得分1,654,675,725,406 不敌人类冠军的1,812,272,588,909 [10][11][12] - 这是AI首次在顶级编程竞赛中进入前三名 展示出战略性推理和长期规划能力 [12][13] - 比赛采用10小时限时赛制 参赛者使用相同硬件 每次提交需间隔5分钟 [10] 行业动态 - 谷歌DeepMind CEO批评OpenAI过早公布IMO成绩 强调应尊重官方验证流程 [4] - 多家AI公司被IMO要求推迟至7月28日公布结果 但OpenAI提前宣布引发不满 [4] - 行业观察显示AI在编程和数学竞赛中进步显著 可能很快超越人类顶尖选手 [13]