Workflow
AI前线
icon
搜索文档
OpenAI的新浏览器实测被吐槽疯了?走“乔布斯风”、挖谷歌骨干,奥特曼就“复制”出个ChatGPT版Chrome?
AI前线· 2025-10-22 13:18
产品发布与市场影响 - OpenAI发布全新AI浏览器ChatGPT Atlas,导致谷歌股价一度下跌超4%,市值蒸发超千亿美元[2] - Atlas目前仅支持macOS系统,未来将适配Windows、iOS和Android系统[6] - 产品基于开源Chromium引擎开发,与谷歌Chrome底层技术相同,但深度整合了ChatGPT功能[6] 核心功能与技术创新 - 引入常驻侧边栏助手,可获取当前网页上下文并直接总结内容或回答问题[6] - URL栏默认集成ChatGPT搜索引擎,结果按文本、图片、视频和新闻分类展示[6] - Agent Mode支持自主执行任务(如预订酒店、编辑文档),仅限付费用户使用,演示中完成食谱食材采购耗时几分钟[7] - 新增"记忆"功能利用浏览历史生成个性化回答,用户可精细控制数据存储[9] - "光标聊天"工具支持行内文本编辑,用户选中文本即可通过ChatGPT优化内容[9] 战略定位与行业竞争 - OpenAI将浏览器视为"操作系统的下一阶段演进",目标是打造"生活必备的操作系统"[5] - 公司从谷歌挖角Chrome核心开发者Ben Goodger(前谷歌副总裁)负责Atlas技术开发[11] - 谷歌正围绕Gemini 3模型构建AI功能反击,但Atlas的对话式搜索范式难以被传统浏览器复制[12] - 浏览器市场进入2.0阶段,竞争者包括Perplexity的Comet、The Browser Company的Dia等AI浏览器[15] 用户反馈与产品挑战 - 有用户指出Atlas需打开ChatGPT才能对话,在文件搜索和密码管理插件兼容性方面存在不足[16] - 与竞品相比,部分用户认为Atlas界面简洁但AI存在过度干扰,设计质感不及Dia浏览器[16] - 全球浏览器市场中Chrome仍占据约70%份额,用户习惯黏性强,新浏览器需成为默认预装才可能改变格局[16] 商业化路径与数据价值 - Atlas可通过浏览器窗口直接收集用户上下文信息,为未来广告定向投放提供数据支撑[13] - OpenAI近期发布大量广告技术岗位,暗示可能转向广告业务,产品聚焦用户增长与营收提升[13] - 用户行为模式从"输入问题→点击链接"转变为"询问AI→获取答案→采取行动",颠覆传统网站、广告网络和SEO策略[13]
AI 时代,编程语言选型更难也更重要:Go、Rust、Python、TypeScript 谁该上场?
AI前线· 2025-10-22 13:18
AI时代编程语言的选择与权衡 - 在AI写码成为新常态的背景下,编程语言的选择反而更为重要,语言会直接影响Agent生成代码的质量[2] - Go语言在AI场景下表现更优,其抽象层薄、结构规整,便于模型读懂与改写,同一类小程序让AI分别用多种语言各写十次比较通过率,Go明显优于Python,也好于Rust[2] - 无论创办什么公司,最终都绕不开Python,可能不会用它写核心服务,但只要涉及机器学习或数据处理,Python一定会出现,同理JavaScript和TypeScript也无法回避[2] - 当前是创造“更完美语言”的窗口期,短期内不会摆脱AI生成代码的范式,而现有语言也未必是人机协作的最优解,“为人类与Agent共编而设计的下一代语言”正成为行业趋势[3][5][28] 主流编程语言的特性与适用场景 - Python生态极其成熟,在机器学习领域无可替代,非常适合构建Web服务,尤其适合AI推理为主、大部分时间在等待网络返回结果的公司,开发效率高[16] - Rust非常适合打造精巧的开源项目,但在创业公司中不够理想,因其编译极慢、需要写更多代码、借用检查器约束太强导致开发效率存在摩擦[8][9] - Go是一种极其实用的语言,稳定、简单,最适合用于构建Web服务或命令行工具,语法比Python更简单直接且易于维护[10][16] - TypeScript让JavaScript生态相当成熟,但npm生态依赖过多,构建一个正常项目几乎不可能少于500个依赖包,在服务端难以安心[17] AI编程工具对软件开发的影响 - AI工具已能承担大量标准化工作,当前创业公司约有80%以上的代码是AI生成的,这些代码结构规范、测试完善,承担着标准化API、开放接口、基础逻辑等工作[21] - AI大大降低了构建自定义工具的成本,让非技术背景的联合创始人也能直接用Claude和Codex构建原型验证产品体验,过去需要三周构建的可视化工具现在用Claude半小时就能生成更漂亮的版本[20][21] - 系统架构、复杂度管理、可维护性等核心问题并不会因为AI而改变,人类对新问题的创造性思考仍是竞争优势的关键,完全依赖机器的公司会失去团队活力[24] - AI降低了编程入门门槛,让更多从未接触编程的人进入该领域,过去要花几个月学习才能独立产出成果,现在输入几个指令就能看到结果,编程变得更民主化[25] 初创公司的技术栈选择策略 - 初创公司应该在早期尽量控制技术栈的数量,三到四种语言已经足够,选择语言时要从问题出发而不是从偏好出发[18] - 引入新语言的原因可能是性能考虑,也可能是为了融入某个生态系统,例如Sentry引入Rust是因为它能嵌入Python从而在不分拆系统的情况下提升性能[14][15] - 随着AI工具高效生成代码,“统一代码库”的价值下降,保留清晰的系统边界反而更有利于开发,尤其是在使用React Server Components等技术时[18] - 规模化并不仅仅取决于数据量,而是包括团队规模、问题复杂度以及系统架构的复杂性,在这些条件下企业往往需要在不同语言间做取舍[14] 错误处理与语言设计权衡 - 不同语言的崩溃方式不同,JavaScript错误极为常见但通常不会导致系统崩溃,而C++崩溃事件数量少但每个都更具意义导致会话中断[34] - 类型安全的语言理论上应能减少低级错误,但在实践中改善微乎其微几乎无法量化,因为开发者在得到更安全的工具后往往会更大胆地构建复杂系统[35] - 语言设计总是在不同需求间权衡取舍,例如Context Local功能会让每次函数调用变慢,对于追求性能的语言阵营几乎不能接受[40] - 错误永远不会消失只会不断演变,随着React等框架普及出现了“水合错误”等新错误类别,应用越复杂错误种类就越多[35][36]
Karpathy盛赞DeepSeek-OCR“淘汰”tokenizer!实测如何用Claude Code 让新模型跑在N卡上
AI前线· 2025-10-21 12:54
DeepSeek-OCR模型技术突破 - 模型发布6.6GB专门为OCR微调的模型,首次量化视觉-文本token压缩比,验证10倍近无损压缩、20倍仍保有60%精度的可行性[2] - 提出DeepEncoder解决现有编码器高分辨率-低内存-少token不可兼得的问题,在实用场景达到SOTA且token消耗最少[2] - 采用仅12层的精简架构,因OCR本质是模式识别任务,不需要太多推理或长程记忆[5] - 进入新兴小型专家混合范式,总规模较大但每次推理仅激活5亿参数,能单批次处理大量数据[7] - 采用激进编码策略结合语义池化,在输入阶段进行大量信号压缩,显著提升处理速度[7] 输入范式革命性观点 - Karpathy提出根本性问题:对大语言模型而言像素可能比文本是更好的输入形式,文本token可能是浪费而糟糕的输入方式[3] - 认为Tokenizer必须被淘汰,许多文本到文本任务可重构为视觉到文本任务,但反过来行不通[4] - 未来用户输入可能都是图像,模型输出仍是文本,因生成像素级输出不现实且暂时不需要[4] - 图像输入优势:信息压缩更高效,在更短上下文窗口中包含更多信息;信息流更丰富,能自然包含加粗、颜色、格式等视觉要素[6] - 输入可天然使用双向注意力,而非语言模型必须的自回归逐步处理,结构表达更强大[6] 行业影响与竞争格局 - 代表轻量高效OCR模型最佳范例,可能成为未来所有OCR系统的起点[4] - 在多模态视觉语言模型出现前,业界领先的Google Cloud OCR模型规模仅一亿参数左右[4] - 17亿参数的dots.ocr在内部和公开基准测试中准确率普遍超过OpenAI、Anthropic,某些任务优于Gemini,成本仅为后者一小部分[4] - 模型意义在于成为真正基础型OCR模型,找到推理效率与性能最佳平衡点,奠定工程基础[8] - 要在大规模真实业务中应用,仍需针对特定领域进行数据标注和定制化流程设计[8] 开发者实践与部署案例 - 资深开发者Simon Willison花40分钟成功在NVIDIA Spark上运行模型,通过Claude Code用4次提示解决兼容问题[9] - 环境搭建涉及Docker容器、CUDA配置、npm安装Claude Code等步骤[10] - 遇到PyTorch 2.5.1不支持新GPU问题,通过寻找ARM版本CUDA wheel包,升级到PyTorch 2.9.0解决兼容性[14][15] - 模型成功识别文本与定位框,生成检测结果,不同提示词模式表现各异[16][17][19] - 实践总结成功要点:给予充分环境与目标、沙箱模式完全自主执行、关键时刻用经验引导[22]
告别无效投入:如何用零成本启动企业全员AI能力建设 | 极客时间企业版
AI前线· 2025-10-21 12:54
最近和几位企业管理者交流,发现大家在 AI 投入上普遍陷入两种困境: 有的企业盲目跟风"全员 AI ",斥资数百万购买系统、组织培训,结果员工只学会了用 AI 聊天、做 PPT,业务场景依然原地踏步;有的企业则因" AI 替代焦 虑"仓促调整组织架构,反而导致团队士气低落、业务衔接不畅。 这些现象背后,反映了一个共同问题:大多数企业的 AI 投入,都走错了方向。 真正的 AI 能力建设,从来不是靠堆砌预算或盲目调整团队,而是要找到那个能同时实现"技术普及"与"业务价值"的精准切入点。 一次零成本的 AI 能力提升机会 正是看到企业在 AI 落地中的这些痛点,在极客时间企业版 8 周年之际,我们推出了「 AI 应用全员加速中 」特别活动——旨在让企业完全零成 本验证 AI 人才培养的可行性。 从现在到 10 月 31 日,企业可免费申领 30 天 SVIP 权益,不限账号数量,让全体员工无障碍体验平台上的 AI 课程资源。 这不是又一次"蜻蜓点水"的体验,而是一次完整的 AI 能力建设验证: 过去,企业要启动同等规模的 AI 培训,至少需要数十万的预算投入和数月的筹备期。现在,这个门槛被彻底打破了。 为什么这次 ...
Anthropic这两天真没闲着:上线网页版Claude Code,还让Claude搞科研
AI前线· 2025-10-21 12:54
编辑 | 木子、 高允毅 好消息!刚刚,编程门槛又降低了, 用 AI 写代码只需一个浏览器 。 今天,Anthropic 推出了他家大热 AI 编程助手 Claude Code 的网页版 ,用户通过浏览器就能打开, 无需在本地安装命令行工具 ,也 不再需要在"终 端"中输入复杂的命令了 。 此前 ,Claude Code 主要以命令行工具(CLI)的形式存在。 也就是说, 只能通过一种专门的"程序窗口"来使用 ,该窗口不像普通应用软件那样有图形界面,还需要通过输入指令来操作,这种方式更适合有编程 经验的人。 目前,Claude Code 网页版还处于测试阶段,作为研究版只对 Anthropic 的 Pro 和 Max 订阅用户开放,目的是收集使用反馈和改进功能。 据 TechCrunch 消息,Anthropic 产品经理 Cat Wu 分享说,她之前是一名工程师,而她自己现在很少纯手敲代码了,大部分时间只审阅 Claude Code 的输出;未来 Anthropic 将继续在更多地方部署 Claude Code。 另外,值得一提的是,有人在 GitHub 上放了一份 Claude 的开发指南(Claude ...
六问讯飞 AI:新品耳机发布背后,如何理解讯飞 AI 翻译战略与技术创新?
AI前线· 2025-10-20 13:23
AI同传技术升级与新品发布 - 公司对中英同传效果进行优化,翻译主观体验提升至4.6分(满分5分),首字响应时间降低至2秒 [2] - 专业词库扩充至10万以上,覆盖医疗、金融、法律等高壁垒行业,并新增中英到阿拉伯语、西班牙语的端到端同传互译功能 [2] - 中英同传引入“声音复刻”功能,用户仅需一句话语音样本即可用自身音色播报翻译结果 [2] 翻译硬件产品功能升级 - 新一代AI翻译耳机搭载“多感融合AI降噪系统”,采用骨导与气导结合的开放式设计,支持60种语言同传互译,内置10万以上专业词库 [4] - 耳机中英同传首响播报延迟低至2秒,采用蓝牙6.0连接技术,覆盖通话实时翻译、面对面翻译、线上同传和旁听同传四大核心场景 [4] - 双屏翻译机2.0新增讲话人分离功能,可智能区分讲话人并支持自定义名称,结合星火办公大模型新增会议纪要生成与内容分享功能,预计10月底上线 [4] 技术实力与行业地位 - 国际权威咨询机构IDC最新报告显示,公司在AI翻译速度、效果、专业度等8大核心维度中排名第一,其中6项获得满分 [6] - 公司坚持大模型自主研发战略,核心是“自主研发 + 场景落地”,所有研发均基于自主芯片与国产化硬件,确保技术自主可控 [9][10] - 公司在大模型领域致力于打造多语种能力突出的模型,并与教育、医疗、翻译等行业场景深度融合,解决行业实际问题 [10] 核心技术与创新优势 - 公司在语音识别、多语种翻译准确率等核心技术持续投入,星火语音大模型支持101种语言识别、全国202个地市级方言识别,并支持55种语言的语音合成 [11] - 翻译耳机采用全球首创的“多感融合能源降噪”,配备2个数字硅麦克风和1个骨传导麦克风,结合自研降噪算法,在嘈杂场景下能清晰拾音 [12] - 复杂降噪算法全离线运行,通过模型芯片化将复杂模型压缩至几十KB大小,在内存有限的设备上实现高效实时处理 [12] 方言与小语种翻译突破 - 针对方言翻译,公司已覆盖全国202个地市级方言,并与输入法合作推行“方言保护计划”以持续收集数据 [15] - 在多语言方面,公司支持101个语种的识别和55个语种的合成,采用多语种共享建模关键技术提升小语种语音系统性能 [15] - 通过设计多语种通用音素体系和基本语言单元,实现多语种统一音素韵律体系的构建,利用元学习和语族分组进行共享建模 [15] 产品战略与场景应用 - 公司AI翻译战略定位围绕全球化交流深化趋势,形成“语音识别-翻译-语音合成-端侧产品”的完整技术链条 [8] - 构建全产品矩阵,从轻量级软件到标准化硬件,再到软硬件一体解决方案,不同场景适配不同产品形态,技术底座打通 [8][9] - 随着“一带一路”推进和中国企业出海,跨国商务沟通对即时、准确、便携的翻译工具需求激增,公司硬件产品覆盖从个人使用到企业级会议的全场景 [17] 外事场景定制化解决方案 - 双屏翻译机2.0采用双屏设计,在对话过程中为工作人员和外国乘客提供专属屏幕,提升沟通效率并体现尊重 [18] - 设备支持在线翻译为200多个国家和地区的语言,能识别35种语言,可自动识别语言以快速打破沟通壁垒 [18] - 配备5麦克风阵列与AI降噪技术,支持全向、定向两种收音模式,能过滤1米外背景噪音,在嘈杂环境下精准锁定目标音源 [19] - 设备具备离线模式,在无网、弱网情况下依然可使用,适配高保密场景 [19]
万条推文“怒轰”、估值下跌, OpenAI被误导性“突破”反噬!陶哲轩:有实力,但方向错了?
AI前线· 2025-10-20 13:23
整理 | 华卫 "搬起自己的 GPT 石头砸了自己的脚。"这是 Meta 首席 AI 科学家 Yann LeCun 对 OpenAI 研究员们的最新评价。 事件起因是,此前这些研究员因 GPT-5 的一项新数学"突破"而高调庆祝,但在受到整个 AI 社区质疑后又迅速撤回了该说法。连谷歌 DeepMind 首席执 行官 Demis Hassabis 也对此提出批评,称其沟通存在疏漏。 GPT-5"突破" 被证明是一个错误 取得"突破"的消息,最早是由前微软副总裁、现 OpenAI 研究科学家 Sebastien Bubeck 放出。他在 X 上称,两位研究人员在周末借助 GPT-5 找到了 10 个埃尔德什问题(Erdős problems)的答案。埃尔德什问题是匈牙利数学家 Paul Erdős 提出的一系列数学问题的统称,其中既包含未解决的难题,也有 已解决的问题,著名案例包括 "不同距离问题"(Distinct Distances Problem)与 "偏差问题"(Discrepancy Problem)。这类问题以难度高著称,常成为 学界深入研究的对象,部分问题甚至设有现金奖励,鼓励研究者攻克。 10 ...
明星AI编码助手涨价10倍惹怒开发者!CEO 回应:有人花千元薅了我们10多万,不挣钱不可持续
AI前线· 2025-10-19 13:33
到了 5 月初,原有方案被替换为 "更简洁的新定价"—— 按成功处理的消息数量计费。具体为:免费用户每月可发送 50 条消息;50 美元的开发者 版可发送 600 条;100 美元的专业版可发送 1500 条;250 美元的最高级版可发送 4500 条。 当时就有一名开发者抱怨:" 现在的价格比 Cursor 和 Windsurf 两款工具的费用加起来还高 。" 此后,免费版直接下架,取而代之的是 "独立开发 者版":每月 20 美元,仅包含 125 条消息额度。 而这仅仅是个开始。 作者|冬梅 Augment 代码助手定价模式变更,用户称涨价超 10 倍 10 月 16 日,据外媒消息,AI 代码助手 Augment Code 已更新其定价模式,不再以消息交互次数为依据,而是改为按 AI 使用量计费。该公司表 示原定价模式 "不具备可持续性",但有用户计算后发现,新定价模式下成本上涨了 10 倍以上。 这家初创公司于 2024 年 4 月成立,联合创始人包括前微软软件工程师伊戈尔・奥斯特罗夫斯基(Igor Ostrovsky)和前谷歌 AI 研究员盖伊・古 尔 - 阿里(Guy Gur-Ari),并获得了包 ...
Python新版本去GIL刷屏,Karpathy 点赞敢死队,Python 之父:冷静,别神话并发
AI前线· 2025-10-19 13:33
编译 | 核子可乐、Tina 这周,Python 3.14 正式发布,把悬念了多年的"去 GIL(全局解释器锁)"写进官方发行版。 此次更新并非只是一项开关,而是一整套能力同步上线:自由线程支持、并发解释器、改进的调试器支持,以及一个可选的新解释器路径,官方预 估在默认单线程构建不变的前提下还能带来约 3%~5% 的性能提升。 Python 中的自由线程功能可禁用全局解释器锁(GIL),目前已在 PEP 703 中得到完整实现。它还配套了一个自适应解释器思路,源自 Mark Shannon 领衔的 Faster CPython 项目(尽管微软已在今年 5 月停止官方支持,相关成果已沉淀进实现)。 长期以来,GIL 既像安全网也像减速带:通过"同一时刻仅允许运行一个 Python 线程"来保障内存安全、避免许多棘手的并发 Bug,却也限制了 CPU 密集型多线程程序对多核的利用,除非借助繁琐的变通方案。如今,3.14 提供的自由线程(no-GIL)构建移除了这道栅栏,使多线程能够真 正并行,重计算场景下的性能收益尤为明显。当然,权衡也必须看见——单线程速度通常会略有回落,内存占用大约增加 10%。这意味着开发者 ...
谷歌 DeepMind 推出 CodeMender:自动修复代码的智能代理
AI前线· 2025-10-18 13:11
CodeMender技术特点 - 谷歌DeepMind推出由AI驱动的新型智能代理CodeMender,能够自动检测、修复并加固软件漏洞[1] - 该项目基于最新的推理模型与程序分析技术,结合大型推理模型、静态与动态分析、模糊测试以及符号求解器等多种技术来推理程序行为[1] - 系统检测到漏洞时会生成多个修复候选方案,并通过自动化测试验证补丁是否解决根本问题且不破坏现有功能,只有通过验证的修复方案才会提交人工最终审查[1] 实际应用成效 - 在过去六个月中,CodeMender已为开源项目贡献72个经过验证的补丁,其中一些项目的代码量超过400万行[1] - 早期修复案例包括修复XML栈处理错误相关的堆缓冲区溢出问题,以及通过复杂代码修改解决对象生命周期管理漏洞[2] - 系统支持主动防御机制,例如自动为广泛使用的libwebp图像库添加安全注解,防止特定类型的缓冲区溢出攻击在未来被利用[2] 行业反响与影响 - 社区反响普遍积极,认为自动化修复让AI从"发现风险"迈向"主动强化基础设施",验证层是关键信任因素[3] - 行业讨论认为未来黑客也会使用类似模型寻找漏洞,拥有最新模型和最强算力的一方将占据优势[4] - DeepMind强调所有CodeMender生成的补丁在正式合并前都会经过人工审核,可靠性"和"透明性"是项目核心原则[4]