Workflow
Gemini
icon
搜索文档
谷歌 Gemini API 负责人自曝:用竞品 Claude Code 1 小时复现自己团队一年成果,工程师圈炸了!
程序员的那些事· 2026-01-07 11:35
转自:InfoQ 一位谷歌资深工程师透露,Anthropic 的 Claude Code 用一小时跑出了她团队打磨了一年的系统。 "我不是在开玩笑,这件事一点也不好笑。" 她补充说,这个元旦假期里自己终于第一次有时间拿一些"玩具项目"随手试一试。由于无法分享任何 专有信息,提示里也不可能包含真实的内部细节,所以她只是基于一些已有思路搭了一个"玩具版"来 评估 Claude Code;整个问题描述也就三段文字。 "它还不完美,我也还在不断迭代和打磨,但现实就是这样。"Dogan 写道,"如果你对编码 Agent 持 怀疑态度,就把它拿到你已经非常熟悉的领域里试一试:从零开始做一个足够复杂的东西,由你亲自 来判断它产出的这些'成果物'到底靠不靠谱。" 她同时说明,在谷歌内部,Claude Code 目前只允许用于开源项目,不得用于公司内部代码。 补充一点背景是,Dogan 说自己做编程语言相关工作以来,几乎没见过开发者社区对同一件事出现 如此两极化的反应。她在 1 月 3 日晚发文感叹:围绕 coding agents 的讨论里充斥着大量"炒 作"和"空话",这些噪音常常把真正扎实的工作淹没掉;她强调,事情本不必 ...
强化学习环境与科学强化学习:数据工厂与多智能体架构 --- RL Environments and RL for Science_ Data Foundries and Multi-Agent Architectures
2026-01-07 11:05
电话会议纪要研读分析 涉及的行业与公司 * **行业**:人工智能,特别是大语言模型与强化学习领域,以及相关的数据服务、环境构建、科学发现应用 * **主要AI实验室/公司**:OpenAI, Anthropic, Google DeepMind, xAI, Meta, DeepSeek, Kimi, Moonshot, Z.ai, Qwen * **数据/环境服务商**:Scale AI, Surge, Mercor, Handshake, Aboda.ai, Windsurf, Cursor, Habitat, DeepTune, Fleet, Vmax, Turing, Mechanize, Preference Model, Bespoke Labs, Prime Intellect, HUD, LLM Data Company * **RL即服务与科学应用公司**:RunRL, Osmosis, Applied Compute, ThinkingMachines Tinker, Periodic Labs 核心观点与论据 1. 强化学习规模化是当前AI能力提升的关键路径 * 过去18个月OpenAI模型性能的提升完全依赖于训练后优化与强化学习算力扩展[4] * 各实验室正全力聚焦于强化学习算力的规模化部署,预训练虽持续优化但非当前焦点[2] * OpenAI使用相同的基础模型GPT-4o,通过后训练和强化学习算力扩展推出了o1, o3及GPT-5系列旗舰模型[4] 2. 强化学习规模化面临数据与任务构建的挑战 * 强化学习需要持续的任务流供模型学习,但适用于强化学习的等效语料库尚未完全建立[7] * 大多数强化学习数据和任务必须从头构建,过程耗费大量人力[7] * 任务创建从易于评分的数学问题,已拓展至医疗健康和金融建模等新兴领域[8] 3. 催生了“RL环境”构建与数据工厂的新兴产业 * 已有超过35家公司专注于提供强化学习环境服务[23][24] * **UI Gyms**:公司雇佣海外开发者复制网站界面,每个网站环境成本约2万美元,OpenAI已为ChatGPT智能体训练购买了数百个网站[25][26][27] * **复杂软件平台环境**:包括Slack, Salesforce, AWS终端, Microsoft OneDrive, Gmail等,目标是让智能体自主操作[29] * **编程环境需求最高**:对编程环境的需求极高,以至于一些已倒闭的初创公司因其私有GitHub仓库的价值被收购[38] * 通过自动化流程从GitHub等平台筛选和构建任务,例如SWE-rebench从45万个初始任务中最终筛选出21,336个有效任务[40][43][44] * DeepSeek使用24,667个从GitHub提取的编码任务训练V3.2模型[47] 4. 评估标准从抽象智力转向现实世界效用 * OpenAI创建了GDPval评估,涵盖44个职业的1000多项任务,这些任务选自占经济总量5%以上的行业[10][11] * 任务由平均拥有14年经验的专家设计,人类完成每项任务平均需要数小时[11] * 目前最好的模型GPT-5.2在GDPval上得分约为71%,意味着其工作有71%的时间与人类专家输出持平或更受青睐[12] 5. 模型自主性与AI自动化研究成为长期目标 * 根本趋势是模型能够更长时间地自主运行[16] * OpenAI的目标是在2028年3月前拥有自主的人工智能研究员[16] * Anthropic预计到2027年,像Claude这样的系统将能够自主发现原本需要数年才能取得的突破[16] 6. 数据供应链因竞争与安全考量发生变化 * 历史上Scale AI是各大实验室最大的数据承包商之一,2024年收入超过14亿美元[19] * 被Meta收购后,多家AI实验室停止了与Scale的合作,以避免Meta获取其核心数据[21] * 数据承包商公司如Surge, Mercor, Handshake, Aboda.ai被用于跨专业领域招聘专家,Surge的年经常性收入据信已接近10亿美元[55] * 承包商负责设计任务,撰写解决方案,指定奖励信号,并对模型输出进行评分[53] 7. 主要AI实验室的采购与战略各有侧重 * **Anthropic**:激进买家,与超过十家RL环境公司合作,希望建立广泛的供应商生态系统以商品化产品,降低成本[74] * **OpenAI**:供应商来源更有限,但在数据净支出上超过其他实验室,正在组建内部人类数据团队以减少对第三方依赖[78] * **Google DeepMind**:采购流程分散,由不同团队的研究人员推动,重点关注编码和计算机使用,特别是ML相关环境[84] * **中国实验室**:处于强化学习规模化早期阶段,例如Qwen目前仅将约5%的预训练算力用于后训练,中国VC正积极扶持本土数据工厂竞争者[58][59] 8. 企业级“强化学习即服务”市场正在形成 * 一些初创公司为大型企业提供定制化的强化学习服务,使用Qwen等易于后训练的模型[104][105] * OpenAI推出了“强化微调”服务,但被认为不稳定且昂贵,需求流向成本低5倍的年轻初创公司[107][108][109] * Anthropic也正在进入该领域,并大规模采用亚马逊的Trainium芯片以降低HBM成本,优化服务利润[112][114][115] 9. 强化学习在科学发现领域具有巨大潜力 * 目标是创建基于物理实验奖励的闭环强化学习系统,模型利用工具测试假设并验证想法[120][122] * Periodic Labs正在建设大型物理实验室,为强化学习和中期训练生成实验验证的数据[137] * Meta发现中期训练的益处持续存在,为近期模型使用了1万亿标记进行中期训练,预计OpenAI使用量是其5到10倍[129][130] * 中期训练阶段会添加先前模型进行强化学习时收集的环境轨迹数据[132][133] 10. 自动化对就业的影响可能是增强而非取代 * OpenAI的GDPval研究发现,随着AI能力提升,人类专家完成任务更快,成本更低,人类得到了增强,而非被自动化取代[88] * 短期内,专家工作可能实现任务增强,而非完全自动化,软件工程等领域可能如此[89][90] * 对于短期,重复性任务,如呼叫中心工作,自动化取代的可能性更高[95] 其他重要但可能被忽略的内容 * **平台政治与访问限制**:谷歌降低了对其产品如Gmail的数据抓取限制,亚马逊等公司可能限制外部智能体访问其生态系统,以保护自身业务和广告收入[86][96][98][100] * **基础设施规模**:Kimi实验室开发的基础设施可支持同时实例化超过10,000个训练实例[48] * **中期训练的作用**:中期训练是持续的预训练,用于更新模型知识截止日期,提升特定领域知识,或为高计算量强化学习做准备,各项目数据被汇总并重新注入中期训练以提升整体性能[81][128] * **生物学应用的差异化路径**:OpenAI和Anthropic均已建立制药合作伙伴关系,但各自专注于解决药物发现流程中“识别候选药物”和“加速开发”的不同瓶颈环节[140]
GEO营销现状与未来专家会议
2026-01-07 11:05
GEO 营销现状与未来专家会议 20260106 摘要 GEO(生成式引擎优化)通过对话式 AI 直接提供总结性答案,取代 SEO 的链接清单模式,更注重内容质量和 RAG 技术整合外部信息资源, 为用户提供更全面、准确的回答,提高信息获取效率。 在 GU(生成式用户)时代,信息提供转向非零和博弈,AI 整合所有相 关内容输出综合信息,相较于 SEO,GU 更加平权,为更多信息源提供 展示机会,避免流量过度集中于头部效应。 GU 优化侧重信息有效性的组织和传递,营销公司需确保核心概念被 AI 认可,并配合 AI 模型的技术要求,如 RAG 适配、信息新鲜度优化及可 信度提升,实现内容和技术层面的优化。 金融理财、医疗健康等用户获取难度高或生命周期价值高的行业对 GU 需求强烈,品牌方需积极利用 GU 进行进攻性操作,同时保护自身品牌 形象不受侵害,提高商业效率和品牌认知度。 不同大模型因数据源和训练方式差异,需进行特定优化,虽然逻辑相通, 但在内容准备上需轻微调整,以确保符合常识、有理有据、信息可信且 新鲜,这会增加一定的优化成本。 Q&A 什么是 GEO(生成优化引擎),它与传统的 SEO(搜索引擎优化)有 ...
2个上海大头兵7天手搓的AI游戏,26年开年爆火
36氪· 2026-01-07 10:44
在大厂工作,你快乐吗? 伊点和小羊一直在上海的传统互联网大厂工作,岗位和AI相关,属于产品序列。 他们的日常工作是,紧跟大模型的前沿技术,通过深入剖析行业各个模型的表现与数据策略,优化内部模型的评测体系与数据质量,反哺回自家公司的业 务。 2025年12月30日,《大厂模拟器》在游戏行业爆火,我所参加的大多数行业私域群聊中,从业者都在狂热地讨论这款游戏,觉得它很有"大厂梗",可玩性 也颇强。 甚至于游玩当天,网页一度宕机崩溃。伊点和小羊告诉我,当天网页的日PV,达到了5万+。 我很好奇,他们为什么突然想到要做这样一款游戏? 他们在没有任何游戏开发和代码基础的前提下,如何跑通游戏玩法循环,实现QA迭代?AI在其中究竟占了多大的作用? 体验 你或许很难想象,两个没有任何游戏研发基础的年轻人,能把游戏体验做得如此特别。 游戏共分成发量、尊严、向上管理、人缘、工作能力、产出和埋雷指数七大维度。其中,发量、尊严归零或埋雷指数到满值,游戏都会进入失败结局。玩 家只有不断提高向上管理、人缘和工作能力,才能拿到KPI和晋升机会。 他们没有游戏行业的经验,也没有代码基础。 但他们利用AI,仅花费7天,做出了《互联网大厂模拟器》 ...
东方港湾黄海平2025年年报与展望:进化的底色!AI应用的算力需求空间巨大 容得下GPU与TPU一起共治天下
新浪财经· 2026-01-07 10:19
专题:2025基金年终大盘点:冠军基年内狂飙233%,主动权益重获主导,全行业规模逼近36万亿新高 港湾观点︱进化的底色:东方港湾2025年年报与展望 港湾观点 作者:东方港湾黄海平 一、竞争:泡沫之本、活力之源 2025年末,资本市场继续飘荡着AI泡沫论。但在现实世界的过去两个月里,却出现了2025年以来,最 大的一次模型能力的进化。这次的主角是Gemini。 Gemini 3在各项评测上大幅超越了ChatGPT,其中最突出的是"多模态可交互"的能力提升。"多模态"意 味着不止以文字作为答案,而是结合图片、视频、声音、小程序等方式,跨模态来表达,相当于实时生 成一个网页或者程序来回答你的问题。"可交互"意味着不只是静态展示,而是动态的交互,多层次的展 示效果。例如,可视化托卡马克中的等离子体流动,将你的食谱做成一个可点击交互的小程序,用可交 互的动画来解释RNA 聚合酶如何工作的原理,等等。这是一次混合多模态数据下的预训练升级成果, 将更多模态原生化,也给预训练见顶的怀疑论一次很好的反击。 这也引发了AI行业的蝴蝶效应。OpenAI拉响了红色警报,并匆匆发布了不算惊艳的GPT 5.2。在最新 B200十万卡 ...
分享6个平时我最常用的Prompt心法。
数字生命卡兹克· 2026-01-07 09:20
已经2026年了,其实还是看到很多朋友,说不知道怎么能更好的跟AI对话。 就是那种问点日常回答,效果还可以,但是一旦稍微专业一点、稍微需要维度多一点,AI回答效果一下子就不行了。 然后就有一些朋友,让我分享一点自己的经验。 我自己肯定不是什么Prompt大佬,跟李继刚、宝玉老师这种没法比,我就是一个玩的更多一点的普通用户,不过也确实玩了两三年,日常生活、工作中, 也有大量的地方是靠AI帮忙的,现在基本属于每天没了AI就废人一个的状态。 所以我觉得,我还是有一些些小小的经验可以跟大家分享一下。 我其实自己很少会用一些特定格式的Prompt,我经常对朋友讲的就是,你能把问题表达清楚、把上下文和背景信息表达清楚,你的Prompt的就成功了一大 半。 但是其实在过程中发现,这个事也没有那么简单。 包括我自己也是,很多时候脑子里就是一瞬间空空如也。 所以我自己更多的喜欢用的是所谓的心法,也就是一种跟AI的对话技巧,能最大程度的,激发AI的能力,帮你得到更棒的答案。 所以,也想给大家,分享一下我平时用的比较多的6个心法技巧,希望对大家有所帮助。 话不多说。 我们,开始~ 一. 让AI选定角色后再回答 我们都知道,给AI设 ...
2 Warren Buffett Stock Picks That Could Soar in 2026
The Motley Fool· 2026-01-07 09:15
These stocks are trading at surprisingly discounted valuations.After 60 years at the helm of Berkshire Hathaway, Warren Buffett has stepped down. While in the leadership role, he heavily influenced the holdings of that company, and he typically bought stocks with a holding period of "forever" in mind.Knowing that, investors should assume his influence over Berkshire will be felt for some time to come. Some of those stocks could also soar in 2026, and these two have a good shot at earning market-beating retu ...
骗你的,其实AI根本不需要那么多提示词
36氪· 2026-01-07 09:00
都2026了,你还在为写提示词掉头发吗? 我知道,大伙儿不管上班的上学的早就离不开 AI 了,但我的评价是,最折磨人的,还得是用 AI 的前戏,因为 AI 是很难一句话,就听懂你想要什么的。 得把一大坨一大坨的提示词搬来搬去,把背景需求格式交代一遍,还得把各种陈年老文件喂给AI,看着他学。 结果还没开始,AI 就顶不住了,聊天框又得remake了。 然而最近,世超发现个新项目,只能说巨火,各大 AI 社区都在讨论这玩意,甚至有说法是比提示词用着爽。 这次,他们又搓了个 Skills 回来了,看架势好像又想引领新潮流了。。别的不说,隔壁 OpenAI 反正好像已经开始抄作业了。 这玩意叫 Agent Skills ,是由 Claude 母公司 Anthropic 搞出来的。 经常看咱文章的差友可能有印象,这公司之前搞了个 MCP 协议,直接把 AI 抄家伙干活的难度打了下来,后来谷歌和 OpenAI 这种巨头全跟进了。 这玩意的作用,顾名思义,AI 现在可以像宝可梦一样,学会任意新技能了。 我们就拿 Skills 的亲兄弟 Claude 来演示下。 首先你得在设置里,找到 Skills 的开关把它打开。 然后你 ...
Dow, S&P 500 Climb To New Record Closing Highs
RTTNews· 2026-01-07 05:11
After turning in a strong performance to kick off the first full trading week of the new year, stocks saw further upside during trading on Tuesday. With the continued upward move, the Dow and the S&P 500 reached new record closing highs.The major averages ended the day just off their highs of the session. The Dow jumped 484.90 points or 1.0 percent to 49,462.08, the Nasdaq climbed 151.35 points or 0.7 percent to 23,547.17 and the S&P 500 rose 42.77 points or 0.6 percent to 6,944.82.The Dow benefitted from ...
美银:2026年,哪些大消息有望点燃市场情绪?一文读懂美国大厂的“AI催化剂”
美股IPO· 2026-01-07 00:04
2026年将是AI公告撼动市场的又一个关键年份。美银证券前瞻2026年AI关键催化剂:亚马逊或携手OpenAI进军智能商务,谷歌有望与苹果联 手改造Siri,Meta将豪掷千亿美元推出AI视频工具,Uber加速L4自动驾驶布局。Anthropic、OpenAI等明星AI公司IPO在即,其估值溢价或将 推动谷歌等科技巨头估值重估,22倍市盈率凸显投资机会。 在基础设施投资持续攀升的背景下,华尔街目前的焦点已从单纯的"军备竞赛"转向"商业化落地"。 美银在1月5日的报告中表示,2026年将是AI公告撼动市场的又一个关键年份。无论是芯片技术、前沿模型,还是用户数据和分发渠道,其重要 性都在加剧。在基础设施投资持续攀升的背景下,AI能力依然是大盘互联网股的核心资产和估值驱动力。 美银总结了潜在的重磅消息,这些消息可能在2026年改变竞争格局、货币化轨迹,成为投资者情绪的关键催化剂。 基准情景:七大潜在重磅消息或将重塑竞争格局 美银认为以下事件在2026年发生的可能性较高,且直接关系到巨头的护城河与现金流: 1. 亚马逊与OpenAI签署"代理商务"协议(Agentic Commerce) 报告指出,鉴于亚马逊首次对O ...