Workflow
智能体(Agent)
icon
搜索文档
谷歌重磅发布最强通用AI模型!同声传译、全新AI模式搜索,直接通过自然语言发问,支持长达数百字提问
每日经济新闻· 2025-05-21 06:37
谷歌AI战略升级 - 公司宣布全面拥抱AI智能体技术,将智能体整合至核心业务搜索及AI助手Gemini,推出全新AI模式搜索 [1] - 在I/O开发者大会上展示AI、多模态模型、跨设备整合与开发者工具的最新成果,标志AI从"信息工具"进化为"通用智能体" [1] 模型与技术进展 - 推出Gemini 2 5 Pro模型,被CEO称为"迄今为止最强大的通用AI模型",在LLM Arena测评中所有类别排名第一 [2][3] - Gemini模型在AI代码编辑器Cursor上增长最快,每月处理token数量从9 7万亿激增至480万亿(增长近50倍) [3][4] - Gemini App月活跃用户达4亿,公司推出十多款模型和20项AI功能,发布速度创历史新高 [3][4] 智能体模式与应用 - 智能体模式(Agent Mode)将上线Chrome、搜索及Gemini App,可同时管理多达10个任务并自主学习 [5] - 演示智能体完成找公寓任务:搜索Zillow、调整筛选条件、使用MCP协议预约看房 [6] - 智能体模式实验版将向Gemini订阅用户开放,支持私密使用个人信息 [7] 搜索功能革新 - AI概览(AI Overviews)月活用户达15亿,推动某些查询量增长10% [10] - 推出AI Mode标签页,支持数百字复杂提问、自动分解意图、生成结构化答案,已在美国上线 [10] - 深度搜索(DeepSearch)模型整合逻辑结果与多模态内容,提供"博学助理"式答案 [13][14] 多模态与创作工具 - Flow平台整合Veo 3视频生成模型,支持文字/图片生成8秒片段并拼接完整视频 [23][25] - Imagen 4图像模型可生成真实文本,Veo 2新增相机控制与对象移除功能 [25] - 原生音频合成工具Lyria与文本转图像/视频技术同步亮相 [2] 硬件与跨设备整合 - 安卓XR平台联合三星、高通开发,支持AI眼镜设备,已有数百家软件商适配 [26][27] - 首款安卓XR设备Project Moohan将于年内上市,与中国Xreal合作推出AR眼镜 [27] - Gemini AI将拓展至智能手表、汽车控制台、电视及眼镜 [26] 创新功能展示 - 谷歌光束(Google Beam)实现3D光场视频会议,帧率达60fps,年内由惠普首发 [15] - Google Meet支持英语/西班牙语同声传译,保留原声音色与情感,将新增多语种 [19] - 虚拟试衣工具支持用户上传照片预览服装效果,AI购物决策全流程覆盖 [21]
阶跃星辰姜大昕:多模态目前还没有出现GPT-4时刻
虎嗅· 2025-05-08 19:50
公司概况 - 阶跃星辰由前微软全球副总裁姜大昕于2023年创立,总部位于上海,北京办公室距离微软中国办公地仅504米 [1] - 公司核心管理团队包括CEO姜大昕(战略与技术研发)、首席科学家张祥雨(技术研发)、系统负责人朱亦博(AI基础设施) [1] - 公司员工规模达400余人,其中80%为技术研发人员,采用扁平化管理模式,员工可通过私信直接与CEO沟通 [2] - 2024年12月完成B轮数亿美元融资,是"AI六小虎"中少数坚持预训练路线的公司 [3] 技术战略 - 核心聚焦多模态基础模型研发,坚持"理解生成一体化架构"技术路线,认为这是实现AGI的必经之路 [1][11] - 已建立Step系列通用大模型矩阵,涵盖语言模型和多模态模型,2024年下半年多模态API调用量增长超45倍 [1][11] - 2025年1月发布推理模型Step R1-V-Mini,计划未来三个月推出满血版Step-R1 [14] - 近期将算法团队重组为"生成理解"团队,体现对理解生成一体化架构的重视 [1] 行业趋势判断 - 多模态领域尚未出现"GPT-4时刻",核心瓶颈在于缺乏统一的理解生成一体化架构 [1] - 模型演进路径分为三阶段:模拟世界(模仿训练)→探索世界(强化学习)→归纳世界(自主发现规律) [5][7] - 当前两大技术趋势:1) 将长思维链推理能力融入语言/多模态模型 2) 视觉领域理解生成一体化 [18][19] - 智能体(Agent)发展需要两个条件:多模态能力和慢思考能力,2024年这两方面取得突破性进展 [31] 产品应用 - 主要收入来源:面向品牌客户的ToB服务和面向开发者的API接口业务 [3] - 已推出Step 1X-Edit图片编辑模型,采用初级理解生成一体化技术,未来几个月将发布更先进版本 [30] - 重点布局智能终端Agent生态,与手机、汽车、机器人领域头部企业合作,提供云端Agent开发平台 [34][35] - 实际应用案例包括茶百道/瑞幸门店巡店系统,通过视觉推理实现90%以上的操作规范检测准确率 [17] 竞争格局 - 基础模型领域竞争激烈,过去半年仅OpenAI/Google/Meta/Grok/Anthropic就发布不少于8款新品 [3] - 国内竞争对手包括月之暗面、MiniMax等,但阶跃星辰在多模态覆盖广度和原生多模理念上具有差异化优势 [3][12] - 公司认为当前竞争焦点仍是"追求智能上限",将持续投入强化学习和多模态前沿技术研发 [4][15]
AI原生浪潮冲击下,互联网大厂的组织如何进化?
36氪· 2025-04-11 18:20
AI原生组织的崛起 - AI原生组织(AI Native)将AI内化为产品、服务和业务流程的核心驱动力,而非功能附加 [2] - 核心技术均为自研模型(如OpenAI的GPT、DeepSeek的MoE架构),技术迭代速度远超传统企业,OpenAI从GPT-3到GPT-4仅用两年,研发投入占比高达90%以上 [2] - 产品设计天然依赖AI能力,无法脱离AI独立存在,如Midjourney的生成式图像、Character.AI的角色人格化交互 [3] AI原生组织的核心特征 - 技术原生性:自研模型快速迭代,OpenAI单次训练GPT-4成本超1亿美元,DeepSeek MoE架构将参数价值挖掘效率提升300% [4] - 组织液态化:扁平化、自组织结构,DeepSeek科研背景员工占比超80%,通过"影子组织"打破部门墙 [5] - 极客文化与创始人凝聚力:如OpenAI的Altman与DeepSeek的梁文锋以技术远见凝聚顶尖人才 [6] 互联网大厂的挑战 - 大模型开发落后于AI原生组织,大厂虽资源丰富但缺乏领军人才和极致技术追求 [9] - 用户时间争夺战:AI原生APP月活跃用户突破1.2亿,月人均使用时长133分钟,AIGC领域MAU同比增长244.7% [10] - 智能体领域落后:大厂智能体多局限于垂类场景,消费端突破力不足,如阿里钉钉的AI工单系统 [11] 大厂的应对策略 - 数据深化:将数据规模优势转化为智能优势,如DeepSeek重视数据标注,Grok3受益于SpaceX知识库 [16] - 模型竞合:采用合作与自研双轨策略,如微软130亿美元投资OpenAI并成为其独家云服务提供商 [18] - 组织变革:字节设立虚拟小组提升敏捷性,腾讯调整产品线至CSIG,阿里三年投入3800亿元建设AI基础设施 [19][21][22] 组织效率对比 - 决策周期:大厂需周/月级审批,AI原生组织为分钟级数据驱动 [17] - 创新速度:大厂以周/季为单位迭代,AI原生组织以天为单位微调模型 [17] - 人才结构:大厂支持人员占比高,AI原生组织科学家与技术人员密度高 [17] 未来趋势 - "模型-数据-智能体"解构传统互联网公司的"数据-算法-流量"铁三角 [27] - 组织学习速度成为决胜要素,需快速将技术突破转化为商业闭环 [27] - 大厂面临基因突变挑战,如字节用AI-native人才替代搜推广背景人员 [26]
AI 写码一时爽,代码审查火葬场?GitHub Copilot 副总揭秘新瓶颈 | GTC 2025
AI科技大本营· 2025-03-31 14:55
AI在软件开发中的进展与挑战 - AI预计在24到36个月内达到人类水平的软件开发能力和自主性 [1][11] - AI代码生成工具正在改变软件开发方式,NVIDIA等公司积极探讨其对加速计算的影响 [4] - 强化学习在CUDA优化等明确目标的任务中具有潜力,但需解决计算成本问题 [9] CUDA与AI结合的实践 - NVIDIA开发Nsight Copilot和WarpDrive项目,分别用于识别CUDA性能瓶颈和自动化调优流程 [8] - 大规模代码库转换面临挑战,包括构建系统适配和跨文件依赖管理 [8][18] - CUDA优化需针对每代GPU架构调整,新硬件特性要求代码重构或算法重设计 [19] AI代码生成的技术瓶颈 - 低资源领域(如CUDA、Fortran)缺乏高质量训练数据,合成数据占比或提升至90% [16] - 验证生成代码的正确性在并发场景中尤为困难 [10] - 当前AI工具难以全局操作代码库,上下文窗口限制影响跨文件修改能力 [10][20] 行业应用与未来趋势 - GitHub Copilot探索跨文件编辑功能,聚焦安全改进等系统性变更 [10] - AI智能体将向自主执行多步骤任务演进,模拟人类开发者探索代码库的行为 [21] - 编程竞赛表现与真实开发能力存在差距,因后者需复杂上下文理解 [25] 评估与信任机制 - "黄金测试"标准包括代码重构、跨语言转换和串行代码并行化 [22][23] - 代码审查成为AI驱动开发的瓶颈,需平衡生成效率与质量验证 [13] - 模型对齐和可解释性研究是应对AI潜在欺骗行为的关键方向 [28]
炒到10万,一夜爆火的Manus却不好用
盐财经· 2025-03-08 18:06
Manus AI产品分析 - 自称"全球第一款通用AI Agent产品",性能宣称超越OpenAI同款产品[1][2] - 邀请码被炒至天价,最高达10万元级别[2][4] - 产品爆火原因:本土团队光环+市场对聚合式工具的迫切需求[4] 产品功能与定位 - 定位为"智能体"或"工具人",以大模型为大脑自主使用工具完成任务[6] - 主要工具包括浏览器工具、Python和命令行[11] - 通过HTML输出结果,采用前端技术模拟PPT等功能[13] - 界面设计简洁,思考-操作-交付层次清晰[7] 技术表现评估 - 在GAIA基准测试中宣称取得SOTA表现[7] - 实测显示幻觉严重,任务完成率低[6][19] - 浏览器工具能力有限,仅能完成58.1%任务(OpenAI数据)[17] - 缺乏真实API调用,常生成模拟数据[19] 产品局限性 - 浏览器工具无法处理反爬虫和人机验证网站[16] - 工具选择不当,如使用Next.js但无法部署后端[18] - 大模型与Python脚本混合操作易产生错误[21] - 未证明是真正的智能体,缺乏自主决策能力[7] 行业技术逻辑 - 智能体本质是大模型+虚拟机/计算机的执行系统[24][26] - "模型即产品"趋势:根据场景训练专用强化模型[28] - 技术发展方向:实现人-大模型-环境即时反馈的简洁模式[28] - 未来潜力:万物互联后可能颠覆多个行业[27] 市场策略 - 采用邀请码机制控制服务器负载[29] - 成功利用聚合思路和表现形式吸引关注[28] - 抓住市场对大模型工具化需求的时机[28] - 营销策略强调"本土团队"和后来居上概念[4]
晚点播客丨硅谷怎么看 DeepSeek?与 FusionFund 张璐聊开源、Agent 和除了 AI
晚点LatePost· 2025-02-13 21:01
开源生态与AI模型发展 - DeepSeek发布开源推理模型R1,以较低成本在部分Benchmark上比肩甚至超越闭源模型o1,引发全球讨论[7] - DeepSeek的成功被视为开源生态的胜利,其创新建立在开源社区积累的基础上,同时推动了无监督强化学习和合成数据应用[11][12] - 开源生态有利于初创企业,促进多样性创新,而闭源更有利于大企业[13] DeepSeek的影响与行业反应 - DeepSeek改变了国际对中国AI公司的认知,展示底层架构创新能力而非仅工程优化[14] - AMD宣布与DeepSeek合作,但开源模型降低行业使用门槛可能长期增加算力需求而非利空英伟达[8][15] - Meta面临压力,其Llama架构受益于DeepSeek的结构探索,但品牌公关层面受到挑战[16] 闭源模型与开源模型的竞争 - OpenAI和Anthropic仍为行业Benchmark,但开源模型追赶速度超预期[16] - xAI凭借特斯拉和SpaceX的3D产业数据优势,内部迭代速度惊人[17] - 开源生态的多样性可能催生新架构,使AI模型在CPU上高效运行,改变芯片市场格局[19] Agent应用与行业机会 - OpenAI的Operator和Anthropic的Computer Use展示了智能体应用的潜力,但当前速度慢且存在信息编造问题[21] - Agent应用在医疗、金融、保险、太空科技等领域有垂直机会,与传统RPA的区别在于交互革新[24][23] - 用户对AI的信任度高于人类服务提供者,尤其在隐私信息分享方面,年轻一代行为模式变化显著[25] 中美AI投资差异 - 美国生态中巨头聚焦基础模型,初创企业在应用层与巨头形成协同,垂直领域受监管行业更倾向与初创合作[26][27] - 国内投资人担忧单一环节公司易受巨头挤压,而美国初创企业在高度监管行业有更多合作机会[26] 非AI领域的热点方向 - BioTech方向从延长寿命转向提升生命质量,AI加速医疗技术创新如数字化诊断和治疗[28] - SpaceTech因SpaceX降低发射成本,未来3-5年可能迎来爆发,洛杉矶形成太空科技聚集地[28][30] - 美国创新核心分布在硅谷、波士顿、纽约、奥斯汀和洛杉矶[30]