Workflow
ChatGPT agent
icon
搜索文档
DeepSeek新模型曝光,梁文锋亲自督战,要和OpenAI硬碰硬
36氪· 2025-09-05 20:48
公司动态 - DeepSeek正在开发具备更高阶AI Agent功能的新模型 目标在2025年四季度发布 直接对标OpenAI [2] - 新AI系统核心特征包括基于过往行动学习自我完善 以及通过最少指令自动完成多步骤复杂任务 [4] - 公司创始人梁文锋亲自督战新模型开发 此前被行业专家解读为"憋大招" [4] - 公司8月21日发布开源模型DeepSeek-V3 1 上下文长度扩展至128k 参数规模约685B 重点增强代码理解与Agent任务执行能力 [10][12] - 模型引入混合推理架构 支持思考与非思考双模式 可智能切换提升推理效率 [12] - 公司面临用户流失压力 月下载量从一季度8111 3万骤降至二季度2258 9万 降幅达72 2% [23][24] - 当前产品存在服务器响应速度慢 幻觉问题 用户流向第三方平台等挑战 [22] 行业趋势 - AI智能体被视为大模型后重点赛道 具备自主决策 任务拆解与跨应用协同能力 [7] - 行业普遍认为2025年将成为"Agent元年" 是智能体发展的黄金时间 [4][10] - 国外巨头微软 谷歌与国内阿里 腾讯 字节跳动均已布局AI智能体赛道 [10] - 政策层面提出到2027年智能体应用普及率超70% 2030年超90% 智能经济成为重要增长极 [10] - 行业独角兽Manus推出首款通用AI Agent引发广泛关注 邀请码被炒至天价 [9] 竞争格局 - OpenAI旗下ChatGPT agent已实现网页交互 信息整合与自然语言对话三位一体功能 [14][16] - ChatGPT agent可实现用户直接下达任务 10分钟内完成复杂操作 [18] - 智能体技术仍存挑战 包括需人工干预 隐私泄露风险(如授权Gmail GitHub账户可能导致信息泄露) [13][21] - 大模型行业迭代速度极快 呈现内卷态势 多家企业通过烧钱抢人抢占市场 [23]
经济学人:英美情报界如何使用AI模型?
搜狐财经· 2025-07-31 14:22
【文/经济学人】 就在唐纳德·特朗普宣誓就任总统的那一天,一家名为深度求索(DeepSeek)的中国公司发布了一款世 界级的大语言模型(LLM)。特朗普后来形容,这对美国AI行业敲响了"警钟"。美国参议院情报委员 会副主席马克·华纳(Mark Warner)表示,美国情报界(由18个机构和组织组成)"被打了个措手不 及"。 2024年,拜登政府开始担心中国的情报部门和军方可能会在人工智能(AI)应用上抢占先机。于是, 拜登政府下令情报机构、五角大楼以及(负责核武器研发的)能源部更激进地试验尖端的AI模型,并 加强与"前沿性"AI实验室的合作,重点包括AI初创公司Anthropic、谷歌DeepMind和OpenAI。 7月14日,五角大楼向Anthropic、谷歌、OpenAI以及埃隆·马斯克旗下的xAI(该公司的聊天机器人在最 近一次更新后一度自视为希特勒)等企业分别授予了最高达2亿美元的合同。这些公司将测试"代理 型"(agentic)AI模型。此类模型能够代替用户执行任务,并将复杂任务拆分为若干步骤,还可以操控 其他设备,比如汽车或计算机。 这些前沿实验室不仅活跃在军事领域,也正深度介入欧美的情报界。早 ...
英美情报界如何使用AI模型?
观察者网· 2025-07-31 13:52
【文/经济学人】 7月23日,美国总统特朗普在参加"赢得AI竞赛"峰会期间展示关于人工智能行动计划的行政命令 7月14日,五角大楼向Anthropic、谷歌、OpenAI以及埃隆·马斯克旗下的xAI(该公司的聊天机器人在最 近一次更新后一度自视为希特勒)等企业分别授予了最高达2亿美元的合同。这些公司将测试"代理 型"(agentic)AI模型。此类模型能够代替用户执行任务,并将复杂任务拆分为若干步骤,还可以操控 其他设备,比如汽车或计算机。 这些前沿实验室不仅活跃在军事领域,也正深度介入欧美的情报界。早期的大多数应用都集中在利用大 语言模型分析机密数据这方面。今年1月,微软公司表示,其26款云计算产品已获准用于美国情报机 构。6月,Anthropic宣布推出Claude Gov,并称该模型"已部署在拥有最高国家安全保密级别的情报机构 中"。目前,美国所有的情报机构都在广泛使用AI模型,其中不乏来自多个实验室的竞品。 AI公司通常会根据情报机构的需求对模型进行"微调"。例如,出于安全考虑,Anthropic面向公众开放的 Claude模型可能会拒绝处理带有"机密"标识的文件;而Claude Gov版本则会被调校 ...
硬核「吵」了30分钟:这场大模型圆桌,把AI行业的分歧说透了
机器之心· 2025-07-28 12:24
大模型技术演进与发展之路 核心观点 - 大模型技术从预训练为主转向强化学习主导的范式转变 [10][17][19] - 行业面临Transformer架构局限性、数据枯竭、开源闭源博弈等核心挑战 [31][41][59] - Agent应用爆发与基础模型研发需双轨并行 [53][54][55] 训练范式转变 - OpenAI从GPT-4o的预训练主导转向o1的强化学习后训练,提出测试时间扩展新维度 [13][14][15] - 强化学习可解决行为克隆难以建立目标导向推理能力的问题,但需突破自然语言反馈限制 [21][22][23] - 预训练仍是强化学习冷启动的基础,但需解决奖励机制和算力效率挑战 [25][26][27] 模型架构演进 - Transformer面临O(n²)扩展性、显存占用和长期记忆三大瓶颈 [31] - 优化路径包括RoPE位置编码、分组查询注意力等改进,以及Mamba等非Transformer架构探索 [33][34] - 智能体时代可能推动RNN架构回归,需建模无限上下文能力 [37][38] 数据供给挑战 - 高质量语料预计2028年耗尽,合成数据被Anthropic/OpenAI等广泛应用但存在迭代崩溃风险 [41][42][43] - 英伟达提出物理仿真生成边缘案例,需建立真实世界验证闭环 [44][45] - 行业数据未充分挖掘,应建立非敏感数据共享机制提升预训练质量 [46][48][51] 商业化落地路径 - 2025年Agent产品成爆点(如OpenAI Operator、智谱AutoGLM),但基础模型研发仍持续 [53][54] - 大模型当前相当于自动驾驶L3阶段,距AGI仍有差距 [55] - 金融等领域落地需突破大规模数据处理等技术瓶颈 [56][57] 开源生态影响 - DeepSeek等开源模型性能逼近闭源,冲击传统GPU/闭源产业链 [60][61] - 开源推动资源合理配置并形成行业压力,但需解决分叉滥用问题 [63][64][67] - 英伟达支持开源算力引擎,未来可能走向混合模式 [65][66]
腾讯研究院AI每周关键词Top50
腾讯研究院· 2025-07-25 18:21
算力与模型 - OpenAI公布GPU部署计划 显示其在算力基础设施上的战略布局 [2] - 英伟达推出OpenReasoning-Nemotron模型 强化推理能力 [2] - Kimi发布K2排名技术报告 展示模型性能突破 [2][4] - 千问更新Qwen3版本 持续优化开源模型 [2] 应用场景 - 腾讯在多个领域布局AI应用 包括QQ音乐接入元宝助手、CodeBuddy AI IDE开发工具、混元ASR语音识别系统 [2][4] - 字节跳动推出Trae 2.0和AI同传技术 拓展多语言处理能力 [2][4] - Suno发布V4.5版本 音频生成技术迭代 [2] - 零一万物推出万仔企业级Agent 瞄准企业服务市场 [2] - DeepMind开发罕见病推理系统 医疗AI取得进展 [4] 机器人技术 - 星动纪元发布星动L7机器人 推进具身智能发展 [4] - 智元等公司研发四足机器人 仿生机器人领域竞争加剧 [4] - 影石进军无人机市场 拓展智能硬件产品线 [4] - vivo推出蓝河操作系统 布局智能终端生态 [4] 行业观点 - 黄仁勋强调中国供应链对AI产业的重要性 [5] - 微软认为AI技术将显著推动GDP增长 [5] - OpenAI探讨多智能体系统发展方向 [4] - Anthropic提出模型伪对齐问题 关注AI安全性 [5] - Eric Schmidt提出学习闭环理论 强调持续优化机制 [5] 资本与事件 - 京东投资具身智能领域 加码机器人赛道 [5] - 美国发布AI行动计划 政策层面加速布局 [5] - Meta和OpenAI争夺IMO金牌人才 凸显高端人才竞争 [5] - DeepMind获得官方IMO金牌认证 数学推理能力受认可 [5]
2025 年 7 月 21 日全球科技新闻汇总
海通国际证券· 2025-07-21 12:48
报告行业投资评级 未提及 报告的核心观点 - 汇总2025年7月21日全球科技新闻,涵盖半导体、存储、AI等领域动态,涉及Arm、长江存储、NVIDIA等公司及Kimi K2、MirageLSD等技术成果 [1] 根据相关目录分别进行总结 半导体行业 - Arm切入云端ASIC市场,虽未以完整方案获CSP或知名厂商订单,且面临竞争,但可借IP技术获利,其Neoverse平台瞄准晶片设计经验不足客户,若无法争取CSP青睐,未来拓展或落于下风 [1][8] - 长江存储主导“全国产化”产线传试产,目标2026年全球市占达15%,其积极与中系厂商合作,突破蚀刻与蒸镀等制程瓶颈,3D堆叠技术有望比肩国际大厂,且获70亿美元“大基金”扶植,推进产品每年升级一代 [2][9] 数据中心与AI行业 - NVIDIA的GB200伺服器2025年第2季出货转顺,ASIC伺服器出货火热,美系CSP资料中心建置脚步加快,AI热潮下半年将持续,CSP第2季需求畅旺或反映在财报上,GB200此前因零组件供应问题影响CSP资料中心扩张 [3][10] AI模型与技术成果 - Kimi K2超越DeepSeek成全球开源模型第一,总榜第五,基于DeepSeek V3架构调整参数,全球TOP10开源模型中两个来自中国,打破“开源=性能弱”印象 [4][13] - Decart发布MirageLSD,首个实时、无时长限制扩散视频模型,可处理任意视频流,获Karpathy投资,其LSD架构解决误差累积问题,但精细控制和几何稳定性待改进 [5][13] - Suno V4.5+版本提供人声与器乐分层生成与融合功能,新增“Inspire”模式,谱乐AI平台同步其核心生成能力,优化创作门槛和AI协作效率 [5][19] 科技应用与产品 - 腾讯元宝App 2.30版本接入QQ音乐,实现“一句话搜歌、划线即播”,由混元大模型与DeepSeek - R1双引擎驱动,体现AI助手从工具到伙伴的进化 [6][19] - OpenAI推出ChatGPT agent遭竞品批评,其实测输出内容简陋,Manus、Minimax、Kimi等竞品各有特色 [6][19] 其他技术进展 - UIUC与Stability AI提出PhysRig角色动画可微物理绑定框架,解决体积丢失与变形伪影问题,测试表现优于传统方法,支持跨物种动作迁移 [7][19] - OpenAI神秘通用推理模型在IMO 2025获金牌,具备数小时深度创造性思维能力,是通用强化学习突破成果,模型不发布 [7][19]
腾讯研究院AI速递 20250721
腾讯研究院· 2025-07-21 00:02
开源模型竞争 - Kimi K2超越DeepSeek成为全球开源模型第一,总榜排名第五,紧追顶尖闭源模型 [1] - K2继承DeepSeek V3架构并进行参数调整,包括增加专家数量、减半注意力头数、保留第一层Dense及专家无分组 [1] - 全球TOP 10开源模型中唯二入选的均来自中国,"开源=性能弱"的印象正被打破 [1] 视频生成技术突破 - Decart发布MirageLSD,首个实时(40毫秒延迟)、无时长限制的扩散视频模型,可处理任意视频流 [2] - Karpathy成为天使投资人,预见其在实时电影制作、游戏开发和AR领域的广泛应用 [2] - 技术突破在于实时流扩散(LSD)架构,通过逐帧生成和历史增强方法解决误差累积问题 [2] AI音乐创作升级 - Suno V4.5+版本提供人声与器乐分层生成与融合功能,用户可上传个人人声或伴奏进行AI辅助创作 [3] - 新增"Inspire"模式允许用户上传3秒至8分钟的个人干声,AI学习演唱特点后创作符合个人声音气质的音乐 [3] - 谱乐AI平台已同步上线Suno V4.5+核心生成能力,优化创作门槛并提升AI协作效率 [3] 音乐AI助手整合 - 腾讯元宝App 2.30版本正式接入QQ音乐服务,实现"一句话搜歌、划线即播"功能 [4] - 混元大模型与DeepSeek-R1双引擎驱动,能识别模糊音乐描述并结合情境推荐 [4] - 用户体验包括无缝账号体系连接、多模态交互和创作辅助功能 [4] AI Agent竞争 - OpenAI推出ChatGPT agent,面向Pro用户,但遭到Manus、Genspark等竞品公司的直接对比和批评 [5] - ChatGPT agent整合了Deep Research、Operator和ChatGPT功能,能自动完成退休计划、购物清单等任务 [5] - 实测各有特色,Manus输出更美观,Minimax提供多种格式报告,Kimi内容详细且询问用户具体需求 [5] 角色动画技术 - PhysRig是UIUC与Stability AI提出的角色动画可微物理绑定框架,将刚性骨架嵌入弹性软体 [6] - 通过MPM可微分物理模拟替代传统LBS,解决了体积丢失与变形伪影问题 [6] - 在17类角色和120组动画测试中全面优于传统方法,支持跨物种动作迁移 [6] 通用推理模型突破 - OpenAI的神秘通用推理模型在IMO 2025中解出5道题目,获得35分,达到金牌水平 [7] - 该模型具备持续数小时的深度创造性思维能力,远超以往AI的秒级或分钟级推理 [7] - 这是通用强化学习突破而非特定任务训练的成果 [7] AI工具设计理念 - 最佳AI编程工具应是简单、通用的"乐高积木",而非功能堆砌的复杂系统 [8] - Claude Code创造者主张将控制权还给用户,工具不应替你决定工作流,而是提供底层能力 [8] - 有效工作流包括:先探索规划再由用户确认后编码、使用测试驱动开发、对照目标迭代改进 [8] AI产品战略 - 聚焦Agent:预训练模型已含工具知识,只需激发能力,智能上限由模型决定 [9] - 开源:提升知名度、获取社区贡献,防止用技术捷径粉饰效果,倒逼模型真正进步 [9] - 选择DSV3架构:实验证明自研结构无法胜过DSV3,资源有限下避免引入无效变量 [9] AI未来发展方向 - 许多人构建的辅助工具与路由系统最终会被扩展模型取代,真正遵循扩展法则的方向是直接提高模型能力 [10] - 当前AI模型学习数据效率远低于人类,算法改进比简单扩大数据规模更重要 [10] - 多智能体研究新方向:研究如何让模型从15分钟推理扩展到数小时甚至数天,建立AI"文明" [10]
ChatGPT Agent遭暴击,国产AI轮番“公开处刑”
虎嗅· 2025-07-19 12:00
Agent市场竞争格局 - OpenAI推出ChatGPT agent引发竞品密集对比测试 Manus、Genspark等公司通过社交媒体展示产品优势 [1][4][5] - ChatGPT agent面向Pro用户开放 需求超预期导致Plus/Team用户访问延迟至下周 [6] - 竞品反应激烈 Manus发布10条对比推文 Minimax生成多格式报告 Kimi采用深度调研模式 [110][147][153] 产品功能实测表现 - **任务完成效率**:ChatGPT agent用20分钟生成14页退休计划PPT Manus耗时10分钟 Minimax需1小时 [12][51][111] - **输出质量差异**: - ChatGPT agent生成黑白简易PPT 未优化可视化效果 [14][175] - Manus提供彩色排版 但未标注信息来源 [54][56] - Minimax同时输出PPT/PDF/在线链接 含详细数据可视化 [113][147] - Kimi报告超50页 含用户个性化提问及引用标注 [151][153] - **核心能力对比**: - ChatGPT agent整合Deep Research+Operator+ChatGPT 但缺乏前端优化 [174] - Kimi实现"观察-思考-纠错"闭环 更接近真实秘书体验 [150] 行业技术演进方向 - 产品形态从问答机器人转向协作型AI工具 支持复杂任务执行 [176] - 交互范式从chat-first进化为artifact-first 强调任务成果交付 [149] - 技术焦点转向人机交互主入口争夺 大模型公司扩展应用层布局 [177] 典型应用场景案例 - **退休规划**:年收入50万美元目标30岁退休 需82%储蓄率+7%年化回报 实际测算显示5年仅积累250万加元 [28][159][161] - **税务优化**:加拿大RRSP账户年供款上限31,560加元 TFSA账户7,000加元 高收入者边际税率达53.5% [168][169] - **成本控制**:温哥华月生活成本4,409加元 极端储蓄需压缩至2,500加元租房预算 [65][163] 竞品差异化策略 - Manus强调执行落地能力 在电商/金融分析等场景提供完整项目交付 [105][109] - Minimax侧重严谨性 包含风险管理和税务优化策略 [132][134] - Kimi深度调研模式覆盖资产配置/提款率分析等细节 数据量远超同行 [153][170]