Agent
搜索文档
ChatGPT智能体正式发布,多个创业赛道昨夜无眠
量子位· 2025-07-18 08:30
ChatGPT Agent核心功能 - 整合"思考"和"执行"能力,实现深度研究与操作执行的统一[2][8] - 可接管用户电脑操作,接近操作系统级别的控制[3] - 工作场景支持会议安排、PPT生成、报销提交等高管助理级功能[4] - 生活场景覆盖旅游规划、活动安排等CEO秘书级服务[4] 技术实现与性能 - 采用专用模型实现SOTA,网页浏览和现实任务执行能力显著提升[5][30] - 动态学习机制优化速度、准确性和效率,配备可视化/文本浏览器及API访问路径[27][28] - 在DSBench测试中超越人类水平,SpreadsheetBench得分比GPT-4o提升超一倍[33][34][38] - "人类最后考试"得分41.6分,远超早期模型不足10分的表现[31] 商业化部署 - Pro版支持无限次任务,其他付费版每月50次任务,企业/教育版7月开放[22][23][24] - 通过积分制扩展使用量,免费用户暂未开放[23][25] 行业影响与竞争格局 - 将创业赛道功能整合为大厂标准化产品,冲击Agent领域创业者[5][7] - 落后于Anthropic等竞品的"Computer Use"功能,但在通用Agent领域加速追赶[48] - 手机厂商华为/小米等已试水Agent应用,如自动订咖啡、接听电话等[49] 长期趋势展望 - 可能重塑互联网形态,从PC时代"网站"、移动时代"APP"转向AI时代"Agent"[52] - 企业级应用如AI客服已快速渗透,垂直领域AI编程/绘图同步推进[46][47] - 预示由AI驱动的操作系统级产品形态正在形成[50][51]
刚刚,OpenAI发布了自己的Agent模式,能干什么?
虎嗅APP· 2025-07-18 08:20
OpenAI发布Agent模式 - OpenAI在2025年下半年推出Agent模式,标志着AI从"动嘴"进入"动手"时代,能够直接完成用户指令[3][4] - Agent模式可执行复杂任务如购物、设计、信息整理等,平均耗时10-25分钟,完成度高[4][9][10] - 该模式整合了Operator和Deep Research两款工具,实现浏览器操作与深度研究能力融合[11][12][13] Agent模式技术特点 - 调用三种工具:文本浏览器(信息检索)、可视化浏览器(图形交互)、终端(代码执行/API调用)[8][9] - 采用强化学习训练模型工具选择能力,任务完成效率比纯人工高[14] - 在Humanities Last Exam基准测试中达到42%准确率,较基础模型提升1倍[15][16] 商业化应用进展 - 开放给Plus/Team用户,每月提供40次使用额度,覆盖更广泛用户群体[5] - 演示案例包括婚礼策划(10分钟生成服装/酒店/礼物方案)、贴纸设计下单(7分钟)、旅行攻略制作(25分钟)[9][10] - 网页操作能力接近人类水平(WebArena基准),电子表格处理能力仍有差距[19][20] 行业影响与挑战 - 直接对标Manus模式,可能重塑第三方Agent开发生态格局[7][22] - 引发隐私安全担忧,涉及虚拟环境中的个人信息与支付操作风险[23][24] - 将重新定义人机关系,引发对白领工作岗位替代效应的讨论[25][26]
MiniMax再融22亿元?新智能体可开发演唱会选座系统
南方都市报· 2025-07-17 12:58
融资与估值 - MiniMax即将完成近3亿美元(约合人民币22亿元)新融资 本轮融资后公司估值将超过40亿美元(约合人民币288亿元) [1] - 公司正寻求A股上市 但未获官方回应 [1] 产品与技术 - MiniMax发布MiniMax Agent全栈开发功能 能交付复杂全栈应用 无需编程 仅需输入自然语言即可输出网站应用 [1] - 该产品可能是全球首个在复杂全栈网站应用上高交付率的Agent 支持API、实时数据、下单支付、LLM调用等功能 [1] - 案例显示MiniMax Agent可在30分钟内开发演唱会选座系统 实现实时锁座、注册、支付等完整流程 [1] - 公司发布首个开源大规模混合架构推理模型MiniMax-M1 采用闪电注意力机制 在长上下文输入和深度推理时效率显著 [4] - MiniMax-M1在训练和推理时具有算力效率优势 混合架构被视为未来模型设计主流 [4] 行业动态 - Agent成为继大模型后全球科技圈新风口 代码能力和信息检索能力是布局重点 [3] - OpenAI、谷歌等厂商已推出智能体产品 并在编程能力领域展开竞争 [3] - 全球厂商竞争重点转向混合推理模型 Anthropic发布Claude 3.7 Sonnet 称其为市场首个混合推理模型 [3] - 混合推理模型架构代表下一代前沿技术 可实现快速反应与深度思考的平衡 [3]
Kimi K2发布两天即“封神”?80%成本优势追平Claude 4、打趴“全球最强AI”,架构与DeepSeek相似!
AI前线· 2025-07-14 15:42
模型性能与市场表现 - Kimi K2在OpenRouter平台的token使用量两天内超越xAI的Grok 4 [1] - 总参数量达1万亿(1T),激活参数32B,支持非英伟达硬件流畅运行 [3] - 在代码、Agent、工具调用基准测试中取得开源模型SOTA成绩 [3] - 开发者实测显示其编码能力与Claude 4相当但成本仅20% [7][8] 技术架构创新 - 采用MuonClip优化器实现万亿参数模型高效训练,Token利用率显著提升 [16][19] - 架构与DeepSeek-V3相似但减少注意力头数量并增加MoE稀疏性 [17][19] - 引入qk-clip技术解决训练不稳定性问题 [19] - 通过大规模Agentic Tool Use数据合成和通用强化学习增强智能体能力 [20] 实际应用表现 - 前端开发中可生成兼具设计感的代码并自主完成组件库开发 [13] - Python数据分析任务可一次性完成且成本仅几分钱 [11] - 在创意写作和角色扮演评测中超越o3和R1模型 [14][15] - 工具调用能力获前Anthropic工程师认可,支持并行可靠调用多工具 [14] 行业竞争动态 - 与DeepSeek在技术路线三次"撞车",包括注意力机制改进和数学证明模型 [20] - 公司战略重心转向基础模型研发,暂停广告投放并布局AI医疗产品 [21] - 联合创始人公开表态将Kimi K2视为应对DeepSeek竞争的关键成果 [21] 开发者反馈 - API兼容OpenAI和Anthropic格式,可驱动Claude Code实现85%原版能力 [7][8] - 用户实测显示其生成网站和前端代码效果超预期且提示词简单 [11][13] - 被评价为"Claude 3.5 Sonnet后首个可在生产环境放心使用的非Anthropic模型" [14]
飞书试水“人机协同”
钛媒体APP· 2025-07-14 12:09
行业竞争态势 - 协同办公领域竞争加剧,飞书与钉钉互相挖角客户,飞书宣布多维表格将上架钉钉平台[2] - 产品边界模糊化,AI技术加速落地推动行业竞争格局变化[2] - 飞书通过AI功能迭代构建初具雏形的产品版图,完成2023年AI落地的首阶段成果[2] 飞书AI产品更新 多维表格升级 - 多维表格数据库承载量从100万行提升至1000万行,仪表盘BI能力媲美专业软件[5] - 新增应用模式支持一键切换,产品功能向纵深发展[5] 知识管理与会议系统 - 知识问答功能实现不依赖知识库的企业级AI搜索与创作,基于"AI知识引擎"[7] - AI会议与飞书项目落地更多AI能力,强化场景化应用[7] 开发套件创新 - 推出多智能体架构"飞书妙搭",支持自然语言输入开发需求并自动生成系统原型[8] - aPaaS平台构建人机协同开发环境,AI辅助完成页面搭建/数据建模/代码编写等全流程[8] - 开发套件已在绫致时装等客户落地,共创"AI练货系统"等定制化解决方案[8] 企业级Agent战略 - 推出通用Agent"aily工作助手",具备智能文档理解/数据分析/任务规划等能力[9] - 通过MCP协议对接企业业务系统,支持定制化知识库关联与员工培训场景[9] - 采用模块化Agent设计,专注单环节专业性,结合平台化安全管控实现高效协同[10] 行业趋势与战略定位 - 飞书开发套件逻辑与微软智能体网络战略一致,均强调多智能体协作范式[11] - 当前产品成熟度处于M3级(可大规模使用),距离终极形态M4级仍有差距[11] - AI Agent可能重构SaaS商业模式,办公软件边界模糊化将挑战第三方服务商[12] - 飞书需超越钉钉竞争框架,通过AI Agent定义新一代明星产品战略方向[12]
生成式 AI 的发展方向,应当是 Chat 还是 Agent?
自动驾驶之心· 2025-07-11 19:23
Chat与Agent的区别 - Chat是主要由"大脑和嘴"构成的智能体,专注于信息处理和语言交流,如ChatGPT这样的系统,能理解查询并给出连贯回答但不直接执行任务 [1] - Agent是具有"手、脚"的智能体,能进行思考、决策并执行具体任务 [2] - Chat强调"说",Agent强调"做" [3] 技术发展趋势 - 人类对"让机器替人干活"的需求持续存在,OpenAI通过plugin、Function Calling、Assistant API等动作推动LLM从纯对话向任务执行扩展 [4] - 智能音箱发展路径类似:从基础语音功能(如播放音乐)逐步扩展到支付互通、智能家居控制、儿童教育等场景,成为智能生态核心 [4][5] - AI+RPA技术推动智能客服向数字员工进化,体现AI从单一对话到"说做结合"的融合趋势 [5] - 未来生成式AI将融合Chat和Agent特点,形成兼具高质量对话与复杂任务执行能力的自动化系统 [6] AI Agent的技术变革 - 颠覆传统软件开发模式:从预先定义逻辑转向由LLM自主支配运行,实现运行时学习与调优 [7] - 核心模块包括Memory(记忆)、Tools(外部工具)、Planning(计划)和Action(行动) [7] - 当前学习路径分为OpenAI技术路线和开源技术路线,建议技术人员选择一条深入实践 [9] 典型AI Agent项目案例 - AutoGPT:可拆解用户目标为子任务,通过搜索、脚本执行等方式自主完成任务 [11][12] - JARVIS:采用"模型选择"机制,调用Huggingface专家模型处理多模态任务 [13][15] - MetaGPT:模拟软件公司结构,分配产品经理、工程师等角色协作完成编码任务 [16] 开发者生态与机会 - 工具/平台成熟为个体开发者提供新舞台,使AI原生应用开发门槛降低 [16] - 自动驾驶领域已形成近4000人社区,覆盖300+企业与科研机构,涉及30+技术栈(如BEV感知、SLAM、轨迹预测等) [19][21]
Kimi新功能Deep Researcher海外引发热议 还被马斯克直播点名
搜狐财经· 2025-07-10 18:15
模型发布 - 马斯克旗下公司xAI正式发布最新旗舰模型Grok 4 [1] HLE测试表现 - OpenAI Deep Research在HLE测试中创下26.6%的新纪录,较之前最高分(o3-mini的13%)翻倍 [4] - Google Gemini 2.5 Pro在HLE测试中得分为21.64%,优于o3(20.32%)但落后于OpenAI Deep Research [4] - 月之暗面Kimi-Researcher以26.9%的成绩创下HLE测试新纪录,超越OpenAI Deep Research和Google Gemini [4] - AI行业在一年内HLE测试成绩从不足5%提升至超过25% [4] Kimi DeepResearcher产品特性 - 在执行研究任务时平均进行23次推理,筛选高质量信息并剔除冗余内容 [6] - 具备自动生成分析结论能力,拥有文献严谨性,可有效减少模型幻觉 [6] - 在xBench DeepSearch基准测试中达到69%的优异表现 [4] 行业评价 - AI从业者高度评价Kimi DeepResearcher,认为其视觉效果出色且研究能力精准 [3] - 海外研究者将Kimi列为中国AI领域前三强,与DeepSeek、字节跳动并列 [4] - 行业人士指出Kimi是基于模型的Agent产品,而非简单工具套用 [4]
让AI「真落地」,组织才会成为真正的智能体
36氪· 2025-07-10 17:00
飞书AI产品发布会核心观点 - 公司通过AI全家桶产品实现"组织熵减",目标是让一线员工拥有AI助手自助解决业务卡点[1][4] - 多维表格作为拳头产品实现10倍性能提升,单表容量达1000万行,加载速度从7.4秒降至0.94秒[12][14] - 新推出的飞书妙搭允许用户通过自然语言指令生成AI应用,如电商业务看板[19][20] - 公司提出AI应用成熟度模型(M1-M4),现有产品如知识问答达M3级,飞书妙记达M4级[33][34][40] 行业渗透与竞争格局 - 在新能源汽车行业渗透率达60%(销量前30品牌中),茶饮行业上市品牌覆盖5/6家[6] - 已获得DeepSeek、智元机器人等AI领域新客户[8] - 面临钉钉直接竞争,后者在发布会前突击上线AI表格产品[10] 多维表格升级亮点 - 处理能力可支持小型电商平台,直接管理1000万条SKU/订单数据[14] - 新增"应用模式"提供丰富组件,可快速搭建销售/人力/库存等管理系统[21][23] - 伊芙丽案例显示:98年员工用该产品搭建美妆业务系统,支撑全国数千人运营,节省百万开发费用[26] Agent战略布局 - 推出企业级Agent开发套件,飞书Aily支持私域数据配置,已落地公牛集团客服系统[36][37][39] - 明确Agent分级标准,解决行业概念模糊问题[29][32] - 基于aPaaS平台实现AI全流程助力业务系统开发[41]
真·能干活的Agent来了,飞书海量上新多款AI产品 | 最前线
36氪· 2025-07-09 19:32
AI行业趋势 - AI关注重点从大模型转向实际落地应用 企业更看重如何通过AI实现降本增效 [1] - 协同办公赛道竞争加剧 各平台加速布局AI和具身智能领域以抢占新用户心智 [6] 飞书产品更新 - 飞书发布知识问答、AI会议、飞书Aily、飞书妙搭等多款AI产品 并对多维表格等现有产品进行升级 [1][6] - 多维表格月活超1000万 单表容量提升至1000万热行(较2024年增长10倍) 加载速度从7.4秒优化至0.94秒(2万行规模) [11] - 新增"飞书妙搭"功能 用户可通过自然语言指令一键生成AI应用 并支持应用模式快速装修 [17][18] 行业渗透数据 - 新能源汽车销量前30品牌中60%使用飞书 茶饮行业6家上市品牌中5家为飞书用户 [6] - 飞书已拿下DeepSeek、智元机器人等AI领域新客户 [6] 竞品动态 - 钉钉突击上线AI表格产品 飞书宣布将在企微、钉钉平台上线多维表格功能 [10] Agent技术进展 - 飞书推出AI应用成熟度模型(M1-M4) 知识问答达M3级 飞书妙记达M4级 [24][29] - 飞书Aily支持私域数据配置 已在公牛集团落地客服Agent 接待能力提升30倍 [27] - 飞书aPaaS实现AI全程助力开发 通过AI Coding+PaaS优化效率与稳定性 [28] 产品技术突破 - 多维表格可替代中小企业的销售、客服、人力等系统 成为大模型+真实业务场景试验场 [16] - 应用模式内置丰富组件(列表/Tab/轮播图等) 使AI应用更接近可交互系统 [18][20]
云从科技业绩会:在泛AI领域探索新增长点
证券时报网· 2025-07-07 15:28
公司战略与业务布局 - 公司坚持前沿创新与实用落地深度结合的战略方向,以期为投资者带来可持续价值增长 [1] - 人工智能产业已从建设期步入运营期,公司认为Agent技术将带来更多有价值的产出和机会 [1] - 公司业务布局涵盖智慧治理、智慧金融、智慧出行、智慧商业及泛AI五大板块,正在深耕高毛利领域和强化产品策略 [1] - 公司自主研发的从容大模型在国际权威评测平台OpenCompass最新全球多模态榜单中以80.7分的综合成绩登顶榜首 [1] - 公司将通过混合模型(开源+闭源)和混合云(公有云+私有化部署)模式发挥视觉和多模态模型优势 [1] - 2025年经营策略包括技术落地与项目积累提升营收能力、强化回款与成本控制优化现金流、推进业务"双曲线"布局 [3] 财务与运营情况 - 公司核心业务"人机协同操作系统"2024年收入同比下跌55.86%,主要因主动收缩高投入、周期长、资金效率低的项目 [1] - 公司正通过优化成本结构、提高运营效率、加大盈利性项目推进力度来改善现金流状况 [1] - 2025年股权激励方案业绩考核目标为以2024年营业收入为基数,当年营业收入增长率不低于25% [2] - 公司持续致力于优化业务结构,加强成本控制,并积极拓展市场,目标实现扭亏为盈 [3] 研发与人才管理 - 公司核心技术人员张岭和姜迅相继离职,引发投资者对技术人员稳定性的关注 [1] - 公司将灵活调整研发团队规模,吸引顶尖人才,优化团队结构以保障研发效率和创新能力 [2] - 公司正推进研发投入优化工作,集中资源于核心研发领域,强化技术优势 [2] - 公司将通过股权激励计划和优化考核机制等措施加强人才梯队建设 [2] 行业与市场展望 - 泛AI行业收入占比增长显示公司在新行业的拓展成效 [1] - 2025年上半年小而美的应用需求逐步涌现,产品正在进行迭代 [1] - 公司在多个行业的人工智能模型和应用试点中看到机会和趋势 [3] - 公司产品和业务拓展有序进行,部分行业试点已取得成功 [2]