Workflow
智能体时代
icon
搜索文档
理想MindGPT 3.1被大大低估了
理想TOP2· 2025-08-26 23:35
MindGPT 3.1技术能力 - 推理速度达每秒200 tokens 较MindGPT 3.0提升近5倍 显著高于GPT-4o-2024-05-13的每秒79.87 tokens [2][3] - 在工具调用准确率、复杂任务完成率、深度搜索及回复丰富度上较MindGPT 3.0明显提升 [4] - 深度思考模式下在多项基准测试表现优异 包括AIME 2024(0.8625)、AIME 2025(0.7969)、LCB(0.7286)、IFEval(0.8909)、CLUEWSC(0.9539)等 [4] 算法创新与优化 - ASPO算法借鉴DeepSeek R1 GRPO选择性学习核心思想 通过样本难度预估主动管理训练池 保留预测准确率20%-80%样本进行梯度更新 [7][8][9] - AWE算法降低高难度token损失权重 减少梯度更新干扰 类比"难题暂放"学习策略 [9] - 强化学习窗口长度动态调整 性能瓶颈时采用较长窗口 稳定收敛阶段切换至较短窗口 [9] 研发战略与价值观 - 明确反对刻意刷榜行为 基座模型负责人强调更关注用户体验与实际能力而非评测分数 [4][5] - 研发资源聚焦模型推理速度提升与智能体工具调用能力建设 注重长期能力构建 [5] - 每年投入几千万元与北京市自然科学基金委员会办公室、顺义区科学技术委员会发起联合基金 面向高校老师获取未发表研究成果 [10] 产品化与用户价值 - 卡片大师Agent体现理想AI产品化能力 其底层依赖MindGPT 3.1技术支撑 [1] - 广义信息交互需求涵盖游戏等场景 信息生产方为AI而非人类 物理世界组件调度能力优于手机 [7] - 模型能力提升驱动用户价值涌现 AI时代核心主线为"模型即能力" [5][6] 行业认知与创新内化 - 快速学习并内化AI社会优秀核心思想 如DeepSeek R1 GRPO选择性学习机制 并进行原创优化 [1][9] - AI时代技术评估明确 模型能力提升优先于产品化 后者属于辅助催化剂 [6] - 智能体语言模型具备自主思考与工具调用能力 代表行业技术发展方向 [2][4]
迈向智能体时代“第一步” DeepSeek-V3.1 发布
新京报· 2025-08-21 22:09
新京报贝壳财经讯(记者罗亦丹)8月21日,DeepSeek在官方公号发文称,正式发布DeepSeek-V3.1。本次 升级包含以下主要变化:一个模型同时支持思考模式与非思考模式的混合推理架构;相比DeepSeek-R1- 0528,DeepSeek-V3.1-Think能在更短时间内给出答案;通过Post-Training优化,新模型在工具使用与智 能体任务中的表现有较大提升,因此拥有更强的Agent能力。 目前,官方App与网页端模型已同步升级为DeepSeek-V3.1。用户可以通过"深度思考"按钮,实现思考模 式与非思考模式的自由切换。DeepSeek在官方发文称,DeepSeek-V3.1的发布是"迈向Agent时代的第一 步"。 ...
DeepSeek-V3.1震撼发布,全球开源编程登顶,R1/V3首度合体,训练量暴增10倍
36氪· 2025-08-21 20:04
模型技术特点 - 采用混合推理模式 一个模型同时支持思考与非思考两种模式并可自主切换[1] - 总参数量达671B 激活参数为37B 支持128K上下文长度[6][14] - 通过两阶段长上下文扩展策略构建 32K扩展阶段训练规模增加10倍达6300亿Token 128K扩展阶段增加3.3倍达2090亿Token[13] - 使用UE8M0 FP8缩放数据格式训练 确保与微尺度数据格式兼容性[14] - 基于DeepSeek-V3.1-Base通过后训练优化完成 而Base版本基于V3模型训练并进行了8400亿token持续预训练[6][12] 性能表现 - 在SWE-bench测试中获得66.0分 远超V3-0324的45.4分和R1-0528的44.6分[3][4] - 在SWE-bench Multilingual测试中获得54.5分 较V3-0324的29.3分提升86%[4] - Terminal-Bench测试得分31.3分 较V3-0324的13.3分提升135%[4] - Humanity's Last Exam测试获得29.8分 较R1的24.8分提升20%[20] - 在MMLU-Redux测试中 思考模式达93.7分 非思考模式达91.8分 均超过V3-0324的90.5分[15] - GPQA-Diamond测试思考模式获80.1分 接近R1-0528的81.0分[15] - AIME 2024数学测试思考模式获93.1分 超过R1-0528的91.4分[16] - LiveCodeBench测试思考模式获74.8分 超过R1-0528的73.3分[19] - Aider-Polyglot编码测试思考模式获76.3%准确率 超过Claude 4 Opus和Gemini 2.5 Pro[16] 效率提升 - 思考模式输出token减少20%-50% 与R1-0528性能持平但效率显著提升[6] - 推理速度较DeepSeek-R1-0528更快[3] - 在第三方Artificial Analysis基准测试中表现仅次于GPT-OSS[23] 应用能力 - 具备强大智能体能力 支持工具使用和多步骤任务处理[3] - 支持多种Code Agent框架 开发者可自主搭建智能体[16] - 支持Search Agent功能 可通过多轮工具调用流程完成复杂搜索任务[19][20] - 在BrowseComp测试中获30.0分 较R1的8.9分提升237%[20] - 在BrowseComp_zh中文搜索测试中获49.2分 较R1的35.7分提升38%[20] 行业地位 - 成为编程开源领域第一 编码实力超越Claude 4 Opus[1][16] - 是公司对OpenAI GPT-OSS的最强回应[8] - 开启智能体新时代 是迈向智能体时代的第一步[1][16]
智能体时代,人类与AI如何分工?
AI科技大本营· 2025-06-04 13:42
智能体时代的工作重构 - 智能体技术正在彻底重构工作的时空维度,打破工业时代固定的物理空间和时间段限制,使工作从时空耦合中解放出来[1][4] - 工作模式从同步线性协作转向异步碎片化,例如营销专员可将创意、客户沟通、数据分析等任务按自身能量周期分配,智能体在后台处理可标准化环节[5] - 全球自由职业平台Upwork数据显示,2024年Q1任务型合同同比增加73%,远超传统时间型合同的12%增幅,反映劳动力市场向短期任务合同的转型[8] 工作原子化与职业身份变革 - 工作流程被分解为最小任务单元(如市场调研拆分为数据收集、清洗、分析等),人类与智能体根据专长动态分配执行[9] - LinkedIn数据显示2024年用户更新职业头衔频率增加47%,多角色描述(如"数据科学家/投资分析师")成为新趋势[10] - 内容创作领域呈现典型原子化分工:人类专家提供框架,智能体完成研究、初稿生成,人类编辑进行质量控制[9] 协作模式与组织形态进化 - 智能体成为数字协作中枢,支持24/7跨时区异步工作,微软、谷歌等公司采用"选择性出勤"混合办公模式[6] - 未来智能体可能升级为"文化桥梁",理解不同专业背景的思维模式,促进跨团队高效沟通[12] - 斯坦福大学研究指出完全虚拟环境会降低21%创新能力,但混合模式能平衡深度协作与异步效率[6][16] 技能需求的结构性转变 - 哈佛商学院将"AI协作能力"定义为关键元能力,系统思维、判断力、决策能力成为智能体时代核心技能[19][21] - 提示工程(Prompt Engineering)从专业技术演变为基础素养,自然语言引导智能体输出成为普遍需求[22] - 人类角色从执行者转向价值锚点定义者,需掌握跨领域元技能以指挥智能工具并整合伦理考量[20][23] 技术驱动的产业实践 - GPT-4等模型从文本生成器进化为垂直领域知识合作伙伴,推动知识工作本质变革[5] - 特斯拉Optimus、谷歌AI实习生等案例显示智能体已具备自主规划、编码等高级能力[1] - Salesforce等企业实施"核心协作时间"政策,用技术工具管理工作生活融合边界[16] 智能体技术发展前沿 - 多模态智能体融合视觉、听觉等感知能力,提升环境交互水平[25] - 脑机接口与元宇宙技术加速智能体文明演进,形成人机共生生态[25] - 微软Viva等AI平台通过生物反馈数据优化工作安排,实现个性化时间管理[17]
超聚变CEO刘宏云:从“活下来”到“冲上去”,业务规模超400亿,押注智能体时代
搜狐财经· 2025-04-16 14:43
文章核心观点 超聚变在2025年探索者大会回顾三年发展历程,目标从“活下来”转变为“冲上去”,启动“超聚变2.0”计划,以AI重构业务流程,发布多款新产品,未来将探索业务本质 [1] 从“活下来”到“冲上去”,超聚变开启2.0时代 - 过去3年国内算力行业剧变,超聚变业务规模从百亿左右提升至400多亿,客户覆盖全球顶尖运营商、超算中心及能源巨头 [2] - 公司通过业务设计1.0实现从流程到组织的全面优化,收获“看不见的底层能力” [4] - 公司成立后首阶段目标是“活下来”,押注H800服务器方案并预判国产化趋势做针对性布局 [4] - 目前客户规模从3年前2000余个增长至24000多个,新阶段期望“冲上去” [4] - AI、数据、算力、能源、材料和生物技术将驱动未来世界变化,世界将迎来智能体时代 [5] - 公司选择AI、数据、算力、能源四个技术要素,通过跨界融合重构产业 [7] - 算力侧坚持“南北向安全异构”双生态战略,与芯片半导体公司合作研制BMC芯片 [7] - AI与数据侧推出智能应用生成平台和数据资源管理系统,已交付智能体化ERP解决方案 [7] - 能源侧打造智慧能源解决方案 [8] - 启动“超聚变2.0”计划,以AI重构业务流程,升级90多个关键流程,研发流程AI加持 [8] 三大领域密集发新品,涵盖算力、数字化转型、能源 - 企业智能化转型分单点探索、业务重构、全面数字化三阶段,算力是智能体时代基石 [10] - 算力产业面临技术路线多元化、生态不均衡等挑战,需协同解决“建好、管好、用好”问题 [12] - 算力层进行6大发布,包括升级版FusionPod开放架构液冷服务器等 [12] - 数字化转型解决方案领域发布超聚变xIBT服务方案和xRay AI服务使能平台 [12] - 自主知识产权系统将深度融合AI智能体,支持全球化与智能化需求 [12] - 能源方面发布智慧能源解决方案1.0战略,希望共建车桩网智能体 [13] - 能源领域发布分体式充电主机等产品及智能运维等服务,智能运维优化运营效率 [13] 结语:探索成超聚变下阶段关键词 - 公司定位为生态型企业,在生态构件中发挥协同作用 [16] - 探索是公司下一阶段关键词之一,公司将不断探索业务本质 [16]