Workflow
知识推理
icon
搜索文档
光庭信息:公司当前是以语言与知识驱动的工程智能为主
证券日报网· 2026-02-09 19:41
公司业务定位 - 公司当前业务以语言与知识驱动的工程智能为主 [1] - 公司聚焦于汽车软件研发与工程场景中的智能化应用 [1] 核心技术能力 - 公司已具备并持续引入语言理解与生成(NLP)能力 [1] - 公司已具备并持续引入知识推理能力 [1] - 公司已具备并持续引入流程规划能力 [1] - 公司已具备并持续引入多Agent协同能力 [1] 技术应用环节 - 公司核心技术应用于需求分析环节 [1] - 公司核心技术应用于设计辅助环节 [1] - 公司核心技术应用于代码生成环节 [1] - 公司核心技术应用于测试环节 [1] - 公司核心技术应用于工程管理环节 [1]
AI智能体如何重构B2B电商客服?数商云智能客服系统实战解析
搜狐财经· 2026-01-12 09:55
AI智能体在B2B领域的应用与价值 - AI智能体通过用户画像分析与动态决策树,解决服务标准化与个性化矛盾,实现“千人千面”服务,例如某电子元器件平台复购率提升18% [2] - AI智能体核心引擎包括多模态交互引擎、行业知识图谱引擎和智能决策引擎,支持全场景交互与动态优化服务策略 [2] - 决策树模型根据客户问题类型、紧急程度等条件自动匹配最优响应策略,例如某MRO平台将紧急工单处理优先级提升30% [2] 知识管理与智能决策 - 知识抽取技术可将非结构化文档转化为结构化知识库,例如某钢材电商平台将20万份文档转化为可查询知识节点 [3] - 基于图神经网络的知识推理能解决复杂问题,例如某半导体平台将技术咨询解决率从65%提升至85% [3] - 智能报价功能集成ERP系统,根据客户历史数据自动生成个性化报价,例如某电子元器件平台将报价周期从2天缩短至10分钟 [5] - 需求预测通过分析询盘与历史交易数据推荐产品,例如某化工平台将交叉销售成功率提升22% [5] 客户服务与技术支持优化 - 多轮对话功能针对复杂技术问题通过追问澄清需求,例如某机器人平台将技术咨询解决率从70%提升至88% [5] - 远程协助集成AR技术指导客户操作,例如某医疗设备厂商将现场服务次数减少40% [5] - 知识库联动功能自动关联多维度支持材料,例如某航空零部件平台将技术咨询平均耗时从25分钟缩短至8分钟 [5] 运营效率与成本控制 - 智能工单分配根据问题类型、地理位置等信息自动匹配服务资源,例如某物流设备平台将工单处理时效提升35% [5] - 预测性维护通过分析设备数据预警潜在故障,例如某能源设备厂商将设备停机时间减少50% [5] - 通过AI优化,客户满意度提升至88分,响应速度从2小时缩短至15分钟,问题解决率从72%提升至89% [5] - 通过个性化推荐与需求预测,客户年均采购频次增加1.5次,复购率提升12% [5] - AI自动处理使工单处理时效缩短至8小时,人工处理效率提升3倍 [5] - 通过预测性维护与主动服务,客户留存率提升40%,客户流失率降至8% [5] - 供应链优化减少紧急备货与现场服务次数,实现供应链成本降低2000万元/年 [5] 技术发展趋势 - 行业趋势包括集成千亿参数大模型以提升复杂问题理解与生成能力 [5] - 数字员工通过机器人流程自动化实现工单处理、合同生成等端到端自动化 [4]
DeepSeek-R1、o1都在及格线挣扎!字节开源全新知识推理测评集,覆盖285个学科
量子位· 2025-03-04 12:51
大模型评测新基准SuperGPQA - 字节跳动豆包大模型团队联合M-A-P开源社区推出全新评测基准SuperGPQA,旨在解决传统评测基准的局限性 [2] - SuperGPQA覆盖285个研究生级学科,包含26,529道专业题目,远超现有GPQA(448题)和MMLU-Pro(12,032题)[3][10] - 该评测搭建工作耗时半年,近百位学界学者及名校硕博、业界工程师参与标注 [2] 传统评测基准的局限性 - 传统基准如MMLU和GPQA覆盖学科数量不足50个,无法涵盖人类积累的多样化和长尾知识 [8] - GPT-4o在MMLU-Pro上准确率达92.3%,导致评测体系失去区分度 [1][8] - 传统基准42%的问题来自维基百科,缺乏专业深度,易被模型通过记忆机制"破解" [8] SuperGPQA的创新特点 - 学科覆盖全面:覆盖13个门类、72个一级学科和285个二级学科 [10] - 题目设计更具挑战性:每题平均9.67个选项,比传统4选项格式难度更高 [10] - STEM领域问题占比77.2%,确保在复杂推理任务中的高效评估 [12] - 42.33%的问题需要数学计算或严谨推理,有效评估模型在高难度任务中的表现 [12] 数据构建和质量控制 - 采用专家标注、众包注释和大模型协同验证三重流程确保题目质量 [6] - 来源筛选阶段由专家从教科书、权威练习网站等可信来源收集原始问题 [13] - 质量检测阶段采用基于规则的初步过滤、基于LLM的质量检测和专家复审三层机制 [16] 模型表现评估 - 在涵盖51个模型的横向评测中,DeepSeek-R1以61.82%准确率登顶,但仍显著低于人类研究生水平(平均85%+)[4][20] - 推理模型(DeepSeek-R1、O1-2024-12-17)包揽前3,领先聊天模型超10个百分点 [24] - 豆包大模型(Doubao-1.5-pro)以55.09%准确率位列聊天模型第一,超越GPT-4o-2024-11-20(44.40%)[24] 行业影响和未来展望 - SuperGPQA的开源发布填补了行业在全面评估大模型能力方面的空白 [7][22] - 该评测基准的推出反映了行业对大模型能力评估标准提升的需求 [22] - 字节跳动通过SuperGPQA展示了其在基础研究工作上的投入和追求模型智能上限的决心 [22][23]