自然语言处理

搜索文档
用时间积累换突破——月之暗面专注通用人工智能领域
经济日报· 2025-08-12 06:12
公司概况 - 北京月之暗面科技有限公司(Moonshot AI)成立于2023年4月,专注于通用人工智能(AGI)研发,目标是探索智能极限并实现普惠AI [1] - 公司位于北京海淀区中关村,拥有约300名员工,其中50%为90后,团队涵盖算法、工程、产品及运营领域的顶尖人才 [2] - 创始人杨植麟具有10年自然语言处理(NLP)研究经验,团队具备超大规模计算集群运维和深度学习框架开发能力 [1][2] 技术产品 - 核心产品Kimi智能助手于2023年10月上线,是全球首个支持20万字长文本处理的AI助手,半年后长文本能力扩展至200万字 [2][4][5] - 2024年7月发布开源大模型Kimi K2,参数规模达万亿级别但激活参数仅320亿,成本效益显著提升 [3][6] - Kimi K2在多项基准测试中表现优异,特别在自主编程、工具调用和数学推理三方面能力突出,成为全球开源模型榜单前五名中唯一的开源模型 [6] - 产品线持续扩展,包括K1.5视觉思考模型、Kimi-Researcher深度研究模型及浏览器助手等 [2] 技术创新 - 坚持无损数据压缩技术路线,拒绝滑动窗口等捷径方案,实现200万字长文本处理突破 [5] - 首次将创新优化器应用于万亿参数规模模型训练,验证了训练效率的技术突破 [8] - 开发具备Agent能力的模型,可自主探索使用工具并与电子/真实世界交互,推动AI进入智能体时代 [7][8] - 开源策略使Kimi K2成为API调用量和下载量增长最快的大模型,将顶尖技术能力开放给开发者社区 [6] 市场表现 - 2024年Kimi用户量实现100倍增长,从几十万跃升至数千万级别 [5] - Kimi K2已接入部分国际主流开发平台,在3D/游戏/动画制作等场景展现强大交互能力 [3][7] - 产品演示显示可在4分钟内根据指令创建3D森林环境,并具备软件开发、英语学习应用创建等多元功能 [7] 发展理念 - 坚持"技术理想主义",通过长期积累实现突破,专注通用人工智能而非垂直领域解决方案 [8] - 追求"将能源转化为智能的最优解",致力于发展通用泛化能力而非单一技能 [8] - 产品设计强调个性化定制,打破技术专用性壁垒,实现"代码人人可用"的普惠目标 [7]
电话外呼系统的市场现状与发展趋势
搜狐财经· 2025-08-09 15:14
规模增长显著 近年来,外呼电话系统平台市场规模呈现出稳步增长的趋势。受益于人工智能(AI)、自然语言处理(NLP)、机器学习(ML)和自动化技术的持续进 步,全球智能呼叫服务平台市场规模从 2022 年的 21.0 亿美元增长到 2024 年的 32.2 亿美元,年复合增速达 23.8%。在中国,随着宏观经济进入高质量发展 阶段,各行业竞争愈发激烈,企业对新业务增量的挖掘需求迫切,这极大推动了外呼电话系统平台市场的发展。以基于 AI 的智能呼叫服务平台为例,中国 市场规模从 2022 年的 18.3 亿元增长到 2024 年的 30.3 亿元,占全球市场比重约为 24%。预计到 2025 年,国内智能外呼系统市场规模将达到 180 亿元人民 币,年复合增长率约 20%。中国外呼行业市场规模预计突破万亿元,年复合增长率保持在 15% 以上,其中金融、电商、教育三大领域贡献超 60% 的市场份 额。 在数字化营销与客户服务的浪潮中,电话外呼系统作为企业连接客户的重要桥梁,其市场格局与发展走向备受关注。当下,外呼电话系统平台市场展现出多 维度的发展态势,在技术革新、市场竞争与应用拓展等层面不断演进。 市场现状 发展 ...
刚刚,DeepSeek梁文锋NSA论文、北大杨耀东团队摘得ACL 2025最佳论文
机器之心· 2025-07-31 00:25
ACL 2025大会概况 - 本届ACL大会投稿数创历史新高,达8000多篇,较去年4407篇增长81% [3] - 主会论文接收率20.3%,Findings接收率16.7% [3] - 中国作者占比首次过半达51.3%,远超美国14.0% [4] - 共颁发4篇最佳论文、2篇最佳社会影响力论文、3篇最佳资源论文等多项奖项 [6] 最佳论文研究成果 - DeepSeek团队与北大杨耀东团队包揽4篇最佳论文中的2篇 [10] - 杨耀东团队论文揭示大模型存在"弹性机制",导致对齐困难且需与预训练相当的资源 [24][25] - DeepSeek提出NSA注意力机制,在27B参数模型上实现长上下文高效训练与推理 [33][40] - NSA通过分层token建模实现260B token预训练,性能媲美Full Attention但计算效率更高 [37][41] 技术创新方向 - 大模型安全领域突破:发现模型参数存在抵抗对齐的结构性惯性 [24] - 高效训练技术:NSA实现硬件对齐的稀疏注意力,解码速度随序列长度增加而提升 [36][41] - 数据质量评估:Meta-rater提出四维度数据选择方法提升预训练效率 [55] - 评估效率优化:SubLIME方法可将LLM评估成本降低80%-99% [56] 行业影响与趋势 - 华人团队学术影响力显著提升,包揽最佳论文半数奖项 [10] - 大模型基础架构创新持续涌现,注意力机制优化成为关键突破点 [33][37] - 模型安全与对齐挑战凸显,需重新评估现有技术路线 [24][25] - 高效训练与推理技术获重点关注,推动商业化应用落地 [40][41]
金工周报-20250729
中邮证券· 2025-07-29 15:29
根据提供的研报内容,以下是量化模型与因子的详细总结: 量化模型与构建方式 1. **模型名称**:OpenReasoning-Nemotron推理模型 **模型构建思路**:基于Qwen2.5架构,通过从6710亿参数的DeepSeek R1 0528模型中蒸馏提炼而成,旨在为数学、科学及代码生成等结构化任务提供高效推理支持[12] **模型具体构建过程**: - 利用NeMo Skills框架生成500万个涵盖数学证明、科学推导和编程解决方案的高质量数据轨迹 - 通过纯监督微调(SFT)而非强化学习进行训练,确保逻辑一致性和符号推理精准度 - 采用GenSelect算法实现"重型推理模式",通过并行启动多个智能体生成候选解并筛选最优答案 - 公式:GenSelect@64技术,在32B模型上将HMMT数学竞赛成绩从73.8提升至96.7[13] **模型评价**:在GPQA、MMLU-PRO和AIME24等基准测试中刷新同参数规模纪录,32B版本在AIME24获得89.2分,超越OpenAI的o3-high模型[15] 2. **模型名称**:Qwen3-Coder **模型构建思路**:以4800亿参数规模、原生支持256K上下文窗口的混合专家架构(MoE)为核心,实现开源编程模型的性能突破[19] **模型具体构建过程**: - 采用稀疏化MoE设计,总参数4800亿但每次推理仅激活350亿参数,包含160个专家网络并动态选择8个参与计算 - 使用7.5万亿token的语料库,其中70%为代码数据,覆盖80余种编程语言及20多种标记语言 - 通过Qwen2.5-Coder对低质量数据清洗改写,生成高质量合成数据 - 引入代码强化学习与长程强化学习,构建分布式系统并行运行2万个独立环境[19] **模型评价**:HumanEval pass@1正确率达93.7%,超越Claude 3.5的92.4%;在SWE-Bench Verified上以31.4%任务成功率首次超过GPT-4的30.9%[20] 3. **模型名称**:AI评审框架 **模型构建思路**:通过赋予AI评审员自主调用外部工具的能力,构建兼具效率与严谨性的混合评审体系[25] **模型具体构建过程**: - 采用三级决策机制:初始领域评估、工具调用环节(事实核查/代码执行/数学核查)、综合评审结论生成 - 工具优先策略,仅在无适用工具时回退至基线模型评审 - 模块化设计实现领域适配,数学核查工具可灵活替换为Wolfram Alpha等专业引擎[26] **模型评价**:将数学问题评审错误率从纯模型评估的28%降至6%,代码评审误判率下降逾40%[29] 模型的回测效果 1. **OpenReasoning-Nemotron模型** - AIME24得分:32B版本89.2分,7B模型78.2分,1.5B模型45.6分[15] - LiveCodeBench得分:从70.2提升至75.3[13] - HMMT数学竞赛成绩:GenSelect@64技术下从73.8提升至96.7[13] 2. **Qwen3-Coder模型** - HumanEval pass@1正确率:93.7%[20] - SWE-Bench Verified任务成功率:31.4%[20] - 上下文处理能力:原生256K扩展至1M token[20] 3. **AI评审框架** - 数学问题评审错误率:从28%降至6%[29] - 代码评审误判率:下降逾40%[29] - MMLU基准测试指标一致性:提升约15%[29] 量化因子与构建方式 (注:研报中未明确提及量化因子的构建内容,故本部分暂缺) 因子的回测效果 (注:研报中未提及量化因子的测试结果,故本部分暂缺) 以上总结严格基于研报中涉及的量化模型相关内容,未包含风险提示、免责声明等非核心信息。模型构建细节引用自原文技术描述部分,测试结果数据均来自基准测试报告[12][13][15][19][20][25][26][29]
维也纳免费约饭!ACL 2025期间这场晚宴不容错过!
机器之心· 2025-07-24 12:08
AI领域发展趋势 - AI领域在7月仍保持快速发展趋势,尤其在视频生成和自主智能体方向取得多项突破性成果 [1][2] - ACL 2025作为自然语言处理领域顶级会议,成为全球研究者分享最新成果和探讨未来趋势的重要平台 [3] 云帆・ACL 2025 AI Talent Meetup活动 - 活动由机器之心联合上海人工智能实验室、东方菁汇、黄大年茶思屋科技网站、蚂蚁技术研究院、全球高校人工智能学术联盟共同发起 [4] - 活动聚焦前沿技术与人才对话,设置青年学者Talk、顶尖人才SHOW和晚宴交流等环节,规模为250人 [4][6] - 活动时间为奥地利维也纳时间7月30日16:00-20:30,地点在维也纳奥地利中心周边 [6] - 活动为求职者提供企业岗位poster展示交流和宣讲环节,搭建人才与企业深度对话桥梁 [7] 机器之心的活动经验 - 机器之心已成功举办云帆・ICLR 2025 AI Talent Meetup、CVPR 2025论文分享会、NeurIPS 2024论文分享会、ACL 2024 AI Talent晚宴等多场活动 [10] - 活动助力合作伙伴吸纳人才并提升品牌影响力 [10]
MEGA FUSION安汇洞察:金融科技赋能市场透明度——科技创新正重塑信息传递的未来
搜狐财经· 2025-07-23 18:28
金融科技对市场信息的影响 - 金融科技深度应用正在变革市场信息获取方式与分析手段,提升金融服务交付模式和市场透明度[1] - 大数据分析与AI算法帮助市场参与者快速掌握多维度动态,包括实时经济数据、新闻和社交媒体情绪,转化为可操作洞察[3] - 自然语言处理(NLP)技术广泛应用于新闻筛选与情绪判读,从数千报道中识别关键词与语气变化以把握市场心理[3] - 大数据平台整合跨来源信息并可视化,解决分散数据问题,促进信息对称与减少市场误解[3] - AI系统通过历史数据与行为模式比对,可提前预警市场异常波动,为监管与金融机构提供早期风险提示[3] 科技驱动的市场透明化效应 - 科技提升信息掌握能力的同时,有助于建立金融市场整体信任机制,增强公平性与稳定性[5] - 金融科技成为构建开放、透明与可信赖市场环境的核心力量,未来将支持更理性的决策框架[5] 美联储与欧洲央行政策动态 - 美联储理事沃勒暗示7月可能降息,理由为私营部门就业疲软,并公开表达接任主席职位的意愿[5] - 欧洲央行内部对政策路径分歧明显,多数经济学家预测9月进行最后一次25基点降息,21%认为可能推迟至12月[5] - 调查显示欧洲央行未来更倾向使用定向贷款工具而非量化宽松应对经济冲击[5] 外汇市场表现 - 美元指数受获利回吐和美联储鸽派言论打压小幅下跌至98.50附近,但良好经济数据限制回调空间[7] - 欧元兑美元因空头回补和技术面买盘支撑小幅上涨至1.1620,欧洲央行按兵不动预期形成额外支持[7] - 英镑兑美元受英国央行8月降息预期影响微跌至1.3410,美元走软部分抵消下行压力[8] 今日关注经济数据 - 加拿大6月工业品出厂价格指数月率与美国6月谘商会领先指标月率为重点监测指标[6]
金美信消费金融引入DeepSeek大模型,开启智能化新篇章
财富在线· 2025-07-23 17:46
数字化转型与智能化升级 - 金美信消费金融完成DeepSeek大模型部署上线,标志着公司数字化转型与智能化升级进入新阶段 [1] - 技术升级夯实数字化底层能力,依托生成式AI提升办公效率与业务处理效能 [1] - 公司坚守"以科技为手段、以普惠金融为目标"战略,深耕消费信贷全流程智能化建设 [1] 技术应用与业务赋能 - DeepSeek大模型具备轻量化部署、高性能推理优势,构建垂直领域智能知识库体系 [2] - 系统基于自然语言处理与深度语义匹配技术,实现毫秒级精准检索与智能问答响应 [2] - AI技术将应用于征信数据解析、行为画像分析及风控模型动态校验,构建精准风险防控体系 [2] - 大模型驱动智能审批引擎,实现个性化贷款方案推荐与额度智能匹配,缩短审批周期 [2] 全渠道服务与运营模式 - 公司通过全线上运营模式打破渠道与服务边界,提供7×24小时一体化服务 [1] - 自有平台(移动端APP、微信公众号、微信小程序)及头部互联网平台合作渠道覆盖广泛 [1] - 结合智能客服和实时风控预警体系,实现信贷支持全时可达、随处可享 [1] 未来战略布局 - 深挖AI在消费金融核心业务场景的深度应用,包括监管政策解读、合规监测及反欺诈领域 [2] - 以"科技+服务"双轮驱动,探索消费金融与前沿技术融合创新 [3] - 目标为用户打造更优质、便捷、可信赖的金融服务体验,构建开放、安全、高效的智慧金融生态 [3]
突发!美科技巨头解散上海AI研究院,首席科学家发声
是说芯语· 2025-07-23 17:38
AWS亚马逊云科技上海AI研究院解散事件 - AWS亚马逊云科技上海AI研究院于7月22日正式解散 这是AWS最后一个海外研究院 [1] - 公司回应称解散决定基于对组织、发展重点及未来战略方向的评估 目的是优化资源并持续投资创新 [1] - 解散决定以内部通知形式突然传达 团队措手不及 [2] - 研究院核心团队完整 王敏捷表示希望与本土团队合作开发世界级AI产品 [3] 研究院历史与成就 - 研究院成立于2018年世界人工智能大会期间 是AWS在亚太地区首个AI研究机构 [5] - 初期聚焦深度学习和自然语言处理 后拓展至图神经网络和智能推荐系统等前沿领域 [5] - 开发的Deep Graph Library(DGL)成为全球图神经网络领域标杆开源项目 为亚马逊电商业务创造显著价值 [5] - 累计发表论文超90篇 覆盖机器学习顶会 与卡内基梅隆大学、复旦大学等全球高校建立合作网络 [5] 员工影响与行业趋势 - 员工安置方案尚未披露 部分员工已被国内科技企业接洽 [4] - 团队在AI Agent、图神经网络等领域经验或加速本土技术突破 [4] - 2025年以来跨国科技巨头在华研发收缩成趋势 IBM关闭运营32年的中国研发中心裁员约1800人 [7] - 微软迁移上海AI实验室数百名专家至美澳等地 英特尔和高通缩减在华5G与AI芯片投资转向东南亚 [7] 院长观点与技术背景 - 首任院长张峥是开源深度学习平台MXNet和DGL的共同创始人 [6] - 张峥曾强调AI发展需兼顾创新与伦理 指出技术对齐是关键挑战 [6] - 认为ChatGPT等生成式AI的崛起标志着"世界模型"的初步形成 [6]
明天,围观学习ACL2025论文分享会,最后报名了
机器之心· 2025-07-18 11:14
AI领域发展动态 - 2025年AI领域持续高速发展,科技公司和机构发布大量研究成果,技术更新节奏极快,每隔几周甚至几天就有突破性进展出现[1][3][4] - DeepSeek和视频生成模型Veo 3等代表性技术推动行业进步,从业者需频繁跟踪arXiv、GitHub等平台以保持技术前沿性[2][5] ACL 2025会议概况 - ACL 2025总投稿数突破8000篇创历史新高,会议将于7月27日-8月1日在维也纳举行[6] - 国内配套活动7月19日在北京举办,包含Keynote演讲、论文分享、圆桌对话等环节,设置企业展位交流[6][7][14] 学术研究热点 - 上午Keynote聚焦ACL趋势与NLP研究热潮,车万翔教授将分析2025年研究重点与演化方向[18][20][21] - 下午Keynote由刘鹏飞教授主讲大模型强化学习与复杂推理,探讨认知工程范式转变及测试时扩展技术[22][24] - 论文分享涵盖大语言模型自校正、分布式长上下文推理加速、token回收等前沿课题[11][12][14] 行业专家阵容 - 圆桌讨论主题为"上下文工程价值",嘉宾来自阿里巴巴、腾讯、上海交大,涵盖大模型强化学习、游戏AI等方向[16][31][33][35] - 腾讯AI Lab专家研究员王琰曾获ACL 2021杰出论文奖,开发过Temp-Lora、Block-Attention等业界知名技术[35] 活动合作生态 - 活动由机器之心联合黄大年茶思屋科技网站举办,后者是聚焦前沿科技交流的开放平台[39][41] - 设置论文Poster展示环节,并通过双平台直播扩大影响力[37][41]
小哥硬核手搓AI桌宠!接入GPT-4o,听得懂人话还能互动,方案可复现
量子位· 2025-07-16 15:02
AI宠物技术实现 - 核心硬件采用3D打印底座和圆锥形头顶,悬挂一条触手结构,触手源自SpiRobs机器人,能抓取尺寸相差超两个数量级、重量达自身体重260倍的物体[8][10] - 视觉系统通过立体摄像头追踪触手末端,使用YOLO模型进行3D三角测量校准[12][31] - 触手控制采用2D映射简化操作,通过电脑触控板拖动光标即可调整触手动作[22][23] 控制系统架构 - 低级控制层结合开环预设动作(如点头)和闭环RL策略(如手指跟踪),立体视觉约束RL观察空间[25][26] - 高级控制层采用GPT-4o实时API处理语音与视觉事件,无需微调即可下达底层指令[26][27] - 为增强生命感,在待机状态加入轻微摇摆行为,并通过Prompt工程解决LLM调用问题[28][29] 强化学习与仿真优化 - 在MuJoCo中重建软体触手模型,设置目标跟踪环境,使用PPO策略梯度结合MLP和帧堆叠训练[33] - 添加动力学随机化(质量、阻尼、摩擦)以贴近真实环境,通过控制惩罚和指数移动平均解决抖动问题[36][37] - 最终实现仿真到真实环境的迁移,验证控制策略有效性[38] 开发者背景与灵感来源 - 开发者Matthieu Le Cauchois为ML工程师,研究方向包括强化学习、NLP,曾创立AI公司Typeless并被Doctolib收购[39][41][42] - 项目灵感源自皮克斯台灯机器人,强调通过动作和时机传递情绪意图,动物形态设计增强宠物陪伴感[48][49][53] - 工程文件开源,包含3D打印CAD数据和控制脚本,支持低成本复现[20][54]