自然语言处理

搜索文档
股吧散户评论是股市的晴雨表吗?
东北证券· 2025-06-25 15:12
报告核心观点 - 基于东方财富网上证指数吧散户评论构建的指标与上证指数有同步走势关系,但不同年份关联不稳定 [2][116] - 散户情绪易被短期价格波动影响,情绪指标是价格波动结果,看多或看空观点是对当前价格反应 [3][116] - 以技术分析思路观察情绪指标,其突破阈值时市场走势会相应转变,可辅助判断市场后续走势 [3][111][117] 前言 - 互联网普及使投资者在评论区发表观点,可能影响交易决策,可通过自然语言处理分析评论信息 [10] - 采用 BERT 模型和情感词典方法识别评论情感,分析散户评论行为及价值 [11] 自然语言处理方法之 BERT 模型介绍 - 自然语言处理融合多学科,含理解和生成两方面,旨在实现人机有效沟通 [12] - 2018 年 BERT 模型问世改写局面,其是基于 Transformer 的双向预训练语言模型,表征基于所有层左右语境 [13][15] - BERT 技术原理是“双向预训练 + 任务特定微调”,预训练基于掩码语言模型与下一句预测任务 [18] - BERT 核心优势是通用性,学习到的语言表征可迁移到几乎所有 NLP 任务 [32] 基于投资者评论文本的情感分析 投资者文本数据的获取和预处理 - 东方财富网上证指数吧评论可刻画投资者情绪,对市场舆情判断有参考意义 [34] - 对评论进行筛选,保留近 500 万条评论文本数据,其长度、月度发帖等分布与散户评论行为认知一致 [37] 基于 BERT 模型的评论文本分析 - 用 BERT 模型对评论进行情感标注,分为看多、看空和中性三类 [48] - 评估模型分类效果,BERT 模型在训练集和测试集上有一定准确度 [54] - 情绪得分多数为负值,与行情同步,与指数涨跌幅、成交额相关性随机不稳定 [67] 基于情感词典的评论文本分析 - 基于情感词典的文本分析通过匹配词汇计算得分判断文本情感,金融情感词典更适配金融文本 [69] - 采用姚加权等人的金融情感词典,结合正式和非正式用语词典分析评论 [72] - 基于情感词典的评论情感标签分布与 BERT 模型结果相近,看空评论多于看多评论 [79] - 定义情绪分歧度,其反映多空情绪强弱,与市场走势有关,分歧度高可能预示市场变化 [82][84] - 看空情绪指标与上证指数走势同步,无显著领先性,上下行关系不稳定 [91] - 看空情绪指标边际变化与当天上证指数涨跌幅负相关,与次日无显著相关性 [95] - 当日看空情绪变化与次日上证指数成交额负相关,相关性随时间推移减弱 [107] - 从技术分析角度,情绪指标突破阈值时可预示市场走势变化 [111][112] 总结 - 分析股吧评论特征及价值,考察相关指标与上证指数关系,走势关系同步但不稳定 [116] - 散户情绪受价格波动影响,评论是情绪宣泄,情绪指标可辅助判断市场走势 [116][117] 参考文献 - 引用姚加权等人关于金融情绪词典的论文和 Devlin 等人关于 BERT 模型的论文 [118]
大佬面对面!斯坦福2025 CS336课程全公开:从零开始搓大模型~
自动驾驶之心· 2025-06-24 19:47
课程概述 - 斯坦福大学2025年春季CS336课程「从头开始创造语言模型」已全面上线网络 提供完整课程视频和主页链接[2][4] - 课程目标为引导学生从零开发语言模型 覆盖预训练数据收集 Transformer构建 模型训练及部署评测全流程[5] 师资团队 - 核心讲师Tatsunori Hashimoto为斯坦福计算机科学系助理教授 研究成果累计引用超3万次 研究方向聚焦机器学习模型性能权衡[3] - 联合讲师Percy Liang为斯坦福副教授兼基础模型研究中心主任 学术引用量超10万 主导多项AI领域研究项目[3] 课程模块 - 五大模块涵盖基础 系统 扩展 数据 对齐和推理强化学习 强调实践操作与深度技术掌握[7] - 实践要求包括Python编程能力 PyTorch熟练度 系统优化经验及数学基础(线性代数 概率统计等)[7] 实践作业 - 作业1要求实现BPE分词器 Transformer架构和Adam优化器 仅允许使用PyTorch原语进行模型训练[8] - 作业2聚焦GPU加速 需在Triton中实现Flash Attention 2及分布式并行优化[8] - 作业3涉及Scaling Law拟合 学生需在有限计算预算内通过训练API收集数据点[8] - 作业4侧重数据工程 要求完成Common Crawl数据清洗 去重及有害内容过滤[8] - 作业5要求实现监督微调 专家迭代等对齐技术 在Qwen 2 5 Math 1 5B模型上运行强化学习[8] 课程安排 - 18周课程包含16次讲座和2次嘉宾分享 内容覆盖分词 GPU并行 混合专家系统 推理优化等核心技术[9] - 作业周期与课程紧密衔接 例如第5周完成作业1提交后立即发布作业2 强化学习实践贯穿后期课程[9]
报名开启!别再一个人刷论文了,来ACL 2025论文分享会一起面对面交流
机器之心· 2025-06-24 09:46
AI领域发展动态 - AI领域在2025年保持高速发展 大模型演化、多模态系统融合、推理能力与可解释性持续突破 [1] - AI技术迭代速度极快 新模型和新框架几乎每隔数周就有突破性进展 [2] - 系统性参与学术交流、深入学习最新研究成果、与顶尖研究者对话成为掌握前沿技术的关键 [3] 顶级学术会议的重要性 - ACL、NeurIPS、ICML、CVPR等全球顶级会议是AI技术交汇的核心场域 提供观察发展脉络的窗口 [4] - ACL 2025总投稿数达8000多篇创历史新高 会议将于7月27日-8月1日在维也纳举办 [5] - 机器之心持续举办NeurIPS、CVPR、ACL论文分享会 受到海内外高校和企业广泛关注 [6] ACL 2025论文分享会详情 - 机器之心将于7月19日在北京举办ACL 2025论文分享会 设置Keynote、论文分享、圆桌对话等环节 [7] - 活动包含企业招聘宣讲、论文Poster展示和企业展位交流 邀请顶级专家与论文作者参与 [7] - 线下参与名额限制200名 详细日程将通过后续公告发布 [8][13] 合作伙伴与活动历史 - 黄大年茶思屋科技网站是推动科技交流的开放平台 汇聚全球科学家分享前沿学术成果 [10][11] - 机器之心曾联合举办云帆・ICLR 2025、CVPR 2025论文分享会等多场活动 助力企业吸纳人才 [12] - 企业可通过指定联系方式参与学术顶会活动的合作共建 [13][14]
研判2025!中国自然语言处理行业产业链、相关政策及市场规模分析:技术突破推动行业增长,低成本算力与小样本学习加速技术落地[图]
产业信息网· 2025-06-08 10:10
行业概述 - 自然语言处理(NLP)是计算机科学与人工智能的重要分支,旨在实现计算机对人类语言的理解、解释和生成,广泛应用于搜索、翻译、语音交互等场景 [2] - NLP技术类型分为基于规则的方法、统计方法和深度学习方法三大类 [2] - 2024年中国NLP行业市场规模约为126亿元,同比增长14.55% [1][15] 行业发展历程 - 萌芽期(20世纪50-60年代):以机器翻译为起点,基于简单规则实现单词级处理,受限于计算能力和数据规模 [4] - 规则主导期(20世纪70-80年代):手工构建复杂规则系统,涉及语法分析与引用处理,但规则灵活性不足问题显现 [4] - 统计学习期(20世纪90年代-2012年):统计模型与机器学习结合,利用大规模语料库提升性能,神经语言模型和词嵌入概念奠定深度学习基础 [5] - 深度学习期(2013年至今):深度学习模型(如RNN、LSTM、Transformer)与预训练语言模型(如BERT、GPT)主导,推动NLP性能跃升 [6] 行业产业链 - 上游包括硬件设备(高性能服务器、GPU、TPU等)、数据服务、开源模型、云服务等 [8] - 中游为NLP技术研发环节 [8] - 下游应用领域包括金融、医疗、教育、智能制造等行业 [8] - 2024年中国云服务市场规模约为5326.5亿元,同比增长11.95%,为NLP行业提供弹性计算资源 [10] 相关政策 - 2025年3月,教育部等部门印发《关于加强数字中文建设 推进语言文字信息化发展的意见》,提出到2027年建成国家语言文字大数据中心,到2035年提升中文在数字空间的使用占比 [12] - 2024年1月,工信部等七部门发布《关于推动未来产业创新发展的实施意见》,明确利用人工智能等技术支撑新型工业化 [14] - 2024年6月,工信部发布《国家人工智能产业标准化体系建设指南(2024版)》,提出制定50项以上自然语言处理相关标准 [14] 重点企业经营情况 - 百度集团:NLP技术覆盖机器阅读理解、跨模态交互等前沿方向,文心ERNIE 3.0刷新54个中文NLP任务基准,2024年总营收1331亿元 [17][21] - 科大讯飞:智能语音技术全球领先,AI学习机、智医助理等产品市场占有率领先,发布"讯飞超脑2030计划" [17][20] - 阿里巴巴:达摩院推动NLP技术突破,发布"通义千间"大模型,技术深度融入电商、金融场景 [17][20] - 拓尔思:聚焦智能风控、智能消保等金融场景,覆盖5大国有银行,2025年一季度营收1.25亿元,同比下降29.89% [18][20] 行业发展趋势 - 大模型与多模态融合:预训练语言模型参数量级跃升至万亿级,跨模态语义理解技术成为研发重点 [24] - 垂直领域深化与智能硬件融合:NLP技术深度融入医疗、金融、教育等行业,智能硬件渗透率达62% [25][26] - 数据安全与伦理规范:《数据安全法》与《个人信息保护法》推动NLP企业建立数据合规使用框架,推动"可信AI"演进 [27]
Gemini2.5弯道超车背后的灵魂人物
虎嗅· 2025-06-05 11:14
Gemini 2.5 Pro崛起背后的底层逻辑 - 大语言模型训练的核心步骤包括预训练、监督微调和对齐阶段,过去一年行业重点转向对齐阶段,特别是强化学习方向的探索[2] - Google在Gemini系列迭代中积累了坚实的基座模型训练经验,并更加重视强化学习的作用,引入"让AI批判AI"的机制[3] - 编程能力成为各家模型竞争焦点,Anthropic在预训练阶段优先投入高质量代码数据,使其在代码生成质量上领先[4][5] - Google通过整合预训练和强化学习优势,在Gemini 2.5中实现编程和数学等高确定性任务的突破性表现[3][11] - 模型能力差异源于数据配比和训练优先级选择,Anthropic专注编程导致其他能力稍弱,OpenAI侧重人类偏好输出[5][10] Google技术团队与资源整合 - Google DeepMind由Jeff Dean、Oriol Vinyals和Noam Shazee三位专家形成技术铁三角,分别代表预训练、强化学习和自然语言处理能力[15] - Google Brain与DeepMind合并实现强强联合,前者擅长大规模资源调度和预训练,后者专精强化学习[16][17] - Sergey Brin回归带来"Founder Mode",显著提升团队士气和工作强度,推动Gemini快速迭代[19][20] - Google拥有全球最强计算资源、人才储备和近乎无限的资源投入能力,为Gemini快速反超奠定基础[20] Google的API价格优势 - Google十年前开始布局TPU生态,避免依赖NVIDIA GPU并节省"NVIDIA税"[22] - 基础设施能力远超同行,拥有动态调度大规模集群的独家优势,OpenAI等仍需依赖第三方云服务[22][23] - 软硬件一体化优化能力使Google在成本控制上具备天然优势,API定价策略具有显著竞争力[22][23] - 行业数据显示AI服务存在高溢价空间,Google凭借规模效应可承受更低利润率[23][24] 行业竞争格局演变 - OpenAI早期凭借人类偏好输出领先,Anthropic通过代码能力突破建立优势,Google最终以推理能力实现反超[10][11] - 模型能力发展呈现螺旋式上升,各家在不同领域轮流领跑:写作→代码→推理[10][11] - XAI的Grok在数学领域表现突出,反映创始团队背景对模型特化能力的影响[12] - 编程能力商业化成为焦点,Anthropic明确追求生成可直接投入生产的代码而不仅是解题[12]
消失的人工客服,“智障”的AI客服
36氪· 2025-06-04 18:33
AI客服行业现状 - AI客服在电商、金融、物流、教育、通信、医疗等行业广泛应用,但存在沟通不畅、答非所问、转接人工客服难等问题,损害消费体验[1] - 2024年电商售后服务领域与"智能客服"相关的投诉同比增长56.3%[2] - 30款互联网App实测显示40%无法接通人工客服,接通后超半数需12分钟以上响应[3] AI客服主要痛点 - 无法解决个性化问题、回答生硬机械、不能准确理解提问是用户最不满的三大缺点[2] - 30.98%用户反映智能客服无法照顾老年人、残障人士等特殊群体[2] - 用户需刻意调整说话方式(如咬字清晰)才能与AI客服沟通,稍有不慎即导致理解错误[2] 企业服务策略问题 - 部分企业将AI客服作为削减成本工具,背离"以用户为中心"宗旨[6] - 技术应用存在服务逻辑悖论:用户拨打语音客服时通常问题较复杂,而AI客服应对能力不足[7] - 缺乏有效人工客服转接通道,仅11%App能在4分钟内接通人工服务[3] 技术改进方向 - 需通过优化算法、扩充语料库、提升自然语言处理能力强化AI客服技术[7] - "智能体"技术可提升多系统串联能力(如旅游平台整合机票、酒店等数据)[7] - 应明确AI客服适用场景边界,标准化服务可通过App等渠道完成[7] 消费者行为反馈 - 实测显示消费者明显倾向选择纯人工客服(假设企业同时提供两种服务时)[2] - 中老年用户因操作困难已放弃使用客服热线[5] - 当前AI客服仅代表高效而非优质服务,实际能力与宣传存在差距[5]
微信ai客服怎么处理咨询?哪里查看记录?
搜狐财经· 2025-06-04 17:36
微信AI客服的核心功能 - 微信AI客服通过自然语言处理技术识别和理解客户问题,实现高度自动化咨询处理 [4] - 系统从知识库搜索相关答案并以友好方式回复,复杂问题可转接人工客服确保满意度 [4] - 全程记录咨询详情(时间/内容/结果)用于后续服务分析与改进 [4] 咨询记录管理 - ChatWave后台提供按时间排序的完整互动记录,支持客户名称/咨询日期/问题类型等多维度筛选 [5] - 记录分析可评估AI回答准确率,识别知识库优化需求及客户关注热点 [5] 服务优化策略 - 定期更新知识库内容以适应业务变化和客户需求演进 [6] - 通过数据分析工具挖掘咨询记录中的客户行为模式,指导服务策略调整 [6] - 结合用户反馈优化对话流程设计,提升应答自然度与需求贴合度 [6] ChatWave的差异化优势 - 具备多轮对话能力和精准意图识别的自然语言处理技术 [7] - 自动化功能显著提升效率,减少人工客服工作量 [7] - 深度咨询数据分析为企业提供产品服务优化洞察 [7] - 本地私有AI知识库与定制化语音回复强化数据安全与个性化服务 [1]
腾讯申请一种文本处理模型训练等专利,提升模型改写能力
金融界· 2025-05-28 12:44
公司专利技术 - 腾讯科技申请了一项名为"一种文本处理模型训练、文本处理方法、装置及电子设备"的专利,公开号CN120045650A,申请日期为2023年11月 [1] - 专利涉及自然语言处理技术领域,通过获取样本会话数据并输入第一文本处理模型,生成标注改写关联数据,进而构建改写训练集 [1] - 方案采用第二文本处理模型(数据量小于第一模型)进行训练,目标为提升改写训练集构建效率和质量,同时增强模型改写能力 [1] 公司背景信息 - 腾讯科技成立于2000年,位于深圳市,主营业务为软件和信息技术服务业,注册资本200万美元 [2] - 公司对外投资15家企业,参与招投标项目254次,拥有商标信息5000条,专利信息5000条,行政许可439个 [2] 数据来源 - 信息源自金融界,作者为情报员 [3]
以科技赋能传统文化,豆神动漫开拓传统文化交互体验新范式
齐鲁晚报网· 2025-05-24 00:19
数字文化产品《孔子数字人》2.0版本 - 济宁高新区企业豆神动漫自主研发的数字文化产品《孔子数字人》2.0版本,运用人工智能、3D建模和自然语言处理等前沿技术,打造可交互、可对话的"数字孔子" [1] - 体验者只需站在屏幕前,就能与"孔子数字人"进行跨越时空的对话 [1] - 该产品为传统文化传承与教育开辟了全新模式 [1] 技术特点与交互能力 - 《孔子数字人》不是简单的虚拟形象,而是具备高度智能交互能力的数字文化载体 [3] - 研发团队通过高精度3D建模技术,还原了孔子在历史文献中的形象特征 [3] - 结合三维虚拟技术和AI人工智能,数字孔子能够说话、点头、眨眼,做出各种表情,并进行深度交互 [3] - 用户可通过语音或文字输入提问,数字孔子能对《论语》经典名句和儒家思想哲理对答如流 [3] 应用场景与发展规划 - 《孔子数字人》可广泛应用于教育领域、文化展览、学术研究、文旅景区、博物馆等场景 [5] - 该产品还能担任文旅推荐官,讲述文旅故事,成为数字经济和旅游产业深度融合的有力抓手 [5] - 公司希望通过数字技术打破时空界限,让孔子从课本中"走"出来,成为触手可及的文化导师 [5] - 公司将持续进行技术升级,使《孔子数字人》服务更精细化和专业化,满足不同场景需求 [5] - 该产品将推动各领域产业数字化转型升级和创新性发展 [5]
人工智能专题:2025年中国人工智能与商业智能发展白皮书
搜狐财经· 2025-05-22 08:55
人工智能与商业智能融合(ABI)市场洞察 - 传统BI存在封闭架构、静态处理及技术壁垒等局限性,难以满足实时动态决策需求,而ABI通过自动化数据处理、智能算法及自然语言交互推动决策从被动响应转向主动预测 [1][21][24] - 中国ABI市场呈现爆发式增长,2023年市场规模3亿元,预计2024年达8亿元,2024-2028年CAGR达42%,核心驱动力包括企业数据依赖加深、AI技术突破及政策支持 [1][13] - ABI通过自然语言处理(NLP)、机器学习等技术实现对话式交互、多模态数据分析及复杂推理,例如Text2SQL/Text2DSL将自然语言转化为数据查询指令,RAG技术整合外部知识增强分析深度 [2][45][48] 行业应用场景与案例 - 金融行业通过智能风控与量化交易提升决策精度,如招商银行实现毫秒级反欺诈拦截 [2] - 零售业借助动态定价与库存优化提升运营效率,如京东供应链周转周期压缩至31.7天 [2] - 制造业通过预测性维护与生产流程优化降低停机成本,如富士康"灯塔工厂"人力精简88% [2] - 政务领域依托智能交通与城市治理提升服务效能,如深圳交通通行效率提升30% [2] - 能源行业通过设备诊断与电网调度实现智能化转型,如山东电网设备诊断周期从7天缩至毫秒级 [2] 技术架构与核心功能 - ABI技术分层包括基础层(工具升级)与战略层(决策链路重构),通过自动化数据流水线释放人力冗余,依托智能算法提供动态预测与战略决策支持 [11][13][41] - AI赋能BI四大核心路径:Text2SQL/Text2DSL实现自然语言交互、多模态数据整合、复杂推理(链式思维/多代理协作)、数据叙事(Storytelling)生成 [45][48][52][56] - 大语言模型(LLM)通过预训练内嵌数据分析知识,结合监督微调(SFT)消除非技术人员使用门槛,用户渗透率从传统BI的1%提升至近100% [32][37][38] 数据生命周期与市场规模 - 企业数据生命周期涵盖捕获/维护/使用/发布/归档/删除六大环节,2024年中国数据采集工具市场规模45亿元,数据治理市场198亿元,数据库市场598.5亿元 [16][18][19] - 数据使用环节支出最高,2024年中国数据仓库市场规模73亿元,数据安全市场148.84亿元,反映企业对数据合规与隐私保护的重视 [19] - 现代BI需求包括实时分析、非结构化数据处理、自助式可视化、预测性智能及多源数据整合,推动行业从静态批处理向开放智能分析范式转型 [27][28] 竞争格局与发展趋势 - 全球厂商如微软、Salesforce侧重生态整合,国内厂商如阿里云、帆软聚焦轻量化部署与本土化场景创新 [3] - 未来趋势包括边缘计算与实时分析、生成式AI渗透、隐私计算技术(如联邦学习)及行业深度适配 [3][11] - 行业挑战集中于数据治理滞后、算法黑箱、场景碎片化及技术成本壁垒,需解决"数据-技术-业务"三角失衡问题 [3][11]