Workflow
自然语言处理(NLP)
icon
搜索文档
电商一键上货软件怎么选?首先掌握其核心运行逻辑,看这篇就够了
搜狐财经· 2025-08-04 19:21
要实现真正意义上的"一键",首先要解决的是信息输入问题。AI必须能像人一样"读懂"产品。这背后依 赖于两项核心技术:自然语言处理(NLP)和计算机视觉(Computer Vision)。当你上传一张产品图片 或一份供应商提供的PDF文档时,计算机视觉技术会迅速解析图片,识别出产品的颜色、款式、材质等 视觉属性。与此同时,NLP技术则会"阅读"文档中的文字描述,提取出型号、功能、规格等关键信息。 这个过程被称为数据提取与丰富。AI不仅是提取,更会进行"丰富"——它会根据已有的知识库,为产品 打上更精准、更符合消费者搜索习惯的标签,例如将一件"米色V领羊毛衫"自动关联上"秋冬穿搭"、"通 勤必备"、"柔软亲肤"等语义化标签。这从根本上改变了产品信息管理(PIM)的逻辑,将非结构化的 原始数据转化为了机器和消费者都能轻松理解的结构化资产。 生成式AI的点金之术 如果说数据提取是让AI看懂了产品,那么生成式AI(Generative AI)则赋予了它创造的"灵感"。仅仅将 产品信息罗列出来是远远不够的。根据 EMARKETER 的数据,已有58%的全球消费者使用生成式AI工 具替代传统搜索引擎进行产品研究。这意味着, ...
线下活动邀请|探索外汇、固收及贵金属领域量化交易新机遇
Refinitiv路孚特· 2025-07-24 13:12
Tick History解决方案 - 数据库覆盖全球500家交易所的1亿多种金融工具,历史数据可追溯25年,包含87万亿笔成交记录[2] - 基于云的历史实时定价数据服务涵盖500+交易场所和第三方报价商,提供超过45PB标准化处理的场内外交易数据[3] - 数据包抓取(PCAP)方案提供20PB规模的全球市场数据中心级原始数据存储库[4] - 通过Google BigQuery支持云端快速查询分析海量Tick History数据库[5] - TickHistory Workbench提供标准化工具用于市场微观结构分析、交易策略研究和执行质量评估[6] MarketPsych解决方案 - 采用AI驱动的自然语言处理技术,从实时多语言新闻/社交媒体/金融文件中提取预测性洞察[8] - 独家合作提供覆盖主要国家/商品/货币/加密货币/上市公司等领域的机器可读情绪价值信号[9] - 通过编辑语言框架量化测量新闻和社交媒体的情绪特征(乐观/愤怒)、金融语言(价格预测)及主题标签(利率/并购)[10] - 应用场景包括交易策略优化、波动率预测、事件监测和宏观经济预测等领域[11][13]
潮玩公司TOYCITY表示下阶段拼的是更智能和拟人化
中国经营报· 2025-07-20 20:58
行业概况 - 东莞市石排镇聚集超过4000家玩具生产企业和近1500家上下游配套企业,是全国最大玩具出口基地,生产全国超80%潮玩产品和全球近30%动漫衍生品 [1] - 石排镇玩具产业年产值接近120亿元,已从代工厂转型为拥有自主品牌的创新孵化基地,TOYCITY为代表企业 [2] - AI情感陪伴成为大模型应用热门赛道,海外有CharacterAI、Replika等产品,国内有字节跳动猫箱、MiniMax星野等竞品 [3] 公司技术与产品 - TOYCITY发布全球首款情绪感知型AI玩偶"小耙AI",基于原创IP"耙老师"开发,集成豆包大模型和生成式统一画像算法 [1] - 产品主打"科技温暖化"理念,具备情绪识别(语音交互+眼神反馈)、智能助手、数据安全加密三大功能 [6][7] - 公司投入大量AI研发资源,拥有30-40人工程师团队,技术合作伙伴包括乐鑫和火山引擎 [5] 市场竞争与定位 - 区别于CharacterAI等纯聊天机器人,TOYCITY结合供应链和IP优势,聚焦实体玩偶形态的情感陪伴场景 [5][6] - 目标用户覆盖儿童与成人群体,针对30+职场女性情感倾诉、双职工家庭儿童陪伴等需求 [1] - 公司定位为"中国原创潮流IP孵化商",关联企业火星计划具备15年AI及大数据研发经验 [5] 技术发展方向 - 下一阶段技术突破聚焦更精准的情感识别(如语音语调分析)和更自然的拟人化交互(如肢体反馈) [6] - 公司认为当前AI情感陪伴处于爆发期,核心挑战在于提升智能度与拟人化程度 [6]
谷歌发布Gemini嵌入模型,拓展基础层NLP能力
海通国际证券· 2025-07-18 15:34
报告行业投资评级 未提及 报告的核心观点 - 谷歌发布Gemini嵌入模型是对OpenAI在语言底座层的反超尝试,建议关注其在核心产品的集成节奏及对云服务商间NLP能力差异化格局的影响 [3] - 嵌入层将成为AI工作流新价值高地,谷歌嵌入模型有望快速落地多产品层构建数据闭环,超低定价或引发嵌入API服务价格战 [5] 根据相关目录分别进行总结 事件 - 2025年7月15日谷歌发布首个文本嵌入模型Gemini - embedding - 001并开放API,该模型以68.37分刷新MTEB排行榜,领先OpenAI的58.93分,定价为每百万tokens 0.15美元,面向开发者和独立创作者开放 [1][12] 点评 - 模型性能大幅领先,在MTEB的9大类任务中全面领先,为嵌入应用带来性能增益,确立嵌入领域新标杆 [2][13] - 价格极致下探,百万tokens定价仅0.15美元,相比OpenAI嵌入模型便宜数倍,降低调用门槛,释放中小企业等生产力,是“平台式让利”行动 [2][14] - 强化Gemini模型矩阵,使Gemini拥有“理解 - 匹配 - 表达”能力,构建谷歌在AI工作流中的底层核心竞争力 [2][15] 战略意义 - 谷歌发布Gemini嵌入模型是从内容生成向语义理解全栈平台战略的关键一跃,嵌入模型在AI多模态 + 多Agent协同方向下重要性被重新定义 [3][16]
马斯克推出二次元“AI女友”,但AI陪伴赛道已充满泡沫
华尔街见闻· 2025-07-17 10:10
公司动态 - xAI推出Grok 4大模型的"伴侣"功能 旨在提供更具沉浸感和情感参与度的AI互动体验 首批上线两名角色Ani和Bad Rudy 均拥有3D动画形象 用户可通过语音和文字互动 [2] - Grok"伴侣"服务目前仅向每月支付30美元的SuperGrok订阅用户开放 Ani作为主推角色还拥有包含裸露、暴力等内容的NSFW模式 [2][3] - 马斯克亲自在社交平台X置顶该功能 显示公司寻求AI竞争差异化 深化用户关系并拓展商业模式的战略意图 [2] 行业概况 - AI情感陪伴是当前大模型应用最火热赛道之一 通过个性化情感支持满足社交互动需求 甚至缓解心理压力 具有高用户粘性和订阅变现优势 [4] - CharacterAI在2022年首次将大模型用于角色扮演与情感陪伴 带动类人化应用发展 技术进步推动互动复杂度和拟人化程度提升 [4] - 海外市场涌现Replika、PiAI等应用 中国企业推出字节猫箱、快手飞船、MiniMax星野等产品 显示赛道竞争加剧 [4] 市场规模 - 2024年全球AI伴侣市场规模达2819亿美元 预计2025-2030年复合增长率308% 2030年将达14075亿美元 [5] - CharacterAI用户增长案例显示早期爆发特征 2024年8月月活2200万 月访问量峰值2亿次 但近期回落至18亿次 [5] - 字节猫箱2025年1-5月苹果端月下载量从264万下滑至61万 DAU从59万降至49万 MiniMax星野同期下载量从486万跌至93万 [6] 行业挑战 - 阶跃星辰2024年12月停止大范围投入冒泡鸭项目 引发市场对AI情感陪伴是否为"伪需求"的质疑 [6] - 未成年人接触NSFW内容等道德伦理争议 以及用户需求挖掘不足 成为制约行业发展的关键问题 [3][6]
通往 AGI 之路的苦涩教训
AI科技大本营· 2025-06-26 19:10
核心观点 - Google DeepMind CEO Demis Hassabis预测未来5到10年内有50%概率实现通用人工智能(AGI)[1] - AI发展历程中最大的教训是过度依赖人类经验而非算力与数据规模[2][3] - 当前AGI探索面临技术路径的隐忧,包括强化学习的局限性、脑模拟的算力瓶颈以及NLP的认知边界问题[9][14] 技术路径分析 - **强化学习**:虽为早期突破性技术,但存在"短视"缺陷,需结合更宏观的智能框架[14] - **脑模拟**:受限于算力瓶颈与理论盲区,难以完全复现人类认知机制[14] - **自然语言处理(NLP)**:虽进展迅速,但语言能力不等同于认知能力,模型输出与真实思想存在本质差异[9][15] 行业趋势与反思 - **算力驱动**:历史表明AI突破的核心引擎是计算规模而非人类直觉[2][3] - **大模型争议**:Scaling Law下参数膨胀可能掩盖智能本质,引发"进化还是幻觉"的质疑[15] - **跨学科融合**:脑科学与AI交叉研究成为新方向,强调对世界理解与知识迁移的能力[7][13] 关键人物与事件 - **刘嘉教授**:从AI转向脑科学再回归,提出AGI需融合认知科学、心理学等多学科视角[7][13] - **AlphaGo事件**:标志性技术转折点,推动研究者重新审视智能的本质与构建路径[7] - **《苦涩的教训》**:Richard Sutton指出AI发展应放弃人类经验依赖,专注算力与数据扩展[2][3] 未来探讨方向 - AGI构建是否需突破语言模型的表层能力,实现真正的认知理解[9][15] - 技术路线选择如何平衡短期效果(如NLP)与长期智能本质(如脑模拟)[14] - 跨学科研究(脑科学+AI)对突破现有范式局限的潜在价值[7][13]
生物学的DeepSeek:阿里云发布LucaOne模型,首次统一DNA/RNA和蛋白质语言,能够理解中心法则
生物世界· 2025-06-19 17:44
核心观点 - 阿里云智能飞天实验室与中山大学联合开发了世界首个能同时理解核酸(DNA/RNA)和蛋白质序列的通用生物学基础模型LucaOne [3][4] - 该模型基于169861个物种的核酸和蛋白质序列进行预训练,参数规模达18亿,训练数据量相当于369.5亿个生物序列"单词" [4][16] - LucaOne通过统一编码39个生物分子"字符",首次实现对生命中心法则(DNA→RNA→蛋白质)的自发理解 [10][18] - 在7类生物信息学任务测试中表现超越专用模型,包括物种分类(GenusTax)、蛋白质相互作用(PPI)预测等,流感抗原预测准确率达100% [20][22][24] 技术突破 模型架构 - 采用Transformer架构构建统一基础模型,整合核酸和蛋白质序列处理能力 [11] - 设计包含39个字符的统一词汇表,覆盖4种核苷酸和20种标准氨基酸 [13] - 结合自监督学习与半监督学习,利用基因组注释等生物学先验知识加速训练 [14] 训练数据 - 整合RefSeq、UniProt、ColabFoldDB等权威数据库 [12] - 训练集涵盖16.9万种生物的核酸和蛋白质序列 [4] - 数据处理流程实现核苷酸与氨基酸表征的统一标准化 [15] 性能表现 核心能力 - 无监督条件下自发理解DNA→蛋白质翻译规则,Few-shot学习性能超越DNABert2+ESM2-3B组合模型 [18] - 生成的序列嵌入向量能有效聚类同源序列,反映深层生物学特征 [19] - 支持DNA/RNA/蛋白质的跨模态关联分析,突破传统单分子研究局限 [26] 任务表现 - 物种分类(GenusTax):分类准确率显著提升 [22] - 非编码RNA识别(ncRNAFam):优于基准模型 [22] - 流感抗原预测(InfA):达到100%准确率 [22] - 蛋白质相互作用(PPI/ncRPI):预测效果领先组合模型 [22] 行业影响 - 建立首个跨分子类型的生物计算统一框架,打破传统分析壁垒 [26] - 验证基础模型范式在生物信息学的适用性,降低下游任务开发成本 [24][26] - 为疾病机制研究、药物靶点发现等应用提供新型分析工具 [26] - 推动生物信息学进入通用大模型驱动的新发展阶段 [27]
给“开盒”上锁是平台的能力试金石
经济观察报· 2025-05-28 14:36
网暴治理与平台责任 - 平台需将网暴治理内化为自觉行动,而非仅应对监管要求,这关乎平台生态存亡[1][6] - 中央网信办专项治理"开盒"乱象,要求重点平台以"零容忍"态度打击,凸显整治决心[2] - "开盒挂人"形成完整黑产链条,包含人肉搜索、隐私泄露和群体围攻,破坏性远超传统网暴[2] 平台治理失责表现 - 信息推送机制偏好争议内容助长攻击性言论传播[3] - 用户身份审核漏洞为匿名攻击提供便利[3] - 投诉响应滞后导致违法信息清除不及时,部分平台或与"毒流量"存在利益共生[3] - 典型案例显示平台因处置不力被判赔8000元,3家大型平台因类似问题被处罚[3] 治理机制优化方向 - 需从运动式清理转向常态化治理,提升"开盒"防治优先级[3] - 平台应超越"通知-删除"义务,建立事前预防和事中干预机制,落实主体责任[4] - 中央网信办2022年提出建立网暴预警机制,相关法规明确平台需建立预警模型[4] 技术防御与用户保护 - 需采用NLP情感分析、异常行为监测等技术精准拦截隐晦攻击内容[5] - 建立平台间风险信息共享库提高黑产跨平台操作门槛[5] - 设置快速举报入口,提升受害者请求处理优先级,优化"一键防暴"功能设计[5] - 抖音已将可能诱发网暴的信息纳入争议热点处置,实施流量降热和冷静机制[5]
小红书高级副总裁汤维维: 从“文字转换”到“文化解码”的跨越
深圳商报· 2025-05-28 04:29
小红书国际文化交流与技术突破 - 2025年1月大量海外用户涌入小红书平台,引发跨文化交流现象,包括宠物互动、语言学习、中餐教学等内容 [1] - 语言障碍成为核心挑战,用户高频提出翻译需求,如"一键翻译"功能和文字识别需求 [1] - 公司迅速响应,数天内通过技术迭代上线"一键翻译"功能,实现英语评论自动转中文,减少用户跨应用操作 [1] 技术实现与文化解码 - 翻译功能采用多模态AI模型,整合NLP、OCR、CV技术,能解析文字及表情包谐音梗等非结构化内容 [1] - 建立动态学习机制,用户对译文的编辑行为持续优化模型,尤其在宗教符号、历史典故等文化敏感领域实现渐进式改进 [1] - 技术目标从"文字转换"升级至"文化适配",覆盖千年历史的阿姆哈拉语和网络热梗等多样性内容 [1] 平台战略与行业意义 - 公司将跨语言能力定位为基础设施级服务("水电煤"),通过技术+人文驱动构建无国界社交平台 [2] - 实践验证技术融合人文可突破文化边界,案例体现行业在AI社交领域的创新方向 [2]
揭秘财报会议中的选举密码:如何用AI工具预测美国总统大选结果
Refinitiv路孚特· 2025-05-22 16:21
美国总统选举预测方法 - 传统预测方法包括历史规律分析、经济指标评估、政治策略研究和民意调查,但存在系统性困难和突发因素影响[1] - 选举人团制度复杂性导致预测难度增加,如2020年宾州计票暂停后出现逆转结果[3] - 突发事件如政治暴力、丑闻和社交媒体假信息可能瞬间改变选民倾向,如2024年特朗普两次遇刺事件[4] 现有预测模型及其局限性 - "白宫钥匙"模型曾准确预测9次选举,但2024年基于8项"真"指标的预测失败[5] - 贝叶斯统计模型结合政治经济基本面和民调数据,通过弹性网技术减少过拟合风险[6] - 内华达风向标规律在2024年再次印证,特朗普以2.1%优势获胜[7] - 现有方法存在数据量大、模型复杂、时间滞后等问题,缺乏选举前有效指导作用[8] 民意调查的缺陷 - 样本偏差和设计缺陷导致统计陷阱,如电话采访与互联网调查群体差异[9] - 人为操纵现象普遍,基层部门通过奖励诱导受访者回答"满意"[10] 基于企业高管言论的另类预测方法 - LSEG与MarketPsych联合开发的AI情绪分析工具MTA可提前捕捉选举结果[10] - MTA运用NLP和情感分析技术,量化管理层情绪倾向和真实判断[10] - 企业高管的政治信息渠道优于普通选民,公开表态基于可靠政商网络[10] - 2024年大选前20天财报会议文本分析显示,胜选者名字被提及频率显著更高[11] - 特定行业政策讨论倾向准确反映支持的候选人,如能源企业讨论"放松监管预期"预示特朗普占优[11] 历史选举数据分析案例 - 2024年特朗普vs哈里斯会议文本分析[13] - 2020年拜登vs特朗普会议文本分析[14] - 2012年奥巴马vs罗姆尼会议文本分析[16] - 2016年特朗普vs克林顿会议文本分析[17] - 2008年奥巴马vs麦凯恩会议文本分析[18] - 2004年布什vs克里会议文本分析[20] AI文本分析技术的优势与前景 - 企业高管公开押注政治走向意味着掌握可靠内部信息[22] - AI技术进步使文本分析更精准,未来可通过语气变化和关键词组合提前预测结果[22] LSEG MarketPsych产品与服务 - 提供基于AI的NLP解决方案,包括数据源、预测分析和模型[25] - 服务涵盖情绪测量、金融语言分析和主题识别,应用于交易策略、风险管理和宏观经济预测等领域[27]