大语言模型

搜索文档
孵化 DeepSeek 的量化交易:一个数据驱动的隐秘世界
晚点LatePost· 2025-03-10 22:02
量化投资行业的发展与特点 - 量化投资行业起源于1994年,标杆公司D E Shaw曾在一天内贡献纽交所超2%的订单量 [3] - 头部量化公司幻方推出大语言模型DeepSeek R1,未营销即震撼全球,用户增速超越早期抖音 [4] - 量化投资完全依赖数据挖掘规律,放弃主观信息获取,认为人类行为重复性可被计算机捕捉 [5] 量化策略的核心逻辑 - 价差回归策略:监测相关股票价差变动,早期案例显示6-7只股票可支撑3000万美元基金规模 [6] - 动量效应:学界发现过去收益好的股票未来大概率持续,量化模型通过因子捕捉此类规律 [7] - 复杂因子应用:J P Morgan构建特朗普推文语义指数"Volfefe"解释国债利率变动,WorldQuant使用含不明意义参数的复杂公式 [9] 量化行业的人才与文化 - 头部公司偏好数学/计算机背景人才,Two Sigma曾雇佣130名博士和6名国际奥数获奖者 [12] - 幻方创始人倾向招聘信息学竞赛金牌得主或顶尖高校计算机专业毕业生 [13] - 研究范式强调科学验证,例如Two Sigma面试题要求设计CEO离职对股价影响的实验方案 [15] 量化公司的组织架构 - 分组独立运营模式:顶级机构允许小组独立交易,曾有小组通过另类资产策略获利数十亿元 [16] - 集体决策模式:文艺复兴全员共研交易系统,研究员需定期展示成果并承受业绩压力 [17] - 办公选址刻意远离传统金融区,如Two Sigma不设华尔街办公室,幻方总部位于杭州 [15] 技术投入与极致执行 - 文艺复兴数据库覆盖18世纪至今数据,每日新增40TB,拥有52000个计算核心 [18] - Two Sigma部署超过7200台服务器,接入10000多个数据源的300PB数据 [18] - 幻方在2021年投入上亿元购买10000张英伟达显卡布局大模型研发 [19] 量化与大模型的共性 - 机器学习因子日产量达数千个,虽失效快但数量优势显著,类似大模型训练中的海量参数 [9][18] - 成功关键均在于将方法论贯彻极致,如GPT参数从1 17亿扩大到1750亿实现智能涌现 [18][19] - 行业先驱都需突破认知边界,西蒙斯曾质疑机器学习黑箱,梁文锋坚持算法交易探索 [18][19]
Manus引爆智能体复现潮!DeepSeek已被整合,项目挤满开源榜,海外大V排队求码
量子位· 2025-03-09 12:45
智能体赛道发展 - Manus的发布带动了整个智能体赛道的热度,引发开源复现潮和商业闭源产品的竞争[1] - 两个开源项目OpenManus和OWL在Manus发布当天就推出了复现代码[2] - OWL项目由国内CAMEL-AI团队开发,整合了DeepSeek模型到多智能体协作框架中[3][4] OWL项目表现 - OWL在GAIA基准测试验证集上平均分排名第3,在开源项目中排名第1[5] - Level 1分数达到81.13%,超过OpenAI的Deep Research,接近Manus的86.5%[6] - Level 2和Level 3分数仍有差距,但团队表示有信心提升[7] 开源社区动态 - GitHub热榜上Agent相关项目占据主导,MetaGPT和AutoGPT位列前排[8] - Camel-AI和OpenManus使用的代码库browser-use受到关注,金融、编程领域垂直智能体也备受瞩目[9] - MetaGPT项目获得50,504星标,AutoGPT项目获得172,643星标,显示社区高度关注[10] Manus海外扩张 - Manus通过发放邀请码成功打入海外市场,吸引大量用户试用并付费[13][14] - 海外用户反馈Manus在个人信息收集、网站部署、编程任务等方面表现优异[18][19][20][21] - 用户主要抱怨集中在速度较慢和邀请码短缺[23] GAIA基准测试 - GAIA测试由450+复杂问题组成,分为三个难度级别,评估智能体工具使用和自主性[25][26][27] - 人类在Level 2和Level 3的成功率分别为92%和87.3%,GPT-4得分仅为9.7%和0%[28] - Manus在Level 3分数达到57.7%,领先优势明显[29] 行业趋势 - GAIA基准测试正成为智能体产品的必争之地,类似ImageNet在深度学习时代的作用[24][32] - 行业从BERT时代的CLUE基准转向ChatGPT时代的MMLU和ChatBot Arena,现在聚焦GAIA[30][31] - 未来可能出现AgentArena智能体竞技场,进一步推动行业发展[32]
【招银研究|政策】2025年《政府工作报告》解读:迎难而上,奋发有为
招商银行研究· 2025-03-06 19:20
形势判断 - 2024年经济呈现前高、中低、后扬态势,在"926一揽子增量政策"推动下明显回升[2] - 外部环境更趋复杂严峻,多边经贸规则面临挑战,地缘政治紧张加剧市场波动,特朗普新政带来不确定性[2] - 内部经济存在有效需求不足、企业生产经营困难、就业增收压力、民生短板和基层财政困难等问题[2] - 经济长期向好的基本趋势不变,具备制度优势、资源条件、治理机制和增量空间四大优势[3] 发展目标 - 目标设定兼顾需要与可能,体现"稳中求进、以进促稳"政策取向[4] - 首次将"稳住股市楼市"纳入全年经济工作要求,凸显修复资产负债表重要性[4] - 经济增长目标连续三年设定为5%左右,符合实现中长期发展目标需要[5] - 就业目标城镇新增1,200万人以上,失业率5.5%左右,但高校毕业生达1,222万创历史新高[6][7] - 通胀目标首次低于3%设为2%左右,与主要经济体一致,当前CPI预期0.1-0.8%[8] 宏观政策 - 广义财政空间扩张至13.86万亿,同比增加2.9万亿,赤字率4.0%创历史新高[9] - 特别国债和专项债规模分别扩大至1.8万亿和4.4万亿,其中5,000亿用于补充银行资本[9] - 财政政策倾向惠民生促消费,安排3,000亿超长期特别国债支持以旧换新[10] - 货币政策保持适度宽松,预计社融和M2增速约8%,适时降准降息[12] - 强调促进楼市股市健康发展,做好金融"五篇大文章"[13] 重点工作 - 提振消费为首要任务,以旧换新资金翻番至3,000亿,扩围至消费电子领域[15] - 新质生产力发展聚焦商业航天、低空经济、生物制造、量子科技等新兴产业[16] - DeepSeekV3实现AI领域突破,成本低于国际大模型70%,性能趋于一致[17] - 民营经济支持政策升级,将加速制度保障、营商环境改善等四类行动[20] - 全国统一大市场建设重点整治"内卷式"竞争,降低物流成本[21] 资本市场 - A股科技行情从概念驱动转向业绩驱动,看好大模型应用等板块[32][34] - 债券市场利率短期可能反弹至1.7-1.9%,但中期向下趋势不变[36][37] - 人民币汇率保持双向波动,稳汇率政策延续[39] - 中长期资金入市和稳市机制建设将增强市场稳定性[32] - 消费板块估值处于低位,服务消费、新兴消费和平替品牌具潜力[34]
在欧洲,没人提DeepSeek
36氪· 2025-03-06 18:31
MWC2025展会趋势 - MWC2025展会更偏向消费电子属性,通信技术展示弱化,逐渐向CES风格靠拢[6] - 各大科技公司通过AI技术和吸睛硬件(如机器狗、汽车)吸引观众,而非传统通信设备[4][8][14] - 联想高管Steve Long将PC称为"达尔文主义设备",认为其在AI硬件变革中具备更大进化空间[22] 参展公司动态 小米 - 包下MWC 3号馆大面积展位,紧邻联想和三星,SU7 Ultra电动车成为展台焦点,一夜大定超1.9万辆[8] - 亮黄色SU7 Ultra的展示使小米15 Ultra手机关注度相对下降[8] 谷歌 - 在2号馆设置Android、Google Cloud、Google Pixel三个全包围式展台,确保曝光率[10] - Google Cloud展区以Gemini大模型为核心宣传点,通过"星标"装饰强化AI形象[10] 联想 - 展示带折叠外屏的"flip"笔记本电脑,延续其折叠屏创新路线[17] - 推出"Magic Bay"磁吸扩展技术,支持多屏联动(如三屏巨幕或主屏+8英寸副屏组合)[18] - 配套开发Tiko系列硬件:包括显示小组件的Tiko Pro仪表屏和具备表情交互功能的圆形Tiko设备,后者形似蔚来Nomi,提供AI助手具身化方案[19][20][21] AI技术应用观察 - DeepSeek大语言模型未出现在任何参展公司的AI解决方案中,可能因MWC展品沿用CES旧方案且更侧重底层技术[11] - 高通凭借骁龙8至尊版芯片优势,成为多数旗舰手机AI功能(如智能助手)的底层支持者[12] - 硬件创新滞后于LLM发展速度,但联想通过Tiko等设备探索AI助手的物理载体,可能代表未来个人计算设备方向[21][22] 硬件创新案例 - 宇树科技机器狗既为大公司展台引流,又独立设置3x3小型展台,预计成为展会人流密集区[14][16] - 机器狗被视为AI"具身化"的过渡形态,反映AI对物理载体的需求[16] - 联想Tiko设备通过表情和状态反馈,可能增强用户与AI助手的交互体验,类比DeepSeek思维链展示效果的升级版[21]
超越DeepSeek!刚刚,腾讯元宝登顶下载榜
21世纪经济报道· 2025-03-03 23:14
腾讯元宝市场表现 - 3月3日腾讯元宝在中国区苹果应用商店免费APP下载排行榜上升至第一,超越DeepSeek,豆包位居第四 [1] - 腾讯元宝是AIGC应用中用户增长最快的App,2月22日在排行榜上升100多名,排名超越豆包,仅次于DeepSeek [3] 产品功能迭代 - 3月1日腾讯元宝正式发布电脑版,支持Windows和macOS系统,具备读图、智能对话、文件解析能力 [5] - 电脑版通过DeepSeek-R1满血版和混元T1进行深度思考,结合腾讯内容源确保答案时效性和可信度 [6] - 后续将推出划词搜索与翻译、截图提问等便捷功能 [7] - 2月25日新增对话导出为长图功能,所有模型支持理解图片、解析文件、联网搜公众号、微信上传文件 [9] 技术整合创新 - 腾讯将DeepSeek与混元多模态能力融合,使其具备图片理解能力,而官方DeepSeek仅支持OCR文字识别 [13][14] - 目前接入DeepSeek-R1满血版、DeepSeek-V3、混元T1和混元Turbo四个模型,均支持多模态功能 [15] - 行业分析认为此次更新属于产品创新而非底层模型迭代,体现模块化创新的差异化价值 [16] 腾讯战略布局 - 腾讯过去半个月快速调整战略拥抱DeepSeek,微信、腾讯文档等十余款产品已接入 [18][19] - 最新接入产品包括理财通(整合金融数据和公众号资源提升专业性)和企业微信(智能机器人、客户跟进总结功能) [20][21][22] - 公司凭借庞大C端用户和产品矩阵,加速大模型场景试验,有望开拓新AI应用体验 [24]
英伟达电话会全记录,黄仁勋都说了什么?
华尔街见闻· 2025-02-27 19:09
核心观点 - AI推理需求将远超当前大语言模型(LLM)的计算需求,可能需要比现有计算能力高出数百万倍 [1] - Blackwell系列芯片供应链问题已完全解决,Blackwell Ultra计划于2025年下半年发布 [1] - 公司预计到2025年年底利润率将在70%-80%区间中部 [2] - 数据中心的资本投资持续增长,AI将成为数据中心的主要工作负载 [13] - 企业AI、代理AI和物理AI等新兴领域将推动长期需求增长 [14] 财务表现 - 2025财年第四季度收入为393亿美元,环比增长12%,同比增长78% [32] - 2025财年收入为1305亿美元,较上一财年增长114% [32] - 数据中心收入为1152亿美元,较上一财年翻了一番 [32] - 第四季度数据中心收入达到创纪录的356亿美元,环比增长16%,同比增长93% [32] - Blackwell产品上个季度实现了110亿美元的收入 [8] - GAAP毛利率为73%,非GAAP毛利率为73.5% [43] 产品与技术 - Blackwell架构为推理AI设计,推理性能比Hopper提升25倍,成本降低20倍 [6] - Blackwell的生产涉及350个工厂,150万个组件 [8] - 大型云服务提供商如Azure、GCP、AWS和OCI已经开始部署Blackwell系统 [9] - 公司致力于在两年内将推理成本降低200倍 [36] - Blackwell的FP4 Transformer引擎和NVLink 72扩展结构使处理推理AI模型的速度比Hopper快25倍 [84] 市场需求 - 推理需求正在加速增长,受到测试时扩展和新的推理模型如DeepSeek-R1的推动 [34] - 长思考推理AI可能需要比一次性推理多100倍的计算量 [34] - 训练后的模型定制和微调的总体计算需求可能比预训练高出几个数量级 [34] - 企业收入同比增长了近两倍,得益于对模型微调、RAG和代理AI工作流程的加速需求 [38] - 汽车垂直业务收入预计在本财年将达到约50亿美元 [39] 行业趋势 - AI已成为主流技术,广泛应用于金融服务、医疗保健等行业 [21] - 未来的计算机将是加速的,未来的计算机将基于AI [69] - 公司预计AI将从数字世界扩展到物理世界,推动机器人技术和物理AI的发展 [38] - 全球各国都在构建自己的AI生态系统,对计算基础设施的需求激增 [39] - 初创公司的活跃和创新表明AI市场潜力巨大,需求将持续强劲 [15] 地理分布 - 中国市场的比例保持稳定,大约是出口管制之前的一半 [68] - 由于Blackwell的初步推广,美国的数据中心收入环比增长最为强劲 [39] - 法国的2000亿欧元AI投资和欧盟的2000亿欧元AI计划正在重新定义全球AI基础设施建设 [39] - 中国数据中心的销售额仍远低于出口管制开始时的水平 [40] 产品路线图 - Blackwell Ultra计划在下半年推出,将带来新的网络、内存和处理器等改进 [16] - Blackwell Ultra将无缝对接现有系统架构,继续推动AI基础设施的发展 [18] - 公司与客户和供应链紧密合作,确保从Blackwell到Blackwell Ultra的平稳过渡 [17] - 下一代产品Vera Rubin正在准备中,将带来巨大的性能飞跃 [60] 客户案例 - NAP利用英伟达TensorRT将其截图功能的推理吞吐量提升了三倍,并削减了66%的成本 [35] - Perplexity每月处理4.35亿次查询,并通过英伟达Triton推理服务器将推理成本降低了三倍 [35] - 微软必应利用英伟达TensorRT在视觉搜索中实现了5倍的速度提升 [35] - Meta的Andromeda广告引擎运行在Grace Hopper超级芯片上,将推理吞吐量提升了3倍 [37] - 现代汽车集团宣布将采用英伟达技术来加速自动驾驶汽车和机器人技术的发展 [39]
这些AI公司,倒在黎明前夜
创业邦· 2025-02-27 18:15
核心观点 - AI行业在爆发式增长的同时,大量公司因技术迭代、资金链断裂或商业模式不成熟而倒闭或被收购 [2][29] - 先驱公司的失败为行业提供了宝贵经验,其技术遗产可能以其他形式重组重生 [29][30] 公司案例总结 波形智能 - 由95后姜昱辰创立,专注于中文创作大模型Weaver及小说写作产品"蛙蛙写作",注册用户超30万,生成近200亿字文本 [3][4] - 成立两年内完成种子轮和千万级Pre-A轮融资,后被OPPO收购,核心团队入职OPPO [3][4] Afiniti - 创立18年的老牌AI公司,主打客服电话匹配算法,2017年估值达130亿人民币,但长期亏损且技术落后于深度学习时代 [5][6] - 2024年破产,创始人因丑闻离职,静态规则引擎技术被生成式AI淘汰 [5][6] 鹰眼智慧中医 - 以"红外热成像+AI算法"数字化中医诊疗,产品覆盖800多家医疗机构,2023年被港股江山控股收购69.45%股权 [8][9] - 2024年12月因资金链断裂突然解散,技术未能实现商业化突破 [9][13] 华夏芯 - 2014年成立,专注全自主芯片架构,2017年发布首款国产64位嵌入式处理器IP核,2020年获行业奖项 [15][16] - 2024年破产清算,15项软件著作权和14项专利以低价拍卖,技术未能转化为商业成功 [16][18] Stability AI - 开发开源文生图模型Stable Diffusion,2022年估值10亿美元,但开源模式导致变现困难 [20][21] - 2024年创始人离职,核心团队瓦解,面临被收购困境 [21] 光年之外 - 美团王慧文创立,初始估值2亿美元,团队含搜狗马占凯等人才,A轮融资超2亿美元 [23] - 2023年因创始人健康问题被美团20.65亿元收购,技术整合至美团AI业务 [23] Character.AI - 2022年创立,主打AI角色扮演应用,2023年估值10亿美元,获1.5亿美元融资 [26][27] - 2024年创始人携30名员工跳槽谷歌,剩余团队依赖谷歌资金维持运营 [27] 行业观察 - 2022年11月至2024年7月,国内8万家AI公司消失,反映行业高淘汰率 [2] - 大厂收购成为AI初创公司常见退出路径,如波形智能、光年之外等 [4][23][27] - 技术迭代加速(如ChatGPT崛起)直接导致静态规则类AI公司被淘汰 [6][21]
【广发金工】从知识库到知识图谱:DeepSeek&GraphRAG
广发金融工程研究· 2025-02-26 13:04
文章核心观点 国内大模型公司“深度求索”开发的DeepSeek-V3和DeepSeek-R1以极低训练成本实现与顶尖模型媲美的性能 ,报告介绍其部署和运行测试方法 ,并探讨GraphRAG与大模型在金融投研领域的应用 [1][5] DeepSeek部署与运行测试 各版本DeepSeek模型与部署所需硬件对应关系 - 大模型训练和推理用英伟达显卡搭配CUDA平台 ,部署模型所需显存用于保存模型权重等 ,显存M(GB)与模型参数量P、参数精度Q等有关 ,如P=7B、Q为16位浮点精度时 ,M=16.8GB [6] - 不同参数版本模型所需显存和对应显卡不同 ,如1.5B参数模型需3.6G显存 ,对应NVIDIA 4060 [7] 部署流程介绍 - DeepSeek模型开源 ,可公开下载 ,主流本地化部署方式有从HuggingFace下载调用和用Ollama、LM Studio平台部署 ,以Ollama为例 ,需访问官网下载终端 ,搜索模型版本 ,在cmd输入命令运行 [8] - Ollama本地模型默认端口为11434 ,其他应用调用时修改访问请求base_url [9] 简单问答测试 - 测试本地部署14B模型推理能力及与满血版差距 ,14B版本在部分逻辑题展现较强推理能力 ,但在复杂逻辑推理任务中与满血版有差距 [10][12] GraphRAG与大模型应用介绍 Langchain与RAG介绍 - 开源框架Langchain集成RAG和Agent功能提升大模型在专业垂直领域回答水平 [13] - RAG即检索增强生成 ,使大模型生成回答时读取外部信息 ,减少模型幻觉 ,生成更精准答案 ,包括检索、增强、生成三步 [14] - Agent是智能体系统 ,可自主感知环境、决策和执行行动 ,适用于自动化任务等应用 [15] GraphRAG - RAG效果未达预期 ,存在数据处理和相关性搜索问题 ,难以从全局考虑问题和进行总结归纳 [16][19] - GraphRAG由微软开源 ,通过构建知识图谱和社区摘要扩展RAG能力 ,特点有增强知识表示、可解释和可验证、复杂推理、知识来源灵活等 ,还能降低Token成本 ,支持增量索引和动态更新 [20][23] - GraphRAG流程包括文本单元切分、实体和关系提取、实体消解、图构建、社区总结 ,检索方案有全局搜索、局部搜索、DRIFT搜索 [24][27][29] - 蚂蚁基于GraphRAG构建DB - GPT ,是开源AI原生数据应用开发框架 ,让围绕数据库构建大模型应用更简单 [29][30] - GraphRAG应用场景拓宽到金融、医疗、法律等领域 ,如学术研究、法律情境、电子商务等 [31] 金融知识图谱GraphRAG&DeepSeek实践 金融知识图谱介绍 - 金融知识图谱以图结构表示金融领域知识 ,用于风险控制、投资决策、市场监管等 ,如FP2KG数据集有17,799实体等 [34][35] - 知识图谱可梳理投研领域实体和关系 ,减轻投研负担 ,辅助投资决策 [36] GraphRAG部署流程 - 用微软开源GraphRAG版本 ,结合DeepSeek大模型和研报数据构建知识图谱 ,步骤包括安装库、新建文件夹、下载数据、项目初始化、构建图谱、提问搜索等 [37][40][41] - 需调整提示词语言确保结果实用性 ,若换模型需调整settings.yaml参数 [41] 基于研报的知识图谱搭建 - 以传媒行业游戏板块和计算机行业个股研报等为输入 ,GraphRAG回答问题准确性和完整性高 ,能准确识别实体关联 [43][44][51] - 输出的社区报告表、实体关系表和实体表等结构化数据可用于后续筛选、处理 ,还可将图谱可视化 [45][49][50]
月之暗面 MoBA 核心作者自述:一个 “新晋大模型训练师” 的三入思过崖
晚点LatePost· 2025-02-20 22:21
注意力机制优化进展 - Kimi和DeepSeek同日发布注意力机制改进成果MoBA和NSA,均针对Transformer核心组件"注意力机制"进行创新[2] - 标准全注意力机制存在计算复杂度随文本长度平方级增长的问题,成为制约长上下文能力的关键瓶颈[4] - 行业出现两大优化方向:稀疏注意力机制(如NSA/MoBA/InfLLM)和线性注意力机制(如MiniMax-01),前者侧重稳健优化,后者尝试根本性解决计算爆炸问题[5] MoBA技术演进 - 项目始于2023年5月,初始目标为支持16K长度预训练,后升级至128K需求,经历v0.5到v2三次架构迭代[6][12][16] - 关键技术突破包括:采用Online Softmax实现与全注意力机制的可对照调试、解决注意力汇聚点问题、最终形成极简单层稀疏注意力结构[13][16] - 在1M长度测试中达到与全注意力机制持平的性能指标,已部署至Kimi生产环境[20] 行业竞争格局 - 中国头部AI公司密集发布注意力机制创新:MiniMax-01采用线性注意力,面壁智能InfLLM被NSA论文引用[5] - 微软亚研院专家指出稀疏注意力与线性注意力的本质差异:前者保留复杂依赖关系捕捉能力,后者可能牺牲部分长程关联性[5] - 清华大学团队证实NSA和MoBA均采用动态注意力选择机制,相比静态方法显著提升模型性能[5] 工程实现细节 - MoBA开源代码已在GitHub发布,包含完整工程实现与技术论文,实际经过1年多线上验证[6][25] - 解码阶段对MHA效果最佳(IO优化达理论最大值),但对GQA/MQA效果递减[22] - Triton实现版本曾获得10%+性能提升,但因维护成本过高暂未持续优化[24] 研发方法论 - 采用"饱和救援"模式推进技术攻坚,整合跨团队资源进行多轮消融实验[15][19] - 通过"思过崖"机制实现快速试错与迭代,三次关键架构调整分别解决参数膨胀、训练不稳定和SFT效率问题[8][13][19] - 最终方案保留数学严谨性(支持全注意力模式对照)与工程实用性(单机/分布式兼容)的双重优势[16][20]
GenAI 内存解决方案第 5 部分:DeepSeek 在芯片领域的高光时刻
Counterpoint Research· 2025-02-19 17:46
DeepSeek大语言模型 - DeepSeek的LLM性能接近ChatGPT但成本大幅降低 训练效率与低成本优势显著 政府支持部分数据训练成本如数据标注和归类 [2] 中国存储芯片成本竞争力 - 中国存储芯片在政府支持下已具备成本竞争力 2024Q1 DRAM每Gb价格为$0.34 韩国DRAM总成本占售价67%约$0.23 中国不计固定成本可能低至$0.20 [4] - 中国固定成本远高于韩国 但通过规模优势弥补性能差距 华为Ascend 920 GPU支持HBM2/HBM2e而非最新HBM3/HBM3e 在部分推理领域仍具竞争力 [4] 中国半导体设备进展 - 北方华创低温刻蚀机已为长江存储投入量产 设备是三大要素中的关键瓶颈 中国在HBM等新产品供应链布局全面 2025-2026年是竞争格局关键时期 [4]