Workflow
RAG
icon
搜索文档
大模型方向适合去工作还是读博?
具身智能之心· 2025-10-16 08:03
文章核心观点 - 文章探讨了大模型领域从业者面临的职业发展选择问题 即继续深造读博还是参与AI Agent创业潮 [1] - 决策需基于个人是否具备扎实的大模型基础以及是否适合扮演“开拓者”的研究角色 [1][2] - 大模型之心Tech知识星球被定位为一个综合性的学习与交流平台 旨在为不同阶段的从业者提供系统化支持 [2][4] 大模型行业现状与人才需求 - 大模型技术范围广泛 涉及生成、多模态、微调、强化学习、基准测试及多个下游应用领域 [1] - 通用大模型研发存在高壁垒 主要由顶级公司主导 [1] - 行业存在导师半路出家、学生基础不扎实的现象 凸显了系统性学习的重要性 [1][2] 大模型之心Tech知识星球资源 - 社区形式为视频、图文、学习路线、问答与求职交流的综合体 [2] - 已邀请40余位来自国内外顶尖高校(如清华、北大、上交、港科大等)和头部公司(如阿里、百度、字节、月之暗面等)的嘉宾 [4][66] - 提供大模型全栈学习路线图 覆盖RAG、AI Agent、多模态大模型等核心方向 [4] 技术路线覆盖详情 - RAG技术路线细分为Graph RAG、Knowledge RAG、多模态RAG、Reasoning RAG等8个子领域 [9][10][16][18][20][22][24][25] - AI Agent技术路线包括前沿综述、评测、强化学习、多模态Agent、通讯协议等7个细分方向 [26][27][29][31][33][35][36][38][40][42] - 多模态大模型训练涵盖MLLM、VLM、微调、RLHF、MoE等9个技术模块 [44][47][49][51][53][54][55][56][58] - 大模型量化、部署及推理被列为独立的技术板块 [60][61][62][63] 社区附加价值 - 提供大模型学术进展与工业应用的最新信息 [7] - 具备工作岗位推荐功能 可第一时间对接企业需求 [7][68] - 计划通过行业大佬直播分享和独家岗位招聘信息进一步赋能社区成员 [64][65][67][68]
即将开课!自动驾驶VLA全栈学习路线图分享~
自动驾驶之心· 2025-10-16 07:33
自动驾驶VLA行业趋势 - 自动驾驶VLA是学术界和工业界在端到端之后聚焦的核心方向,提供了类人思考能力并通过思维链形式展现决策过程,以实现更可靠和安全的自动驾驶[1] - 行业将自动驾驶VLA划分为三个子领域:模块化VLA、一体化VLA和推理增强VLA[1] - 传统的BEV感知、车道线、Occupancy等方向相对成熟,学术界和工业界关注度逐渐下降,自动驾驶VLA成为各家企业急需攻克的方案[4] - 主流自动驾驶企业,包括智驾方案供应商和车企,均在发力自研自动驾驶VLA[4] 自动驾驶VLA技术核心 - 自动驾驶VLA涉及视觉感知、大语言模型、Action建模、大模型部署、数据集制作等核心内容[6] - 最前沿算法包括CoT、MoE、RAG、强化学习[6] - 模块化VLA强调多阶段pipeline(感知→语言→规划→控制),语言模型为规划决策提供信息[16] - 一体化VLA直接连接动作解码器,实现感知→控制的端到端映射,通过单次前向传播将传感器输入映射为控制动作[16] - 推理增强VLA新增推理模块(如Chain-of-Thought、记忆体、工具调用),同步输出控制信号和自然语言解释,支持长时序规划和因果解释[17] 课程内容与结构 - 课程第一章介绍VLA算法概念、发展历史、开源BenchMark和常见评测指标[12][13] - 第二章讲解VLA算法基础,涵盖Vision、Language、Action三个模块基础知识及大模型结合,并以Qwen 2.5VL-72为例讲解开源大模型部署[14] - 第三章讲解VLM作为自动驾驶解释器的经典及最新算法,包括DriveGPT4、TS-VLM、DynRsl-VLM、SENNA,重点分析算法动机、网络结构和核心[15] - 第四章聚焦模块化与一体化VLA,配套实战代码学习选取华科和小米最新提出的ReCogDrive,涵盖预训练、模仿学习、强化学习GRPO、扩散模型轨迹输出等技术栈[16] - 第五章聚焦推理增强VLA,讲解ORION、OpenDriveVLA、DriveMoE、DiffVLA、S4-Driver、FutureSightDrive、AutoVLA、Drive-R1等算法,并配套清华AIR和博世提出的Impromptu VLA实战代码[17][18][19][23] - 第六章设置大作业,要求学员基于ms-swift框架自定义数据集和加载模型,进行训练任务微调,并提供V-L-A各部分代码解读[20] 行业人才培养 - 课程由清华大学教研团队联合开展,旨在推动自动驾驶VLA在学术界和工业界的发展[6][22] - 讲师团队包括在ICCV/IROS/EMNLP/Nature Communications等顶级会议发表论文的清华大学硕士生、QS30高校博士在读研究员,具备丰富的自动驾驶、大模型研发和实战经验[8][9] - 学员需自备GPU,推荐算力在4090及以上,并具备自动驾驶领域基础、transformer大模型、强化学习、BEV感知等技术概念,以及概率论、线性代数、Python和PyTorch基础[24] - 课程为国内首个自动驾驶VLA进阶实战教程,预计两个半月结课,采用离线视频教学配合VIP群内答疑及三次线上答疑的模式[22][23]
湖南发布“古籍修复知识库系统” 打造古籍修复“数字百科”
中国新闻网· 2025-10-14 17:26
行业动态 - 古籍修复行业面临知识传承难、修复经验共享不足、修复过程不易追溯、人才培养周期长等难题,传统模式亟待新技术破局 [1] - 行业将古籍修复技艺与人工智能、RAG等现代科技深度融合,构建多模态知识库系统以应对挑战 [1] - 行业举办“古籍保护课程进校园”活动,旨在让更多年轻人参与古籍保护,使中华优秀传统文化生生不息 [2] 公司举措 - 湖南图书馆创新推出“古籍修复知识库系统”并上线试运行,该系统服务于全国古籍修复从业者并面向全社会免费开放,未来将持续优化功能 [1] - 公司靶向发力,充分依托本馆及业界古籍修复专业资源,构建了汇聚修复案例、修复用纸、专业参考书目、专家经验等的核心知识库 [1] - 该系统构建的核心知识库涵盖200余个修复案例、200多种修复纸谱类型、300多种专业图书、800余篇专业论文及100余种修复技法,打造古籍修复的“数字百科” [1]
很严重了,大家别轻易离职。。
菜鸟教程· 2025-10-10 11:30
AI应用层投资机会 - 2025年AI行业最大的机会在应用层 [1] - 超过60%的企业正在推进AI产品落地 [1] - 字节跳动已有7个团队全速布局Agent [1] 人才市场需求与薪资 - 大模型岗位暴增69% [1] - 人工智能岗位平均月薪达7.8万元 [1] - 实习生日薪高达4000元 [1] - 脉脉上有超过1000家企业发布大模型相关岗位 [1] - 腾讯、京东、百度开放招聘的技术岗中80%与AI相关 [1] 核心技术能力需求 - RAG技术可融入外部信息修正模型输出 [1] - Agent智能体通过工具调用和环境交互完成复杂任务 [1] - 微调技术针对特定任务优化模型适配业务 [1] - 企业需要能交付项目的大模型应用开发工程师且该人才极度稀缺 [1] 技术应用场景 - 掌握主流大模型如DeepSeek、Qwen等的微调技术 [6] - 利用领域数据如制造、医药、金融等进行模型定制 [6] - RAG技术应用于法律文档分析、医疗诊断辅助、金融报告生成等垂类场景 [6] - AI Agent应用于制造业设备故障诊断和金融领域投资分析等场景 [6] 行业发展趋势 - AI浪潮正在重构程序员的核心竞争力 [3] - 具备AI能力的程序员薪资远超传统开发人员 [1] - 通过5个步骤培养全栈开发能力覆盖超多业务场景 [13]
具身领域的大模型基础部分,都在这里了......
具身智能之心· 2025-09-21 00:03
社区定位与目标 - 社区旨在打造集视频、图文、学习路线、问答、求职交流为一体的综合类大模型技术社区,为初学者和进阶者提供交流与技术分享平台 [1] - 社区目标是成为大模型前沿技术聚集地,汇集来自国内外知名高校实验室及头部公司的嘉宾,高校包括上交、清华、北京大学等,公司包括阿里千问、美团LongCat、深度求索DeepSeek、字节豆包、百度文心一言、月之暗面Kimi等 [3][68] 核心学习路线与内容 - 社区汇总了大模型全栈学习路线图,核心领域包括RAG、AI Agent和多模态大模型 [3] - RAG学习路线细分为Graph RAG、Knowledge RAG、多模态RAG、Reasoning RAG等8个子领域 [3][9][10][12][14][16][18][20][22][23][24] - AI Agent学习路线涵盖前沿综述、评测、强化学习、多模态Agent、Agent通讯等7个子领域 [25][26][28][30][32][34][35][37][39][41] - 多模态大模型训练路线包括开源数据集、MLLM、VLM、大模型微调、RLHF、MoE等9个技术方向 [42][43][45][47][49][51][53][55][56][57][59] - 社区扩展了大模型量化、部署及推理相关内容,以满足成员部署自有模型的需求 [61][62][63][64] 社区资源与福利 - 社区已邀请40余位学术界和工业界专家,来自国内外知名高校和头部公司 [68] - 成员福利包括第一时间掌握学术进展与工业应用、与行业大佬交流工作与求职问题、获得大模型相关岗位推荐及投资与项目对接机会 [7][70] - 未来计划不定期邀请行业大佬进行直播分享,内容可反复观看,旨在邀请国内外顶尖学术界和工业界专家 [66]
但我还是想说:建议个人和小团队不要碰大模型训练!
自动驾驶之心· 2025-09-21 00:03
大模型应用策略 - 对于小规模团队,部署开源大语言模型结合检索增强生成技术已能满足99%的需求,在触及开源模型性能边界前不建议进行模型微调[2] - 若开源模型在特定垂直领域效果不佳,应优先尝试检索增强生成技术和上下文学习等低成本方案,而非直接进行模型微调[3] - 建议将最复杂的任务分配给o1系列模型,将需要较高智能的任务分配给4o等第一梯队模型[3] - 除付费模型外,可考虑采用DeepSeek、豆包、Qwen等国产开源大模型[4] - 基础模型能力的每次重大提升都如同一次技术版本更新,从业者需敏锐识别现有模型能力与业务需求的差异[6] - 应避免在低收益赛道进行无意义投入,采取错位竞争和降维打击策略更为有效[7] 核心技术趋势与人才需求 - 检索增强生成和智能体技术是当前大模型领域最具代表性的技术,企业对掌握这些技能的人才需求高涨[8] - 行业正积极构建技术社区,汇集来自上海交通大学、清华大学、北京大学、上海人工智能实验室、香港科技大学、香港大学等顶尖高校及阿里千问、美团LongCat、深度求索DeepSeek、字节豆包、百度文心一言、月之暗面Kimi等头部企业的专家[10][43] 技术社区资源体系 - 社区提供集视频、图文、学习路线、问答、求职交流为一体的综合型大模型技术平台[8][10] - 技术学习路线图全面覆盖检索增强生成、智能体、多模态大模型三大方向,包括Graph RAG、知识导向RAG、多模态RAG、推理RAG、智能体强化学习、多模态智能体、多智能体等细分领域[10] - 社区已邀请40余位学术界和工业界专家,计划不定期举办行业大佬直播分享活动[41][43] - 提供大模型相关工作岗位推荐和行业机会挖掘服务,助力职业发展[13][44]
真的花了好久才汇总的大模型技术路线......
具身智能之心· 2025-09-16 08:03
大模型技术发展趋势 - 大模型已成为推动社会生产的重要工具,广泛应用于日常办公、自动驾驶、具身智能和AIGC生成等领域 [2] - 大模型产业正经历技术普惠化、应用垂直化和生态开源化的深度变革 [2] - RAG和AI Agent技术成为AI从业者核心竞争力,相关岗位需求旺盛且算法岗位年薪领先行业 [2] 技术社区建设 - 创建了集视频、图文、学习路线、问答和求职交流为一体的综合型大模型社区 [2] - 社区已邀请40+来自国内外知名高校和头部企业的专家,包括上交、清华、北大、上海AI实验室、港科大、阿里、美团、深度求索、字节、百度和月之暗面等机构 [4][66] - 社区提供学术进展追踪、工业应用交流、求职对接和行业机会挖掘等服务 [7] RAG技术体系 - 提供完整的RAG学习路线,包括Graph RAG、Knowledge-Oriented RAG、Reasoning RAG等子领域 [4][9] - 汇总了最新综述、开源仓库和BenchMark,涵盖RAG在视觉理解和AIGC中的应用 [11][12][14][16][18][21][23] - 包含个性化RAG工作汇总和专业技术资料,适合从入门到进阶的系统性学习 [4][11] AI Agent技术体系 - 详细解析AI Agent核心技术,包括前沿综述、强化学习、多模态应用和通讯协议 [25][27][29][31][32] - 汇总基座Agent、自进化Agent和Multi-Agent的最新研究成果 [34][36][38] - 提供Agent评测框架和开源工具链,覆盖工业界与学术界需求 [4] 多模态大模型训练 - 涵盖多模态大模型(MLLM)和视觉语言模型(VLM)的训练方法,包括微调、RLHF和MoE技术 [40][44][45][47][49][50] - 汇总开源数据集和提示适配器学习方案,支持3D世界应用开发 [42][51][53] - 持续扩展强化学习与模型优化模块,满足科研和工业落地需求 [40] 模型量化与部署 - 提供大模型量化、推理和部署的完整技术方案 [55][56] - 涵盖参数优化、推理加速和部署实践,助力模型高效落地 [58][60][62] - 扩展社区内容至工程应用领域,满足开发者对模型部署的需求 [56] 社区发展计划 - 计划邀请国内外顶尖学术界和工业界专家进行直播分享,内容可回放 [64] - 持续扩展专家网络,打造大模型前沿技术聚集地 [66] - 提供独家岗位招聘信息,赋能社区成员职业发展 [67]
RAG 的概念很糟糕,让大家忽略了应用构建中最关键的问题
Founder Park· 2025-09-14 12:43
文章核心观点 - Chroma创始人Jeff Huber批判RAG概念 认为其将检索、生成、结合硬性拼接导致概念混淆 且市场过度简化RAG为向量搜索[5][6][7] - 提出Context Engineering是AI应用构建的核心 通过动态管理上下文窗口内容提升模型性能[4][7][8] - 指出LLM存在Context Rot现象:随着Token数量增加 模型注意力分散且推理能力下降[5][8][13] - 强调未来检索系统将向持续检索和Embedding空间内操作演进[5][41][48] Context Engineering定义与价值 - Context Engineering属于AI工程学子领域 核心任务是在每一步生成时动态决定上下文窗口内容[7] - 包含内外双循环机制:内循环单次生成选择内容 外循环随时间积累优化信息选择策略[7] - 被视作头部AI初创公司核心能力 在聊天、文档等静态场景中尤为重要[4][9] - 与Agent概念存在交叉但无需刻意区分 因Agent定义尚不明确[9][10][12] RAG概念批判 - RAG本质仅为检索 其概念包装导致开发者困惑[5][6][7] - 市场对RAG存在误解 简化为单一向量搜索操作[5][7] - Chroma团队主动避免使用RAG术语[6] Context Rot现象分析 - LLM性能随Token数量增加而衰减 模型遵循指令能力下降[8][13][16] - 在SWE-Bench等多轮交互数据集中发现Token膨胀导致指令遗漏[13] - 实验室常选择性宣传基准测试结果 回避模型缺陷披露[14][15] - 不同模型衰减程度差异显著:Sonnet 4表现最佳 Qwen3次之 GPT-4.1和Gemini Flash衰减更快[16] Context Engineering技术实践 - 当前主流做法仍将全部内容塞入上下文窗口[23] - 采用两阶段检索优化:首阶段通过向量/全文/元数据过滤将候选从数万缩减至数百 第二阶段用大模型重排选出最终30个片段[25] - 重排成本极低:100万输入Token成本约0.01美元 因使用轻量模型[25] - 大模型重排将成趋势 专用重排模型可能边缘化[26][27] 多工具协同检索 - 索引本质是写入性能与查询性能的权衡[29] - 代码搜索中85%-90%查询适用正则表达式 Embedding可额外提升5%-15%效果[37][38] - Chroma原生支持正则搜索并优化大数据量性能 新增forking功能实现毫秒级索引复制[30][31] - 工具选择取决于用户熟悉度:已知名称时全文搜索高效 语义模糊时需Embedding匹配[34][35][36] 未来检索系统演进 - 检索将持续停留在潜在空间 避免返回自然语言[40][41] - 从"检索-生成"单次交互转向生成过程实时检索[41] - 需解决技术约束:检索器冻结或语言模型无法更新导致体验差[42] - GPU内存分页等硬件优化是5-10年方向[48] 记忆与Context Engineering关联 - 记忆本质是Context Engineering的结果 核心是将合适信息放入上下文窗口[50][53] - 生成式记忆与提示式记忆依赖相同数据源和反馈信号[53] - 避免过度类比人类记忆类型 强调压缩技术实用性[56][58][59] - 离线处理与再索引有价值 可通过后台计算优化系统[59][61] 生成式基准测试方法论 - 构建黄金数据集(查询-片段对)可量化评估检索策略[61][62] - 大模型可自动生成查询-片段对 解决人工标注不一致问题[63] - 小规模高质量数据集(数百条)即产生高回报 无需百万级数据[64][65] - 建议团队通过标注派对快速构建基准数据[65][66] Chroma产品定位 - 核心为解决AI应用从Demo到生产的工程化难题[69][70] - 定位为现代AI搜索基础设施 专注检索引擎构建[72][74] - 云产品采用无服务器架构 实现30秒建库、按实际使用量计费[82][83][84][86] - 免费额度支持10万文档导入和10万次查询[86][87] 搜索系统特性演进 - 现代性体现在分布式架构:读写分离、存储计算分离、Rust编写、租户模式[74] - AI搜索四维差异:工具技术、工作负载、开发者群体、结果消费群体[76] - 语言模型可消化数量级多于人类的信息 直接影响系统设计[76] 创业理念与设计哲学 - 创业需聚焦热爱领域 与优秀团队服务目标客户[90] - 设计体现文化一致性 创始人需作为品味把关人防止品牌分裂[98][99][100] - 信奉"做事方式即一切方式"原则 保持全环节体验统一[98][99]
宇树科技官宣IPO后王兴兴首次发声:我最后悔的是以前没有学AI;甲骨文与OpenAI签署3000亿美元的算力协议丨AIGC日报
创业邦· 2025-09-12 08:12
腾讯优图实验室开源技术进展 - 腾讯优图实验室于9月11日开源全新图检索增强生成框架Youtu-GraphRAG 该框架采用大语言模型与RAG结合模式 通过知识图谱提升复杂问答任务精准度和可追溯性 适用于企业知识库 科研文档及私域管理等知识密集型场景 [2] 宇树科技AI与机器人融合战略 - 宇树科技创始人王兴兴在外滩大会表示AI在创作领域已超越99.99%人类 但实际应用仍处早期阶段 其透露2011年因AI冷门未深入钻研 现借大模型发展推动AI与机器人结合实现落地应用 [2] - 宇树科技近期宣布IPO计划 创始人首次公开探讨大模型时代机器人产业机遇与挑战 [2] 美国加州AI监管立法动态 - 加州众议院于9月10日通过SB 243法案 要求AI聊天机器人运营商实施安全协议 若未达标准将追究公司法律责任 该法案获两党支持 将于本周五参议院最终投票 预计2026年1月生效 成为全美首例相关立法 [3] 甲骨文与OpenAI算力合作 - OpenAI与甲骨文签署价值3000亿美元算力协议 合约期约五年 需4.5吉瓦电力容量 创云服务合同规模历史纪录 [4] 行业活动与数据资源 - 创业邦开启2025早期AI创新先锋50强招募 入选者可直面200余家投资机构 [2] - 睿兽分析会员提供AI 汽车 智能制造等行业日报 图谱及报告资源 覆盖17万+投资价值企业 5077家国家高新技术企业及10万+基金数据 [4][6] - AIGC垂直赛道产业日报可通过扫码订阅 含1400家独角兽企业及专精特新小巨人企业标签体系 [5][6]
0.3B,谷歌开源新模型,手机断网也能跑,0.2GB内存就够用
36氪· 2025-09-05 15:14
产品发布与核心特性 - 谷歌开源全新开放式嵌入模型EmbeddingGemma 拥有3.08亿个参数 专为端侧AI设计 支持在笔记本和手机等设备上部署检索增强生成(RAG)和语义搜索应用 [2] - 模型能生成隐私性良好的高质量嵌入向量 断网情况下可正常运行 性能接近尺寸翻倍的Qwen-Embedding-0.6B模型 [2] - 基于Gemma 3架构打造 针对100多种语言训练 量化后内存占用低于200MB [3] 技术性能与基准测试 - 在MTEB基准测试中 成为500MB以下开放式多语言文本嵌入模型中排名最高的模型 [3] - 在多项测试中全面超越同尺寸gte-multilingual-base模型:平均任务得分61.15(vs 58.24) 检索得分62.49(vs 56.50) 分类得分60.90(vs 57.17) 聚类得分51.17(vs 44.33) [10][11] - 性能接近595M参数的Qwen-Embedding-0.6B模型 后者平均任务得分64.34 检索得分64.65 分类得分66.83 聚类得分52.33 [10][11] 架构设计与优化技术 - 采用Matryoshka表征学习技术 支持输出768维、512维、256维和128维等多种嵌入尺寸 平衡质量与效率 [12] - 通过量化感知训练将RAM使用量降至200MB以下 在EdgeTPU上实现256个输入token的推理时间小于15毫秒 [12] - 模型参数包含约100M模型参数和200M嵌入参数 总参数量308M [12] 应用场景与集成生态 - 支持端侧RAG应用 能理解语言细微差别 提升检索相关文档的准确性 避免生成不准确答案 [6][8][9] - 与主流工具深度集成 包括sentence-transformers、llama.cpp、MLX、Ollama、LangChain等开发框架 [5] - 支持离线隐私保护应用:本地文件搜索、离线聊天机器人、移动智能体函数调用分类等 [13] 行业影响与发展前景 - 模型小巧高效 提供可自定义输出尺寸和2K令牌上下文窗口 为移动RAG管道和语义搜索解锁新用例 [5] - 标志着谷歌在小型化、多语言和端侧AI领域取得新突破 推动端侧智能普及 [15]