Workflow
RAG
icon
搜索文档
真的花了好久才汇总的大模型技术路线......
具身智能之心· 2025-09-16 08:03
点击下方 卡片 ,关注" 具身智能 之心 "公众号 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 真的花了好久才汇总的大模型技术路线...... 近2年来,大模型已成为推动社会生产的重要工具,从日常办公使用的DeepSeek、豆包、千问,到下游应用的自动驾驶/具身智能VLA,再到AIGC生成。大模型产业 正经历技术普惠化、应用垂直化、生态开源化的深度变革。 大模型技术还是诸多前沿领域发展的基础,比如自动驾驶、具身智能、生成式AI等。最具代表性的是RAG和AI Agent,企业对掌握 RAG、Agent 等技术的人才需求 高涨,这些技能已成为 AI 从业者的核心竞争力。算法开发、工具链开发、后端、产品经理、架构师等等相关岗位需求非常旺盛,算法核心岗位的年薪更是一骑绝 尘! 学习大模型是适应大趋势的必然。我们最新推出的『大模型之心Tech知识星球』集视频 + 图文 + 学习路线 + 问答 + 求职交流为一体,是一个综合类的大模型社区, 旨在为大家打 ...
RAG 的概念很糟糕,让大家忽略了应用构建中最关键的问题
Founder Park· 2025-09-14 12:43
文章转载自「AI产品阿颖」,结构有调整。 知名科技播客 Latent Space 昨天采访了 Chroma 的创始人 Jeff Huber。AI 开发者应该熟悉 Chroma,它是一款全新的 AI 原生开源嵌入式向量数据 库。 在这次访谈中,Jeff Huber 详细分享了他们的创业理念,并批判了当下时髦的概念 RAG,它认为 RAG 的概念很糟糕,让人们忽略了应用构建过程中 最关键的问题是什么。 Jeff Huber 很推崇 Context Engineering,并认为,目前做得比较好的 AI 初创公司真正擅长、最核心的一件事就是 Context Engineering。这让我想起 了 Manus 之前的一些分享。 确实,Context Engineering 越来越重要。 TLDR: 超 13000 人的「AI 产品市集」社群!不错过每一款有价值的 AI 应用。 邀请从业者、开发人员和创业者,飞书扫码加群: RAG 本质上只是检索。它把检索、生成、结合三个不同的概念硬拼在一起,结果特别让人困惑。而且 RAG 后来在市场上被包装成拿 Embedding 做一次向量搜索,这其实是误解,也很肤浅。 LLM 的 ...
宇树科技官宣IPO后王兴兴首次发声:我最后悔的是以前没有学AI;甲骨文与OpenAI签署3000亿美元的算力协议丨AIGC日报
创业邦· 2025-09-12 08:12
更多AIGC资讯…… 2025 DEMO CHINA「AI创新应用专场」招募开启 产品能 Dem o,就有机会入选《2025早期AI创新先锋50强》,直面200+投资机构~ 点击右边链 接,专属报名通道走起➡️ 创业邦·2025 早期 AI 创新先锋50强报名表 1.【腾讯开源Youtu-GraphRAG】9月11日,腾讯优图实验室开源Youtu-GraphRAG。据介绍,这 是一款全新的图检索增强生成框架,主打大语言模型+RAG模式,把知识组织成"图谱",再交给大语 言模型去检索和推理,帮助大模型在处理复杂问答类任务时回答更精准、更可追溯。尤其适用于企业 知识库问答、科研文档解析、个人知识库、私域知识管理等知识密集型场景。(界面新闻) 2.【宇树科技官宣IPO后王兴兴首次发声:我最后悔的是以前没有学AI】9月11日,在2025 Inclusion·外滩大会期间,宇树科技创始人兼CEO王兴兴在圆桌论坛发言时表示,"现在AI写文作 画,已经比99.99%的人都要做的好。但真正让AI干活,还是一片荒漠。"这是宇树科技宣布IPO计划 后,他首次公开现身,畅谈大模型时代机器人产业发展的机遇与挑战。王兴兴及他所创立的宇 ...
0.3B,谷歌开源新模型,手机断网也能跑,0.2GB内存就够用
36氪· 2025-09-05 15:14
产品发布与核心特性 - 谷歌开源全新开放式嵌入模型EmbeddingGemma 拥有3.08亿个参数 专为端侧AI设计 支持在笔记本和手机等设备上部署检索增强生成(RAG)和语义搜索应用 [2] - 模型能生成隐私性良好的高质量嵌入向量 断网情况下可正常运行 性能接近尺寸翻倍的Qwen-Embedding-0.6B模型 [2] - 基于Gemma 3架构打造 针对100多种语言训练 量化后内存占用低于200MB [3] 技术性能与基准测试 - 在MTEB基准测试中 成为500MB以下开放式多语言文本嵌入模型中排名最高的模型 [3] - 在多项测试中全面超越同尺寸gte-multilingual-base模型:平均任务得分61.15(vs 58.24) 检索得分62.49(vs 56.50) 分类得分60.90(vs 57.17) 聚类得分51.17(vs 44.33) [10][11] - 性能接近595M参数的Qwen-Embedding-0.6B模型 后者平均任务得分64.34 检索得分64.65 分类得分66.83 聚类得分52.33 [10][11] 架构设计与优化技术 - 采用Matryoshka表征学习技术 支持输出768维、512维、256维和128维等多种嵌入尺寸 平衡质量与效率 [12] - 通过量化感知训练将RAM使用量降至200MB以下 在EdgeTPU上实现256个输入token的推理时间小于15毫秒 [12] - 模型参数包含约100M模型参数和200M嵌入参数 总参数量308M [12] 应用场景与集成生态 - 支持端侧RAG应用 能理解语言细微差别 提升检索相关文档的准确性 避免生成不准确答案 [6][8][9] - 与主流工具深度集成 包括sentence-transformers、llama.cpp、MLX、Ollama、LangChain等开发框架 [5] - 支持离线隐私保护应用:本地文件搜索、离线聊天机器人、移动智能体函数调用分类等 [13] 行业影响与发展前景 - 模型小巧高效 提供可自定义输出尺寸和2K令牌上下文窗口 为移动RAG管道和语义搜索解锁新用例 [5] - 标志着谷歌在小型化、多语言和端侧AI领域取得新突破 推动端侧智能普及 [15]
程序员的行情跌到谷底了。。
猿大侠· 2025-09-04 12:11
AI技术对程序员就业市场的影响 - 传统技术岗位要求发生显著变化 招聘方开始关注RAG Agent和微调等AI技能 [1] - AI技术冲击下 原有技术优势价值下降 但结合AI能力可提升竞争力 [1] - 电商后端开发人员通过接入大模型推荐系统实现30%薪资增长 [1] 大模型应用开发核心技能 - RAG技术适用于需要持续更新知识的场景 无需针对特定任务重新训练大模型 [6] - Function Call通过运行特定功能代码块增强处理能力 集成外部工具提升交互性 [6] - Agent技术是关键量变到质变指标 智能客服成为企业级项目首选应用场景 [4] 实战培训课程内容 - 课程涵盖技术原理 实战项目和就业指导三大模块 [2] - 2节直播课展示RAG和Fine-tuning技术改善大语言模型使用的实践方法 [3] - 解析从GPT到最火开源模型的技术架构 剖析AI技术应用场景 [3][4] 职业发展路径 - 掌握5个核心开发步骤:大模型原理→AI工具掌握→产品开发实操→前沿信息链接→实战演练 [8] - 通过金融行业支小助和知乎直答等热门产品拆解积累实战经验 [8] - 项目经验可直接写入简历 获得大厂内推机会直达面试官 [17][19] 市场机会与需求 - AI应用落地需求增加 掌握现有技术与AI结合能力者更具优势 [1] - 企业级Agent项目在互联网厂商内部率先尝试 智能客服成为重点领域 [4] - 课程限50人免费参加 提供大厂内推 面试资料和知识图谱等福利 [2][24]
开放几个大模型技术交流群(RAG/Agent/通用大模型等)
自动驾驶之心· 2025-09-04 11:35
大模型之心Tech技术交流群成立了,欢迎大家加入,一起交流大模型相关的内容:包括大模型RAG、AI Agent、多模态大模型、大模型部署等方向。 感兴趣的同学欢迎添加小助理微信进群:AIDriver005, 备注:昵称+大模型加群。 ...
AI读网页,这次真不一样了,谷歌Gemini解锁「详解网页」新技能
机器之心· 2025-09-02 11:44
谷歌URL Context功能技术特点 - 使Gemini模型能够直接访问并处理来自URL的内容 包括网页 PDF和图像[1] - 深度解析PDF 能理解表格 文本结构甚至脚注[7] - 多模态理解 能处理PNG JPEG等图片并理解其中图表和图示[7] - 支持多种网页文件格式 HTML JSON CSV等[7] - 单次请求最多处理20个URL 单个URL内容上限为34MB[5][29] 与传统AI处理URL方式的差异 - 传统方式通过通用浏览工具或搜索引擎插件读取网页摘要或部分文本[5] - URL Context通过API指令Gemini将URL全部内容作为权威上下文进行深度完整解析[5] - 专门为开发者设计的编程接口 可实现更精准的信息提取效果[5][14] 对RAG技术的潜在影响 - 被评价为"RAG的又一颗棺材钉" 提供处理公开网络内容的简单替代方案[8][13] - 无需传统RAG流程中的文本提取 分块 矢量化 存储等复杂步骤[13] - 开发者只需几行代码就能实现更精准效果 无需搭建复杂管道[13][14] 实际应用表现 - 准确提取特斯拉50页财报PDF第4页表格中的总资产$93,941百万和总负债$39,446百万数据[14][17] - 能识别PDF末尾员工遣散信中被星号屏蔽的离职日期及脚注中的解释说明[20][22] - 采用两步检索流程 优先从内部索引缓存获取内容 未命中则进行实时抓取[25] 技术限制与行业趋势 - 无法处理需要登录或付费的"付费墙"内容[29] - 不处理YouTube视频 Google Docs等有专门API的内容[29] - 按处理内容Token数量计费 引导开发者进行高效应用设计[27] - 反映基础模型正将外部能力内置化 底层模型服务吸收原应用层数据处理工作[27]
一年成爆款,狂斩 49.1k Star、200 万下载:Cline 不是开源 Cursor,却更胜一筹?!
AI前线· 2025-08-20 17:34
AI编程助手行业现状 - AI编程助手行业普遍面临盈利困境 毛利率极低甚至为负 每新增用户会扩大亏损[2] - 市场形成三层竞争格局:模型层(如OpenAI) 基础设施层 工具层 Cursor等公司试图捆绑三层但商业模式不可持续[2] - 典型产品如Cursor每月用户订阅费20-200美元 但实际推理成本高达1000美元 依赖风险投资补贴维持运营[2][3] Cline商业模式创新 - 采用开源策略 软件对个人开发者免费 通过企业增值服务(团队管理/安全保障)变现 类似Linux成功路径[5][6] - 不参与"推理套利"游戏 用户自带API密钥连接各类LLM 公司不从中赚取差价[6][50] - 一年内快速增长至270万开发者社区 GitHub获49.1k星 六个月下载量近200万次[7][10] - 完成3200万美元种子轮+A轮融资 企业客户成为主要收入来源[10][52][53] 技术架构与产品设计 - 首创"计划+行动"双模式交互:计划模式探索需求 行动模式自动执行 降低用户学习门槛[12][13] - 深度集成VS Code扩展形态 避免维护分叉版本的高成本 兼容主流IDE环境[17][18][19] - 构建MCP(Machine Control Protocol)生态系统 已支持150+种MCP服务器 实现跨服务自然语言交互[24][25][26] - 放弃RAG和Fast Apply等优化技术 直接利用大模型长上下文能力 编辑失败率降至4%[45][46][47] 行业发展趋势 - 编程成为大模型最具经济价值的应用场景 但推理本身难以独立成为商业模式[21][57][58] - 模型能力提升改变工作分配:初级编码任务由AI完成 工程师转向架构设计等高阶工作[39][40] - 开源生态加速创新 Cline衍生6000+分叉项目 形成活跃开发者社区[42][43][44] - 记忆系统和上下文工程成为技术前沿 智能体需保持叙事完整性处理复杂任务[63][64][66] 企业级市场拓展 - 强调数据隐私与控制 企业可自主选择API提供商 避免敏感数据外流[52][53] - 开发企业级功能模块:安全护栏 治理洞察 预算管理等 满足组织管理需求[54] - 通过投资回报量化工具 帮助企业证明AI编程助手的经济价值[55][56] - 团队计划从20人扩张至100人 聚焦智能体基础设施研发[68][69][70]
对谈 Memories AI 创始人 Shawn: 给 AI 做一套“视觉海马体”|Best Minds
海外独角兽· 2025-08-13 20:03
文章核心观点 - Memoriesai致力于构建基础性视觉记忆层,目标是成为所有AI的"海马体",通过LVMM(大型视觉记忆模型)实现对无限量视频数据的压缩、索引和查询 [2][8][9] - 当前AI的记忆本质是"上下文工程",而真正的类人记忆应是视觉化的,视觉记忆与文本记忆在数据特性(数据量、信噪比)上存在根本差异 [13][14][18] - 构建PB级基础设施能力是打造全球视觉记忆的护城河,公司已建立亿级视频数据库并实现规模化运行 [28][29][30] - 视觉记忆技术将赋能多模态AI助手和人形机器人,成为实现高度个性化服务的关键组件 [21][39][40] Memoriesai的视觉记忆技术与多模态AI应用路径 - 公司定位为B2B基础设施提供商,通过LVMM系统解决视频数据特有的海量存储(单日视频数据超5GB)和低信噪比问题 [8][20][22] - 技术路径区别于text-to-video生成类公司,专注于video-to-text理解领域,解决B2B场景的长链路需求 [12][17] - 视觉记忆系统包含解压层、聚合模块和服务层,采用类脑架构模拟人类记忆的压缩、索引和检索机制 [27][28] LVMM的人类记忆模拟机制 - 系统设计受人类记忆类型(语义/程序性/情景记忆)启发,但尚未实现人类水平的连续学习和记忆重构能力 [25][26] - 关键技术突破包括:基于范式的token聚合、视觉检索模型(VRM)和亿级数据库的实时问答能力 [27][29] - 当前系统在信息重要性判断(retrieval & reranking)环节已接近人脑机制,但抽象能力仍存在差距 [26][27] 大规模视频记忆的基础设施与VRM技术路径 - 采用非端到端架构,通过分布式数据库处理增长性数据,技术路径区别于Gemini等有上下文限制的模型 [28][29] - VRM技术超越RAG(检索增强生成)框架,直接对视觉数据进行token化处理,要求更高的基础设施能力 [29][30] - 团队核心成员来自Meta Ads Team,具备处理亿级数据库的工程经验,实现从演示到规模化运行的跨越 [30] 视觉记忆技术的多行业应用 - 安防领域:实现实时行为检测,应用于商场人流量统计、餐厅翻台率等B2B场景,覆盖零售/楼宇/停车场等 [34][35] - 媒体领域:为短剧提供毫秒级人物信息分析、自动剧本生成和视频再利用解决方案,提升内容生产效率 [35][36] - 视频营销:建立TikTok视频索引库(超100万条),提供创意引擎和网红达人搜索服务,优化内容策略 [35][41] 视觉记忆技术的隐私合规与未来应用方向 - 通过SOC 2 Type 1/2和GDPR合规认证,建立受监管的数据处理体系 [38] - 未来最大应用场景为AI助手和类人机器人,通过视觉记忆实现人机情感连接和个性化服务 [39][40] - 现阶段聚焦B2B基础设施赋能,长期可能通过开源或示范应用推动生态建设 [40][41]
很严重了,大家别轻易离职。。
猿大侠· 2025-08-12 12:11
AI大模型对程序员职业发展的影响 - 当前技术圈普遍存在"AI焦虑",大模型技术频繁被讨论,程序员面临是否掌握AI能力的抉择 [1] - 仅掌握传统CRUD开发技能的程序员市场价值下降,而将大模型融入开发流程(如Prompt设计、RAG、微调)的技术人员更具竞争力 [2] - 企业普遍将AI应用落地作为业务重点,掌握大模型能力的技术人才薪资涨幅超过50%,且获得更多职业机会 [2] AI大模型技术应用趋势 - RAG技术适用于需要持续更新知识的场景,无需重新训练大模型即可实现特定领域应用 [10] - Function Call技术通过集成外部工具增强大模型处理复杂任务的能力,提升交互实用性 [10] - Agent技术是特定场景的AI解决方案,智能客服成为企业最先尝试的Agent项目 [10] - 技术组合应用示例:检索资料需Agent+RAG,整合回复需Agent+Prompt+RAG [12] AI大模型人才培养方案 - 行业推出"AI大模型—就业实战营",通过2天直播课程覆盖技术原理、实战项目复现和职业规划 [2][5] - 课程内容包含5大核心步骤:原理掌握→工具应用→开发实操→信息链接→实战演练 [10] - 实战案例包括金融行业"支小助"、知乎直答等热门产品,逐行解析代码实现全流程复现 [10] - 提供大厂内推资源,简历直达面试官,已有学员通过该体系实现职业跃迁 [18][20] 行业人才需求特征 - 大厂招聘聚焦大模型技术,岗位需求涵盖技术迭代方法、发展空间等维度 [18] - 具备AI能力可帮助技术人员构建壁垒,避免35岁职业危机,延长20年职业生命周期 [14] - 课程名额限制100人,反映市场对AI人才培养的高需求与稀缺性 [5][14]