t-SNE算法
搜索文档
给笔记做一次「降维打击」,我在二维坐标写下了 3000+ 条笔记
36氪· 2025-10-20 16:15
核心技术原理 - 大模型通过Embedding技术将文档/笔记文本转化为高维向量以实现AI搜索[1] - t-SNE算法可将上千维的高维向量数据可视化为2维或3维空间 同时保持数据点间的局部相似性[1] - 在低维可视化空间中 语义相近的文本对应的坐标点距离也相近 即使这些文本未使用相同字符[38] 产品功能特性 - 系统支持显示3000+则笔记的Embedding向量经t-SNE计算后的二维坐标点[2] - 点击坐标点可显示对应笔记内容 并通过绿线和蓝线可视化其引用与被引用的双链关系[4] - 提供搜索框功能 可搜索特定笔记或标签 搜索结果会以红点高亮显示在坐标图上[4] - 支持输入新文字 系统会计算其Embedding并显示为蓝色点 展示其在现有笔记坐标图中的位置[6] 应用场景与效果 - 可视化有助于发现真正的“孤儿笔记” 即那些独立且未被关联的离群点笔记[8] - 算法能有效将主题相关但无直接关联的笔记自动聚集成团 例如对多家餐馆的评价笔记或每月记录的“成果清单”笔记[9][13] - 通过观察不同标签笔记的分布 可分析领域间的关联性 例如“知识管理”与“AI”领域的笔记团簇距离较近[17] - 同一标签下的笔记可能因内容实质差异而被分成不同团簇 例如“投资”标签下关于投资理解的笔记与关于量化交易框架的笔记分布较远[19][21] - 可视化交互可作为低维版本的AI搜索工具 通过输入新文字观察其与现有笔记的邻近度进行探索性搜索[24]