remio
搜索文档
DeepSeek OCR:醉翁之意不在酒
Founder Park· 2025-10-21 15:46
DeepSeek-OCR模型的技术特点 - 模型采用新颖思路,将文字当作图片处理和压缩,作为一个超级高效的“视觉压缩器”[7] - 能够将一篇1000字的文章压缩成100个视觉token,实现十倍压缩,识别准确率达到96.5%[7] - 提供多个分辨率选项,512 x 512图片仅需64个token,1024 x 1024图片需256个token,复杂版面组合使用多种分辨率[13] 行业专家评价与定位 - Karpathy认为未来所有输入大模型的信息都应该是图像形式,哪怕是纯文本也应先渲染成图片再喂给模型[7][11] - 模型性能和思路在学术界不算是重大突破,但产品化贡献值得肯定[13] - 研究思路可能受到字节跳动NeurIPS最佳论文和豆包团队论文启发,DeepSeek团队擅长将实验室研究成果进一步做扎实并产品化[14] 潜在应用方向与发展前景 - 该技术有望优化图文表混排场景处理,大量网页、文档、SaaS软件Dashboard和PPT都包含有效视觉信息,强行转文本会导致信息损失[15] - 如果技术成熟,将推动业界对图文表混排场景优化的研究热潮,提升效果并降低成本[15] - DeepSeek团队提出的用分辨率模拟遗忘机制的假想存在争议,可能更适合描述为“高度近视”而非有效遗忘机制[15]
通用模型无法完全理解用户,AI产品的下一站是上下文的战场|对话AI知识助手remio
量子位· 2025-10-12 15:30
产品定位与核心特色 - 产品旨在重塑知识工作流,打造个人专属的通用AI工作台,核心功能包括自动信息捕获、智能知识管理和AI辅助创作 [11] - 产品核心差异在于为用户提供「第二大脑」,通过无感、自动化的信息采集,使其记忆和信息层面与用户大脑同频,以解决使用ChatGPT类助手时最大的工作量——手动提供信息的问题 [15] - 产品定位为“个人专属”,所有数据存储在用户本地设备,不依赖云端,确保隐私安全,这与互联网大厂基于云端协作的基因形成核心差异 [12][23][52] 目标市场与用户画像 - 目标用户定位为复杂的知识工作者,全球现有7亿到10亿知识工作者,未来绝大多数将是复杂知识工作者,该群体全球规模至少达数亿 [25][26][27] - 复杂知识工作者包括各类管理者、高阶创造者和专业服务人士,产品适配策略性任务,这类任务需要高认知能力但不需要太多工具使用能力 [26][30] - 简单知识工作者(如客服)未来将被AI Agent取代,例如美国现有70万到80万客服,预期三到五年后将减少到20万以下 [26] 技术实现与产品优势 - 信息采集范围广且实时性强,得益于PC端开发(信息已在本地内存)、本地向量化大模型优化(Mac端NPU优化使向量化计算速度比开源模型提升200%以上)以及对特定在线资料API的深度适配 [16] - 产品的问答效果与众不同,核心原因在于通过实时、全面、自动化采集用户接触的所有信息,做到与用户的信息层面高度一致,最擅长回答与用户工作紧密相关的问题 [18][19] - 产品具备Collection功能,能对内容进行多维度组织和关联,类似用户手动构建知识图谱,旨在满足AI的使用需求,帮助算法自动关联以精准召回信息 [41][42][43] 增长策略与当前阶段 - 前1000个用户主要通过创始人个人自媒体(公众号、Twitter等)和Product Hunt发布(获得日榜和周榜第一)获取,当前未进行规模化扩张,主要专注于搭建增长基础能力 [48] - 当前最关注的核心指标是新用户激活,产品需要用户前期投入以沉淀数据,因此面临用户引导和教育的挑战,正在探索通过“提示词仓库”等方式让用户看到理想结果再引导同步数据 [31][33][34] - 公司坚持公开开发,持续进行用户深度一对一访谈以拉近与用户的距离,进行产品共创,每周保证2到3次深度交流 [49] 行业观点与产品愿景 - 在AI产品时代,个人数据对用户自身至关重要,但对他人的重要性远低于互联网时代,产品设计体现了“我的个人数据只对我有核心价值”的理念 [24] - 主流AI产品本质都是Agent,核心区别在于各自的“知识储备”,产品懂的东西(用户私域数据)其他Agent可能不懂 [21][44] - 产品核心价值在于解决真正影响工作效率的高阶问题(如盘点近两天工作需跟进的内容),而非当前AI产品集中的低阶使用场景(如文档问答) [55][56][57]
AGICamp 第 001 周 AI 应用榜发布:DeepPath、AI 好记、Remio 等上榜
AI前线· 2025-07-03 16:26
AGICamp平台发布 - AGICamp首期AI应用榜周榜于2025年6月27日在AICon全球人工智能开发与应用大会发布,上线10天内已收录14个AI应用,涵盖软件、硬件及Agent智能体等类别[1] - 平台定位为AI原生社区,旨在为开发者提供作品展示平台,同时帮助用户发现和评价AI应用,通过线上线下融合推动AI技术落地[1] - 榜单采用周更机制(每周二更新),排名依据评论和点赞数据,其中评论权重更高以促进真实用户互动[1] 平台运营机制 - 当前支持两种应用提交方式:开发者自主发布和推荐人分享优质应用,审核通过后即可展示并参与榜单排名[5] - 极客邦科技旗下资源(InfoQ、极客时间、TGO鲲鹏会)将为优秀应用提供免费传播支持[5] - 平台处于快速迭代阶段,通过创始人微信社群收集深度用户反馈加速产品优化[2] 首周上榜应用 - **工作效率类**占据主导:DeepPath时踪(AI个人助理)、AI好记(视频学习效率工具)、remio(信息管理助手)等3款应用上榜[4] - 其他类别代表应用包括ClackyAI(工程协作工作室)、DeepChat(桌面AI开发平台)、SwiftAgent(智能数据分析体)等[7] - 硬件领域有牛听听-慧听牛(儿童AI助手)和灵心巧手(市占率超80%的灵巧手解决方案)[7] 行业动态关联 - 首届AICon大会以"探索AI应用边界"为主题,聚焦Agent、多模态等前沿方向,将于8月22-23日在深圳举行[7] - 行业人才流动频繁:Meta高薪挖角OpenAI核心团队(近70%为华人),华为开源盘古大模型,清华系Agent框架获1.9k stars关注[8]
五月AI产品上新:设计Agent刷屏,汪源的笔记产品霸榜Product Hunt
Founder Park· 2025-05-13 21:07
AI设计工具 - Lovart是全球首个设计Agent,能完成从创意拆解到专业交付的全流程,内置GPT image-1、Flux pro、OpenAI-o3等多家图片生成、视频及音乐模型,支持自然语言设计和批量出图[4][8][9] - 产品在AI设计和设计圈刷屏,Founder Park分享的10个邀请码引发99+条求码消息[5][10] AI笔记与效率工具 - remio是前网易副总裁开发的AI Native笔记工具,结合AI搜索与笔记功能优化工作流程,改变用户捕捉、整理和利用信息的方式[10][13] - YouMind是语雀创始人推出的笔记产品,主打"万物化稿,稿生万物",支持多种素材转化为可编辑稿件并生成最终内容形式[55][59][60] - 快手推出的"喵记多"笔记产品采用拟人化"喵仔"AI助手,支持文字、图片、文件等格式收藏和对话式分类[46][48][49] 播客与内容创作工具 - Castwise是Podwise团队新品,能快速将播客音频处理成shownotes、公众号文章、小红书笔记等社交媒体素材,提高内容分发效率[14][17][18] - Nooka是重新定义听书体验的App,以20分钟音频播客解读非虚构书籍,支持用户打断提问并分享对话片段[41][42] AI搜索与知识管理 - 夸克浏览器上线"Deep Search"功能,主打先思考再搜索,具备多模态处理能力,可解读上传图片[19][20][23][24] - 秘塔推出知识讲解产品"今天学点啥",支持个性化拆解文章、视频或书籍,并上线针对家长的"讲题"功能[43][45] AI演示与视频工具 - Deckspeed是Product Hunt日榜第一的AI PPT产品,支持对话式内容创作、实时反馈、视觉优化与多工具联动[25][27][28] - Veogo AI是视频流量预测工具,能分析小红书热门视频并生成定制化脚本模板,提供流量趋势预测等功能[29][31][32][33] AI游戏与社交应用 - 萌爪派对是前字节AI Lab研究员开发的AI养宠社交游戏,玩家可培养千人千面的AI萌宠并体验多种互动方式[51][53][54][56] - Splitti是专为ADHD人群设计的日程管理软件,通过AI帮助用户拆解任务并降低启动难度[34][35][39] 其他AI产品 - Perplexity Comet是即将发布的AI浏览器,自带Agent功能可执行复杂操作如推特回复[50] - Qwen App是通义千问发布的国际版产品,提供Qwen 3模型及语音对话功能[61][62]