Workflow
锦秋集
icon
搜索文档
中国最活跃的AI投资人们手搓的CEO大会,AI浓度有多高?|锦秋基金首期CEO大会
锦秋集· 2025-10-31 09:25
大会概况 - 锦秋基金团队将亲自操盘一场100人规模的AI领域CEO大会,定于11月1日周六举行 [1] - 大会定位为创始人之间的"聚会",不邀请外部权威站台,强调创始人的思考与判断是核心 [1] - 活动包含圆桌讨论、长桌讨论及晚宴派对等多个环节 [8][9] 核心理念:Experience with AI - AI发展进入"体验时代",从模仿人类数据转向通过传感器和环境反馈主动体验世界 [6] - 在此时代,AI成为一个不断试错、持续学习的生命体,而非封闭系统 [6] - 创业者被视为不断与世界交手、与同伴联动的创造节点,而非封闭孤岛 [6] - 该理念延续自锦秋基金年初策划的"CES硅谷之旅——Scale with AI"活动,当时与35家顶尖机构进行了密集交流 [19] 活动环节设置 - 上午环节未在提供内容中详述 [7] - 下午环节包括"创业圆桌·Ask me anything",由投资人为每位创始人量身策划问题,以及"讨论长桌·锦秋小饭桌plus版",以直观形式探讨未来预判 [8] - 晚间环节为"月光派对"晚宴,旨在为创新玩家提供同频碰杯的交流机会 [9] 产品发布与嘉宾分享 - 大会现场将进行产品首发环节"AI狂人.showtime",重磅邀请7位AI狂人分享不同方向的AI创新样本 [11] - 锦秋基金创始合伙人杨洁将首次分享对科技创新者历史机遇、穿越法则的判断与未来信仰 [11] - 锦秋基金合伙人臧天宇将分享锦秋基金2025年的投资实践及关于未来的积极信号 [11] 技术支持与合作伙伴 - 签到环节联合Vidu打造AI打卡机,可生成AI形象并扫码生成视频,让照片"活"起来 [13] - 乐享科技、生数科技、庞伯特PongBot等公司的代表产品将在现场展示 [15] - 大会筹备得到豆包大模型、Vidu、Suno、ChatGPT、Claude、Midjourney等众多AI工具伙伴的支持 [22]
锦秋基金参与微纳核芯超亿元融资,首创三维存算一体3D-CIM™芯片开启大模型推理新篇章|Jinqiu Spotlight
锦秋集· 2025-10-30 21:34
文章核心观点 - 锦秋基金已完成对微纳核芯的投资,微纳核芯是一家全球领先的存算一体AI芯片公司,其首创的三维存算一体3D-CIM™芯片技术旨在破解AI大模型推理中“高性能、低功耗、低成本”的不可能三角,为端侧AI应用提供解决方案 [2][4][8] 投资事件与市场背景 - 微纳核芯完成超亿元B轮战略融资,由蓝驰创投领投,中芯聚源、锦秋基金等顶级机构参与 [4] - 端侧AI芯片组市场规模预计将从2024年的20亿美元增长至2028年的167亿美元 [6] - 端侧模型能力提升和算力增强将推动AI快速渗透,端侧计算是降低延迟、解决隐私安全的必然趋势 [4] 行业趋势与政策驱动 - AI Agent将从执行工具演进为决策伙伴,国务院文件提出2027年实现智能体终端普及率达70%的目标 [6] - 2035年全球智能体数量预计将达到9000亿台,算力需求提升10万倍 [6] - 端侧部署在隐私、时延、成本、可靠性方面具备优势,端-边-云协同在大模型推理中的必要性日益凸显 [6] 技术痛点与解决方案 - 大模型推理芯片面临高性能、低功耗和低成本三大核心痛点 [7] - 三维堆叠是实现高TPS性能的主流选择,但仍需破解“不可能三角” [7] - 微纳核芯的3D-CIM™架构融合了3D近存计算、存内计算和RISC-V存算异构架构,旨在解决上述痛点 [8] 微纳核芯产品与技术优势 - 3D-CIM™技术通过存储单元和计算单元融合,实现4倍以上算力密度提升和10倍以上功耗降低,相比传统冯诺依曼架构 [8] - 该技术不依赖于先进工艺,确保供应链自主可控,定位为全球最快可量产3D端侧AI芯片 [9] - RV-CIM™全栈技术解决了存算一体的计算完备性和软硬件生态壁垒问题 [8] 应用场景与市场定位 - 产品为AI手机、AI PC、IoT、一体机等大模型推理应用提供芯片解决方案,并可拓展至服务器、AI机器人等场景 [9][12] - 公司致力于开辟千亿级大模型推理蓝海市场,实现无处不在的AI普惠 [11][13] 团队与生态合作 - 微纳核芯团队拥有数十名知名高校博士/博士后,近六年在ISSCC上连续发表14项突破世界纪录的芯片成果 [10] - 公司作为“RISC-V存算一体应用组”组长单位,牵头启动全球首个RISC-V存算一体标准研制和生态建设,联合数十家产业链企业 [11] - 公司是唯一同时与多家手机龙头企业深度合作、且拉通手机主芯片厂商配合的3D AI芯片公司 [11]
这个秋冬,吃饱了,才有热量改变世界!|「锦秋小饭桌」Vol.36-38上新
锦秋集· 2025-10-29 16:50
活动概览 - 锦秋小饭桌是为创业者打造的常态化闭门社交活动,每周五晚在北京、深圳、上海、杭州等地举办[4] - 活动形式为非正式会谈,聚集优秀创业者、技术大牛和产品创新者进行实打实的干货分享和真诚交流[5] - 2025年已举办35场活动,过去一个月举办了4场围绕AI Agent、具身智能、机器人硬件等主题的讨论[1] AI Agent领域讨论 - 深圳举办的AI Agent Builder之夜聚集了30多位投资人、创业者和大厂技术专家[7] - 探讨AI作为合作者时AI Agent产品价值的重新定义,参与者包括刚获融资的创业者和活跃用户过千万的产品负责人[8] 具身智能技术发展 - 具身智能技术中VLA和世界模型被视为关键突破方向,能融合多模态数据增强系统泛化能力[13] - 触觉传感器是机器人感知关键,工业场景中非接触式保护对精度与安全至关重要但抗干扰性仍是挑战[13] - 具身智能在机器人任务中成功率有限,工业场景注重稳定而生活场景更依赖灵活[16][17] 机器人商业化应用 - 工业场景技术落地难点在于理解产线需求和应对不确定性,非算法先进性[18] - 企业需通过深入沟通与真实案例帮助客户理解技术价值,避免Demo认知偏差影响决策[14] - 半导体行业在具身智能浪潮中迎来新增长点,客户资金充裕但非标场景仍不适合大规模应用[15] 硬件创业策略 - 硬件创业需平衡性能、成本、稳定性的不可能三角,面向场景做恰到好处的取舍[33] - 建议采用数据驱动迭代,让用户先使用并基于真实数据优化,比闭门造车更有效[34] - 供应链需本土化,采用国产MCU/驱动/AI模组建立备份方案防范地缘风险[36] 产品定义与用户需求 - 产品胜负关键不在于技术最强而在于谁先创造净价值,用户需要最合适而非最先进的产品[28] - 情感型产品可围绕人类被倾听、被理解的社交需求展开,结合游戏化机制提升留存[28] - 专业用户需要可控的工业级制作工具,普通用户需要低门槛一键处理工具,产品定位需明确[43] 多模态内容创作 - 多模态工具竞争点不在模型能力,而在于解决运动、关系、真实性问题[43] - 影视内容生产正走向资产复用,常用镜头、机位模板等资产可被调用和交易决定规模化效率[43] - VEO3目前综合素质最高,但动作细节训练数据稀缺且非人形骨骼绑定仍是能力差异点[43] 硬件出海策略 - 众筹是消费电子出海高杠杆入口,需在三个月内聚合投放、内容、社群集中放大品牌势能[40] - 要通过KOL与核心爱好者深度共创内容,让真实使用场景反哺营销形成内容飞轮[40] - 众筹后应通过全球社群活动将初期热度转化为长期品牌资产,实现持续销售[41] 量产管理方法 - 量产需从需求出发明确核心痛点与可量化收益,用最小可卖版本验证场景与付费意愿[38] - 建议阶梯式投资,越临近尾声决策代价越大,每个阶段保留否决权避免大钱补错误[39] - 需前置暴露致命风险,将合规、关键器件等提前验证并设立严格放行条件[39]
AI翻译PDF工具大PK:内容OK,格式崩?| Jinqiu Scan
锦秋集· 2025-10-28 12:00
文章核心观点 - AI翻译工具在处理复杂PDF文档(如研报、财报、学术论文)时面临格式还原、术语准确性和语言连贯性三大核心挑战,不同工具在不同场景下表现各异,目前已有部分产品展现出专业可用性,但整体仍需结合具体需求进行选择[7][8][9][49] 测评背景与设置 - 测评旨在解决PDF翻译中常见的表格塌陷、排版混乱、扫描件识别错误等问题,特别是针对结构严谨、术语专业的文档[2][3][7] - 测评选取研报、财报、学术论文三类高价值场景文档,分别考察翻译准确性、排版美观性、语言连贯性三个维度[7][8][16] - 测评设置统一的专业翻译Prompt要求,包括严格保持段落结构、术语处理规范(首次出现使用"中文译名(英文原文)"格式)及根据内容类型调整翻译风格[10][11][12][13][14] 参与测评产品 - 测评涵盖14款主流AI翻译工具,包括Minimax、Manus、天工、Genspark、Gemini、百度翻译、彩云小译、ChatGPT、Kimi、豆包、Transmart、DeepPDF、SimplifyAI、DeepL、沉浸式翻译、DeepSeek[20][21][23] 研报翻译测评结果 - SimplifyAI、豆包、Transmart在术语处理、数据匹配与文本逻辑方面表现均衡,具备专业可用性[23][24] - DeepL表现最佳,排版美观且翻译准确度高,例如准确翻译"21%的受访者报告已根本性重构至少部分工作流程"等关键数据[32] - 部分工具如ChatGPT、彩云小译存在术语不一致(如将"gen AI"误译为"基因人工智能")和格式跳跃问题,影响连贯性[23][29] 财报翻译测评结果 - deepPDF、SimplifyAI、DeepSeek在财务报表翻译中准确还原关键指标和术语,表格结构与视觉排版保留度高,适合财务分析使用[36] - ChatGPT与Kimi数据精准性良好,但表格格式还原不完整或术语表述随意,需人工校对[36][38] - Minimax与豆包保留原有结构与数字完整性,但存在中英混排、符号残留等细节问题[38] - Transmart、Genspark、百度翻译、DeepL出现明显术语误译(如将"Gross margin"错误翻译为"毛利率")和数字格式混乱[38][40] 学术论文翻译测评结果 - ChatGPT与Minimax在术语精度、语体风格和结构还原方面表现出色,译文贴近原文逻辑,适合正式出版或研究使用[44] - SimplifyAI、天工、Genspark与豆包整体表现良好,排版清晰且术语统一,个别句式略显直译但不影响理解[44] - DeepL与Kimi表现中规中矩,偶有表达晦涩或断句不顺问题[44] - 彩云小译、DeepPDF、Transmart出现概念性误读,如将"LLM"错误翻译为"法学硕士"或"有限责任机制",严重影响学术准确性[44] 总结与工具选择建议 - 当前AI翻译在语义准确性与可读性方面已达可用水平,部分产品在版面保留与数值处理上表现稳定,但扫描件解析、术语一致性及复杂格式可编辑性仍存挑战[49] - 财报翻译场景推荐优先考虑天工、沉浸式翻译、DeepSeek,强调表格复现与数字保真[50] - 学术论文翻译场景建议选择语义与学术风格兼具的ChatGPT与Minimax[50] - 提升翻译精确度的关键在于增强分段处理能力,避免大段整体翻译导致的误差,确保格式不错乱[50]
锦秋基金被投企业Pokee AI 推 7B 研究智能体 PokeeResearch,RLAIF + 推理脚手架重塑深度研究
锦秋集· 2025-10-27 20:57
➡️ https://github.com/Pokee-AI/PokeeResearchOSS 锦秋基金已完成 Pokee AI 的投资。 锦秋基金,作为 12 年期的 AI Fund,始终以长期主义为核心投资理念,积极寻找那些具有突破性技术和创新商业模式的通用人工智能初创企业。 在大模型纷纷卷规模的当下, 锦秋基金被投企业—— Pokee AI 选择了一条不同的路——推出 研究智能体 PokeeResearch , 让 AI 学会 如何像研究员 一样思考与验证 。 这是一款专为"深度研究"场景打造的智能体模型,不靠更大的参数堆叠,而是在"推理稳定性"和"事实可靠性"上实现了新的突破。 他们最新发布的 一款面向"深度研究"场景的 7B 参数智能体 ,采用 "来自 AI 的反馈强化学习"(RLAIF) 与 链式思维的多轮自校验推理脚手架 ,聚 焦解决 浅层检索、对齐度量薄弱、工具使用脆弱 三大痛点。 根据团队实验,PokeeResearch 在 10 项深度研究/开放域问答基准上取得同规模 (7B)最佳平均表现。 ➡️ 项目已在 GitHub 以 Apache 2.0 协议开源推理与模型代码 01 核心看点 训 ...
从IPO神话到AI标杆:Snowflake如何让90%员工用上AI,每周省下418小时|Jinqiu Select
锦秋集· 2025-10-25 15:04
文章核心观点 - Snowflake通过构建AI委员会、开发专有代理模型等系统性方法,实现了AI在营销和销售团队中90%的高采用率,并显著提升了运营效率与投资回报率[1][3][5] - 公司强调AI成功的关键在于将自上而下的战略重点与自下而上的创新文化相结合,并以坚实的数据战略和安全治理为基础[8][34][41] - AI的价值被定位为高效的任务自动化工具,其部署必须与可衡量的商业成果(如成本节约、收入增长)紧密挂钩,而非仅仅追求技术的新颖性[9][40][44] AI成功实施的关键要素 - 成功公司具备好奇心文化并得到高管指令的支持,仅鼓励员工尝试AI会导致混乱和重复工作[8] - Snowflake成立了由约30名成员组成的AI委员会,成员投入约20%的工作时间进行测试和学习,并每季度向整个组织分享成果[8][18][20] - 需要首席执行官将AI列为首要战略重点,并结合自上而下的领导与自下而上的创新[8][41] AI作为任务自动化工具的价值 - AI应被视为高效的任务自动化工具,而非魔法,Snowflake的全球支持团队使用AI工具每周节省418小时[9][33] - 450人的营销团队在起草视频脚本、准备面试等特定任务上节省了90%的时间[9][25] - AI部署需明确商业理由,衡量标准是能否赚更多钱或省更多钱,时间的节约需转化为成本节约或收入产生[40][44] 专有代理模型的颠覆性成果 - Snowflake构建了两个专有代理模型:活动代理提供每个活动的实时投资回报率数据,并自动优化数字广告支出和渠道分配[10][21] - 竞争情报代理为销售团队提供针对特定竞争对手、用例和行业的即时定制化谈话要点,解决了B2B领域手动分析几乎不可能完成的问题[10][22] - 基于实时性能数据在渠道间动态转移支出的能力显著提高了投资回报率[26] 数据安全与治理的基石作用 - 大型企业担忧将个人身份信息和敏感数据发送给随机AI工具,Snowflake专注于可信、受管控、集中化的数据存储[11][14] - 客户可使用任何大型语言模型,但只有经批准的模型才能访问其数据,不符合要求的模型会被自动锁定[11] - 治理是不可协商的基础,任何新技术的广泛部署前必须通过安全审查并满足治理法规[20][34] 营销AI用例与高采用率 - Snowflake的450人营销团队中90%的成员每天都在使用AI,这通过AI委员会的结构化方法实现,而非简单的自上而下命令[16][18] - AI应用包括潜在客户评分、内容创作与本地化(节省90%时间)、数字广告优化等,带来了巨大的成本效率和执行速度提升[25][26] - 营销部门负责整个公司的本地化工作,AI在此过程中带来了显著的成本节约[25] 销售AI用例与组织演变 - Snowflake认证了每一位解决方案工程师直至第四线领导,建立了技术售前组织,为AI工具(如Cursor AI)的快速部署(六周内)奠定了基础[28] - 内部AI工具Raven为销售代表和高管提供客户360度视角,查询结构化、半结构化和非结构化数据,实现了对客户理解的定性改进[29][30] - 首席执行官每周至少会见10位客户,并在会前使用Raven获取账户信息,体现了高管层对AI工具的采用[30] 组织结构与团队整合 - Snowflake将以前分散的数据和商业智能团队从销售、营销等部门整合到一个由首席数据官领导的共享智能团队中,消除了数据孤岛[27][39] - 该团队包括数据科学家、分析师和产品人员,他们集中报告以消除重复,同时保持密切的职能伙伴关系[27][39] - 这种整合加速了Raven和竞选/竞争情报代理等内部工具的发展[27] AI时代的招聘与文化 - 招聘理念转变为更看重能力(如适应性、好奇心、终身学习)而非当前技能,因为技能可以学习而适应性是超能力[35] - 为AI相关公司招聘人才变得更容易,尤其是年轻人才渴望在推动AI前沿发展的公司工作[12][35] - 公司在AI领域的正确定位和可展示的投资回报率有助于吸引人才[12][35] 内部创新驱动产品机会 - Snowflake坚持作为自身产品的“零客户”,其内部AI工具(如情报工具)正作为外部产品发布,任何客户都可部署类似代理[14][36] - 这种零客户方法带来了飞轮效应:内部创新驱动产品开发,产品吸引顾客,顾客为更多创新提供资金[37][38] - 内部团队真实使用和改进工具,确保了产品路线图与实际业务价值的一致性[38] 应避免的常见错误 - 避免告诉团队中每个人都去测试AI,这会造成混乱和重复工作,应通过专门小组进行结构化的探索[43] - 避免用“酷因素”而非投资回报率衡量AI,部署必须有明确的业务指标,如节省的时间或优化的支出[44] - 避免孤立的数据团队和碎片化的工具,整合数据基础设施和AI工具对于实现跨职能洞察和规模化至关重要[45] - 不可跳过治理基础,在没有适当安全审查和治理框架的情况下快速推进AI实施会带来风险[46] - 技术角色需要真实的技术深度,例如对销售工程师进行强制性认证,为AI工具的有效部署奠定基础[47]
锦秋基金持续加码星尘智能,拆解人形机器人遥操作关键技术与发展前景
锦秋集· 2025-10-24 21:14
文章核心观点 - 锦秋基金作为长期主义的AI基金,在2024年和2025年连续投资星尘智能,看好其绳驱AI机器人技术及商业化前景[1][2][3] - 遥操作是人形机器人部署的关键支撑技术,其技术演进正从演示阶段迈向试点部署阶段,在人工智能整合、低延迟硬件等方面取得快速进展[5][8][16] - 星尘智能是业界首个量产绳驱AI机器人的公司,其产品Astribot S1已在科研、商业服务、文娱演出及工业等多个领域落地应用[3] 遥操作系统的关键组件 - 典型的人形机器人遥操作架构包含四个核心环节:人类输入设备、重定向与控制模块、反馈接口以及通信信道和机器人端控制[8][10][14] - 人类输入设备技术多样,包括惯性测量单元(IMU)、虚拟现实控制器、外骨骼及生理传感器(如肌电图EMG)用于意图预测[10] - 重定向与控制模块的核心功能包括运动学重定向、运动规划、稳定控制(如基于零力矩点ZMP)和全身控制器采用二次规划(QP)等优化技术[10] - 反馈接口主要为操作者提供遥在感,类型包括视觉反馈(VR/AR)、触觉反馈(力、震动)以及听觉与平衡反馈[14] 历史演进及进展 - 遥操作概念起源于20世纪60年代,早期研究聚焦于远程操作中的时间延迟问题;20世纪80-90年代随着"远程存在"理念提出而进一步发展[13] - 2010年前核心研究方向为操纵器的双向控制,并进行了仿人机器人在太空领域的早期实验(如METERON项目)[13] - 到2020年代中期,动作捕捉与基于学习的方法降低了对人工关节控制的依赖,使人机交互接口更直观[15] - 2024-2025年,遥操作技术在人工智能整合、低延迟硬件研发与高韧性设计方面取得快速进展,已从演示阶段迈向试点部署阶段[16] 遥操作系统的分类与比较 - 常见的遥操作系统可分为五大类:机械式同构映射、VR/外骨骼辅助、数据手套/动作捕捉跟踪、人类动作迁移及仿真生成[17] - 机械式同构映射系统通过物理同构结构实现1:1动作映射,操作直观,适用于初级数据采集场景,但硬件体积大、数据类型单一[18][23] - VR/外骨骼跟踪系统采用低成本VR设备替代主臂,降低硬件门槛,但存在信息损失严重、逆运动学(IK)奇点问题及采集效率低等缺点[25][26] - 数据手套与触觉反馈系统专注于手部精细动作采集,支持多模态数据记录,适用于高精度操作场景,但设备成本高且受环境干扰[33][35] - 动作捕捉跟踪系统可实现全身动作捕捉,是仿人机器人数据采集的最优选择,支持毫米级精度与低延迟数据传输,如Open X-Embodiment数据集含100万条轨迹[36][38] - 人类动作迁移方案无需依赖机器人硬件,直接采集人类全身动作并通过重定向算法映射至机器人,采集效率高但存在跨形态差异问题[41][42] - 仿真器生成数据方案成本最低,通过虚拟环境生成动作轨迹,但仿真到现实(Sim2Real)差距大,目前仅适用于刚体操作任务[46][51]
让AI来邀请AI科学家田渊栋博士加入锦秋基金,这事儿靠谱吗?|Jinqiu Scan
锦秋集· 2025-10-23 23:12
文章核心观点 - 文章通过一个具体场景(使用AI模型为顶尖AI科学家田渊栋博士起草邀请信),评测了五款主流大语言模型在正式商务沟通中的表现,旨在探索AI是否能在理解人类情感、价值判断和沟通分寸感方面达到实用水平 [1][2][6][7][8] - 测评结果表明,不同模型在"正式得体"与"人情温度"的平衡上展现出显著差异,其中ChatGPT 5在整体均衡性和专业度上表现最佳,几乎可直接用于实际商务场景 [16][17][18] - 该实验超越了简单的文本生成能力测试,其深层目的在于验证AI在真实、复杂的人类沟通场景中,对目的、语气、逻辑和行动号召的综合理解能力 [42][43] 测评方法 - 测评选取了五款主流大模型:ChatGPT 5、Claude Sonnet 4.5、Gemini 2.5 Pro、通义千问Qwen 3-Max和文心一言4.5 Turbo,以确保在语言风格、逻辑表达与文化语境理解上具备多元对比价值 [10][11] - 测评采用统一的Prompt模板(中英文双语),为模型设定了相同的系统角色(经验丰富的沟通策略专家)和任务目标(起草一封给田渊栋博士的正式邀请信) [11][12][13] - 评估体系包含六个核心维度:个性化程度、价值主张清晰度、建立连接的能力、语气风格、结构完整度以及创造性与自然度 [11][16] 模型测评结果对比 - **ChatGPT 5**:综合表现最佳,在六个维度上得分最均衡(个性化8、价值主张9、连接感8、语气9、结构9、自然度8),其最大优势在于精准拿捏正式邀请所需的语气分寸,结构完整逻辑清晰,生成结果几乎可直接作为正式邀请函使用 [17][18] - **Claude Sonnet 4.5**:在"情感理解"上表现突出,连接感维度得分最高(9分),文字自然流畅、人文感强,对合作路径的阐述更为详实有说服力,但价值主张陈述略保守(7分) [11][17][27] - **Gemini 2.5 Pro**:结构与逻辑链条优秀(结构9分),但连接感与亲和力略弱(7分),行文偏"理工式",在表达情感时显得谨慎保守,使得文本缺乏温度 [17][38] - **通义千问Qwen 3-Max**:中文场景优势明显,语言得体,在各项维度上表现稳定(得分在7-8分之间),但英文版在细节精准度上稍逊 [17] - **文心一言4.5 Turbo**:中文正式公函风格稳定,但模板化明显,个性化与情感驱动较弱(相关维度得分均为7分),英文版本的节奏感和流畅度有待提升 [17][44] 公司战略与定位 - 公司(锦秋基金)是一家专注于推动人工智能通用智能(AGI)发展的双币种早期风险投资机构,其核心战略是将"算力"(核心资源)分配在与顶尖技术研究者、产品人和创业者的深度对话与连接上 [2][15][45] - 公司已建立起广泛的AGI领域投资组合,自2024年7月以来已投资约70家人工智能创新企业,覆盖机器人、多模态基础模型、AI基础设施等多个前沿方向 [42][46][47] - 公司通过"锦秋小饭桌"等常态化闭门活动构建创业者社群,并设立"Soil种子专项计划",旨在持续支持勇于探索边界、定义未来的创造者 [49][55]
AI们给锦秋基金的写稿建议,我们要不要听? | Jinqiu Scan
锦秋集· 2025-10-23 16:40
测评背景与目的 - 锦秋AI实验室使用其公众号"锦秋集"2025年1-9月的真实运营数据,对14款AI数据分析工具进行测评,旨在评估AI工具在实际业务场景中的应用效果[1] - 测评核心关注AI生成的分析报告是否达到交付标准、洞察是否深刻、以及生成速度、易用性、可视化效果等用户体验[2] - 测评设计了两轮提问,模拟真实工作场景中的两种典型需求:简易Prompt测试AI的自主发现能力,详细Prompt测试其专业深度和指令遵循能力[5][7] 测评工具范围 - 测评覆盖14款具有数据分析能力的AI工具,包括Claude Sonnet 4.5、ChatGPT-5、Gemini 2.5 Pro、智谱清言GLM-4.6、Coze、天工超级智能体、腾讯混元、阶跃AI、MiniMax、通义千问、Julius AI、WPS AI、办公小浣熊、Rows AI等[4] 简易Prompt测试结果 - 在简易Prompt测试中,Claude Sonnet 4.5整体逻辑与报告结构最接近人类分析师,能主动提出"品牌背书效应"、"热点关联"等关键因素[12] - WPS AI在中文语境与图表表达上最自然,能识别"人物故事类内容"的高互动与"白皮书素材"的高传播率[12] - MiniMax报告完整、图表丰富,会自动生成月度趋势线,是"慢工出细活"代表[12] - 办公小浣熊排版优雅、表达流畅,可量化涨粉率(研究报告类≈4%),实用且直观[12] 详细Prompt测试结果 - 在详细Prompt测试中,Claude Sonnet 4.5严格按8模块输出,分析精细到标题长度、发布时间段、涨粉来源,并基于相关性得出策略,几乎媲美人工专业报告[17] - MiniMax输出内容同样全面、图表丰富,策略层分析到位,是"分析型研究员"代表[17] - 阶跃AI紧跟结构要求,分析细致,稳定可靠[17] - WPS AI和办公小浣熊能按模块执行到位,但预测分析与模型层实现不足[17] AI工具能力差异与局限性 - 数据质检能力差异显著,部分工具如Claude、Julius、阶跃AI能主动发现数据问题并修复,而Rows AI仅能读取数据结构,无分析能力[19][10] - 中文情感分析能力极不稳定,各工具对同一份评论数据的情感判断结果天差地别,例如WPS AI判断正面评论占比5.10%,而智谱GLM-4判断为68.00%,运营者绝不能依赖单一工具的情感分析做决策[20] - 可视化能力分化,部分工具如MiniMax、WPS AI、办公小浣熊能直接生成图表,而Claude、ChatGPT等则提供代码生成[21] - 用户体验存在差异,Coze和MiniMax生成速度明显偏慢,腾讯混元需要特定Python库增加了使用门槛,国内工具如WPS AI、办公小浣熊在中文界面和图表显示上更友好[21] 对公众号运营的具体建议 - 内容策略应聚焦于"投资动态"(尤其是独家或重磅项目)、"深度研究/资源型内容"以及"内部动态/人物故事"这三类涨粉效果最好的内容[22] - 发布节奏建议采用"周日深度+周中热点/动态"的模式,数据显示周末(尤其是周日)发布深度内容的涨粉效果更佳[23] - 分享裂变是涨粉的核心驱动力,高分享文章的"每次分享带来阅读数"远高于平均水平,建议增加"可截图金句卡片"、"文末分享话题引导"等机制提升内容的社交货币价值[24] - 可通过优化标题(如加入具体数字、强价值承诺)和测试不同推送时间段来提升推送打开率[25] - 用户评论分析显示用户对活动报名、资源获取、内容深度有强烈需求,建议优化活动报名流程、建立资料库,并持续产出高质量深度内容[26]
OpenAI Atlas 深度测评:饼画得很大,但…...|Jinqiu Scan
锦秋集· 2025-10-22 22:21
文章核心观点 - ChatGPT Atlas是OpenAI推出的首款桌面浏览器,标志着公司战略从提供底层AI模型延伸至直接控制用户工作流与Web入口[1] - 该产品旨在成为"真正的超级助理",通过将ChatGPT深度融入浏览体验来实现"理解你的世界并帮助你实现目标"的效果[3] - 当前版本在产品成熟度方面存在明显差距,战略雄心与现实能力之间有不小距离,尤其是在基础体验的打磨上仍处于非常早期阶段[4][5][36][37] 三大核心能力测评总结 即时上下文感知(侧边栏对话) - 官方承诺ChatGPT能够伴随用户 anywhere across the web,并理解用户正在查看的内容[9][10] - 学术论文研读场景测试失败,无法成功读取和理解长篇英文学术论文网页内容,PDF文件同样无法直接交互,需要手动上传文件[12][13] - 信息流网站汇总场景中,仅提取五条概括性内容,覆盖面与深度严重不足,暴露信息抓取和关键点提炼的局限性[15][16] - 跨语言邮件润色场景表现出色,能够准确获取选定文本并完美执行翻译润色指令,生成专业商务英文邮件[17][18] - 页面级广域上下文感知能力初级不可靠,而文本级精确上下文感知能力出色,体现为"作用于选区"的工具而非"理解整个页面"的助理[23] 个性化浏览器记忆 - 官方宣称浏览器记忆功能能让ChatGPT记住用户访问网站的上下文,支持基于长期记忆的复杂指令[19][20] - 求职面试准备场景中生成的大纲内容高度同质化,缺乏对浏览过的具体公司和岗位的深度见解,未能体现浏览历史有效利用[22] - 节日礼品挑选场景能识别"美妆护肤品"大类兴趣,但推荐止步于品类层面,无法给出基于浏览记录的具体品牌或产品建议[25][26] - 记忆功能存在明显"颗粒度"问题,仅能进行关键词级别索引分类,缺乏对内容深层语义和用户潜在意图的理解推理能力[27] - 用户可随时开关记忆、按站点控制权限、清除历史记录,体现设计上的审慎态度[28] 自主智能体模式(Agent Mode) - 该模式面向ChatGPT Plus、Pro和Business订阅用户,旨在将浏览器从被动工具转变为能自主执行多步骤任务的智能助手[29] - 官方描述其强大能力可完成"计划晚宴找到杂货店添加所有食材到购物车并配送到家"等复杂任务[30] - 工作流程包括意图输入、规划与确认、自主执行、用户监督与控制四个标准化步骤[32] - 代表浏览器未来演进方向,即将浏览器从信息呈现工具转变为任务执行平台,是构建核心竞争壁垒的关键[33] - 成功需要三个核心前提:精确的环境感知、深刻的意图理解、稳健的任务规划与执行,但基于前两部分测试,当前实用性存疑[34][39] - 目前更像建立在尚不稳固地基上的宏伟蓝图,成功取决于未来版本对基础感知和理解能力的迭代速度[35]