红杉汇

搜索文档
今天,我们推出xbench
红杉汇· 2025-05-26 07:20
核心观点 - 红杉中国推出全新AI基准测试工具xbench,旨在构建科学、长效且真实反映AI客观能力的评测体系,重点关注AI系统在真实场景的效用价值和长青评估机制 [1] - xbench采用双轨评估体系,同时追踪模型的理论能力上限与Agent的实际落地价值,并通过动态更新测试内容确保时效性和相关性 [2] - 首期发布包含科学问题解答测评集(xbench-ScienceQA)和中文互联网深度搜索测评集(xbench-DeepSearch),并对主要产品进行综合排名 [3] 双轨评估体系 - **AGI Tracking评测**:验证模型在特定能力维度上的智能表现,挖掘"智能"而非"系统"的边界,如xbench-ScienceQA和xbench-DeepSearch [12][17] - **Profession Aligned评测**:聚焦现实生产场景,考核Agent在真实场景下的交付结果和商业价值,如招聘和营销领域的垂类Agent评测 [13][22] 首期评测集 - **xbench-ScienceQA**:测试研究生水平的学科知识和推理能力,题目来自顶级院校博士和行业专家,每季度更新一次 [19] - **xbench-DeepSearch**:考察自主规划、信息收集、推理分析和总结归纳的深度搜索能力,适应中文互联网环境,每月汇报模型表现 [20] 长青评估机制 - 通过动态更新题目扩充评估集,缓解题目泄露问题,确保评估的时效性和相关性 [11] - 采用项目反应理论(IRT)追踪Agent能力的持续增长,捕捉不同时间维度的能力变化 [31][33] 专业工作流程拆解 - 以招聘专家为例,拆解工作任务如JD需求拆解、人才画像定位、候选人经历补全等,标注经济价值和可评测性 [26] - 通过与头部猎头企业和营销企业合作,构建xbench-Profession-Recruitment和xbench-Profession-Marketing评测框架 [27] 技术市场匹配(TMF) - 通过效果-成本图划分市场接受区和技术可行区,追踪AI技术突破与市场需求的契合点 [35] - 专业领域经历未达成TMF、Agent与Human共同工作、专业化Agent三个阶段,AI技术突破和专家参与是关键 [38] 未来关注方向 - 2025年重点关注AI在基础智能与专业生产力上的进展,如多模态理解、长期记忆、可信度等能力 [16][21] - 计划拓展金融、法律、销售等高价值专业领域的评估任务体系,联合行业专家共建 [27]
为什么顶级品牌都在「动」? | 红杉爱生活
红杉汇· 2025-05-23 07:31
而且,动态设计中也涉及大量叙事元素。 当视觉叙事与图形元素、策略性文案及艺术指导完美融合时,能 达到最佳的动态效果,从而打动受众。 让我们从一些案例开始看起,了解 动态设计可以放在哪些触点: 如今,视频贴片广告、社交媒体流广告、APP开屏广告、网页用户界面、微互动设计、数字广告牌、户外屏幕 ——一切都在动! 屏幕无处不在,在线内容也呈井喷式增长。品牌纷纷调整策略,在坚守传统渠道的同时,积极拥抱数字化触 点。从沉浸式的品牌体验到流媒体和广播内容,动态设计已然成为很多行业的标配。在一个"大屏幕看着,小屏 幕刷着"已是常态的世界里,让内容不动才是奇怪的事情。 现在,让我们聚焦于品牌的"动态设计" (Motion Design,有时亦称"动效设计") ,聊聊如何创造出能真正打动受 众的动态效果。 动态设计是一种通过动画技术让设计 (甚至更广义的"品牌") "生动"起来的艺术与工艺。 "动态设计"的目的是持续且有效地传递信息,强化项目的概念和视觉语言——通常是为了鼓励用户采取行 动。其对象包括品牌标志 、 符号、字体、图片、视频片段、插画、图标——任何传递信息的视觉元素都可 以成为设计的切入点。 需要考虑的动态设计触点 ...
为什么生命如此多彩? | 红杉爱科学
红杉汇· 2025-05-21 23:21
生物多样性主题 - 今年国际生物多样性日主题为"万物共生 和美永续",强调人与自然和谐共生对全球生物多样性保护治理的重要性 [2] - 生物多样性构成人类生存根基,但全球物种遗传多样性正加速丧失,鸟类和哺乳动物受影响最显著 [2][10] - 地球生命色彩从灰棕主色调进化至五彩斑斓,与视觉系统进化(如三色视觉)及动植物色彩革命密切相关 [4][5] 生命色彩进化机制 - 色彩进化始于6亿年前视觉系统发展,三色视觉与寒武纪大爆发(5.41亿年前)同步出现 [4] - 植物引领首场色彩革命:彩色果实出现于3-3.77亿年前,花朵进化于1.4-2.5亿年前,被子植物(开花植物)在白垩纪(约1亿年前)推动色彩大爆发 [5] - 动物显著色彩进化始于1.4亿年后,色彩功能包括吸引配偶(孔雀)、警戒信号(毒箭蛙)等,但不同物种感知色彩存在差异(如蜜蜂可见紫外线) [5][6] 遗传多样性保护策略 - 全球研究覆盖622个物种、36个分类群,显示栖息地破坏和人类活动导致遗传多样性加速流失 [10] - 五项有效保护措施: 1) 补充种群(如新西兰南岛鸲鹟跨岛迁移提升免疫力和繁殖力) [11] 2) 种群调控(美洲红点鲑基因谱系管理) [12] 3) 生态系统恢复(草原松鸡栖息地扩展) [13] 4) 控制入侵物种(瑞典赤狐管控助北极狐恢复) [14] 5) 保护引种与再引入(金袋狸新种群六代后遗传多样性持平原始种群) [15] 公众参与途径 - 种植本地植物、保护传统农作物品种可维护农业遗传多样性 [17] - 参与自然保护组织活动及避免跨境传播外来物种有助于生态保护 [17]
一流管理者,都是“选人”高手 | 首席人才官
红杉汇· 2025-05-19 21:15
人力资源管理核心观点 - 企业需从战略高度而非仅人力资源部门角度理解人力资源管理,关键在于解决员工的选、育、用、留问题,其中"选对人"是首要任务[2] - 优秀员工与普通员工绩效差异显著,顶级员工绩效可达普通员工的6-9倍(如苹果研发人员9倍、诺德斯特龙销售员8倍、一流医生手术成功率6倍)[3] - 人力资本投资重心应从后端培训转向前端招聘,因选错人会导致后续管理成本激增且效果不佳[4] 提高选人概率的五大法则 法则1:明确选人关键标准 - 需根据公司战略与文化制定筛选标准,如亚马逊注重实干家(创新与执行)、主人翁精神(长远视角)、内心强大(抗压能力)[6] 法则2:正确测评候选人 - 有效工具包括一般认知能力测试、样本测试(模拟工作场景)、情境化结构面试,而人格/动机类心理测量需谨慎使用[8] - 单一测评工具不可靠,需结合多种科学工具综合评估[8] 法则3:科学面试方法 - 情境化结构面试最有效,需遵循STAR原则(情境、任务、行动、结果)并标准化问题与评分[10] - 面试官水平至关重要,如谷歌通过系统支持、统一评分标准及跨职能面试官确保公正性[11] 法则4:重视试用期与背景核查 - 试用期是检验候选人实际能力的核心环节,用人部门需主动安排关键任务而非杂务[13] - 高管及技术岗需严格背景调查,防范材料造假风险[13] 法则5:果断换人决策 - 高管晋升决策失败率超三分之二(德鲁克研究),发现不匹配需及时终止雇佣关系[16] - 员工与企业匹配需双向筛选,无法调和时应快速分离以降低长期成本[15]
AI大家说 | 斯坦福大学年度报告:企业AI运用水平创下纪录
红杉汇· 2025-05-18 10:21
有的时候你可能会有这样的迷惑:怎么新闻里的AI又写科研论文,又能自动驾驶,但是我们手里的AI工具总是 时灵时不灵呢?或许这份斯坦福大学最新的《2025年人工智能指数报告》能够解答你的困惑。 这份400多页的年度报告,包括了对不断演变的AI硬件格局的深入分析、对推理成本的全新估算,以及对AI领域 学术发表和专利申请趋势的新分析。同时还引入了有关企业采用尽责AI实践的新数据。我们编译了报告的部分 重要成果,希望能够帮助大家更好地理解AI技术的发展,充分利用它获得先发优势。 【温馨提示】文末"阅读原文"可下载原报告 人工智能日益融入日常生活 从医疗保健到交通运输的诸多领域,人工智能正迅速从实验室走向日常生活。2023年,美国食品药品监督 管理局 (FDA) 批准了223种配备人工智能的医疗器械,而2015年这一数字仅为6种。在道路上,自动驾驶 汽车已不再处于试验阶段,某自动驾驶汽车运营公司已每周提供超过15万次自动驾驶出行服务。 在这波人工智能大热潮中,科学和医学领域涌现了令人惊喜的新气象。 多个新发布的基础模型,它们将助 力材料科学、天气预报和量子计算等方面的研究。 许多公司正尝试将AI的预测与生成能力转化为有利 ...
能分清这是真的还是AI生成吗?这有一份鉴定指南送给你
红杉汇· 2025-05-16 01:00
AI生成内容现状 - AI每天创作数千万张图片,一年多生成的图片量可能超过人类摄影师一个半世纪的总和[5] - AI生成内容正以前所未有的速度和逼真度充斥数字生活,从图片到文字再到视频,真假界限日益模糊[5] 识别AI文字 - AI文字有明显"AI味儿",表现为故作精确、词汇堆砌、例子和比喻轰炸[8] - AI文字过于完美工整,语法无懈可击但缺乏"人味儿",缺少自然节奏感和情绪起伏[9] - AI擅长模式化输出,如堆砌表情符号、使用特定短语开篇、硬凑头韵词组[9] - AI难以表达真实个人经历和独特见解,可能编造看似合理但经不起推敲的信息[10] 识别AI图片 - 关键细节如手、牙齿、眼睛容易出错,注意手指数量/形态、牙齿排列、瞳孔形状[13] - 检查光影、物理、背景的一致性,如光线来源与阴影方向是否匹配,镜面反射是否符合物理规律[15] - 观察质感与纹理,如皮肤是否过于光滑缺乏毛孔细节,头发是否糊成一片[17] - 留意异常对称和过度完美,这些也可能是AI特征[17] 识别AI视频 - 注意面部细节异常,如眼睛行为、微表情和过于对称的面部[19] - 观察不合逻辑的动作,AI难以完全理解人类无意识的小动作[20] - 检查环境破绽,如脸部光照与周围环境是否一致,背景是否有不自然扭曲[21] - 要求对方做简单动作如按压面部,观察变形是否自然[21] AI检测工具 - 文本检测工具包括Grammarly、ZeroGPT、Scribbr等,分析流畅度、复杂度、模式重复性[23] - 图片/视频检测工具包括deepfakedetector.ai、Hive Moderation、Deepware Scanner等[23] - 目前没有100%准确的检测工具,建议结合多种方法和工具提高识别准确率[24]
首个科研智能体“天团”出道!近期AI新鲜事还有这些……
红杉汇· 2025-05-14 22:05
FutureHouse推出AI科研智能体 - FutureHouse推出四个AI科研智能体Crow(通用智能体)、Falcon(自动化文献综述智能体)、Owl(调研智能体)、Phoenix(实验智能体),可访问完整科学文献全文并具备信息质量评估能力 [3] - Crow、Falcon和Owl在搜索精度和准确性上超越o3-mini、GPT-4.5、Claude-3.7等顶级搜索模型 [5] - 这些智能体可生成和评估新假设、规划实验,推理过程完全透明且可追溯,大幅提升科研效率 [6] 亚马逊推出触觉机器人Vulcan - 亚马逊在德国"Delivering the Future"盛会上推出仓储机器人系统Vulcan,具备人类般触觉感知能力 [8] - Vulcan配备力反馈传感器和视觉系统,能精准控制力度并避免误取,处理仓库75%的货物 [11] - 该机器人可将矿泉水箱破损率从1.8%降至0.3%,已在德国汉堡仓库实测 [11] 百度公布动物语言转换专利 - 百度申请AI专利可识别动物情感状态并将其转换为人类语言,实现跨物种交流 [13] - 技术通过分析动物声音、行为和体征等多模态数据,进行情感识别和语义映射 [13] Gemini 2.5 Pro重大更新 - Google DeepMind发布Gemini 2.5 Pro (I/O edition),编程能力显著提升 [15] - 该模型在LMArena和WebDev Arena排行榜上超越Claude 3.7 Sonnet [15] - 支持通过手绘草图+功能描述生成完整应用,降低设计开发门槛 [15] Hugging Face推出3D打印机械臂 - Hugging Face销售可3D打印机械臂SO-101,售价100美元,具备抓取和放置物体能力 [19] - 相比前代SO-100,SO-101组装更快、电机改进,可通过强化学习技术训练 [21] Adobe发布Firefly Image Model 4 - Adobe发布Firefly Image Model 4系列,整合图像、视频、音频和矢量生成工具 [23] - Firefly Image Model 4强调速度与操控性,Model 4 Ultra擅长处理复杂场景与细小结构 [24] - 新增Firefly Boards协作工具,并支持GPT图像模型、Imagen 3等第三方AI模型 [24]
想成为稻盛和夫?你可以试着这样打造企业家IP | 红杉汇内参
红杉汇· 2025-05-13 19:29
个人IP对企业品牌的影响 - 企业家和创始人的个人IP成为品牌最具说服力的"人形广告牌",直接影响客户、供应商和投资者对企业的看法 [4] - 63%的受访者认为拥有活跃社交媒体形象的CEO和企业主让企业更"有温度",64%的人因CEO分享家庭生活提升好感度,63%的人因CEO分享兴趣爱好对企业产生更正面的感受 [5] - 年轻群体对真人的信任度比对机构的信任度高63%,消费者更愿意与有血有肉的人做生意 [6] 个人IP的核心价值 - 个人IP由技能、职位头衔、工作经历及个性特质构成,能真实展现企业领导者的独特性格和价值观 [4] - 成功的个人IP以更具人性化的方式增强客户信任感,可能成为消费者选择产品的决定性因素 [5] - 个人IP不仅限于企业主和CEO,任何职业人士都能受益,例如销售人员运用社交媒体达成销售目标的概率高出51% [6] 打造个人IP的策略 - 定义个人IP需平衡营销与内省,真实性是关键,通过分享个人经历、教育背景等拉近与潜在客户的距离 [9] - 瞄准客户常用的社交平台,专注于一到两个平台建立受众基础,借助专业工具分析传播效果 [10] - 持续展示价值,分享简洁有用的内容,如品牌故事、知识分享和行业趋势分析 [11] 个人IP的长期建设 - 积极更新内容,保持线上线下的品牌形象统一,提升专业度和可信赖感 [15] - 与同事、客户、合作伙伴建立持久联系,通过社交媒体寻求推荐和技能认可 [14] - 员工个人IP的集合构成公司整体形象的缩影,73%的企业社媒管理者认为员工帖子互动率比官方账号高出两倍 [19] 低成本启动个人IP的方法 - 在社交媒体上分享他人的有价值内容,强调价值观和个性特质 [12] - 通过评论、原创内容、帮助建议、行业组织合作等方式展现专业价值 [17] - 参加行业会议、公益活动,扩大人脉网络和粉丝数量 [18]
公元:DeepSeek只打开一扇门,大模型远没到终局 | 投资人说
红杉汇· 2025-05-11 13:09
人工智能与具身智能赛道现状 - 当前AI与具身智能赛道处于类似互联网初期的百花齐放阶段,底层技术和垂直细分领域机会众多[5] - 具身智能领域可能处于类似2018年LLM的阶段,尚未出现GPT时刻,但AGI的长期前景被普遍看好[8][9] - 行业变化极快,AI领域"一天相当于人间一年",模型迭代速度远超传统商业模式演进速度[7] DeepSeek的影响 - DeepSeek的R1模型通过开源后训练方法论实现了"技术平权",将全球AI研发重新拉回同一起跑线[6] - 该突破改变了国内大模型行业格局,但预训练与后训练技术仍需双轮发展,行业终局尚未确定[6] - 春节期间的技术突破导致行业认知发生剧烈变化,两个月内从"后训练重要"转向"预训练重要"[6] 投资逻辑变化 - 传统基于DAU/MAU的商业评估模式失效,用户可能因技术突破瞬间转移[7] - 投资人需要快速建立对AGI能力的感知,而非依赖传统商业指标[7] - 具身智能投资的核心逻辑是押注物理世界AGI的实现概率[9] 创业范式转变 - 新时代创业更强调技术颠覆创新而非明确商业化路线[1] - 当前创业者难以清晰描述具体应用场景,更多聚焦技术路线本身[8] - 成功要素转变为对AGI的信念而非传统商业计划[9] 行业参与者特点 - 顶级投资人需保持高度热爱和好奇心以应对快速变化的技术环境[10] - 国内大模型可能形成DeepSeek、千问和豆包三强格局的预测出现[6]
为什么说多数创新都是“睡美人”?| 红杉Library
红杉汇· 2025-05-08 23:21
核心观点 - 颠覆式创新往往在早期阶段毫不起眼,且常出现在其时代之前,因认知局限、技术瓶颈或时代错位而沉寂数百年,直到被特定契机唤醒并重塑世界 [2] - 创新并非依赖个别天才的灵光乍现,而是概率、环境和偶然性的共同产物,唤醒"睡美人"需要耐心、发现力及打破边界的勇气 [2][11] - 创新的成功不仅取决于内在特征,更取决于其诞生的环境与时代背景,这一规律适用于自然进化与人类文化创新 [6][12] 自然界的创新案例 - **草类的延迟成功**:草类起源于6500万年前,但直到2500万年前才成为优势物种,其进化出的木质素、二氧化硅防御机制及节水代谢能力在早期未被环境充分利用 [5][6] - **其他生物延迟爆发**:蚂蚁分化延迟4000万年(1.4亿年前起源,1万多种现存物种),哺乳动物繁荣推迟3500万年(1亿年前起源,6500万年前爆发),咸水蛤蜊科等待3.5亿年才分化成500多个物种 [7] 人类文化中的创新模式 - **被忽视的突破**:雷达技术、孟德尔遗传定律、维米尔画作《戴珍珠耳环的少女》、心脏起搏器(19世纪末发明,20世纪50年代应用)均为典型的"睡美人"案例 [10] - **创新与环境的互动**:创新的价值由环境定义而非内在品质,如新基因的功能取决于其诞生后的世界需求,人类专利的商业价值亦受时代条件制约 [12][13] 创新方法论 - **长周期视角**:进化以小步积累而非飞跃实现突破,每一步创新需被保存并等待环境匹配,类似地,人类应记录日常灵感以应对未来需求 [13] - **跨界思维与技能培养**:通过跨领域学习激发创造力,培养批判性思维等长期技能,以在时代转折点捕捉"觉醒时刻" [13]