Workflow
Data Quality
icon
搜索文档
2026 年数据与人工智能的 7 项预测
36氪· 2026-01-22 13:52
文章核心观点 - 数据基础设施正在经历从被动到主动的根本性重建,其驱动力是开放格式成熟、AI功能就绪以及多工具集成的成本压力达到临界点,智能将内置于架构的每一层而非事后添加 [1][18][19] 行业趋势与架构演变 - 存储层竞争已结束,Iceberg、Delta Lake和Hudi成为赢家,Parquet成为通用格式,但竞争焦点已上移至元数据层 [3] - 元数据层正成为数据的操作系统,承载数据沿袭、质量规则、访问策略和业务上下文,是情报层的核心 [3][6] - 基于开放格式(如Iceberg)原生构建的数据可观测性工具将胜出,原生集成是基本要求而非附加功能 [6] 数据技术栈整合 - 企业数据团队平均管理15到30种不同工具,集成成本高昂,正扼杀生产力 [7] - 数据工程师40%的时间花费在集成工作上而非创造价值,现状不可持续 [9] - 到2026年,数据堆栈将从数十种工具整合为少数几个平台,赢家将是能通过单一元数据图谱实现从数据摄取到可观测性全流程的平台 [10] 数据质量与业务价值关联 - 数据质量差平均每年给企业造成1290万美元损失,数据团队高达40%的时间耗费在数据质量问题上 [2] - 数据质量指标正从工程指标转向业务成果,服务水平协议将以收入风险、受影响客户等业务术语定义 [12] - 到2026年,80%的组织将部署利用AI/ML功能的数据质量解决方案,数据质量将成为由首席数据官负责的业务职能,数据合同将成为标准做法 [12] 人工智能对数据运营和基础设施的影响 - AI代理将取代仪表盘进行数据操作,承担从检测(理解业务上下文)、调查(自动溯源)到解决(应用修复)的自主运营任务 [13][15] - 数据栈最初为服务仪表盘而建,但AI已成为主要数据使用者,其对错误数据的容忍度比人类更低 [16] - 到2026年将出现两类公司:为AI工作负载从头重建的AI原生架构,以及在传统堆栈上添加AI功能的AI附加式架构,最终胜出者将是前者 [16] - 所有数据工具都将具备AI层,但多数只是封装层而非原生构建,这其中的区别至关重要 [16] 语义层与元数据的重要性提升 - 语义层(如dbt语义层、Cube、AtScale)从锦上添花变为AI应用场景的必备工具,是业务逻辑以代码形式存在的地方 [17] - 语义层为LLM提供组织内数据定义(如“收入”的具体含义)的关键上下文,是技术数据与业务意义之间的桥梁,没有它AI无法有效工作 [17] - 可观测性工具需要将技术异常与业务背景联系起来,这是解决实际问题的关键 [12][20] 未来平台的核心特征 - 最终胜出的平台将是那些将智能技术内置于每一层架构的平台,其共同特征是主动的“理解、推理、行动”,而非被动的存储、转换和等待发现问题 [18][19] - 核心能力包括:理解业务上下文的元数据、将质量与收入影响挂钩、可观测性能调查并解决问题而非仅报警、为AI工作负载原生构建的基础设施 [20]
不融资、不烧钱、不扩团队,华裔 CEO 创办的AI独角兽打入谷歌、Anthropic核心供应链!如今营收近百亿
搜狐财经· 2025-12-10 15:15
公司概况与业绩 - 公司Surge AI是一家专注于提供高质量AI训练数据的公司,其业务本质是“教AI模型什么是好、什么是坏”,通过真人数据训练模型并进行评估 [18] - 公司成立于2020年,在不到4年时间里,实现了超过10亿美元的年营收,且从未接受任何外部融资 [5][14] - 公司在实现10亿美元营收时,员工人数不到100人,团队规模极小且精英化,成立第一年即实现盈利 [10][14] 商业模式与竞争优势 - 公司构建了名为“Surge Force”的精英标注员网络,准入门槛极高,成员包括全球专业人士及顶尖大学教授,旨在将人类专业知识编码进数据 [8] - 公司开发了先进的人机协同系统和算法来保障数据质量,系统追踪每位标注者数千个行为信号,并用机器学习检测低质量标注行为 [8] - 凭借极高的数据质量,公司赢得了包括OpenAI、Anthropic、谷歌、微软、Meta在内的几乎所有AI巨头客户,拥有极高的议价能力 [9] - 仅Meta的生成式AI部门在2024年就在公司的服务上支出超过1.5亿美元 [9] 创始人与公司理念 - 创始人兼CEO Edwin Chen拥有MIT数学与语言学背景,曾在谷歌、Meta、Twitter等公司负责机器学习项目,其经历使其深刻认识到高质量数据对AI的关键性 [6] - 公司创立源于创始人在大厂工作中目睹数据标注质量低下的问题,决心打造专注于高质量、高复杂度数据标注与基础设施的公司 [6][7] - 公司刻意避免硅谷传统的融资与公关游戏,不依赖外部投资和媒体宣传,而是通过打造比别人好10倍的产品和口碑来获取早期核心客户 [16][17] - 创始人将公司更多地视为一个研究实验室而非典型初创公司,注重好奇心、长期激励和学术严谨性,而非季度指标 [38][50] 对AI训练与行业的洞察 - 高质量数据的定义远超简单的规则检查,而是涉及主观、复杂且难以衡量的维度,需要收集数千个信号来综合评估 [19][20] - 当前AI行业的基准测试被认为不可信,因其本身可能存在错误且容易被模型针对性优化(刷分),与解决真实世界问题的能力相关性弱 [22][23] - 模型的后训练被视为一门“艺术”而非纯科学,不同团队的“品味”和价值观会影响其选择的数据类型,最终导致模型行为出现差异化 [22][40] - 强化学习环境(对现实世界的模拟)对于训练模型处理复杂、多步骤的端到端任务变得越来越重要,能暴露模型在混乱真实场景中的薄弱环节 [26][27] - 未来AI模型将因不同实验室的价值观和目标函数不同而变得越来越差异化,而不仅仅是能力上的同质化竞争 [40][41] 公司战略与未来方向 - 公司相信未来会出现更极端的“微型巨头”企业,即用极少的精英员工创造巨大营收,AI带来的效率将彻底改变公司的构建方式 [14][15] - 公司内部设有研究团队,分为“前沿部署研究员”和“内部研究员”,前者与客户紧密协作改进模型,后者专注于构建更好的基准测试和训练技术 [36][37] - 公司认为被低估的趋势是聊天机器人将内置更多可执行的小应用和UI(“成果物”),而被过度炒作的是“Vibe Coding”(凭模糊需求生成代码),因其可能损害代码库的长期可维护性 [43] - 公司的长期目标是确保在塑造AI未来的过程中扮演关键角色,并以对人类长期有益的方式影响AI的发展方向 [49][50]
喝点VC|红杉美国重磅总结!对AI创始人的十大建议:专注于深入了解并解决实际用户问题,而不仅仅是展示技术实力
Z Potentials· 2025-07-14 14:22
定价策略 - 根据交付价值定价并货币化,超越基于席位或原始使用量的定价,将定价与AI实现的具体业务成果相结合,如工作流程完成度、可衡量的节省或战略影响 [2] - Amit Bendov/Gong强调价格应基于交付的价值而非席位 [3] - Manny Medina/Paid提出制定策略提高定价成熟度曲线,使定价与客户价值保持一致 [4] - Clay Bevor/Sierra和Bret Taylor/Sierra建议将定价模型与客户价值和购买流程相结合 [5] - Joe Spisak/Meta指出价值从模型开发转向应用和定制 [6] 基础设施与可靠性 - 任务关键型AI需要企业级基础架构,包括状态管理、可观察性、安全性和可扩展性,将可靠性视为一流的工程问题 [7] - Sridhar Ramaswamy/Snowflake强调可靠性和精确度对于企业AI应用和稳健工程至关重要 [8] - Ion Stoica/Databricks专注于解决实际生产问题而非演示或复合AI系统 [9] - Sahir Azam/MongoDB认为状态管理和多模式数据集成至关重要 [10] - Harrison Chase/LangChain提出构建持久性、可观察性和可扩展性的基础设施 [11] - Nikesh Arora/Palo Alto Networks指出安全性必须是内置的而非附加的 [12] - Clay Bevor/Sierra提到代理操作系统是管理复杂性的工具 [13] 工作流程集成 - 最有效的AI产品应无缝融入用户当前流程和环境,减少摩擦并推动采用,实现“零接触”或隐形自动化 [14] - Thomas Dohmke/GitHub指出Copilot的成功源于与开发人员的无缝结合 [15] - Eric Glyman/Ramp强调零接触自动化,系统应服务于用户而非相反 [16] - Arvind Jain/Glean认为背景至关重要,需与企业系统深度集成 [17] - Anish Agarwal和Raj Agrawal/Traversal提出架构需适应企业规模的复杂性 [18] 架构演进与可扩展性 - AI原生企业需每6-12个月重新评估和重构系统,构建灵活的模块化基础架构以快速集成新功能 [19] - Anish Agarwal和Raj Agrawal/Traversal强调架构需持续演进 [20] - Kevin Scott/Microsoft建议灵活构建应用程序以实现新进步 [22] - Amjad Masad/Replit提出利用AI功能发展系统并准备重新架构 [23] - Lin Qiao/Fireworks预计从训练转向推理 [25] 数据质量与透明度 - 高质量、治理良好的数据是可靠AI的基础,需投资于数据整理、集成和解释,将透明度和可解释性作为产品核心 [26] - Daniel Nadler/OpenEvidence强调准确性和质量以及来源引用的透明度 [27] - Nikesh Arora/Palo Alto Networks认为领域知识和数据是新的护城河 [28] - Hema Raghavan/Kumo提出将信任和透明度作为核心特征 [29] - Sahir Azam/MongoDB指出质量是新的前沿,需多模式数据集成 [30] 客户为中心的产品开发 - 专注于解决实际用户问题而非展示技术实力,直接与客户互动了解工作流程,提供以用户为中心的价值 [33] - Amit Bendov/Gong强调以客户为中心而非技术驱动 [34] - Eric Glyman/Ramp提出以效益为导向的产品开发 [35] - Clay Bevor/Sierra建议与客户体验团队密切合作 [36] - Arvind Jain/Glean和Sridhar Ramaswamy/Snowflake认为应从明确的用户价值开始 [36] 推理与代理能力 - 近期最大机遇是构建能推理、规划并自主执行复杂多步骤任务的系统,投资推理时间计算和代理编排 [38] - Bob McGrew/Ex-OpenAI指出推理代表最大机遇,更长时间思考使模型解决复杂问题 [38] - Hanson Wang和Alexander Embiricos/OpenAI/Codex提出基于委托的工作流程 [38] - Misha Laskin和Ioannis Antonoglou/ReflectionAI强调结合学习和搜索 [39] - Jim Fan/NVIDIA和Jim Gao/Phaidra认为通才和代理能力是差异化因素 [40] 专业化解决方案 - 成功的AI初创公司应专注于高摩擦、垂直领域问题,利用领域专业知识、数据背景和专业工作流程创造差异化 [42] - Winston Weinberg/Harvey强调构建深层领域专业知识 [42] - Anish Agarwal和Raj Agrawal/Traversal认为企业碎片化创造优势 [42] - Bob McGrew/Ex-OpenAI指出深度领域集成的企业应用程序不受前沿实验室竞争影响 [43] - Manny Medina/Paid建议做一只刺猬,最擅长解决特定问题 [44] 人机协作 - 最佳AI系统应增强人类优势而非取代人类,设计混合工作流程并确保强大的人机交互机制 [46] - Harrison Chase/LangChain和Anish Agarwal/Raj Agrawal/Traversal强调人机混合协作 [47] - Amit Bendov/Gong指出AI还不能被完全信任 [48] - Raiza Martin和Jason Spielman/Google/NotebookLM提出增强而非取代人类能力 [48] - Daniel Nadler/OpenEvidence强调通过透明度和控制建立信任 [49] 快速迭代与实验 - AI创始人需拥抱快速原型设计、持续用户反馈和创新文化,尽早发布实验版本以收集洞见 [53] - Josh Woodward/Google Labs和Thomas Iljic/Google Labs强调快速实验 [53] - Sebastian Siemiatkowski/Klarna提出快速从概念转向生产 [54] - Thomas Dohmke/GitHub和Matan Grinberg/Factory建议拥抱快速迭代 [55] - Anish Agarwal和Raj Agrawal/Traversal提出不断进行六个月的赌注并重新评估架构 [56]