高质量训练数据
搜索文档
硬科技突围:产业攻坚、资本加持,共建科创生态圈
第一财经· 2025-12-26 17:58
文章核心观点 - 硬科技是培育新质生产力的核心引擎 正迎来“十五五”规划政策赋能与资本市场制度创新的发展机遇期 同时也面临技术攻坚、生态构建与合规竞争的多重考验[1] - 政策、产业与资本需协同发力 构建硬科技良性生态 加速国产化进程[3] - 资本市场通过制度创新和包容性 持续为科创企业“添翼赋能”[4][5] - 科创企业在关键领域加速国产化突破 部分赛道已跻身全球领跑阵营 投资机构则锚定长坡厚雪赛道精准布局 产业与资本共同构筑“护城河”[8][9] - 企业在高速发展中面临技术迭代、客户认证、供应链及国际竞争等多重挑战 需通过构建独特体系等方式破局突围[13] 资本市场支持与制度创新 - “十五五”规划建议提高资本市场制度包容性与适应性 健全投融资协调功能 “资本市场支持科技创新”已成为长期政策导向[5] - 并购重组政策创新点包括:对价可分期支付以规避交易风险、允许收购未盈利企业、针对“小额快速”融资设置简易程序以大幅提高效率[5][6] - 科创板企业对并购重组政策保持关注 以期拓展第二增长曲线 例如斯瑞新材[5][6] - 资本市场在有合理底线的前提下 对科创企业的容忍度和支持力度越来越高 使得企业可以大胆探索前沿方向 对标全球头部企业[6] - 多层次资本市场助力不同阶段、不同规模、高科技属性企业上市发展 股权投资机构会根据企业特点选择合适板块申报上市[6] - 耐心资本、长期资本对产业发展影响较大 因其以中长期规划布局 无短期考核压力 更有助于机构投资和企业发展[6] 硬科技产业发展格局与路径 - 硬科技发展分为两个赛道:一是我国具备天然优势的领域(如车、机器人等) 凭借软件算法应用、制造业优势及海归与产业人才实现“东西合璧” 不少已达世界领先水平;二是后发追赶领域(如EDA、GPU、AI半导体等) 通过国内改良路线图及海归与产业人才加持 成效也较佳[7] - 2025年是科技行业大年 2026年仍有诸多可圈可点之处 研究机构内部已完成各硬科技赛道的深度研究[7] - 企业通过技术迭代与产业升级为新质生产力培育注入实质动能 例如斯瑞新材从1995年进入电力板块 攻克电力开关核心触头材料 2009年进军大功率牵引电机转子材料 之后拓展至商业航天、医疗影像、光模块、可控核聚变等赛道[9] - 在AI训练数据领域 技术领先性的保持依赖于从应用端客户需求反推数据供给逻辑 聚焦“高质量训练数据” 深度对接各行业专家并结合工程化能力 共同打造行业专属高质量数据[9] - 高质量数据供应的难点在于理解不同垂类领域(如医疗、具身智能、金融、教育) 需深度对接行业专家 并通过预判未来市场需求来提前做好数据方案设计、平台搭建和人才储备[10] - 技术落地需把握好技术迭代、场景应用与合规要求三者的平衡[10] 投资机构的策略与聚焦 - 股权投资机构偏好“长坡厚雪”且赛道规模大的企业 而非短期饱和的红海领域 例如GPU赛道(英伟达成立三十余年仍高速增长)天花板高、持续时间长[10] - 在确定好赛道后 核心是找到最好的团队 主要看两类:一是国内稀缺、成建制且具备长期量产经验的团队(如沐曦股份);二是新兴赛道的团队 除研发经验外 还需看产品迭代速度是否远超竞争对手[11] - 投资机构通过组合投资平衡风险与收益:用中后期项目保障快速实现DPI和基本回报 同时用20%~30%资金布局高潜力早期项目 以平衡短期收益与长期价值[15] - 赋能企业的方式因类型而异:对于GPU等成熟赛道 核心需求是资金、生态资源、引进技术资源;对于具身智能等新兴赛道(多为教授创业) 需要创投机构帮忙组建管理、技术应用、工程实现及销售等方面的团队 并帮忙对接下一轮融资[11] 研究分析视角与未来机遇 - 研究机构运用科技树概念和产业渗透率来研判 近期还纳入数理化等基础学科对产业的底层影响 重点关注商业航天、深海、脑机接口等赛道[12] - 企业筛选主要看产品力、渗透力、管理团队以及估值:对未盈利科创企业采用隐含PS或三五年后动态估值测算再折现;对成熟领域企业采用PE、PB等传统估值指标[12] - 发现隐性风险需关注:技术传导复杂度高、跨领域关联性强 因此需花更多时间研究数理化等基础学科;国际关系与地缘政策的影响不容忽视;此外还需关注供需、管理层、商业模式等常规要素[16] 企业面临的挑战与破局之道 - 科创企业在多赛道布局中面临挑战:不同赛道技术迭代速度不一、客户认证标准严苛且周期长、核心原材料供应波动、国际高端材料企业竞争挤压等[13] - 企业将挑战归纳为生存和发展两大问题 并通过构建三大体系应对:一是“挣小钱、挣长钱、挣慢钱、挣难挣的钱、挣研发创新的钱、挣艰苦奋斗的钱”的商业文化体系;二是“横向产学研用 纵向采用T字型架构(创新中心负责0到1 事业部承接1到无穷大)”的纵横协同研发体系;三是对内推行赛道事业部制并在海外布局的适配运营体系[14] - 国际化布局的首要难题是合规 需在合作前由双方法务团队敲定多国家/地区的合规方案 国内“可信数据空间”政策导向能实现“原始数据不出域”前提下的合规使用[15] - 实现高质量数据的核心是做“难而正确的事” 需从源头把控方向 与专业领域专家深度对接[15]
大厂90%员工在做无用功?
虎嗅APP· 2025-09-02 18:27
公司业绩与商业模式 - 公司成立4年零外部融资但营收超10亿美元 远超融资13亿美元的竞争对手Scale AI的8.5亿美元年营收 [4] - 采用拒绝融资策略 从第一个月起就实现盈利 避免销售团队稀释产品理念 [17][18] - 专注为OpenAI Anthropic等顶级AI公司提供高质量训练数据 [4] 大企业管理效率批判 - 大型科技公司90%员工在解决无用问题 存在严重效率浪费 [5][9] - 大公司优先事项常脱离最终客户 仅为内部官僚体系和政治目标服务 [10][14] - 小团队用10%资源可实现10倍效率 因减少面试 会议和冗余流程 [9] 硅谷融资文化反思 - 硅谷融资被视为地位游戏 创业者应为信念而非融资额创业 [18] - 90%-95%初创公司应先构建MVP验证需求 而非直接融资 [19] - 创业者应追求独特想法 承担风险构建时代性基础公司 [19] 数据标注行业现状 - 多数竞争对手实为人力外包公司 缺乏质量测量和改进技术 [21][22] - 行业普遍依赖博士学历招聘 但80%计算机科学博士代码水平差 [25][29] - 人力外包模式无法解决数据质量退化问题 客户迁移需求强烈 [35][36] 质量控制技术优势 - 从第一原则构建质量控制技术 非简单堆砌人力 [25] - 开发复杂算法应对数据欺诈问题 包括第三方转包和LLM生成数据 [26] - 始终生产其他地方无法获得的数据 具丰富性 复杂性和多样性 [37] 人才观与组织管理 - 100倍工程师真实存在 综合编程速度 创意和工作态度可达百倍效率 [29] - 取消无意义会议和一对一 保持日历空白避免官僚主义 [30] - 深度植入质量第一文化 允许为质量错过截止日期或拒绝项目 [31] 市场竞争格局 - Scale AI被收购后客户加速迁移 公司获得新关注 [35] - 已成为领域最大最好供应商 即使未合作大公司团队也知晓其地位 [38] - 客户反馈其高质量数据比1000万个合成数据更有价值 [48] 技术发展观点 - AGI将在2028年取代普通程序员 但2038年才可能治愈癌症 [45] - AI发展瓶颈中数据质量排第一 计算资源第二 算法第三 [45] - 合成数据仅适合学术基准测试 在现实世界用例中表现糟糕 [48] 行业未来展望 - 将出现多个顶尖AGI公司 因不同发展方向和优势差异 [52][53] - 最大模型提供商尚未全部成立 未来几年可能出现更强大开发者 [54] - AI安全未被夸大 回形针悖论和错误目标最大化是真实风险 [50][51] 战略建议 - AI公司应问是否真改进模型智能 而非仅破解基准测试 [56] - 谷歌等公司需承受广告收入短期打击来构建更好AI产品 [59] - 始终专注10倍改进而非10%短期现实 保持独特见解 [61]
大厂90%员工在做无用功?
虎嗅· 2025-09-01 08:57
公司业绩与行业地位 - 成立仅4年 在零外部融资情况下实现营收超10亿美元 显著超越融资超13亿美元但年营收仅8.5亿美元的竞争对手Scale AI [1] - 专注于为OpenAI、Anthropic等顶级AI公司提供高质量训练数据 成为AI数据标注领域最大最好的供应商 [2][71] - 拒绝1000亿美元收购报价 因公司已实现盈利且完全掌控自身发展轨迹 [5][73][74] 企业运营理念 - 大公司存在90%员工解决无用问题的现象 小团队用10%资源可实现10倍效率提升 [3][9] - 坚持从第一个月盈利起不融资 避免销售团队稀释产品理念 [4][20] - 取消无意义会议和一对一沟通 将质量第一原则深入每个员工内心 [54][56][57] 数据质量控制技术 - 行业多数公司属于"人力外包"模式 缺乏质量测量和改进技术 [33][34] - 从第一原则出发构建质量控制技术 包括复杂算法应对数据欺骗行为 [39][43][44] - 1000个高质量人类标注数据价值超过1000万个合成数据 [96] 人才观与效率提升 - 100倍效率工程师真实存在 综合编程速度、创意和工作态度可实现指数级效能 [46][47] - 80%计算机科学博士代码水平差 学历不等于实战能力 [48][41] - AI工具让顶尖人才效率进一步放大 但模型尚未能解决公司10%最重要问题 [47][86] 行业发展与竞争格局 - Scale AI被收购后客户加速迁移 因Surge AI能提供即时高质量数据交付服务 [65][67] - 合成数据存在局限性 导致模型擅长学术基准测试但现实应用表现差 [94][95] - 未来将存在多个顶尖AGI公司 因不同发展方向需要多样化的解决方案 [100][101] 技术发展预测 - 预计2028年AGI将取代普通工程师工作 但治愈癌症级应用需至2038年 [85] - AI发展三大瓶颈排序为:数据质量 > 计算资源 > 算法 [88] - 应用层不会被模型层完全吸收 因产品广度无限且大公司存在创新瓶颈 [108][113] 客户服务与价值创造 - 提供凌晨紧急数据支援服务 能在几小时内交付10000个数据点解决客户关键问题 [90] - 客户在发布重大模型时优先致谢 认可其作为关键组成部分的技术贡献 [79][82] - 数据标注服务开辟新研究途径 通过数据丰富性推动新产品类型开发 [69]
京皖企业与机构在京签署合作协议十余项 打造智链融合新范式
中国新闻网· 2025-07-18 00:15
活动概况 - 2025京皖供应链促进推介会在京举办,聚焦人工智能核心赛道,组织20家重点企业"一对一"深度洽谈,匹配300家优质企业现场交流 [1] - 京皖两地企业与机构签署14项合作协议,意向性协议金额超50亿元,覆盖供应链金融、智能制造、数据算力等领域 [1] - 活动由北京市贸促会联合两地政府主办,主题为"智链融合创领未来",是第三届中国国际供应链促进博览会首个省市联办专题活动 [3] - 吸引20个国家和地区的40多个国际组织、政府部门及行业领军企业代表等500余人参会 [3] 区域合作与产业互补 - 京皖两地通过产业链资源精准链接,搭建政企研对接平台,推动区域协同创新与新质生产力培育 [3] - 北京市海淀区推出"中关村AI北纬社区"建设项目,构建四大创新矩阵与八大赋能体系,打造全球影响力AI生态圈 [5] - 安徽省合肥市发布36个人工智能应用场景,涵盖智能社会治理、数字城市运营等五大领域,释放百亿级市场机遇 [5] - 北京市门头沟区、安徽省芜湖市分别推介特色产业园区及优惠政策 [5] 技术前沿与行业趋势 - 中外嘉宾聚焦人工智能与空间科学、AI落地物理世界、大模型数据工程等前沿领域,探讨技术如何重塑供应链模式 [3] - 海天瑞声CEO指出AI进入"数据为王"阶段,高质量训练数据是模型性能关键,京皖可合作打造区域特色AI数据模式 [4] - 科大讯飞强调北京作为数字产业高地,通过校企合作推动AI技术从实验室向各行业转化 [4] 企业合作与场景展示 - 活动设置AI市集展示互动区,展示虚拟数字人、增强现实手术导航、AI教育平台等硬科技与场景创新 [5] - 组织供应链数智化圆桌对话,16家领军企业研讨"跨界融合与场景应用""数智供应链生态共建"等议题 [6] - 北京市贸促会会前组织国际代表团考察理想汽车、中关村软件园、北汽福田等企业,促进高端制造领域交流 [5] 政企联动与资源整合 - 北京市经信局与安徽省工信厅分别推介两地优势产业与政策 [5] - 活动构建"会前预对接、会中深洽谈、会后强跟踪"闭环服务,推动商务合作落地转化 [5] - 京皖产业互补性强,在供应链协同与产业链融合方面潜力巨大 [6]