公司融资与定位 - 数创弧光(DataArc)于2025年1月成立,孵化自粤港澳大湾区数字经济研究院(IDEA研究院),近期连续完成种子轮及种子+轮融资,累计融资额达数千万元人民币,投后估值数亿元[1] - 两轮融资分别由英诺天使基金与东方富海领投,君科丹木、数字未来、启迪之星等财务投资机构及深智城、头部云厂商等产业资本共同参与[1] - 公司定位于大模型合成数据赛道,通过技术创新精准切入海外小语种等存在结构性数据缺口的蓝海市场[1] 合成数据行业机遇 - 大模型行业正逼近结构性拐点,互联网上高质量、可合法使用的真实数据正被快速消耗殆尽,合成数据从“可选项”变为关键变量[2][3] - 大模型下一阶段能力提升需要大量面向金融、医疗、法律等垂类场景的任务型数据,但真实数据难以采集、标注昂贵且受合规限制,合成数据成为最具可行性的定向强化手段[5] - 在隐私、版权与跨境合规压力上升的背景下,合成数据可在保持分布特征的前提下去隐脱敏,从源头规避法律风险并降低数据成本[5] - 国务院印发的《人工智能+行动的意见》明确提出“支持发展数据标注、数据合成等技术”,合成数据已上升为国家层面战略支撑[6] - 技术需求、市场缺口与政策导向三重力量共同作用,全面打开合成数据的行业时机[7] 数创弧光技术优势 - 公司构建了覆盖大模型训练全生命周期(包括继续预训练、有监督微调、强化学习微调)的数据合成方案,并延伸至合成后的数据筛选、质量评估与应用全链条[7] - 通过“语境图谱”技术把文档、项目、人员和业务知识连接起来生成问答或对话,使合成数据兼具逻辑性并能覆盖更多场景,实验数据显示该方法在多跳问答任务中准确率提高25.4%,同时成本降低85.7%[8] - 合成数据加密训练技术使大模型能够“理解”加密数据,无需解密即可完成训练,兼顾隐私保护与合规要求[10] - 高质量合成数据需要跨过质量、多样性与可靠性三道核心门槛,是一项投入巨大、工程链路复杂的系统工程[7] 产品与市场战略 - 已推出两款核心产品:Living KB专注于企业知识库的动态管理与智能应用,SynData Platform提供一站式合成数据生成服务,特别针对阿拉伯语、东南亚语系等低资源语言设计具备文化适应性的合成框架[10] - 采用二维坐标评估体系指导战略聚焦,横轴衡量数据稀缺性,纵轴衡量业务价值密度,将资源集中于“高数据稀缺性”与“高价值密度”交汇的象限,海外低资源小语种市场正落位于此高价值区间[11] - 国内市场是验证技术方案与打磨产品的重要场景,通过在金融、工业等高复杂度垂直领域落地积累经验,为海外市场拓展奠定基础[12] - 积极布局海外市场,聚焦低资源、小语种区域,尤其是以阿联酋为代表的阿拉伯语地区,当地语料量仅为英文的约1%[12] 商业化进展与护城河 - 国内已在金融等核心ToB场景完成落地,海外正稳步推进在中东等地区的商业化部署,已与头部云厂商、硬件厂商等建立深度绑定,并与数家中东头部客户如国家级政府数字部门、头部典型运营商推进合作[13] - 在小语种场景的技术挑战构成核心壁垒,通过知识增强与语境理解技术,在保持文化适配性的同时有效扩充高质量语料规模,突破方言体系下的数据限制[14] - 基于自研合成数据训练的阿拉伯语TTS与ASR模型已取得显著效果,先获得数据和技术突破的公司会建立起巨大的先发优势和“滚雪球效应”[14][16] - 团队兼具顶尖学术背景与产业实践经验,CEO江旭晖为中科院计算所博士、国家级科研项目核心成员,CTO徐铖晋博士为深圳市特聘专家、原华为“天才少年”[16] 未来发展规划 - 在模态层,公司将从文本延伸至多模态及具身智能,在架构层将从纯云架构向端云结合演进,构建从软件智能到软硬一体的技术路径[18] - 公司已经以文本为技术锚点,陆续完成语音、音频、图像等多模态能力的融合布局[17]
独家|数创弧光连融两轮估值数亿,解码大模型时代的“数据破壁者”
Z Potentials·2025-11-20 12:12