Workflow
数据集
icon
搜索文档
南京一“瞪羚企业”36款数据产品在江苏数交所挂牌
搜狐财经· 2025-07-09 21:49
公司动态 - 数族科技自主研发的36款数据产品在江苏省数据交易所正式挂牌 涵盖产业集群分析与企业经营评价两大核心领域 [1] - 挂牌产品包括34款产业集群企业数据集产品和2款企业分析报告产品 前者覆盖江苏省1650产业体系等重点产业集群 后者基于企业授权获取发票、纳税等核心经营数据 [1] - 公司成立于2016年 是国家高新技术企业 自主研发的智能发票管理平台"臻票云"已服务近400万家纳税经营主体 [1] 产品应用场景 - 产业集群企业数据集产品主要服务于政府产业分析、产业招商培育、产业金融服务及供应链优化等场景 客户群体包括政府部门、金融机构、产业园区及企业 [2] - 企业分析报告产品面向金融机构、政府部门、财税服务机构等 适用于金融风控、政策申报、企业经营自检等场景 提供个性化经营评价和风险预警服务 [2] 产品特点 - 产业集群企业数据集整合了工商、司法、知识产权等政府公开网站的企业公开数据 [1] - 企业分析报告产品通过电子税务局系统获取发票、纳税等核心经营数据 提供动态评价和风险预警等高价值服务 [1]
稚晖君,即将成为科创板上市公司高管?
搜狐财经· 2025-07-09 21:28
具身智能行业融资热潮 - 近期星海图、它石智航、云深处、星动纪元四家公司接连宣布新一轮融资,金额动辄过亿甚至超10亿美元,合计吸金近26亿人民币 [1] - 投资方包括美团、今日资本、百度、米哈游、襄禾资本等新老股东 [1] - 2025年前五个月中国具身智能领域投资事件达114起,融资总额超230亿元,双双超过去年全年 [1] 智元机器人收购上纬新材 - 智元机器人斥资约21亿收购上纬新材超过63%控股权 [2] - 交易分两步:先以7.78元/股协议受让29.99%股份,再以同样价格发起部分要约收购增持至66.99% [5] - 交易设计巧妙规避科创板"重组上市"规则,仅涉及控制权现金收购 [6] - 收购后上纬新材股价涨停20.05%,带动机器人板块走强 [2][3] 智元机器人公司背景 - 联合创始人兼CTO彭志辉(稚晖君)是技术网红,带来初始流量 [8] - 实际操盘手邓泰华为前华为副总裁,主导过5G、鲲鹏、昇腾等核心项目 [8][11] - 成立8个月即推出首款人形机器人,已形成三大产品系列 [12] - 发布"智元启元大模型GO-1"和开发平台GenieStudio,开源数据集AgiBotWorld [12] - 通过与软通动力、卧龙电驱等成立合资公司构建产业生态 [12] 行业发展趋势 - 行业关注点从运动控制能力转向大模型"大脑"能力 [14] - 当前阶段要求机器人能在非标准化环境中稳定完成复杂任务 [14] - 智元通过收购上市公司获得资本窗口、投资者退出预期和产业整合平台 [15][16][17] 资本运作创新 - 智元打破传统IPO路径,直接收购上市公司平台 [15] - 该模式为高估值硬科技公司提供与资本市场接轨新范本 [17][19] - 交易结构为未来业务整合预留空间,12个月后可能进行深度整合 [7]
90后辍学生16个月收入翻20倍的秘密|AI原生100
虎嗅APP· 2025-07-08 17:24
以下文章来源于AGI接口 ,作者陈伊凡 AGI接口 . AI卷起的财富风暴。 出品|虎嗅科技组 作者|陈伊凡、孙晓晨 编辑|苗正卿 头图|《硅谷》剧照 "AI 原生 100" 是虎嗅科技组推出针对 AI 原生创新栏目,这是本系列的第「 03 」篇文章。 当同行还在卷模型参数时,两个辍学生把50个开源AI模型"塞"进了一个画布——点几下鼠标、随手 涂鸦,40毫秒内图像跃然眼前。 Krea,一家AI设计公司,在成立16个月后,年经常性收入(ARR)冲 到800万美元,收入翻了20 倍,用户超2000万,成为入选硅谷最大加速器YC的项目中 "ARR增速最快的公司之一"。同时,Krea 也入选了硅谷顶尖风投机构A16Z GenAI 100的榜单,该榜单收录了当下最有价值的100个AI应用。 资本市场也给了Krea更高的想象空间。根据公开资料,虎嗅测算了Krea的PS值,PS值通俗而言就是 投资者愿意为每1元销售收入支付多少钱。PS值高意味着高市场预期。根据Krea的800万美元年收入 和5亿美元的估值,其PS值为62.5倍,Midjourney的估值为100亿美元,2024年年收入为3亿美元,估 值为33.3倍。 虎 ...
第四次数据标注产业供需对接会暨央企走进国家数据标注基地活动在保定成功举行
环球网· 2025-07-07 16:06
6月28日,在国家数据局数字科技和基础设施建设司的指导下,由河北省数据和政务服务局、保定市人 民政府、中国信息协会主办的"第四次数据标注产业供需对接会暨央企走进国家数据标注基地"活动在河 北保定成功举行。此次活动以"数聚生态 标注未来"为主题,汇聚了大湾区中央企业数字化协同创新联 盟、中央建筑企业数字化转型协同创新平台、中央企业BIM软件创新联合体,以及来自全国16个省市级 数据管理部门和275家数据标注相关企业,其中央企46家,其他企业229家,共计600余人参会,共同探 讨数据标注产业的高质量发展路径。 在主论坛环节,中国电子信息产业集团首席科学家蒋国飞以《高质量数据集建设路径与实践》为题发表 演讲。他指出,数据已成为人工智能发展的核心驱动力,当前行业急需突破样本数据规模和质量瓶颈。 高质量数据集正在从"劳动密集型"向"知识密集型"转型,需要借助自动化工具、智能标注、人机协同平 台以及数据合成和质量评测等关键技术。他还介绍了中国电子数据产业集团在交通、建筑、农业等多个 领域的成功落地案例,以及"中数天璇"图文数据集在垂直领域AI开发中的支撑能力。 保定市市委书记党晓龙会前与嘉宾进行座谈交流。市委副书记、市 ...
RoboTwin系列新作:开源大规模域随机化双臂操作数据合成器与评测基准集
机器之心· 2025-07-07 15:50
RoboTwin 系列工作曾中稿 CVPR 2025 Highlight、ECCV 2024 MAAS Workshop Best Paper,并作为第十九届"挑战杯人工智能 + 挑战赛"官方赛 题、RoboTwin 双臂协作竞赛赛题 @CVPR 2025 MEIS Workshop、张江人形机器人创新创业大赛赛题,Github 上斩获 1.2k Stars。 本文一作:陈天行,TianxingChen.github.io,2025 级香港大学 MMLab 博士生,师从罗平教授。在学术顶会以一作 / 共一发表多篇论文,获得 ECCV 协同具身智 能研讨会 Best Paper,CVPR Highlight 等。获得 CCF 优秀大学生等多项荣誉以及 20 余项国家级竞赛奖项。担任 CVPR 2025 RoboTwin 双臂协作竞赛组织者。发 起《具身智能技术指南》项目,已破 6k Github Stars。Lumina 具身智能社区联合创始人。 最近,上海交通大学 ScaleLab 与香港大学 MMLab@HKU 领衔发布 RoboTwin 系列新作 RoboTwin 2.0 以及基于 RoboTwin 仿真 ...
腾讯研究院AI速递 20250707
腾讯研究院· 2025-07-06 22:05
Grok 4性能突破 - Grok 4在HLE测试中得分45%,超越Gemini 2.5 Pro和Claude 4 Opus [1] - 采用"第一性原理"构建推理机制,从基本公理层面分析问题 [1] - 将分Grok 4和Grok 4 Code两个版本,强化编码能力,预计7月4日后发布 [1] Gemini CLI功能升级 - 新增音视频输入功能扩展多模态交互能力,目前支持文本/图片/PDF处理 [2] - 增强Markdown功能并集成VSCodium/Neovim编辑器,提升开发体验 [2] - 技术栈升级至Ink 6和React 19,优化历史记录压缩算法提高性能 [2] 昆仑万维奖励模型 - Skywork-Reward-V2系列刷新七大评测榜单,参数规模6亿至80亿 [3] - 采用两阶段迭代数据甄选流水线,从4000万样本筛选2600万高质量数据 [3] - 1.7B小参数模型性能接近70B大模型,证明高质量数据可抵消参数限制 [3] DeepSeek R1开源进展 - 德国TNG开源DeepSeek-TNG-R1T2-Chimera模型,基于三大模型混合开发 [4] - 推理效率比R1-0528提升200%,降低推理成本且主流测试表现更优 [5] - 创新AoE架构利用MoE细粒度结构,通过权重插值优化子模型性能 [5] Excel Agent技术突破 - Shortcut成为首个超越人类的Excel Agent,10分钟解决世锦赛难题 [6] - 功能兼容性近乎完美,可处理金融建模/数据分析/像素艺术等复杂任务 [6] - 早期预览阶段存在格式化弱/长对话不佳/复杂数据易宕机等局限 [6] Sekai视频数据集 - 上海AI Lab开源5000+小时第一人称视频,覆盖101国750城 [7] - 分为真实世界Sekai-Real和虚拟场景Sekai-Game,含多维标签 [7] - 基于数据训练Yume模型支持键鼠控制视频生成,助力视频研究 [7] 医疗AI突破 - ChatGPT识别MTHFR A1298C基因突变,被称为医疗界AlphaGo时刻 [8] - 微软MAI-DxO系统诊断NEJM病例准确率85%,是医生的四倍 [8] - 医疗AI正成为全流程解决方案,开启AI+医生共治模式 [8] 上下文工程兴起 - 上下文工程取代提示工程成为AI智能体成功关键因素 [9] - 关注为LLM提供完整系统包括指令/历史/工具等全方位信息 [9] - 智能体失败多因上下文问题而非模型本身 [9] AI重塑市场调研 - 生成式AI将1400亿美元传统调研转变为持续动态竞争优势 [10] - AI原生公司构建"虚拟社会"模拟用户行为,实现实时低成本调研 [10] - CMO认为70%准确率+实时更新比传统方式更具商业价值 [10] 企业AI创业趋势 - 企业级AI需解决真实环境中用户行为不可预测等"最后一公里"问题 [11] - 顶尖AI公司年增长率达10倍以上,受益于采购行为变革 [11] - 通过数据权威/工作流锁定/垂直整合等方式构建竞争壁垒 [11]
本来决定去具身,现在有点犹豫了。。。
自动驾驶之心· 2025-07-05 17:12
具身智能与自动驾驶行业趋势 - 具身智能经历从沉寂到疯狂再到冷静的发展周期,目前尚未达到生产力阶段[2] - 行业技术栈向端到端、大模型、VLA、强化学习、3DGS等前沿方向迁移[3] - Tier 1供应商和主机厂正跟进无图向端到端技术转型,技术迭代滞后前沿1-2代[3] - 机器人初创公司融资活跃,未来几年发展资金充足[3] 人才需求与职业发展 - 算法岗对学历要求较高,双非背景建议转向SLAM、ROS等机器人集成优化类岗位[3] - 深圳、杭州成为机器人公司聚集地,传统机器人技术仍是产品主线[4] - 大公司招聘聚焦端到端技术,LV融合、无图、BEV感知等领域人才已趋饱和[3] 技术资源与社区 - 知识星球提供自动驾驶15个技术方向学习路线及硬件/代码资料[1] - 社区汇聚华为天才少年等专家,形成课程+硬件+问答的教研闭环[5] - 四大技术板块覆盖视觉大语言模型、世界模型、扩散模型和端到端自动驾驶[8] 视觉语言模型(VLM)研究 - 预训练数据集规模从1M(COCO)到12B(WebLI)不等,LAION5B支持100+语言[16] - CVPR 2024重点论文涉及RLHF-V行为对齐、ViTamin可扩展架构设计等方向[12] - 评估体系涵盖图像分类(ImageNet-1k)、目标检测(COCO mAP)、语义分割(ADE20k mIoU)等17项任务[17][20][21] 自动驾驶数据集应用 - 经典数据集包括KITTI(2012)、Cityscapes(2016)、nuScenes(2020)等7类场景数据[22] - 语言增强数据集如Talk2Car(2020)支持单目标引用,NuScenes-QA(2023)专注视觉问答[23] - 智能交通领域出现多粒度检索系统等3种语言引导车辆检索方法[24] 世界模型前沿进展 - 2024年涌现DriveWorld(4D场景理解)、InfinityDrive(突破时间限制)等16项突破[31][33] - HERMES实现3D场景理解与生成的统一,DrivingGPT整合世界建模与规划[31] - 扩散模型在DriveDreamer-2中实现定制化驾驶视频生成[33] 端到端自动驾驶技术 - 2023年里程碑包括VADv2概率规划模型、GenAD新范式等9大进展[49] - 行业报告指出大模型时代下需重新思考开环端到端技术路径[46] - 特斯拉FSD验证端到端模型价值,ThinkTwice框架提升决策可靠性[46] 多模态技术融合 - DriveGPT4通过大语言模型实现可解释端到端驾驶,DRIVEVLM融合视觉语言模型[26] - 多任务学习框架如TransFuser采用Transformer传感器融合[53] - 安全验证依赖KING生成动力学梯度场景、AdvSim生成对抗性测试用例[57]
750城市+5000小时第一人称视频,上海AI Lab开源面向世界探索高质量视频数据集
量子位· 2025-07-05 12:03
世界模型数据集Sekai - 上海人工智能实验室、北京理工大学、上海创智学院、东京大学等机构联合推出持续迭代的高质量视频数据集项目Sekai,旨在构建动态且真实的世界供交互探索 [2] - 数据集汇聚来自全球101个国家和地区、750多座城市的超过5000小时第一人称行走与无人机视角视频,配有精细化的多维度标签 [2] - 包含两个互补子集:面向真实世界的Sekai-Real(YouTube视频)和面向虚拟场景的Sekai-Game(游戏视频) [3] 数据集特点 - Sekai-Real从8623小时YouTube视频中筛选出6620小时,确保分辨率不低于1080P、帧率高于30FPS,并保留原生立体声 [3][5][6] - 通过多维度采样模块提取300小时高质量子集Sekai-Real-HQ,综合考虑画质、内容多样性、地点、天气等因素 [3][9] - Sekai-Game来源于虚幻引擎5游戏《Lushfoil Photography Sim》,录制60小时实况视频并获取精确标注信息,最终处理得到36小时数据 [3][5][9] 数据处理流程 - 预处理阶段包括镜头边界检测、剪辑提取与转码(统一为H.265 MP4格式,720p分辨率,30fps帧率),以及视频过滤去除低质量片段 [8] - 标注阶段利用GPT-4o解析位置信息,Qwen 2.5-VL生成平均176字的时序描述,改进的MegaSaM提取相机轨迹 [8] - 采样阶段开发综合质量与多样性的策略,优化训练数据成本 [9] 应用与成果 - 基于Sekai数据训练交互式视频世界探索模型Yume,支持通过键鼠操作控制生成视频 [2] - 最终数据具备精准的三级位置信息、四大内容分类维度、详细视频描述及相机轨迹标注 [10] - 目标推动世界建模与多模态智能发展,应用于视频生成、自主导航等领域 [10]
数据要素发展论坛在京举办,数智北京创新中心落户通州
新京报· 2025-07-04 21:57
数据要素发展论坛 - 论坛主题为"以改革创新加速数据价值释放",聚焦数据"供、流、用、安"等发展趋势,推动数据要素市场高质量发展 [1] - "数智北京创新中心"共建仪式举行,未来将落户北京城市副中心,支持跨行业数据融合、应用场景创新及市场主体孵化 [1] - 北京市获批创建国家数据要素综合试验区,提出"243"体系框架(两大基础、四大环节、三大体系)深化数据要素市场化改革 [1] 数据流通与标准化建设 - 北京市数据流通利用增值协作网络已接入5000多个数据源,具备数据全网检索、安全计算、全程可溯等技术能力 [2] - 七城市签署《推动国家数据基础设施试点建设合作协议》,启动京津冀区域协同数据标准化行动 [2] - 北京市数据标准化技术委员会工作组授牌仪式举行,强化数据标准体系建设 [2] 人工智能与数据应用 - 论坛发布《人工智能高质量数据集供给图谱》《建设指南》及典型案例,满足AI大模型对高质量数据集需求 [2] - 启动"数据标注产业伙伴计划",联合多地数据标注基地及企业构建数据集研发、生产、流通、应用的全链条体系 [2]
全球数字经济大会 亿海蓝入选首批北京市高质量数据集
公司荣誉与成果 - 亿海蓝在2025全球数字经济大会上获评首批北京市行业高质量数据集资源建设成果(共34项)和高质量数据典型案例(共19个)[1] - 公司入选北京市数字消费新技术解决方案,凭借《全球船舶AIS与船舶档案数据集》和《水运物流高质量数据集》展示数据全生命周期管理能力[1] - 亿海蓝"基于多源数据融合的供应链协同解决方案"入选新技术解决方案,通过整合多源数据提升供应链协同效率与响应速度[1] 行业影响力与标准化建设 - 公司高级副总裁董阳博士与刘帆博士受聘为全国现代物流信息管理标准化技术委员会物流大数据工作组成员,体现公司在物流大数据标准化领域的专业地位[2] - 亿海蓝的技术成果为行业研究、决策制定及业务创新提供数据支撑,推动行业数字化与智能化发展[1] 技术发展与未来规划 - 公司将持续深化大数据、物联网、人工智能等前沿技术的创新应用,打造更具价值的数字化解决方案[2] - 亿海蓝以大会成果为新起点,致力于推动行业数字化转型与高质量发展[2]