Mano
搜索文档
善友探索流 01|从天才到归真:吴明辉的“悟道”之路
混沌学园· 2025-10-30 19:22
公司发展历程 - 创始人吴明辉拥有深厚的技术背景,本科保送至北大基础数学系,研究生保送至计算机系人工智能专业,博士进修多模态大模型方向[1][7][10] - 早期创业项目“秒针系统”专注于互联网广告监测,通过提供真实流量数据成为行业标准,并服务宝洁等大型客户[21][22][25] - 公司在2012年面临广告监测业务增长天花板,开始寻找第二曲线,内部孵化广告推荐系统,外部注册新公司“明略数据”[29][30] - 2018年、2019年明略与秒针合并,公司通过并购成为数据赛道第一大公司,并融资两轮各20亿,账上现金超10亿[1][40] - 2020年底收购企业微信SCRM工具夜莺科技,旨在获取企业微信内的销售数据用于AI训练[40] - 2021年因战略节奏失控、过度扩张导致资金链断裂,未能完成5亿美金融资,团队裁员95%[44][45][47] - 2022年底至2023年逐步偿还员工离职补偿,腾讯在危难时提供资金支持[48][55][56] - 近期公司拟通过港交所上市,并在IPO前发布新产品Mano和DeepMiner[2] 核心技术产品 - 新推出的网页GUI智能体Mano在Mind2Web与OSWorld两大国际权威基准上刷新纪录,双双登顶SOTA,具备在真实网页环境中完成复杂操作链的能力[1][17] - 专有大模型产品线DeepMiner正式亮相,专注于解决B端企业决策场景下AI的可信、可解释、可追溯问题[2] - DeepMiner的核心是链接企业内外部可信数据源,其数据分析全链路完全透明、可追溯,人类分析师可在任何环节进行提问和修改[68][69][70] - 产品具备强大的数据分析洞察能力,并链接到图像和视频生成能力,在效果广告领域可实现基于可信数据的内容生成和投放优化[71] - DeepMiner被定位为Foundation Agent(通用智能体),可裂变出多个垂直领域的智能体,终极目标是在各行各业帮助人类构建可信的AI决策模型[81] - 公司早期技术积累包括硕士论文研究的推荐系统和自然语言处理技术,为当前多模态大模型研发奠定了基础[16][17] 商业模式与战略 - 秒针系统通过坚持“中立第三方”定位,解决广告主与媒体间互信问题,并以数据作为结算标准成为行业基础设施[22][24][25] - 公司战略演进从广告监测到广告推荐,再到“everything的推荐”,最终聚焦于利用AI技术重塑数据驱动决策的商业模式[22][27][75] - 当前战略核心是利用AI新武器突破原有业务卡点,通过DeepMiner产品将数据分析能力赋能给更广泛的企业用户,降低使用门槛[61][67][74] - 公司选择To B赛道,认识到其难以爆发但需长期坚持的特点,愿景是打造可信的AI,成为商业决策的“守门员”[4][74][75][81] - 未来商业模式类似链家与贝壳的关系,DeepMiner有望成为承载各类数据服务的平台,而原有业务成为平台上的使用者[75] 行业趋势与定位 - 创始人经历了PC互联网、移动互联网、大数据和人工智能多个技术周期,公司业务随之持续迭代[2][32] - 行业趋势是AI从C端走向B端,从消费场景迈入企业决策,对AI的可信度要求越来越高[2][79] - 公司在AI时代的定位是解决商业社会中的数据造假问题,打造真正让人类信得过的可信AI[79][80] - 面对通用大模型的竞争,公司策略是在细分垂直领域深耕,通过Foundation Agent裂变出差异化、可落地的垂直智能体[81][85] - 行业存在创新空间,巨头无法覆盖所有领域,为具备独特定位和可衡量系统的创业者提供了机会[83][85]
全球双榜SOTA!明略科技专有大模型 Mano开启GUI智能操作新时代
机器之心· 2025-09-21 13:26
文章核心观点 - 明略科技推出的专有GUI大模型Mano在行业公认的Mind2Web和OSWorld两大基准测试中均取得创纪录的SOTA成绩,为GUI智能体领域提供了可扩展、可持续进化的新范式 [1][7][14] - Mano模型通过在线强化学习和训练数据自动采集两大核心创新,实现了在复杂图形用户界面交互性能上的重大突破 [23][32][48] - 该技术突破使Mano能够高效执行网页操作与数据采集任务,为企业智能化转型提供支持,并成为公司在AI Agent领域差异化竞争的关键 [63][64][66] 技术性能表现 Mind2Web基准测试表现 - 在Mind2Web基准测试中,Mano-7B模型在元素精度(Ele.Acc)指标上达到80.8%,在步骤成功率(Step SR)指标上达到73.9%,显著超越所有SOTA方法 [17][18] - Mind2Web覆盖137个网站、2350+真实任务,涵盖填写表格、订机票、在线购物等复杂操作场景 [15] - 在跨任务、跨网站、跨领域三个关键维度上,Mano-7B均表现优异,特别是在跨网站场景中步骤成功率达到68.3% [17] OSWorld基准测试表现 - 在OSWorld-Verified榜单的Foundation E2E GUI & Specialized Model评测中,Mano取得40.1%的成功率,仅在一次运行中就刷新纪录 [2][10] - OSWorld涵盖369个跨应用任务,覆盖10类应用,包括浏览器和办公软件,被认为是桌面智能体测评的"珠峰" [18][20] - 在Max Steps=100配置下,Mano经过2次运行后平均成功率提升至41.6±0.7%,较UI-TARS-7B的27.4±2.2%提升约7个百分点 [19][21] 技术创新突破 在线强化学习技术 - Mano在GUI交互领域首次提出在线强化学习训练范式,构建了GUI领域强化学习的新范式 [23][32] - 技术团队建立模拟环境池,让模型与真实环境交互,包括浏览器环境(BUA)和桌面环境(CUA) [37] - 采用在线采样+离线过滤的方式,先收集轨迹再过滤噪声数据,动态调节任务难度分布,避免学习效率低下问题 [40] - 消融实验显示,增加在线强化学习步骤后,模型在OSWorld数据集上的平均分数从33.7提升至41.6,提升7.9个点 [44][45] 训练数据自动采集 - 技术团队设计了训练数据自动采集方法,搭建可扩展的虚拟环境集群模拟多种交互场景 [49] - 为网页环境定制Chrome插件"Mano-C",全面提取网页中的交互元素,捕捉空间坐标与语义属性 [50] - 采用深度优先搜索(DFS)策略进行探索,最大深度设为10层,在探索覆盖率和计算效率间取得平衡 [53] - 利用大语言模型为每个提取元素生成语义标签、功能描述及交互类别,形成结构化语义对齐数据 [51] 行业应用价值 - GUI智能体市场热度高涨,在2025外滩大会和财新亚洲愿景论坛上成为最高频热词 [4] - 真正有用的Agent必须学会使用手机和电脑,像人一样读懂并操作GUI界面 [4][7] - Mano作为差异化竞争关键角色,能够访问其他同类Agent无法触及的数据源,如需要手动登录设置条件才能获取的专业网站数据 [61][63] - 该技术能够大幅降低传统自动化方案在应对业务变更时的适配与维护成本 [66]