Workflow
模型合并
icon
搜索文档
0产品估值100亿美元!前OpenAI CTO的“明星创业项目”:要做“企业定制AI模型”
华尔街见闻· 2025-06-24 16:39
公司概况 - OpenAI前首席技术官Mira Murati创立的AI初创企业Thinking Machines Lab(TML)成立不到五个月已完成20亿美元融资,估值达到100亿美元 [1] - 公司目标是通过定制化AI模型助力企业实现收入增长 [1] 商业模式与技术 - TML聚焦于通过强化学习技术开发定制化AI模型,将AI模型与企业追踪的具体KPI挂钩,旨在帮助客户直接提升营收或利润 [2] - 公司采用"RL for businesses"策略,为企业提供更精准的解决方案,可能在客户支持、投资银行或零售等细分市场具备竞争优势 [2] - TML计划通过结合开源模型的特定层级缩短开发周期,采用"模型合并(model merging)"技术整合多个模型的优势,无需额外训练即可快速推出产品 [2] - 公司策略旨在更快进入市场,与现有闭源模型竞争,尽管开源模型性能稍逊,但能力已接近闭源模型 [2] 团队与潜在收购 - TML组建了一支由20多名顶尖研究人员和工程师组成的团队,成员来自OpenAI和Anthropic等领先AI公司,包括OpenAI联合创始人John Schulman等 [3] - 团队实力使TML成为大型科技公司的潜在收购目标,Meta首席执行官扎克伯格曾与Murati讨论投资或收购可能性,但谈判未取得实质进展 [3] - 谷歌云为TML提供英伟达驱动的服务器租赁服务,可能促使谷歌进一步投资,类似十多年前DeepMind被谷歌收购的模式 [3] 市场竞争与挑战 - 市场上已有其他AI初创企业(如Scale AI和Turing)涉足定制化AI咨询服务,为特定行业或企业开发专属模型 [4] - 咨询服务的规模化难度较大,利润率和增长速度可能受限,TML也在探索开发其他AI应用或软件以提供更高利润空间 [4] - 公司计划推出面向消费者的产品,具体形式尚未明确,曾考虑开发与OpenAI的ChatGPT竞争的聊天机器人 [5]
LoRA中到底有多少参数冗余?新研究:砍掉95%都能保持高性能
机器之心· 2025-05-02 12:39
机器之心报道 编辑:张倩 LoRA 中到底存在多少参数冗余?这篇创新研究介绍了 LoRI 技术,它证明即使大幅减少 LoRA 的可训练参数,模型性能依然保持强劲。研究 团队在数学推理、代码生成、安全对齐以及 8 项自然语言理解任务上测试了 LoRI。发现仅训练 LoRA 参数的 5%(相当于全量微调参数的约 0.05%),LoRI 就能匹配或超越全量微调、标准 LoRA 和 DoRA 等方法的性能。 大型语言模型的部署仍然需要大量计算资源,特别是当需要微调来适应下游任务或与人类偏好保持一致时。 为了降低高昂的资源成本,研究人员开发了一系列参数高效微调(PEFT)技术。在这些技术中,LoRA 已被广泛采用。 不过,LoRA 仍然会带来显著的内存开销,尤其是在大规模模型中。因此,近期研究聚焦于通过减少可训练参数数量进一步优化 LoRA。 最近的研究表明,增量参数(微调后的参数减去预训练模型参数)存在显著冗余。受随机投影有效性和增量参数冗余性的启发,来自马里兰大学和清华大学的研 究者提出了带有降低后的干扰的 LoRA 方法—— LoRI(LoRA with Reduced Interference) 。 LoRI ...