Workflow
多模态
icon
搜索文档
“DeepSeek不是万能的”,李彦宏今年押注AI 应用:模型价再“打骨折”,重点布局多智能体、多模态
AI前线· 2025-04-25 16:25
作者 | 褚杏娟、华卫 在 4 月 25 日的百度 Create 开发者大会现场,百度创始人李彦宏发布了两大模型、多款热门 AI 应用,并宣布将帮助开发者全面拥抱 MCP。同时,百度 正式点亮了国内首个全自研的三万卡集群,可同时承载多个千亿参数大模型的全量训练,支持 1000 个用户同时做百亿参数的大模型精调。 "所有这些发布,都是为了让开发者们可以不用担心模型能力、不用担心模型成本、更不用担心开发工具和平台,可以踏踏实实地做应用,做出最好的应 用!"李彦宏说道。 李彦宏表示,大模型厂商卷生卷死,几乎每周都在发布新模型,但开发者不敢大胆用,因为担心自己的应用被模型迭代快速覆盖掉。李彦宏认为这是把 双刃剑:一方面,开发者确实需要理解技术发展趋势;另一方面,这么多日益强大的模型提供了更多的选择,打开了更多的可能性。 "只要找对场景,选对基础模型,有时候还要学一点调模型的方法,在此基础上做出来的应用是不会过时的"。他强调,"没有应用,芯片、模型都没有价 值。模型会有很多,但未来真正统治这个世界的是应用,应用才是王者。" 发布两大新模型, 价格最高降 80% 文心大模型 4.5 Turbo 和文心大模型 X1 Tur ...
科技龙珠雷达系列 - 上海篇-系统梳理中国科技龙珠
2025-04-15 22:30
纪要涉及的行业和公司 - **AI大模型及语调服务行业**:库拉斯 - **机器人行业**:智源机器人、达塔科技、飞西科技 - **国产GPU行业**:沐锡、碧人科技、四元科技 纪要提到的核心观点和论据 库拉斯 - **核心观点**:在AI领域有重要地位,发展态势良好 [3] - **论据**:2024年3月成立,背靠国资,为大模型企业提供语调服务;语调服务规模达260T,合作伙伴超100家,签署几十家战略协议;正在建设大模型语调超级工厂,预计2025年底语调库总容量提升到2PB,每天语调加速加工速度达1000P [2][3] 智源机器人 - **核心观点**:具备AI加本体的全站技术,产品和技术有创新突破 [4][6] - **论据**:有远征精灵、灵犀等三大机器人系列家族,已量产下线超一千台通用巨神机器人;灵犀X2全身有28个自由度,能做高难度动作;3月10日发布智源起源大模型,提出VLM + MOE混合架构;3月11日推出新一代人形机器人零星XR,在四个痛点方面有改进,实现三大技术创新 [4][5][6][7] 达塔科技 - **核心观点**:创新性提出云端机器人架构并实现商业化 [8] - **论据**:通过人工智能、多模态融合AI、数字软生论等先进技术,实现机器人自我学习、进化和成长 [8] 飞西科技 - **核心观点**:专注工业化机械臂生产,产品应用场景广泛 [9] - **论据**:核心创业团队来自斯坦福大学机器人和人工智能实验室;飞西玄辉系列凭借多自由度力矩传感器,可在工业、医疗、科研教育、农业等领域应用 [9][10] 沐锡 - **核心观点**:在高性能通用GPU研发有成果和突破 [11] - **论据**:核心团队有近20年高性能GPU产品开发经验;有N、C、G三个系列GPU产品;联合联想发布首个国产Digifig一体机解决方案;实现中国首个四种以上异构芯片混训技术落地;2022年8月发布的BR100芯片创造全球算力纪录,16位浮点算力达1000T以上,8位定点算力达2000T以上 [11][12] 碧人科技 - **核心观点**:针对Queen32B推理模型有部署成果 [13] - **论据**:推出全面支持Queen32B大模型推理的TM106全系列一体机,该大模型接近DeepSea R1的推理能力水平 [13] 四元科技 - **核心观点**:在人工智能云端算力产品有优势 [14] - **论据**:计算集群布局领先,能为企业提供开箱即用的快速部署效果;依托智能加速卡和计算集群,为大型计算中心提供加速产品,降低客户成本;有预算和建算两个软件开发平台,还有内容生成服务产品;2025年率先完成对deepseq全量模型高效适配,一体机已在多地智能计算中心完成1万张卡部署 [14][15] 其他重要但是可能被忽略的内容 - 科技龙珠企业不仅在各自领域领先,在国际上有影响力,能突破国际巨头垄断,引领中国技术发展潮流,有望引发国家对科技企业的关注热潮 [16] - 建议加大对计算机等科技类资产配置,为未上市但有突破的科技企业提供资金支持 [16]
Meta,重磅发布!
证券时报· 2025-04-06 12:58
Meta推出Llama 4开源AI模型 - Meta发布Llama 4系列首批模型,包括Llama 4 Scout和Llama 4 Maverick两个版本,是公司迄今为止最先进的模型,也是同类产品中多模态性最强的模型 [1][5] - Llama 4是Llama系列模型中首批采用混合专家(MoE)架构的模型,与传统的稠密模型相比,MoE架构中单独的token只会激活全部参数中的一小部分,训练和推理的计算效率更高 [7] - Llama 4 Behemoth是Meta未来最强大的AI模型之一,总参数高达2万亿,作为对照,DeepSeek-R1总参数规模为6710亿 [8] Llama 4的技术特点 - 参数规模大:Llama 4 Scout共有16位"专家"、1090亿参数、170亿激活参数量;Llama 4 Maverick有128位"专家"、4000亿参数、170亿激活参数量;Llama 4 Behemoth具有2880亿激活参数量 [8] - 多模态能力突出:采用早期融合(Early Fusion)技术,可以用海量的无标签文本、图片和视频数据预训练模型,实现文本和视觉token无缝整合 [8] - 长文本能力突破:Llama 4 Scout模型支持高达1000万token的上下文窗口,刷新了开源模型的纪录,市场上其他领先模型如GPT-4o也未能达到此规模 [9] 开源模型竞争格局 - Meta是开源模型的重要奠基者,2023年开源Llama 2并免费商用,激活了开发者社区的创新潜力,基于Llama 2构建的应用项目数量大大增加 [11] - DeepSeek的崛起对Meta在开源模型社区的领先地位构成巨大冲击,仅用550万美元训练的DeepSeek-V3在基准测试中表现优于Llama模型 [12] - 阿里巴巴通义千问系列开源大模型也表现优异,阿里至今已向全球开源200多款模型,千问衍生模型数量突破10万,超越美国Llama系列 [12] 行业发展趋势 - OpenAI计划在几周后发布最新的推理模型o3和基座模型o4-mini,几个月后推出GPT-5 [13] - DeepSeek与清华大学研究团队联合发布重磅论文,提出两项核心技术,为提升大语言模型的推理能力提供新方法论 [13] - 大模型竞争进入推理强化和应用拓展的下半场,开源开放日益成为大模型的核心竞争力 [13]
7B模型搞定AI视频通话,阿里最新开源炸场,看听说写全模态打通,开发者企业免费商用
量子位· 2025-03-27 12:16
西风 明敏 发自 凹非寺 量子位 | 公众号 QbitAI 深夜重磅!阿里发布并开源首个端到端全模态大模型—— 通义千问Qwen2.5-Omni-7B ,来了。 仅靠一个 一体式模型 ,就能搞定文本、音频、图像、视频全模态,并实时生成文本和自然语音。 堪称7B模型的全能冠军。 你的iPhone搭载的很可能就是它! 现在打开Qwen Chat,就能直接和它实时进行视频或语音交互: 话不多说,先来看一波能力展示。 在大街上同它视频通话,它能正确识别周围环境,按照你的需求为你推荐餐馆: 走进厨房,它又化身"智能菜谱",一步步指导你变成大厨: 在多模态任务OmniBench评测中,Qwen2.5-Omni表现刷新记录拿下 新SOTA ,远超谷歌Gemini-1.5-Pro等同类模型。 在单模态的语音识别、翻译、音频理解、图像推理、视频理解、语音生成任务中,Qwen2.5-Omni的全维度表现也都优于类似大小的单模态模 型以及闭源模型。 在seed-tts-eval语音生成基准中,Qwen2.5-Omni展现出与人类水平相当的语音合成能力。 这意味着Qwen2.5-Omni-7B能很好地和世界进行实时交互,甚至能轻松识 ...
活动回顾 | DeepSeek:AI大模型开启金融数据领域的智能变革
Refinitiv路孚特· 2025-03-24 13:44
引言 - 金融行业作为数据密集型产业,正面临技术与金融深度融合带来的机遇和挑战,人工智能正在重塑行业格局 [1] - DeepSeek作为新一代开源大语言模型,凭借低成本、高效推理能力和技术创新,为金融企业提供强大技术支持,成为金融数据领域的重要变革因素 [1] - LSEG Academy举办网络研讨会,从技术突破、应用场景、合规挑战及未来趋势四方面解析DeepSeek如何推动金融数据领域智能化转型 [1] DeepSeek的核心技术优势 开源战略构建全球生态系统 - DeepSeek采用最宽松的开源策略(MIT License),技术在全球范围内快速传播和应用,吸引众多企业和开发者参与,构建全球开发者生态系统 [3] - 中小企业得以以极低成本引入AI能力,快速实现智能化数字化转型,满足大模型私有化部署诉求 [3] - 开源模式打破大模型技术被闭源公司垄断的格局,使中国在全球AI竞争中占据一席之地 [4] 推理模型打开大语言模型黑盒子 - 传统大模型依赖海量文本训练,相当于"知识存储库",随着训练语料枯竭陷入发展瓶颈 [5] - DeepSeek通过改进强化学习训练方法赋予大模型"主动学习"能力,类似于人类从"死记硬背"到主动"实践技能"的进化 [5] - 模型可通过反复试错学习金融数据分析,逐步提升决策能力,根据市场变化优化自身性能,主动适应复杂场景 [5] - 推理模型的可解释性满足金融行业对透明度的要求,清晰展示分析逻辑,助力风控与合规 [6] 全流程的工程优化 - DeepSeek通过优化混合专家模型(MoE),将普通专家分为共享专家与领域专家,优化分工,减少训练冗余 [7] - 路由优化使训练数据到达正确专家,数据压缩和并行预测技术进一步降低资源消耗,提升效率 [7] - 追求极致的工匠精神使训练成本降至"白菜价",降低私有化部署门槛,推动AI技术普及和行业应用广泛落地 [7] AI在金融行业的应用场景 降本增效:提升运营效率 - AI通过智能客服、编程助手等工具化身数字员工,大幅提升运营效率,降低人力成本 [9] - 伦交所集团采用大模型技术将客服效率提升50%以上,且持续优化中 [9] - 高盛利用大语言模型自动化生成代码,大大缩短业务系统开发时间 [9] 风险管理:优化风控模型 - AI凭借强大语言能力优化风控模型,自动生成风险提示与报告 [10] - 通过对大量数据和非结构化文本的监测、分析和处理,精准识别潜在风险,提供及时风险评估和预警 [10] 投资决策:优化投资策略 - AI通过智能投顾提升研究能力,帮助金融机构优化投资策略,生成个性化投资建议 [11] - 对投资组合进行实时监控和分析,及时调整以应对市场变化,提升投资收益 [11] - 对冲基金TwoSigma利用大模型分析财报、新闻与社交媒体,识别潜在投资机会和风险 [11] 客户服务:提升客户体验 - AI支持个性化推荐和智能交互,根据客户兴趣和需求提供个性化金融产品和服务 [12] - 渣打银行与伦交所集团合作推出全球首个外汇市场AI视频自动生成的获客工具,大大提升财富管理客户满意度 [12] 合规挑战与应对策略 数据隐私与安全风险 - 金融行业高度依赖敏感数据,大模型应用可能加剧隐私泄露风险,如生物识别信息滥用导致身份盗用,钓鱼邮件和深度伪造技术威胁资金安全 [13] - DeepSeek的本地化部署和数据加密技术可保证数据安全性和隐私性,确保金融机构对数据的合法合规使用 [14] 智能时代的用户教育 - 金融投资者、消费者需警惕过度暴露个人信息,如随意授权生物信息可能被用于伪造交易行为 [15] - 金融机构可通过AI反钓鱼模型实时监控,识别异常行为,向用户推送风险提示,形成"技术+教育"双重防线 [15] 未来趋势 智能体(AI Agent) - AI Agent将替代人工,根据预设规则和任务要求自动完成复杂业务操作,提高效率,减少人为错误 [16] - 基本面分析、技术分析和宏观研判可由不同Agent分工协作,最终生成交易信号,改变投研、客服等岗位运作方式 [16] 多模态 - DeepSeek R1模型以文本处理为主,未来可能发展多模态大模型,支持图像(如K线图解读)、语音(如财报电话会实时解读)等场景 [17] Smart data+NLP编程 - 未来大语言模型开发人员可能使用中文等自然语言"编写代码",用少量优质数据训练垂直领域小模型,降低AI开发技术门槛 [18] AI平权与生态重构 - DeepSeek的低成本AI发展路径将持续降低算力成本,使中小机构获得顶级投行分析能力,推动行业竞争战国时代 [19] - 传统金融数据服务商面临业态重构压力,DeepSeek擅长处理非结构化数据,将其转化为结构化洞察,改变传统数据服务模式 [19] 结语 - DeepSeek的横空出世被称为"AI界的斯普特尼克时刻",更像15世纪的古登堡自动印刷机,通过开源与技术创新打破算力垄断,推动AI普惠 [21] - DeepSeek开启AI领域"战国时代",促使金融领域从降本增效走向核心业务重塑,智能体、多模态技术成熟将更深层次重构金融价值链 [21]
实测腾讯元宝电脑版:搭载满血版DeepSeek,装上就是AI PC
量子位· 2025-03-02 13:18
金磊 发自 凹非寺 量子位 | 公众号 QbitAI 听说了嘛?朋友, 元宝电脑版 新鲜出炉了! 而且啊,从logo上来看,就是主打一个 "满血版" 。 果不其然,从内嵌的模型来看,元宝电脑版在配置了自家的 混元大模型 之外,还有就是大火的 DeepSeek 。 以及从功能上来看,也是非常DeepSeek模式,主要包含 深度思考 和 联网搜索 。 从官方介绍的功能特点来看,区别于其它大模型产品, 微信公众号 这个资源渠道成了元宝电脑版的一大特点。 当然,相比于早就已经上线电脑版的另一个产品——ima(艾玛),也有朋友提出了自己的困惑。 对此,腾讯官方也是下场做了回复,称二者各有侧重。 那么元宝电脑版到底体验如何?话不多说,我们实测走一波。 实测元宝电脑版 首先我们来一个 时效性 的问题: 截至2025年3月最新SpaceX星舰发射计划有哪些技术突破? 截至2025年3月最新5paceX星舰发射计划有哪些技术突 破? 引用 7 篇资料作为参考 v 已深度思考(用时12秒) ^ 好的,我现在需要回答用户关于截至2025年3月SpaceX星舰发射计划的技术突破的问 题。首先,我需要仔细阅读用户提供的搜索结果,找出其 ...
为什么我们对 25 年 AI 极度乐观?| 42章经
42章经· 2025-01-06 05:54
AI市场发展回顾与展望 - 23年AI市场爆发初期,互联网从业者和美元基金迅速涌入,投资焦点集中在大模型公司,OpenAI背景人才备受追捧 [1] - 24年上半年一级市场跌至十年最低谷,大模型公司热度消退,Pre Training模式被质疑,具身智能成为新投资关键词 [2] - 24年9月后市场出现三大变化:融资复苏、多模态模型能力突破(图片/语音/视频生成达GPT-3水平)、AI创二代创始人涌现 [3] 技术演进趋势 - 大模型呈现四大趋势:基础设施化、开源快于闭源、多模型混合方案受青睐、产品价值高于技术 [2] - 多模态进展超预期,视频和3D模型发展速度显著快于语言模型,推理模型o1推动Agent落地 [3] - AI Native产品形态可能通过多模态实现突破,NotebookLM展示跨模态内容组织新范式 [13][14] 投资与创业格局 - 25年市场两极分化加剧:美元基金聚焦出海,人民币基金侧重硬科技/国产替代,初创公司首轮估值达3000-5000万美金 [4][5] - 应用落地成为共识方向,生产力工具类产品主导市场,20-30家应用公司估值超5000万美金,头部ARR达1000万美金 [2][6] - 创始人画像迭代:从互联网转型者变为AI创二代(大厂AI负责人/创业公司联创),认知水平和商业模式显著升级 [3] 商业模式变革 - Prosumer(小B大C)模式验证成功:兼具C端传播属性和B端付费能力,预计25年将出现千万美金ARR公司 [6] - Agent商业模式可能颠覆SaaS:按结果付费替代订阅制,销售体系重构,新创企业比现存SaaS公司更具转型优势 [7][8][9] - Perplexity案例显示搜索平台可能演变为任务完成型Agent,成为AI时代核心入口 [12] 未来重点方向 - Agent领域三大机会:2B场景落地、存量SaaS公司AI化、新商业模式创业公司反攻 [11] - 多模态潜在突破点:视频作为内容输出终局、用户从被动接收转向参与式消费、生产关系变革 [15] - 技术-商业协同效应:AI理解能力+多模态组织将重塑产品形态,如NotebookLM的交互式对话设计 [13][14]
为什么我们对 25 年 AI 极度乐观?| 42章经
42章经· 2025-01-05 21:54
市场趋势与行业动态 - 2023 年 AI 创业投资关键词是大模型,2024 年是具身智能,2025 年将是应用落地[2][4] - 2024 年 9 月后融资市场复苏,各种模态模型能力加强,创始人画像改变,市场进步将延续到 2025 年[4] - 2025 年市场环境将进一步变好,但会更加两极分化,资本方向上美元基金和人民币基金分化,创业融资更倾向背景好的人[4] 投资机会与潜在风险 - 2025 年看好应用落地方向,尤其是生产力工具类产品,预计会出现一批千万美金 ARR 的创业公司[4] - 2025 年看好 Agent 和多模态方向,Agent 主要在 2B 领域落地,新商业模式的 Agent 创业公司将冒头反攻现存 SaaS 企业[4][5] - 多模态可能藏着 AI Native 的答案,未来产品组织形态和使用逻辑可能彻底变化[7] 公司财务表现 - 当下市场约 20 - 30 家应用类公司估值超 5000 万美金,多数应用公司 ARR 年收入为 0,少数找到 PMF 的达 100 万美金 ARR,极少数头部项目达 1000 万美金 ARR[2] 技术发展趋势 - 大模型逐渐成为基础设施,开源进展速度超闭源,实际应用落地偏向多模型混合方案[3] - 推理模型能力提升解锁 Agent 可能性,未来各专业人群、垂直领域都有 Agent 机会[4] 商业模式分析 - Agent 若按结果付费,将对现有 SaaS 公司和模式产生颠覆式变化,销售人员管理和组织模式也会改变[5]
大模型的 5 月:热闹的 30 天和鸿沟边缘
晚点LatePost· 2024-05-29 22:00
技术进展放缓 - 大模型行业在5月密集发布13场发布会和10多款新模型,但技术突破有限,GPT-4o语言能力与GPT-4持平,GPT-5未发布[2][4] - 多模态成为技术焦点,OpenAI、Google、微软推出能处理语音、图像的模型,但产品仍处Demo阶段并引发侵权和隐私问题[4] - GPT-4o在文本处理能力上提升有限:MMLU提升2.5%、HumanEval提升3.6%、MGSM提升2.3%、DROP下降3%[11] 行业竞争格局 - OpenAI和Google将核心模型API价格降低50%,中国公司降价更激进,幻方模型价格比行业低90%以上[8][29] - 字节、阿里、百度、腾讯等大公司跟进降价甚至免费,价格战加剧[8][30] - 降价驱动因素包括技术优化(模型架构调整、分布式推理)、小模型策略、芯片性能提升(英伟达GB200推理性能提高30倍)[31] 商业化挑战 - 红杉资本估算行业GPU投入达500亿美元但收入仅30亿美元,商业化进展慢于互联网等历史技术变革[21] - 微软、Google、Meta计划继续投入数百亿美元购买GPU为未来应用爆发做准备[22] - 杀手级应用探索集中在语音助手(GPT-4o与Siri整合)、搜索引擎(Google AI Overviews)、操作系统(微软Recall)等方向[24][26] 创业公司困境 - Adept、Stability AI、Humane等明星AI创业公司寻求出售,估值在7.5-10亿美元区间[33] - 中国头部大模型公司融资门槛提高,单轮融资达数亿美元,投资方集中于大型科技公司[33] - 应用层创业窗口仍在,秘塔搜索用户增长超500%,但受限于模型能力进展,半年内缺乏创新产品[35][36] 技术发展方向 - 优质训练数据接近耗尽,行业转向多模态和小模型策略[13][18] - GPT-4o实现端到端语音架构,响应时间从秒级降至毫秒级,更接近人类对话体验[13] - 图像理解能力显著提升,在MMMU数据集上得分69.1%,比GPT-4 Turbo提高6个百分点[17][18] 监管动态 - 欧盟通过《人工智能法案》,要求披露训练数据版权和AI生成内容标识[41] - 美国推进限制开源模型出口的法案,众议院外交事务委员会已投票通过[41] - 25位科学家联名呼吁加强AI监管,认为AGI风险迫近,而杨立昆等学者认为当前模型远未达到智能水平[38][40]