Workflow
多模态模型
icon
搜索文档
氪星晚报|强生Q2营收237.4亿美元,高于市场预期;黄仁勋:轻视华为和中国制造的人都极其天真;腾讯元宝上线图片AI编辑能力
36氪· 2025-07-16 22:51
京东健康 - 京东健康体检中心(亦庄店)医疗美容科服务项目上线京东App,进一步丰富医疗服务项目 [1] - 该体检中心自2023年7月开业以来已开设内外科、口腔科、中医科等特色门诊 [1] MiniMax - MiniMax即将完成近3亿美元新融资,融资后估值超40亿美元 [2] - 公司正寻求A股上市 [2] 亚马逊海外购 - 首届"海折节"整体订单量实现翻倍,鞋靴、电子、个人护理等品类销售额同比增长超200% [2] - 超2400个国际品牌销售额实现同期翻倍 [2] 施耐德电气 - 正洽谈收购淡马锡持有的施耐德电气印度私人有限公司35%股份,交易价格约10亿美元 [3] - 若交易达成,包括债务在内的合资企业估值约50亿美元 [3] 强生 - 2025年Q2营收237.4亿美元,高于市场预期的228.58亿美元 [3] - 预计全年销售额932亿美元至936亿美元,调整后每股收益10.8美元至10.9美元 [3] 阿斯麦 - 受美关税政策影响,可能无法在2026年实现增长 [3] - 地缘政治不确定性加剧,机器及芯片价格上涨,市场环境充满挑战 [3] 智能手机行业 - 2025年Q2全球智能手机出货量同比增长2%,主要受北美、日本和欧洲市场拉动 [4] - 三星出货量同比增长8%,苹果同比增长4% [4] 投融资 - 北方电力完成3亿元A+轮融资,资金用于电力行业高效节能技术研发、信息化建设和光伏技术推广 [5][6] - "无界方舟"连续完成Pre-A、Pre-A+轮亿元级别融资,资金用于多模态模型与Agent技术研发升级 [7] 新产品 - 腾讯元宝上线图片AI编辑能力,支持风格化作品生成 [8] - 盒马上线功能性HPP果蔬汁,采用HPP杀菌工艺保留营养成分 [9] - 智平方展示通用智能机器人爱宝的核心能力 [10] 众辰科技 - 公司应用于人形机器人相关产品的收入占比不超过1% [11] 行业观点 - 黄仁勋称华为是一家强大的科技公司,轻视中国制造能力的人极其天真 [12] - Strategy公司比特币策略经理表示即使比特币跌至2万美元,公司仍能偿还所有负债 [12] 新能源汽车 - 国务院常务会议听取规范新能源汽车产业竞争秩序情况的汇报,强调加强成本调查和价格监测 [13] AI芯片 - 英伟达H20出口解禁有望带动中国AI芯片需求,外购比例预估回升至49% [13]
阶跃星辰将在WAIC期间发布多模态旗舰模型
快讯· 2025-07-16 16:15
公司动态 - 阶跃星辰将在2025世界人工智能大会(WAIC)期间发布多模态旗舰模型,包括多模态推理旗舰模型和原生多模态模型 [1] - 公司将联合头部合作伙伴展示在智能终端、金融财经、内容创作等多场景下的全新Agent产品 [1] 行业趋势 - 多模态模型和Agent产品在智能终端、金融财经、内容创作等领域的应用成为人工智能行业的重要发展方向 [1]
智谱获10亿战略投资 商业化之路仍待开启
中国经营报· 2025-07-09 21:23
战略投资与融资 - 浦东创投集团和张江集团宣布对智谱进行总额10亿元的战略投资,并完成首笔交割 [1] - 智谱在上市辅导前夕密集收获多地国资战略投资,包括杭州城投产业基金及上城资本的10亿元融资、珠海华发集团的5亿元投资、成都高新区的3亿元投资 [2] 技术发布与突破 - 开源发布新一代通用视觉语言模型GLM-4.1V-Thinking,以推理能力为核心突破点,刷新10B级别多模态模型性能上限 [1] - GLM-4.1V-Thinking支持图像、视频、文档等多模态输入,引入"思维链推理机制"和"课程采样强化学习策略",提升跨模态因果推理能力与稳定性 [2][3] - 轻量版GLM-4.1V-9B-Thinking在28项权威评测中23项达成10B级模型最佳成绩,18项持平或超越72B参数的Qwen-2.5-VL [3] 商业化与经营策略 - 公司经营策略从"卖模型"转向"卖服务",2025年新签订项目大部分为模型应用开发类,交付压力较大 [4] - 商业化挑战包括算力资源利用率低、模型能力不及DeepSeek V3、多模态模型应用场景有限 [4] - 政府背书和融资能力是公司优势,但商业化能力不足可能影响长期竞争力 [9] 技术优势与特色 - GLM模型在中文理解与生成能力上表现突出,适合教育、政务、文化等领域 [5][6] - 支持128K上下文长文本处理,适合合同、论文等长文档分析 [7] - 开源生态活跃,ChatGLM-6B/12B在GitHub累计超3万星,适配消费级显卡 [7] - API价格低于国际主流模型,GLM-4输入价格仅为GPT-4-Turbo的1/5 [7] 技术劣势与不足 - 多模态能力起步较晚,弱于GPT-4V、Gemini 1.5 Pro等成熟多模态模型 [7] - 英文能力相对弱,在复杂英文逻辑推理、学术写作等场景表现落后于Claude 3/GPT-4 [7] - 工具生态成熟度不足,插件市场和开发者工具丰富度不及OpenAI [8] - 长上下文实际性能波动,超长文本中精准定位关键信息的能力弱于Claude 3 [9]
“反击”马斯克,奥特曼说OpenAI有“好得多”的自动驾驶技术
36氪· 2025-07-07 08:32
OpenAI与特斯拉的竞争动态 - OpenAI CEO山姆·奥特曼与特斯拉CEO马斯克因OpenAI商业化运营产生矛盾,马斯克起诉奥特曼违背创始协议并成立xAI直接竞争[1] - 奥特曼反击称马斯克曾试图掌控OpenAI未果,并可能研发自动驾驶技术挑战特斯拉FSD[1][3] - 奥特曼透露OpenAI拥有"比当前技术好得多"的自动驾驶技术,但未公布具体细节和时间表[3][5] OpenAI自动驾驶技术潜力 - 新技术可能基于Sora视频软件和机器人团队,利用世界模型理解物理世界[6][8][11] - Sora作为世界模型可生成高保真视频,但存在物理原理不完善的问题,可能用于自动驾驶模拟训练[10][11] - 业界认为世界模型是自动驾驶突破关键,需结合物理因果关系理解和预测能力[17][21] 行业技术发展趋势 - 自动驾驶行业正转向"世界模型"开发,如蔚来、小鹏等公司尝试让AI系统模拟人类对世界的理解[11] - 英伟达推出Cosmos世界基础模型,专为物理交互和驾驶环境设计,可能优于Sora的仿真能力[22][24] - AI大牛普遍认为仅靠语言模型不足实现自动驾驶,需结合多模态和世界模型[16][18][19] OpenAI在汽车智能化领域的布局 - 通过投资布局自动驾驶领域,如向Ghost Autonomy投资500万美元(已倒闭),与Applied Intuition合作开发智能座舱[12][14][15] - 2024年重组机器人团队,与Figure公司合作开发人形机器人AI模型,技术可能与自动驾驶相通[24] - 自动驾驶被视为AI应用最具前景场景之一,市场规模达万亿美元级别[7][24]
普通人用Gemini CLI提效的 1 万种方法!藏师傅保姆级教程
歸藏的AI工具箱· 2025-07-02 17:08
产品定位 - 谷歌推出完全免费的命令行AI工具Gemini CLI,对标近期火爆的Claude Code [1] - 与Cursor等IDE工具的核心区别在于无界面、纯命令行操作,但支持自动执行任务和处理本地文件 [3][4] - 内置谷歌搜索/文件读写等工具,输入/tools可查看全部支持功能 [4] - 支持MCP工具扩展上下文能力 [6] 技术特性 - 多模态能力支持图片内容分析/批量重命名/打标 [38][39] - 可调用本地软件实现视频剪辑(ffmpeg)/文档转换(Pandoc)/图片处理(ImageMagick)等专业功能 [49][63][67] - 通过Homebrew一键安装第三方工具如yt-dlp实现视频下载 [60][61] - 支持将复杂操作封装成脚本实现一键执行,如deep_work.sh脚本可自动开关软件/切换系统模式 [43] 应用场景 - 知识管理:自动分析Obsidian笔记库并建立反向链接/生成索引文档 [34][35][36] - 内容创作:改写文章/生成博客及推特版本/自动制作PPT [31][32][33][46] - 多媒体处理:视频转GIF/添加水印/配乐/序列帧转换 [53][54][57][59] - 文件批处理:图片重命名/尺寸调整/拼接/格式转换 [39][65][66] 用户体验 - 非技术人员可通过自然语言交互完成专业操作,无需编程知识 [8][9] - 采用NPX安装方式降低使用门槛,仅需终端输入npx命令即可运行 [18][19] - 推荐配合Bob翻译软件解决英文界面问题 [24] - 操作限制在指定文件夹内执行避免系统风险 [15][16]
百度文心大模型4.5系列模型开源,国内首发平台GitCode现已开放下载!
财富在线· 2025-06-30 15:40
百度文心大模型4.5系列开源 - 百度文心大模型4.5系列正式开源并在GitCode平台首发上线,面向全球开发者、企业和研究机构免费提供[1] - 开源系列包含10款模型,涵盖47B和3B的混合专家(MoE)模型以及0.3B的稠密参数模型,最大模型总参数量达424B[3] - 采用创新多模态异构模型结构,通过跨模态参数共享实现知识融合,同时保留单一模态专用参数空间[3] 技术架构与性能 - 模型基于飞桨深度学习框架训练,预训练阶段FLOPs利用率达47%,在文本和多模态基准测试中达到SOTA水平[4] - 在指令遵循、世界知识记忆、视觉理解和多模态推理任务上表现突出[4] - 模型权重按Apache 2.0协议开源,配套飞桨产业级开发套件广泛兼容多种芯片[4] GitCode平台生态 - GitCode平台注册用户超620万,月活达120万,已成为国内重要开源社区[5] - 平台集成代码托管、版本控制、协作开发功能,提供开源组件库和开发工具[5] - 文心大模型与GitCode深度融合,推动AI开发模式变革和中国开源生态发展[5] 开发者活动 - GitCode与CSDN联合开展文心大模型实战测评与社区探讨系列活动[6]
百度文心大模型4.5系列正式开源,同步开放API服务
量子位· 2025-06-30 12:39
百度文心大模型4.5系列开源 - 公司正式宣布文心大模型4.5系列开源,同步提供API服务,涵盖10款模型,参数范围从0.3B到47B,覆盖文本和多模态任务[2] - 开源模型权重与代码完全开放,开发者可通过飞桨星河社区、HuggingFace、百度智能云千帆平台下载使用[2] - 开源协议采用Apache 2.0,支持学术研究和产业应用[3][14] 模型技术特点 - 创新性提出多模态异构模型结构,适用于从大语言模型向多模态模型的持续预训练,提升多模态理解能力[5] - 使用飞桨深度学习框架进行高效训练和推理,模型FLOPs利用率达到47%[6][7] - 包含混合专家(MoE)模型和稠密型模型,参数丰富度高[4] 性能表现 - 文本模型在C-Eval、CMMLU、MMLU等基准测试中超越DeepSeek-V3、Qwen3等竞品,例如300B参数模型在C-Eval得分91.5,CMMLU得分91.2[8][10] - 多模态模型在视觉常识、多模态推理等评测中优于OpenAI o1,如VL-424B-A47B模型在MMBench-cn得分90.9,OCRBench得分872[12][13] - 轻量级21B文本模型效果与Qwen3相当,28B多模态模型达到同量级SOTA水平[13] 开发者支持 - 提供开箱即用的工具链,包括ERNIEKit开发套件和FastDeploy部署套件[17] - 飞桨平台广泛兼容多种芯片,降低后训练和部署门槛[15] - 实现框架层(飞桨)与模型层(文心)的"双层开源"[18] 公司AI战略布局 - 构建算力、框架、模型、应用四层全栈技术优势,飞桨为中国首个产业级开源深度学习平台[16][17] - 此次开源强化了公司在AI开源生态的领先地位,覆盖从学术到产业的完整链条[14][18]
老黄亲自挖来两名清华天才;字节 Seed 机器人业务招一号位;清华北大浙大中科大校友跳槽去Meta | AI周报
AI前线· 2025-06-29 14:09
英伟达人才招募 - 英伟达CEO黄仁勋亲自招募两位清华毕业的华人AI专家加入公司,其中朱邦华担任首席研究科学家,焦剑涛具体岗位未透露[1][2] - 两位学者此前联合创办生成式AI创企Nexusflow,并在种子轮融资中筹集1060万美元[2] OpenAI动态 - GPT-5预计7月上线,将支持语音、图像、代码和视频等多模态输入,具备深度推理能力[5] - OpenAI开始租用谷歌AI芯片,首次实质性使用非英伟达芯片[5] - 4位华人AI研究员从OpenAI跳槽至Meta,分别来自清华、北大、浙大和中科大[11][12] 特斯拉与Meta人才竞争 - 特斯拉AI工程师拒绝Meta高薪挖角,表示不愿离开马斯克团队[13] - Meta近期从OpenAI挖走多名顶尖研究员,包括3名曾在DeepMind工作的专家[13] 脑机接口进展 - Neuralink公布2025-2028年发展规划,计划逐步增加植入电极数量并拓展应用场景[14][15][16] - 目前已有7名受试者参与测试,平均每周使用设备50小时[17] - 第二代手术机器人效率提升11倍,电极植入深度可达50毫米以上[17] 机器人及具身智能 - 宇树科技员工约1000人,年度营收超10亿元,受益于具身智能行业发展[18] - 字节跳动Seed团队招募机器人业务负责人,成立独立公司加速布局[9] 大模型竞争 - 马斯克宣布将在7月4日后发布Grok 4大模型[6] - 谷歌发布Imagen4文生图模型,支持2K分辨率图像生成,定价0.04-0.06美元/张[27][28] - 谷歌推出离线机器人AI模型Gemini Robotics On-Device,具备本地视觉识别和动作执行能力[29] 智能硬件 - 小米发布首款AI眼镜,售价1999元起,配备1200万像素摄像头[30] - Solos推出AirGo V2智能眼镜,售价299美元,配备1600万像素摄像头[31][32] 企业动态 - 微软计划对Xbox游戏部门进行大规模裁员,可能涉及整个团队[23] - 阿里巴巴将饿了么和飞猪并入淘天集团,向大消费平台转型[24][25] - 饿了么AI助手"小饿"完成全国部署,日均服务量突破2000万次[33]
拯救P图废柴,阿里上新多模态模型Qwen-VLo!人人免费可玩
量子位· 2025-06-28 12:42
阿里多模态模型Qwen-VLo发布 - 全新多模态模型Qwen-VLo在原有基础上全面升级,具备三大核心能力:增强的细节捕捉、单指令图像编辑、多语言支持[2][11] - 模型支持任意分辨率和长宽比的输入输出,突破传统固定格式限制[2] - 新增对现有信息的注释功能(如检测、分割等),示例中成功用红色Mask分割香蕉边缘[12] 核心功能演示 - 连续生成能力:像"连续剧"一样精准生成系列图片,示例展示购物篮装货场景[4][6][7] - 单指令编辑能力:成功将北极熊喝可乐替换为喝牛奶,保持背景和主体高度一致[20][22][23] - 多步骤任务处理:完成草图→上色→加字→编辑汉字的全流程,人物主体稳定[36][37][42] 技术实现特点 - 采用渐进式生成机制:从上到下逐步构建图像,过程中持续优化预测内容[52][56] - 生成效率提升:特别适合广告设计和漫画分镜等长文本图像任务[57][58] - 与GPT-4o差异:官方强调其渐进生成是真实技术实现而非视觉障眼法[50][52] 用户实测表现 - 现实风格处理:成功将照片中的鸟替换为鸽子,但未理解网络热梗"蒜鸟"[26][28][30][32] - 文本编辑能力:在保持背景稳定的前提下,准确修改图像中的中英文内容[44][45] - 创意应用场景:网友实现动漫角色一键上色、定制宣传看板、制作梗图等功能[59][60][62]
小米MiMo-VL VS 千问Qwen2.5-VL | 多模态模型实测
理想TOP2· 2025-06-18 19:43
小米多模态模型MiMo-VL-7B性能评测 - MiMo-VL-7B模型在多项测试中表现优于Qwen2.5-VL-7B,尤其在表格识别和数学解题任务中[3][15][29][35] - Think版本模型性能显著优于No-Think版本,在表格识别准确率和数学解题正确率上差异明显[9][15][35][52] - 模型在简单表格识别任务中表现良好,但在中等复杂度表格识别上仍有不足[9][18][26] - 手写体OCR识别是明显短板,所有版本模型表现均不理想[46][52] - 图像识别基础能力完善,在基础视觉问答任务中表现稳定[61][64] 模型对比分析 - MiMo-VL-7B整体性能优于同参数规模的Qwen2.5-VL-7B,但与72B参数模型仍有差距[5][32][68] - 在数学解题任务中,RL-No-Think版本表现不稳定,出现明显错误[35][40] - 表格识别任务中,Think版本能更好处理合并单元格等复杂结构[15][18][26] - 模型继承了Qwen2.5-VL的ViT部分初始化参数,在视觉特征提取方面具有优势[4] 技术实现细节 - 测试采用vLLM框架在单卡4090上运行,支持最大长度12800[64][65] - 模型提供SFT和RL两个版本,均支持Think/No-Think模式[4][5] - 输入处理支持base64编码图像传输,可实现多模态交互[65][66] - 在语言理解任务中,Think模式能显著提升分析推理能力[53][56]