Workflow
Skywork UniPic
icon
搜索文档
英伟达深夜回应芯片“后门”问题;王健林再转让一座万达广场;理想汽车高管邀请乘龙卡车直播对撞;微软成史上第二家市值破4万亿美元公司
搜狐财经· 2025-08-01 08:50
国家政策与监管动态 - 国家发改委部署推动"人工智能+"行动走深走实、推进低空经济高质量发展及激发数字经济创新活力 [4] - 商务部依法审查长和集团出售海外港口资产交易 强调维护市场公平竞争与国家主权安全 [4] - 网信办约谈英伟达 要求就H20算力芯片漏洞后门安全问题提交说明及证明材料 [6][7] 人工智能与科技行业 - 中国大模型应用个人用户注册超31亿 API调用用户总数超1.59亿 [17] - OpenAI年化收入突破120亿美元 较2024年40亿美元水平翻番 ChatGPT周活跃用户达7亿 [6][17] - 华为开源自研仓颉编程语言 强调原生智能化与全场景适用 [17] - 昆仑万维发布多模态预训练模型Skywork UniPic 支持图像生成与编辑 [18] - 微软市值突破4万亿美元 第四财季智能云业务营收298.8亿美元(同比增26%) [6][20] 企业财报与业绩 - 亚马逊Q2净利润181.6亿美元(同比增34.7%) 营收1677亿美元(同比增13%) [13] - 苹果Q3营收940.4亿美元(同比增9.6%) 大中华区营收153.7亿美元(同比增4.4%) [14] - 宝马上半年净利润40亿欧元(同比降29%) 销售收入677亿欧元(同比降8%) [15][16] 资本市场与投融资 - 京东拟以22亿欧元收购德国零售巨头CECONOMY [19] - 普丽妍完成近5000万美元C轮融资 用于医美产品研发与扩产 [20] - Creao AI获数百万美元天使轮融资 聚焦AI代理自动化 [21] - 零次方机器人半年内完成三轮亿元级融资 [22] 行业事件与公司动态 - 理想汽车发布纯电SUV i8 与乘龙卡车对撞测试引发争议 [7][8] - 字节跳动披露员工在职时长中位数2.9年 回应"平均7个月"传闻 [8] - 抖音升级直播管理规范 禁止低俗内容与不合理违约金 [8] - 中手游原《仙剑世界》负责人因职务犯罪被刑事拘留 [10] - 网易云音乐起诉SM娱乐滥用市场支配地位 8月6日开庭 [10][11] 消费与文娱 - 电影《哪吒2》8月2日全网上线 累计票房154.46亿元 [12] - 京东奖励一线员工子女高考升学 提供奖金及优先录用机会 [11] - 法拉利测试SF90继任车型F173M 混合动力预估超1000马力 [23]
豆包图像编辑模型3.0发布,扣子正式开源;1688全面AI化丨AIGC日报
创业邦· 2025-07-31 08:08
火山引擎AI产品升级 - 火山引擎发布豆包图像编辑模型3.0、同声传译模型2.0及豆包大模型1.6系列升级,满足企业多元业务场景需求 [1] - 开源扣子核心能力,发布企业自有模型托管方案、Responses API等多个模型服务和工具产品,为构建Agent提供基础设施 [1] 微软Edge浏览器AI功能 - 微软在Edge浏览器中推出Copilot模式,增强AI功能包括阅读和理解网页内容、生成对比表格及语音功能 [2] - Copilot模式处于实验阶段,提供限时免费使用,微软认为浏览器是构建AI代理的最佳方式 [2] 昆仑万维多模态模型 - 昆仑万维推出并开源多模态统一预训练模型Skywork UniPic,融合图像理解、文本到图像生成、图像编辑三大核心能力 [3] - 模型基于大规模高质量数据进行端到端预训练,具备良好的通用性与可迁移性 [3] 1688全面AI化 - 1688推出"1688AI版"App和免费查企工具"88查",并对现有App进行全面AI化升级 [4] - 新App集成AI搜索、AI选品、AI创款、AI图搜、AI查企等五大核心功能,聚焦创业与拿货场景 [4]
腾讯研究院AI速递 20250731
腾讯研究院· 2025-07-31 00:03
ChatGPT学习模式 - OpenAI推出"学习模式"新功能,采用苏格拉底式引导方式帮助用户理解复杂概念 [1] - 所有版本用户均可免费使用,功能包括交互式提示、分步解答和个性化支持 [1] - 系统会根据用户教育背景和知识基础自动调整教学策略 [1] Grok视频功能 - xAI即将为Grok iOS应用推出"Imagine"视频生成功能,支持带音频的视频生成 [2] - 可一次性生成4段视频,效果逼真细节丰富,支持多种风格生成 [2] - 提供近乎实时的图像生成,支持Spicy、Fun和Normal等预设模式 [2] 昆仑万维开源模型 - 开源多模态统一模型Skywork UniPic仅需1.5B参数即可实现与百亿参数专用模型相当效果 [3] - 在单一模型中实现图像理解、文生图和图像编辑三大能力深度融合 [3] - 在GenEval和DPG-Bench等多个基准测试中达到行业SOTA水平 [3] 群核科技3D数据集 - 发布全球首个大规模3D语义数据集InteriorGS,包含1000个精细3D高斯语义场景 [4] - 覆盖超过80种室内环境,将3D高斯技术与自研空间大模型SpatialLM深度融合 [4][5] - 已与谷歌、斯坦福、英特尔等机构合作,为智元机器人等企业提供仿真数据训练 [5] 拓竹科技3D打印 - 3D模型平台MakerWorld全面接入腾讯混元3D,预计月调用量突破10万次 [6] - 混元3D实现0.1毫米级高精度建模,几何分辨率达1024级 [6] - 支持文字图片输入快速生成,具备物理级材质建模能力 [6] WPS办公智能体 - 实现AI与办公软件深度融合,一站式完成文案写作、PPT制作等办公任务 [7] - 采用原子化操作技术智能识别修改边界,精准锁定内容范围 [7] - 提供AI搜索、知识库和AI聊文档等功能,支持随身语音助手 [7] 豆包图像编辑 - 发布SeedEdit 3.0模型,支持通过自然语言指令进行多种图像编辑操作 [8] - 在文字修改、背景替换等场景表现对标GPT-4o和Gemini 2.5 Pro [8] - 采用多阶段训练策略实现8倍推理加速,运行时长从64秒降至8秒 [8] NotebookLM视频功能 - 推出"视频总览"功能,可将笔记、PDF、图片自动生成结构清晰的视频 [10] - 用户可定制视频内容,增强个性化学习体验 [10] - 已向所有英文用户开放,Studio面板同步升级 [10] 理想汽车VLA模型 - 推出业内首个量产VLA司机大模型,8月OTA推送至AD Max车型 [11] - 能理解自然语言指令、根据记忆设定路段速度、复杂路况下判断风险 [11] - 开发依靠12亿公里有效数据和13 EFLOPS训练平台 [11] 中国AI发展 - 中国AI技术在两年内取得巨大进步,多个大模型达到全球领先水平 [12] - "开放权重"策略被认为是推动中国AI快速发展的关键因素 [12] - 提倡加强中美AI合作,共同应对技术滥用风险 [12]
昆仑万维推出并开源Skywork UniPic
证券日报网· 2025-07-30 15:14
核心观点 - 昆仑万维推出并开源多模态统一预训练模型Skywork UniPic 该模型在单一架构中深度融合图像理解、文本到图像生成和图像编辑三大核心能力 通过自回归路线和端到端预训练实现通用性与可迁移性 [1] 技术架构创新 - 采用MAR编码器作为图像生成路径的视觉表征基础 同时引入SigLIP2作为图像理解路径主干 突破传统VQ或VAE编码器侧重视觉细节而弱化语义信息的局限性 [1] - 借鉴Harmon架构设计并在表征方式做出关键调整 构建真正统一的多模态模型架构 [1] - 通过共享编码器实现跨任务深度协同 保持自回归模型简洁高效的同时完成端到端优化流程 实现生成、理解、编辑三大能力的协同训练和相互促进 [2] 性能表现 - 以1.5B紧凑参数规模在无思维链(CoT)情况下取得SOTA分数 逼近部分较大模型带CoT的0.88分 [2] - 在DPG-Bench复杂指令生图基准上达到85.5分的行业当前最佳水平 [2] 数据与训练 - 基于大规模高质量数据进行端到端预训练 具备良好通用性与可迁移性 [1]
1.5B参数撬动“吉卜力级”全能体验,国产开源之光多模态统一模型,来了
量子位· 2025-07-30 12:48
多模态AI技术趋势 - GPT-4o引发的"吉卜力风暴"成为上半年最热AI事件,证明多模态融合(文本、图像、声音)已成为AIGC新范式,更接近人类认知方式[2][4] - 行业技术方向从割裂的单模态处理转向统一模型,满足用户"看图+生图+改图"一体化需求[4][62] - 原生多模态统一模型实现"一次训练,处处生效",推动AIGC从拼规模转向拼效率与体验[63] Skywork UniPic模型特性 - 昆仑万维开源1.5B参数多模态统一模型Skywork UniPic,实现图像理解、文本生成图像、图像编辑三大能力深度融合[5][13] - 模型性能密度高:1.5B参数效果接近/超越百亿参数专用模型,可在RTX 4090等消费级显卡运行[10][12][27] - 完整开源模型权重、技术报告及全流程代码,推动技术社区协作[11][65] 技术性能表现 - 在GenEval指令遵循评估中得分0.86,超越多数同类模型,逼近7B参数BAGEL带CoT的0.88分[25] - DPG-Bench复杂指令生图基准达85.5分SOTA水平,与14B参数BAGEL(85.07分)相当[26] - 图像编辑能力:GEditBench-EN得分5.83,ImgEdit-Bench得分3.49,可精准执行跨区域编辑指令[27][51] 模型架构创新 - 采用自回归模型架构(与GPT-4o同路线),深度整合图像生成至多模态框架,区别于主流扩散模型[30] - 双路径设计:MAR编码器用于图像生成路径,SigLIP2编码器用于图像理解路径[34] - MAR编码器通过Diffusion Loss替代传统VQ离散化,实现高质量生成与低延迟响应[36] 训练策略优化 - 渐进式多任务训练:先聚焦文本生成图像,再逐步引入理解与编辑任务,避免能力失衡[56][57] - 分层分辨率训练:从512×512微调基础特征,逐步提升至1024×1024强化细节捕捉[55] - 分阶段参数解冻策略:先对齐视觉与语言特征,再优化视觉主干,最终端到端联合训练[55] 数据体系构建 - 亿级精选预训练语料+百万级SFT样本,远低于行业百亿级数据需求但性能相当[40][42] - 自研两套奖励模型:Skywork-ImgReward优化文生图质量,Skywork-EditReward筛选编辑样本[48][50] - 数据提纯三大策略:均衡任务分布、多样化指令模板、多层质检机制[49] 行业影响与开源生态 - 昆仑万维持续开源布局:从百亿参数大模型到视频生成模型SkyReels系列,覆盖多模态全领域[68] - 开源推动技术平民化,降低AI应用门槛,加速创意生态发展[66][69] - 中国技术力量引领多模态创新,开源社区贡献获全球关注[65][69]
昆仑万维:正式推出并开源多模态统一预训练模型Skywork UniPic
证券时报网· 2025-07-30 11:04
模型技术特点 - 推出自回归多模态统一预训练模型Skywork UniPic 深度融合图像理解 文本到图像生成和图像编辑三大核心能力 [1] - 采用MAR编码器作为图像生成路径的视觉表征基础 引入SigLIP2作为图像理解路径主干 突破传统VQ或VAE编码器侧重视觉细节而弱化语义信息的局限 [1] - 通过共享编码器实现跨任务深度协同 完成端到端优化流程 实现生成 理解 编辑三大能力的协同训练和相互促进 [2] 模型性能优势 - 以1.5B紧凑参数规模实现"小而美"的技术美学 保持自回归模型简洁高效特性 [2] - 单一模型支持多模态功能 用户输入提示词即可实现图像理解 图片生成及风格转绘/吉卜力化编辑功能 [2] - 基于大规模高质量数据端到端预训练 具备良好通用性与可迁移性 为实用化部署奠定坚实基础 [1][2] 公司技术布局 - 过去半年先后开源多个SOTA大模型 涵盖奖励模型 推理 软件工程 多模态和空间智能等领域 [2] - Skywork-UniPic正式加入"Skywork"开源大家庭 延续GPT-4o自回归范式 构建真正统一的多模态模型架构 [1][2]