Workflow
数字生命卡兹克
icon
搜索文档
整个HuggingFace榜,已经被中国AI模型一统江湖了。
数字生命卡兹克· 2025-07-31 09:06
国产开源模型发展现状 - 国内AI公司近期密集开源大模型 MiniMax、Kimi、Qwen、混元、智谱、昆仑万维等均在近期推出开源模型 [1] - Hugging Face榜单前10名均为中国开源模型 智谱GLM-4 5登顶 Qwen占据5席 混元3D世界模型排名第3 [8][9] - 海外模型呈现涨价闭源趋势 与国内开源形成鲜明对比 [3][54] 主要公司开源动态 腾讯 - 6月27日开源混元A13B模型 总参数80B 激活参数13B [17][18] - 7月27日开源3D世界模型HunyuanWorld-1 业界首个开源可交互世界生成模型 当前排名第3 [43] 阿里 - 7月1日开源ThinkSound音频模型 实现视频画面专属音效匹配 [21] - 7月连续开源Qwen3系列模型 包括235B参数的A22B-Instruct(排名第10) 480B参数的Coder(排名第2)等 [37][38][39] - 7月28日开源Wan2 2视频生成模型 采用MoE架构 包含文生视频/图生视频等版本 排名第9 [45] 智谱AI - 7月2日开源GLM-4 1V-Thinking视觉理解模型 9B参数规模 [23] - 7月28日开源GLM-4 5系列 包括355B参数的A32B和106B参数的Air版本 登顶HF热榜 [47] 昆仑万维 - 7月4日开源Skywork-Reward-V2系列奖励模型 参数规模从6亿到80亿不等 [25][26] - 7月9日开源Skywork-R1V3多模态理解模型 基于InternVL-38B优化 [33][34] - 7月30日开源Skywork-UniPic-1 5B多模态统一模型 实现图像理解/生成/编辑 [52] 其他公司 - 百度6月30日开源ERNIE4 5 包含纯LLM和多模态版本 [20] - Kimi7月11日开源K2模型 20分钟下载量达12 2k 提升国内模型Coding能力信心 [36] - 上海AI实验室7月26日开源Intern-S1多模态模型 241B参数规模 [41] 行业趋势 - 国内开源模型呈现技术多元化 覆盖NLP 多模态 音频 视频 3D生成等领域 [21][43][45] - 参数规模覆盖全面 从1 5B到480B均有涉及 满足不同场景需求 [26][38][47] - 两年前中文开源模型仅有GLM独苗 当前已实现全球领先地位 [53][56]
我用AI同传干掉了英语发布会,爽。
数字生命卡兹克· 2025-07-30 09:06
行业痛点与需求 - 高质量AI信息和资讯主要来自英文世界,但语言障碍导致理解困难,尤其在发布会和线下演讲场景中[1] - 现有解决方案如同传翻译机或AI字幕存在局限性,无法同时兼顾内容理解和现场观察[3] - 传统机器翻译模型无法区分多人对话音色,影响信息接收效果[6] 技术解决方案 - 选择豆包同声传译2.0作为核心API,因其采用大模型架构,具备智能断句、冗余词精简和时态理解能力[5] - 模型支持零样本音色复刻,可保持多人对话中各自的原始音色进行同传[6] - 端到端模型延迟仅2-3秒,每分钟API调用成本约0.3元(1800 Token/分钟)[6] 产品实现路径 - 初始方案为浏览器插件直接调用WebSocket API,但遭遇浏览器安全限制无法修改请求头[12][13] - 替代方案采用音频重定向技术,通过VB-CABLE虚拟设备捕获浏览器音频流[19][20] - 最终架构:浏览器视频→虚拟扬声器→Python程序→豆包API→真扬声器,实现实时翻译闭环[24] 应用场景扩展 - 线上场景已实现流畅翻译,可应用于各类英文发布会直播[26] - 线下场景可通过手机端应用直接调用麦克风输入,豆包提供10分钟免费体验[37][39] - 产品支持多人对话场景的音色区分,提升会议场景下的信息接收效率[33] 行业影响 - AI同传技术显著降低语言障碍,使非专业用户能以低廉成本获取高质量信息[41] - 技术定位为辅助工具而非取代专业译员,重点解决普通用户的基础需求[40] - 技术个性化特征明显,用户可根据自身需求定制解决方案[45]
在AI工具间来回切换了1年后,可灵用一张画布终结了它。
数字生命卡兹克· 2025-07-29 08:36
可灵AI新产品发布 - 可灵在WAIC大会上首发全新功能"灵动画布",并对多图参考功能进行大幅升级 [1] - 灵动画布采用节点式交互界面,整合图片生成、视频生成、音效生成三大模态功能 [2] - 新功能发布后现场反响热烈,展区体验人数爆满 [1] 灵动画布功能特点 - 采用画布式工作界面,支持节点拖拽和连线操作,实现素材与参数的直观组合 [2][5] - 突破传统UI限制,避免在多任务切换中迷失,提升创作效率 [5][9] - 支持无限扩展画布,提供缩放和整理功能,保持创作界面整洁 [13][15] - 实现多任务并发执行,2分钟内可完成从文字到带音效视频的全流程创作 [11] - 支持多人协作,最多可添加5名协作者共同编辑 [22] 多图参考功能升级 - 多图参考生视频功能升级后人物表现更自然,一致性更强 [24] - 支持最多4张参考图,可选择参考特定区域如面部、服饰等 [24][26] - 新增主体-场景-风格三维度生图模式,主体维度支持4张参考图 [37] - 功能演示案例包括"肌肉男在麦当劳举卡皮巴拉深蹲"等创意场景 [26][30][33] 产品生态价值 - 节点画布式设计解决了AI工具孤岛化问题,实现跨功能无缝衔接 [18] - 契合创作者非线性思维特点,支持随机、并发、发散的创作过程 [18] - 可灵凭借在图片、视频领域的优势,向专业创作工具生态延伸 [18] - 产品细节优化包括提示词自动优化、历史素材快速调用等 [19][20] 功能支持现状 - 当前支持文生图、参考图生图、文生视频、首尾帧生视频等基础功能 [23] - 暂不支持多图参考生图、多模态编辑、AI模板等进阶功能 [23] - 多图参考生视频功能已实现全画布集成 [24]
微软为了AI,买了17亿美金的屎。
数字生命卡兹克· 2025-07-28 01:26
微软投资碳减排项目 - 微软与Vaulted Deep公司签订12年协议,以17亿美元购买490万公吨有机废物进行地下封存 [3][7] - 有机废物包括牲畜粪肥、人类排泄物等,通过高压注入地下1.5公里深的盐穴实现碳封存 [7][9] - 该项目符合美国45Q税收抵免政策,每吨碳封存可获得最高85美元补贴,微软可能通过税收优惠实现部分成本回收 [20][22] AI业务与碳排放矛盾 - 微软2023财年碳排放量较2020年增长23.4%,主要因AI和云计算业务能源消耗飙升168% [14] - GPT-4单次请求耗电0.43瓦时,比谷歌搜索高40%,全球日均7亿次查询年耗电达46万兆瓦时 [28][30][34] - AI模型训练碳排放显著,GPT-4训练排放1.2-1.5万吨CO₂,相当于3200辆汽车年排放量 [26] 碳减排的商业驱动因素 - ESG评分体系促使科技巨头投资环保项目,高评分企业更易获得资本青睐和低融资成本 [16] - 微软计划2030年实现碳负排放,2050年消除历史碳排放,但AI扩张导致减排压力加剧 [12][14] - 碳封存技术通过阻止有机废物分解产生甲烷和CO₂,每吨处理成本约350美元 [7][9] 行业现象与经济规律 - AI效率提升引发"杰文斯悖论",需求激增导致总能耗不降反升 [39][40][42] - 科技公司采取"碳抵消"策略平衡业务扩张与环保承诺,形成新型商业模式 [24][44] - 碳减排项目兼具政策合规与资本回报双重属性,形成产业链联动效应 [22][23]
你把梦想交给AdventureX,他们却转手卖了9万块。
数字生命卡兹克· 2025-07-26 00:29
核心观点 - 文章揭露AdventureX组织存在非法售卖选手个人信息、性骚扰、财务不透明等严重问题 [10][12][47] - 该组织以"公益"名义运营但实际存在商业化操作,涉嫌违反《个人信息保护法》多项条款 [30][35][43] - 创始人R同学被指控存在系统性不尊重女性行为,且组织管理呈现独裁倾向 [11][22][50] 个人信息违规行为 - 将包含选手简历、联系方式、教育背景的"梦想家数据库"以数万元价格出售给赞助商 [30] - 报名表中用模糊授权条款获取"单独同意",法律上无效 [37] - 与境外组织共享数据涉嫌非法跨境传输个人信息 [39][41] - 收集信息目的与使用严重不符,违反"目的明确合理"原则 [44] 组织管理问题 - 活动超支十多万元未公开明细,仅用"均摊"解释 [47] - 创始人R同学被指存在性骚扰倾向,公开谈论女性成员私生活 [14][15] - 管理模式独裁,对异议者威胁取消资格 [50] - 以"公益"名义运营但未注册非营利主体,商业性质存疑 [53] 法律风险 - 违反《个保法》第十条非法买卖个人信息条款 [31] - 未按第二十八条获取敏感信息处理的单独同意 [36] - 跨境数据传输未通过网信部门安全评估 [41] - 赞助商数据使用协议合法性存疑 [53] 行业影响 - 事件反映部分青年创业项目存在法律意识薄弱问题 [10][27] - 技术社区商业化过程中易出现隐私权与商业化的冲突 [10][43] - 组织者利用理想主义情怀掩盖违规操作的现象值得警惕 [53]
时隔两年,我又被AI写真整破防了。。。
数字生命卡兹克· 2025-07-25 01:39
AI写真行业现状 - 当前AI写真技术仍存在明显缺陷,生成图像与真人相似度低,出现五官错位、风格不符等问题[9][11][13][15] - 主流产品需用户上传10-20张训练照片,但男性用户普遍面临照片储备不足的痛点[22][23] - 部分产品模板单一(如仅提供校服/古风模板)且收费机制不合理,用户体验较差[35] 星绘产品竞争力 - 技术优势:采用Seedream 3.0模型,支持3张照片即可生成数字分身,训练时间缩短至20分钟内[22][31] - 用户体验:提供参考图功能,通过相似脸型/发型垫图提升生成效果,支持自定义Prompt生成证件照/艺术照[33][37][41] - 商业模式:免费额度满足基础需求(每日30次),无功能付费墙,水印可通过其他AI工具去除[51] 用户需求洞察 - 核心诉求从"美化"转向"真实感",要求AI精准还原用户特征而非过度修饰[53][54] - 时间敏感场景需求突出,用户倾向选择快速(1小时内)且可碎片化操作的产品[55][56] - 男性用户市场存在空白,现有产品未充分考虑该群体照片储备少的特性[22][23] 应用场景拓展 - 除证件照外,支持艺术照(名画风格)、表情包、Cosplay等娱乐化应用[43][45][47] - 企业端潜在机会:活动形象照、职场社交头像等B2B2C场景[19][56]
手把手教你用最新的AI音乐模型,创造一首属于你自己的歌。
数字生命卡兹克· 2025-07-23 16:43
昆仑万维AI音乐模型Mureka v7 - 公司推出新音乐模型Mureka v7,质量对标Suno 4.5,是国内领先的AI音乐产品 [1] - 模型提供v6、v7和o1三个版本,o1为专业级推理模型,v6/v7面向普通用户 [54][55][56] - 生成成本:o1每次10积分(两首歌),v7每次2积分(两首歌),积分制定价约几毛钱/首 [63][64][66] AI音乐创作方法论 - 歌曲结构为核心骨架,需包含前奏、主歌、预副歌、副歌、间奏、桥段、尾奏等标准化元素 [19][32][33] - 提供歌词生成模板,涵盖风格、情感基调、主题内容、结构要求等六大维度,支持OpenAI联网优化创作 [36][38] - 提示词模板可自动生成300字以内的风格描述,包含流派、情绪词、BPM等关键参数 [50][52] 产品功能与用户体验 - 支持视频链接直接解析参考,简化音频提取流程 [44] - 多语言生成能力覆盖国语、粤语、日语等 [70] - 用户实测400积分可生成大量作品,剩余322积分时已创作多首主题曲 [68][69] 版权与商业化优势 - 提供下载权属证明证书,解决AI音乐版权归属问题 [74][75] - 版权政策优于Suno,用户永久保留作品所有权 [73] - 产品定位降低音乐创作门槛,实现普通人专属歌曲创作 [79][81] 行业技术演进 - AI音乐从早期SVC合成发展到全流程大模型生成 [77][78] - 模型迭代显著提升音乐质量,消除明显AI痕迹 [12][78] - 国产模型突破实现与国际竞品(Suno)对标能力 [1][79]
26号,WAIC,我们决定攒了个大活,来一起探展。
数字生命卡兹克· 2025-07-23 12:23
根据提供的文档内容,未发现涉及公司或行业研究的相关信息,因此无法提取关键要点或进行分组总结 [1]
刚刚,腾讯发布了他们的首个全栈AI IDE。
数字生命卡兹克· 2025-07-22 14:19
腾讯AI编程产品CodeBuddy发布会 - 公司推出首个"产品-设计-研发部署"全流程AI一体化开发工作台CodeBuddy IDE,从插件形态升级为独立AI IDE [4][5][7] - 产品主打"产设研一体"概念,针对独立开发者及非技术背景用户设计,集成设计组件库、文档生成及后端部署功能 [5][15][16] 核心功能亮点 - **国际版支持Claude4模型且免费**,提供全球化服务能力 [10] - **Plan mode模式**可自动生成PRD/TRD/DRD文档,并基于文档生成网页及部署后端,实现全流程自动化 [11][31][40] - **Figma设计稿一键转网页**功能,转换精度较高仅存在局部样式拉伸问题 [12][28][29] - **自然语言UI微调**支持对HTML元素实时修改(如渐变、圆角等样式调整) [14][20][22] - **集成主流技术栈**包括腾讯云开发CloudBase与Supabase,降低后端搭建门槛 [15][22][24] 产品差异化定位 - 区别于纯开发者工具,聚焦产品经理、设计师等非技术角色,内置PRD模板、Figma对接等跨职能模块 [15][16][31] - 演示案例显示可10分钟内完成"宝可梦图鉴网站"从需求分析到部署上线的全流程 [17][19][26] - 公司提出AI编程将分化为"氛围编程"(非技术人员主导)与"规约编程"(专业团队协作)两种范式 [41] 行业影响与竞争态势 - 产品呼应AI对设计/影视等行业的影响逻辑:简单场景AI主导,复杂场景AI辅助 [43][44] - 公司呼吁行业加速AI编程及Agent领域竞争,类比"外卖补贴大战"以推动技术进步 [52][53][54] 当前进展 - 产品处于内测阶段,需邀请码体验,发布会现场发放50个邀请码用于测试 [45][48][51]
用完这个Agent,你会觉得ChatGPT Agent真的是个傻子。
数字生命卡兹克· 2025-07-21 04:04
ChatGPT Agent模式评测 - ChatGPT Agent mode上线后表现不佳 被评价为"真的拉" [3] - 测试过程中消耗近1000元 但未达到预期效果 [3] MiniMax Agent核心优势 - 开发能力领先同类型产品一个代际 特别是后端集成能力 [3][8] - 支持前后端完整开发 包括数据库、用户认证等复杂功能 [10][20] - 集成Supabase后端服务 实现数据实时同步 [20][21] - 任务完成度高 细节处理出色 [8] 实际应用案例 - 开发AI围棋对弈平台 实现完整人机交互功能 [3][6] - 创建西风博物馆网页 展示强大审美能力 [7] - 构建AI活动信息平台 包含用户注册、活动发布和审核全流程 [10][17][35] - 开发简历优化系统 提供职位匹配分析和模拟面试功能 [37][40] 技术实现特点 - 采用MCP Builder模式 支持自定义功能模块开发 [9] - 提供自动化测试功能 确保交付质量 [9] - 已完成MCP可添加到Agent市场重复使用 [9] - 支持Cron作业功能 实现任务灵活安排 [9] 商业化现状 - 采用积分制收费模式 目前价格较高 [52] - 新用户赠送1000积分 大额套餐需69美元/2万积分 [53] - 复杂任务消耗积分较多 但相比外包仍具成本优势 [53]