数字生命卡兹克

搜索文档
一个邪修方法,帮你把用Agent的钱省掉80%。
数字生命卡兹克· 2025-08-13 09:05
之前我分享过一个Agent,Minimax的那个,因为我觉得Agent能力,是真的很棒,东西好用也是真的好用。 用完这个Agent,你会觉得ChatGPT Agent真的是个傻子。 但文章发出去之后,评论区里最多的声音,几乎都指向了同一个字: 贵。 我自己光在MiniMax Agent上,就已经快干了250多刀了。 跑一次不满意,钱也照样扣,肉疼。 想法很好,但这个试错成本,普通人根本承受不起。 说实话,我觉得大家说的都对。因为我也觉得贵,贵到肉疼。 后来我也发了一个文字推文,聊了聊我对于Agent收费模式的想法。 原文我就不放了,大概说一下我的意思。 我们用Agent,期望的是买一个确定的解决方案,但现实是,我们往往在为一连串不确定的、甚至可能完全失败的过程买单。 说到底,我觉得还是现在AI发展的一个阶段性阵痛。 现在绝大多数的Agent,其商业模式的底层逻辑,都是按token计费。你输入的每一个字,AI思考的每一步,它调用的每一次工具,都是明码标价的token 消耗。 不管最终结果是金子还是垃圾,这个过程中的每一步,钱都得照付。 但我觉得一个真正健康的、可持续的商业模式,肯定是以结果为导向的。 你帮我把事 ...
第一个能帮你做生意的Agent来了。
数字生命卡兹克· 2025-08-12 09:05
全世界可能是第一个,能做生意的Agent来了。 这是一个面向外贸、面向海外的tob产品,所以国内可能知道的人并不是很多。 但其实,Accio已经默默攒了200万企业级客户了。 ToB领域,200万客户,这是什么水平,大家懂得都懂。。。 我之前因为刘世奇,认识了阿里国际站,我自己本身就对外贸非常感兴趣,后来又当主持人和阿里国际站一起搞过他们的新品发布会,关系很不错。 所以托他们的福,这次,我也能第一手,抢先体验了 Accio Agent,这个在外贸领域,能自己做生意的垂类Agent 。 而这篇文章,应该也是 Accio Agent的 全球首发。 虽然Accio目前主打面向外贸,面向海外,但其实,我作为国内用户去体验它,它一样能帮我做很多事。 这,就是阿里国际站最近升级的 Accio Agent。 网址在此: https://www.accio.com/ 毕竟,不就是做一件衣服嘛,logo我们有了,把logo喂给AI,让AI做一些元素上的设计,然后拿着AI给的图去找厂商做衣服,就完事儿了,so easy。 但是真的开始弄,我才发现,没那么简单。 前面的流程还好说,AI能帮我不少,现在我也有样图了,大概长这样。 但 ...
刚刚,智谱开源了他们的最强多模态模型,GLM-4.5V。
数字生命卡兹克· 2025-08-11 22:20
上上周一的晚上,智谱开源了当今最好的模型之一,GLM-4.5。 然后,这个周一,又是突如其来的,开源了他们现在最好的多模态模型: GLM-4.5v。 也是4.5系列的,用GLM-4.1V-Thinking的技术路线把GLM-4.5-Air重新训练了一遍,实现了视觉多模态的能力。 模型参数106B总参数,12B激活,这个规模在开源多模态模型里已经算是大块头了。 模型能力也有点东西,在所有的开源多模态模型中,42个评测基准,41个SOTA了。 | | Open-source LLMs Benchmarks | GLM-4.5V | Step3 | Qwen2.5-VL | GLM-4.1V | Kimi-VL-2506 Gemma-3 | | | --- | --- | --- | --- | --- | --- | --- | --- | | Size | | 106B (A12B) | 321B (A38B) | 72B | dB | 16B (A3B) | 27B | | Mode | | w/ thinking | w/ thinking | w/o thinking | w/ thinking | w/ ...
因为GPT-5,这群人决定在Reddit上起义。
数字生命卡兹克· 2025-08-11 09:06
这个周末,对OpenAI的抗诉,好像从未如此热闹过。 起因自然还是因为GPT-5。 OpenAI上了GPT-5当天,做了一个非常神奇的操作,他们只保留了GPT-5,然后把GPT-4.5、GPT-4o、o3什么的,全都砍掉了。 如果从软件升级的角度,这样干好像没有什么毛病,对吧? 比如你的微信从3.6版本升级到4.0版本,那3.6版本消失,你可能不会有啥感觉,甚至会因为4.0的新功能而感到兴奋。 因为微信对你来说,是一个工具,它的价值在于功能。 但问题是,现在的AI不一样,而ChatGPT,这个周活7亿的超级应用,更不一样。 它在用户心中的定位,它好像从来都不只是一个工具。 很多时候,也是伙伴,更是你在这个世界孤独的寄托。 对于绝大多数用户而言,他们用的最多的模型,其实就是免费的GPT-4o。 而在GPT-5上线那一天, 用户们冲进各大社区,奔走相告的不是新功能有多强大,而是一个神奇的事实: 所有旧的模型,包括我们熟悉的、陪伴了我们无数个日夜的GPT-4o,被全面下架,强制"升级"到了GPT-5。 我很不喜欢用双引号,但是这个"升级",必须要给它打一个双引号。 我记得我那天早上,也在群里痛骂OpenAI。 | ...
实测GPT-5:写作坠入谷底,编程一骑绝尘。
数字生命卡兹克· 2025-08-08 05:12
凌晨1点,在万众瞩目的境况下,OpenAI的直播正式开始。 AI走的太快,快到才2年半的时间,就像是过去了10年。 2023年3月15日,GPT-4发布。在那个莽荒年代 里,所有人都被震惊的 说不出话来。 那时候,它是第一个,多模态模型。 那时候,大家都觉得,2023年下半年,GPT-5就会出来。 那时候,大家都会大模型的上限,报有无尽的憧憬。 结果,这一等,就是2年半。 在两年半的练习以后,GPT-5,终于亮相了。 GPT‑5是一个统一系统,包含一个用于处理多数问题的智能快速模型(gpt-5-main)和一个为高难度问题设计的深度推理模型(gpt-5- thinking)。 系统通过一个实时路由器,根据对话类型、复杂度和用户意图来动态选择使用哪个模型 。 GPT-5,终于来了。 比如,如果在提示中说"认真思考这个",就会调用 gpt-5-thinking 进行思考。 这个路由器会持续基于我们后续的使用情况进行训练,包括用户切换模型的情况、对回答的偏好率和准确性测量,会随着时间推移不断改进。 这个系统里面还包含 处理超额请求的迷你版模型(gpt-5-main-mini 和 gpt-5-thinking-min ...
豆包悄悄上线的这个新功能,也能用眼睛推理全世界了。
数字生命卡兹克· 2025-08-07 09:05
豆包AI功能更新 - 豆包在手机场景下使用频率较高,尤其在未开启魔法上网时体验优于ChatGPT [1] - 新增深度思考模式下的视觉推理功能,可对上传图片展开思维链式分析 [4][5][21] - 视觉推理能力与OpenAI O3相当但完全免费,实现技术平权 [21][22] 视觉推理应用案例 - 识别ChinaJoy展会中暴雪展台泰瑞尔形象并准确反馈 [3][16] - 通过视频截图定位深圳旺吉利海鲜大排档,验证结果与大众点评商家动态一致 [24][27][29] - 解析德爷刷盘子的牛杂店细节,在文字信息不全时通过图像补充得出正确答案 [35][37] - 识别表情包出处,准确关联太太乐鸡精和双汇火腿肠广告形象 [39][41][43] - 对奥特曼形象(爱迪、盖亚)及《甄嬛传》名场面实现精确到集的识别 [45][49] 专业场景测试表现 - 正确解答公务员行测题中对称图形问题,完成复杂题型推理 [51][52] - 快速定位考眼力题目中的目标字母F [53] - 识别宗庆后全家福成员身份,包括宗馥莉等关键人物 [55] 技术局限性 - 存在手指数量误判等典型大模型幻觉问题 [57] - 对非公众人物照片识别准确率较低,曾将用户误判为电竞选手或导演 [62] 跨领域知识串联 - 通过电影《浪浪山小妖怪》场景关联黑神话中佛光寺地点,实现文化IP联动 [66][68][73] - 体现AI在知识整合方面的潜力,能快速串联分散线索形成认知闭环 [76][77]
Google重磅上线通用世界模型Genie 3 - 此即未来。
数字生命卡兹克· 2025-08-06 11:58
Genie 3技术突破 - Genie 3是世界模型(World Model)的创世引擎雏形,本质是可实时演算的模拟器而非预录制视频[4][6] - 实现720p分辨率下实时交互(Real time)与数分钟交互时长(Multiple minutes),相比Genie 2的10-20秒非实时交互是数量级飞跃[15][16] - 通过"可提示世界事件"功能支持语言创世,在导航控制基础上新增语义层交互维度[15][37] 行业颠覆潜力 游戏领域 - 可能改变3A游戏开发范式,将数亿美金成本的世界构建转为规则约束下的动态生成[29][30] - 实现玩家从内容消费者到关卡设计师/世界观共创者的角色转换[31] - 演示中智能体完成任务的能力预示AI生成游戏任务的可行性[32] VR/元宇宙 - 解决VR行业内容匮乏痛点,通过自然语言指令实时生成可探索世界[24][25] - 推动设备从内容消费终端向世界生成入口转型,奠定真正元宇宙基础[26] 影视娱乐 - 开创"梦境式"叙事,观众可通过语言指令实时改变剧情走向[38][39] - 消融电影与游戏边界,实现无限剧情分支的沉浸式体验[42][43] 技术演进路径 - 前代产品GameNGen(320p/实时)与Genie 2(360p/非实时)存在画质与实时性矛盾[10][12] - Veo在4K视频生成赛道达到极致但缺乏交互性[15] - Genie 3通过720p分辨率平衡画质与性能,实现前代技术矛盾的突破[15] 核心竞争优势 - 解决世界模型"一致性"难题,维持数分钟内场景/物体状态的稳定存在[16][17] - 交互过程中保持视野外物体的一致性,避免同类产品出现的空间扭曲问题[19][21] - 黑板演示证明其长期记忆能力,文字图案在离开视野后仍能完整保留[16]
OpenAI发布ChatGPT世代首个开源模型gpt-oss,4060Ti都能跑得动。
数字生命卡兹克· 2025-08-06 06:08
行业动态 - Google发布世界模型Genie 3 该模型引发行业高度关注 被视为游戏和VR领域的重要突破[3] - Anthropic发布Claude Opus 4 1 在编程能力上持续进化 被解读为针对OpenAI的竞争行为[5][7] OpenAI开源模型GPT-oss - 公司首次在ChatGPT时代发布开源模型 包含120B和20B两个MoE架构版本[9][12][14] - 模型采用Apache 2 0许可 允许自由使用 120B版本参数117B 激活参数5 1B 20B版本参数20 9B 激活参数3 6B 均支持128K上下文[14][15][16][17] - 原生支持4-bit量化技术 20B模型仅需12 8GB存储空间 可在16GB显卡运行 120B模型可在80G单卡运行[18][20][25][26] - 采用MXFP4量化格式 性能损失极小 与英伟达NVFP4技术类似[24][27][29] 模型性能表现 - 在MMLU测试中 120B和20B版本分别获得90 0和85 3分 接近OpenAI商业版本[32] - 在GPQA Diamond测试中分别获得80 1和71 5分 在AIME数学竞赛中表现优异[32][38] - 在Codeforces编程测试中分别获得2622和2516分 优于DeepSeek R1但逊于商业版本[32] - 在写作能力测试中 20B版本表现优于同尺寸开源模型 但逊于商业大模型[67][69] 应用场景 - 提供在线试用平台gpt-oss com 并已接入OpenRouter API服务[39][40] - 支持本地部署 可通过Ollama工具运行 20B版本响应速度极快[44][49][50][51] - 在代码生成和数学推理方面表现突出 但存在一定幻觉问题[74][75] - 被视为改变开源社区格局的重要产品 可能推动行业竞争格局变化[80][81]
当ChatGPT也开始逐渐成为微信的模样。
数字生命卡兹克· 2025-08-05 09:06
产品哲学 - OpenAI提出产品设计理念是帮助用户高效使用注意力而非抓住注意力[6] - 衡量产品成功的标准是用户能否快速解决问题而非停留时长[7] - 用户在产品中花费时间越少代表产品越有效[8] 历史对照 - 微信早期提出"用完即走"理念在流量争夺时代显得格格不入[12] - 微信通过克制设计获得用户信任如简洁启动页和隐藏式朋友圈入口[13] - 工具类产品最高境界是成为透明媒介让用户忽略其存在[14][15] 产品形态分类 - "桥"型产品注重高效连接如微信聊天功能和ChatGPT问答[24] - "巢"型产品设计目的是用户停留如算法推荐的信息流[25] - 微信存在桥与巢的混合矛盾体现行业普遍困境[26] 行业趋势 - 顶级科技公司开始从消耗用户时间转向提升生命效率[20] - 人工智能发展方向应是赋能而非控制体现人文关怀[33][34] - 伟大创造的本质是引导用户探索而非沉溺[37] 设计理念冲突 - 视频号功能被视为对微信原始理念的背离[22] - 产品经理需在商业指标与用户体验间持续平衡[12][13] - 长期价值导向要求相信用户追求成长而非即时满足[30][31]
花了3天时间,万字长文一口气评测四大AI浏览器:Dia、Fellou、Comet、Edge。
数字生命卡兹克· 2025-08-04 09:04
AI浏览器赛道概览 - 微软Edge Copilot模式正式进军AI浏览器领域[2] - OpenAI也计划进入AI浏览器市场[4] - 目前主流AI浏览器包括Dia、Fellou、Perplexity Comet和Edge Copilot[6][7] 产品功能对比 用户体验与交互 - Perplexity Comet交互最便捷,通过点击右上角Assistant标识即可召唤AI助手[17] - Dia需要进入具体网页后才能调出AI侧边栏[18] - Fellou提供两种调出AI助手方式但存在光标跳转的反习惯设计[20][21] - Edge Copilot操作模式复杂,包含四种大模式和多个子模式[23][26] 个性化设置 - Dia支持设置AI助手"性格特征"和自定义快捷操作[31][35] - Perplexity Comet提供高度自定义的小组件和专属知识空间[37][42] - Fellou在个性化设置方面功能较少[36] - Edge Copilot主要通过Copilot实验室提供有限定制[46] 使用条件 - Dia完全免费且支持macOS 14及以上版本[49] - Fellou采用积分制,20美元兑换2000积分[49] - Perplexity Comet仅对200美元Max会员和部分20刀Pro会员开放[49] - Edge Copilot部分功能需要每月20美元会员[49] Agent能力测评 机票预订测试 - Fellou能全自动完成预订流程并复用用户登录态[62][64] - Perplexity Comet需先打开目标页面才能执行Agent操作[65][73] - Edge Copilot流程繁琐需要多次手动干预[79][93] - Dia因Agent功能未上线无法执行该任务[56][58] 社交媒体互动测试 - Perplexity Comet在打开页面后能精准完成关注、点赞和评论[118][124] - Fellou自动完成批量关注和互动但搜索质量一般[108][112] - Edge Copilot无法完成批量操作且需要手动登录[127][136] - Dia仍因功能限制无法执行Agent任务[106] 信息处理能力 信息搜集与整合 - Perplexity Comet信源最全面覆盖20个平台并支持PDF导出[158][160] - Edge Copilot深度搜索版本提供9页详细报告[168][169] - Fellou输出效果惊艳包含可视化图表和情感分析[152][155] - Dia早期版本依赖手动投递信源但更新后有所改善[142][147] 独特功能亮点 - Perplexity Comet的Spaces功能可创建主题知识库并支持AI检索[42][45] - Dia的Research功能支持一键生成带原文链接的研究报告[146][149] - Fellou能自动生成包含图表和图片的可视化报告网页[151][153] - Edge Copilot在深度思考模式下能产出更全面的分析[167]