Workflow
数字生命卡兹克
icon
搜索文档
GPT4o生成的烂自拍,反而比我们更真实。
数字生命卡兹克· 2025-04-30 03:27
GPT4o生成图片的热度浪潮 - GPT4o通过一段简单的Prompt生成高度真实的图片,引发持续热度,各种创意不断涌现[1] - 生成的图片包括京东外卖与美团外卖的竞争场景、周杰伦等明星的自拍、中土世界角色在清华的场景等[1][2] - 小红书上一篇《45岁,离职北大》的帖子获得近12万赞,显示此类内容的爆款潜力[5] Prompt的核心特点 - 生成图片的Prompt强调"平凡无奇",包括运动模糊、曝光过度、构图混乱等元素,刻意追求不完美[12][13][23] - 这种"不完美"反而增强了真实感,因为更接近人类日常随手拍摄的照片[23][24][26] - Prompt最初来源于Reddit的ChatGPTJailbreak论坛,用户原本目的是突破OpenAI限制生成NSFW内容,但意外发现这种真实感效果[15][17][19] 真实感的本质 - 真实感来源于对生活平凡瞬间的还原,如地铁拥挤、夜市撸串、朋友聚会的模糊照片[27][28][29] - 社交媒体过度美化的内容导致用户对"未经表演的存在"产生稀缺感,而AI生成的"差劲"图片反而引发共鸣[44][45][51] - 911事件中《The Falling Man》照片的冲击力同样源于其未经修饰的真实性,与AI生成图片的原理类似[52][54] 技术应用与传播 - 使用Sora平台生成图片体验更佳,支持一次生成多张并预设比例[13] - Prompt的传播范围极广,从Reddit扩散至全球,因其生成的图片效果过于真实[22] - AI通过不完美的表现帮助用户重新认识真实的价值,找回被社交媒体滤镜掩盖的生活本质[41][43][55]
Qwen3深夜正式开源,小尺寸也能大力出奇迹。
数字生命卡兹克· 2025-04-29 08:05
小道消息一直在说,昨天深夜或者今天凌晨,阿里会发Qwen3。 然后我特意早早的睡了一两小时,凌晨1点起床,就为了等Qwen3发。 结果这一等,就是好几个小时。。。 不过,功夫不负有心人。 凌晨5点,我眼睛都睁不开的时候,终于等到了。 Qwen你赔我睡眠。。。 把报告看完,我总结一下,觉得最大的亮点有6个: 1. 模型能力登顶全球,这个没啥可说的,就是No.1。 2. 第一个开源的混合推理模型。 3. 8个不同尺寸的模型,几乎覆盖了所有场景。 4. 成本很低, 旗舰模型235B参数部署成本只要DeepSeek R1的三分之一。 5. 支持MCP协议。 6. 居然还支持了119种语言。 一起说吧。 就像我们其实都知道,DeepSeek这个深度思考,你打开的时候,是R1模型,但是你关掉,其实用的是v3来给你回答。 但是Qwen3,是一体的。 是一个模型,只不过支持了两种模式,这个不管对于开发者还是使用者,都方便很多。 这次发了8个模型,Qwen3-0.6B、1.7B、4B、8B、14B、32B,这6个都是Dense稠密模型。 还有两个重量级MoE模型,Qwen3-30B-A3B,和旗舰版的Qwen3-235B-A2 ...
这次我们的AI活动,终于来到了杭州。
数字生命卡兹克· 2025-04-28 04:36
活动概述 - 《一起AI,交个朋友》线下活动已举办第六站,2024年覆盖北京、上海、深圳、昆明四地 [1][2] - 2025年3月北京站作为年度首站,报名人数达2400人,实际参与200余人受场地限制 [4] - 2025年5月10日杭州站将作为新站点举办,场地容量提升至300人 [10][19] 活动内容设计 - 北京站活动形式包含乐队表演、主题分享、抽奖环节及调酒体验 [6] - 杭州站议程包含: - AI音乐生成与演奏开场表演 [14] - 数字生命主题演讲 [15] - AI商业应用案例分享(年销售额3000万的AI设计产品) [15] - AI创作探索历程主题演讲 [15] - 阿里巴巴AI创新生态建设分享 [15] - 神秘集体共创活动 [15] 参与方与合作资源 - 活动汇聚AI行业头部企业,合作方包括: - 腾讯混元、阿里云、MINIMAX、Kimi智能助手等技术厂商 [13] - 华创证券、腾讯研究院等研究机构 [13] - WPS AI、有道翻译等应用层企业 [13] - 阿里云提供杭州站场地资源支持 [19] 用户参与机制 - 采用审核制免费参与模式,无门票费用 [18] - 筛选机制包含轻度背景调查、社群活跃度优先及随机筛选 [19] - 报名通道通过海报二维码开放,4月30日截止,5月4日发送电子邀请函 [19]
长长长长期招聘聘聘聘。
数字生命卡兹克· 2025-04-28 04:36
招聘岗位概览 - 公司长期招聘多个岗位 包括内容编辑 运营 商务 财务 人事等 部分岗位限制城市 部分不限 [2][5][11][13][17][19] - 简历投递邮箱为hr@virxact.com 需在邮件标题注明应聘岗位和姓名 [24] 内容编辑岗位 - 负责公众号 小红书等平台内容撰写 需独立策划有传播力的内容 对AI和科技领域有强烈兴趣 [8] - 要求文字功底扎实 逻辑清晰 具备内容审美 熟悉AI/科技/青年文化/商业潮流趋势 [8] - 需接受高频内容产出 能持续打磨稿件 对作品有质量要求 [8] 运营岗位 - 负责短视频全流程制作 包括选题策划 脚本撰写 拍摄执行和成片把控 需理解公司IP调性 [13] - 需有短视频平台(如抖音 小红书)操作经验 具备剪辑思维和节奏感 能抗高频产出 [13] - 负责多平台日常运营管理 包括数据监控 粉丝互动和用户池沉淀 需熟悉平台规则和流量玩法 [13] 商务岗位 - 负责培训 广告 品牌合作等项目的谈判与落地 需从BD到执行全链路推进 [15][21] - 要求有内容行业/MCN/媒体商务经验 能独立谈判和控流程 具备IP思维和资源整合能力 [21] 财务岗位 - 负责日常账务处理 财务报表编制 资金流动管理及税务申报等基础事务 [22] - 需具备小公司全流程账务经验 熟练使用EXCEL和财务系统 责任心强 [22] 人事岗位 - 负责招聘全流程 包括岗位发布 初筛 约面 入职落地 参与团队文化搭建 [23] - 需有20-50人公司人事独立作业经验 熟悉招聘和绩效流程 性格稳定但有原则 [24] 助理岗位 - 协助处理行程安排 会议统筹 跨部门沟通及项目推进 需初步判断商务邀约并给出建议 [7] - 要求细节控 时间感强 能自主推进事务 情绪稳定且抗压 有商务判断力 [7]
终于有个不瞎编的旅游AI了。
数字生命卡兹克· 2025-04-24 00:19
飞猪"问一问"功能核心分析 产品功能设计 - 通过自然语言输入旅行需求 自动生成包含机酒、行程、预算的一站式解决方案 [20][29][30] - 采用多顾问协同模式 分别处理交通、酒店、预算等细分需求 [22][29] - 提供实时价格计算功能 预算滑块可动态调整方案总价 [32][33][38] - 支持图文版行程输出 可投射至地图导航 含景点开放时间等实用信息 [34][35] 行业差异化优势 - 整合实时行业数据 包括航班动态、酒店库存等 避免通用AI的过时信息问题 [47][48] - 实现需求到交易的闭环 用户可直接在APP内完成机酒预订 [36][50] - 深度理解旅游行业Know-how 如合理路线规划、时间分配等 [16][29][41] - 支持多维度约束条件 包括预算、偏好、天气等复杂变量 [48][49] 用户体验优化 - 行程安排精确到小时级 含交通时间、景点停留时长等细节 [31][34] - 可根据反馈实时调整方案 如增加室内活动等个性化需求 [41] - 自动规避常见陷阱 如中转航班不合理等问题 [32][33] - 内置用户评价数据 辅助酒店等选择决策 [29][31] 技术实现特点 - 依赖飞猪生态的实时结构化数据 非爬取公开信息 [47][48] - 处理多源异构数据能力 整合机票、酒店、游记等不同维度信息 [48] - 支持开放式自然语言输入 非固定选项交互 [48][49] - 强调行业闭环而非单纯对话 实现从规划到预订的全流程 [50][53] 市场时机选择 - 五一假期前上线 精准捕捉旅游攻略高峰期 [4] - 填补市场空白 现有AI旅游攻略普遍存在可用性问题 [16][20] - 差异化竞争携程等对手 提供更深度垂直服务 [20][47]
我用AI监控了奥特曼,当他一发推特AI就会自动给我打电话。
数字生命卡兹克· 2025-04-22 03:23
核心观点 - 文章描述了一个自动化监控系统开发过程,用于实时追踪特定Twitter账号动态并通过飞书电话通知用户,解决人工蹲守信息效率低下的痛点 [1][4][5][28] 技术实现方案 Twitter监控模块 - 采用Python开发Twitter监控脚本,每5分钟自动爬取目标账号新推文 [6] - 集成OpenAI API实现推文标题自动翻译功能 [6] - 利用Twitter官方API免费额度(每月100次读取)满足基本需求 [8] 通知系统模块 - 放弃传统云呼叫服务(审批周期长)转向飞书开放平台解决方案 [9][10][12] - 飞书"发送电话加急"功能提供每月50次免费呼叫额度,商业版可扩展 [14][15] - 实现消息已读状态检测机制,未读时循环拨打电话确保唤醒效果 [27][28] 系统集成优化 - 将Twitter监控、AI翻译、飞书通知三大模块整合为完整工作流 [28] - 增加内容过滤逻辑,避免非AI相关推文触发无效通知 [28] - 系统日志显示完整调用链:消息发送→电话触发→已读状态轮询 [28] 行业应用价值 - 展示企业级自动化工具开发路径:需求分析→技术选型→权限配置→系统集成 [17][18][20][22] - 体现AI与传统办公软件API的协同创新模式 [6][12][25] - 为实时信息监控领域提供可复用的技术框架 [28][29]
说个抽象的事,你现在可以在秘塔AI搜索里上课了。
数字生命卡兹克· 2025-04-21 00:30
秘塔AI新功能"今天学点啥" - 核心功能是将任意文件或网址转化为定制化课程视频 包含PPT SVG动画和个性化语音讲解 [2][6][12] - 支持多种文件格式输入 包括PDF 但不支持mobi格式 对部分网页链接抓取兼容性较差 [18][19] - 提供风格化教学模板 如"高冷御姐""拿破仑风格"等 并可调节知识深度和讲解节奏 [10][11][18] 技术实现与用户体验 - 整合交互式网页 PPT生成 TTS语音合成等技术 工程化程度较高 [13] - 采用"输入-模型-输出"架构 根据用户知识水平自动生成教学内容 [17] - 交互设计存在优化空间 部分按钮逻辑和路径规划不够清晰 [25] 教育模式创新 - 实现从被动问答到主动教学的范式转换 AI扮演主讲角色而非辅助工具 [16] - 支持课后测试功能 例如生成10道题目检验学习效果 [14] - 建立内容广场功能 允许用户共享学习链接并互动交流 [19] 应用场景扩展 - 可快速生成影视小说速读内容 如3分钟讲解《小明修仙记》 [24] - 适用于财经报告解读 例如自动转化大摩PDF为视听课程 [4][6] - 实现知识传播人格化 通过不同教学风格提升学习沉浸感 [17][25] 商业数据引用 - 摩根士丹利研报显示英伟达目标价162美元 当前市值2811亿美元 [9] - 英伟达2026年预期EPS 4 09美元 对应PE 29 4倍 [9]
腾讯元宝最终还是活成了微信的模样。
数字生命卡兹克· 2025-04-18 01:30
前天晚上人还在参加着英伟达的合作伙伴大会晚宴。 就看到,我的朋友圈里被元宝刷屏了。。。 本来想昨天发的,结果又被OpenAI偷了家。 微信,在AI上,有了大动作。 你现在,直接可以在聊天界面,对着元宝问问题了。 元宝,变成了你的一个通讯录好友,这事,太特么离谱了。 如果你也想用元宝的话,路径特别简单。 在微信里,搜索元宝,点击上方的提示条,然后添加到通讯录。 | 就这么简单的几步,元宝,就成为了你的微信通讯录里的一个好友。 | | --- | 你可以把它当人一样,直接在微信里,跟它进行对话。 回根据你问的问题的长度和复杂度不同,选择是否调用卡片详情来给回复。 比如讲个故事,它给的就是卡片,很简单的翻译任务,就是直接消息回复。 个人猜测可能是因为如果是长文的话,在消息中展示样式和阅读压力都会很大,不如就直接放到卡片里面去了。大家的阅读体验会更好一些。 元宝跟真人一样,可以直接置顶聊天。 也支持图片理解,你把图片扔进去,他都会给你反馈。 但是目前又个der比的问题就是,微信上的元宝,是你给一条信息他就处理一条信息。 我刚把图片发给他,问题的文字打完发给他以后,它根据队列给我处理了两次,只给图的话,元宝会按照"你怎 ...
OpenAI深夜上线o3满血版和o4 mini - 依旧领先。
数字生命卡兹克· 2025-04-17 04:34
模型发布与更新 - OpenAI发布o3和o4-mini模型,取代原有的o1、o3-mini和o3-mini-high模型,ChatGPT Plus、Pro和Team用户可立即使用[1] - o3 Pro版本需等待几周后才提供[2] - o3和o4-mini是o系列最新视觉推理模型,首次实现思维链中图像思考能力[2] 模型性能提升 - o3在AIME数学赛准确率从裸模91.6%提升至调用Python后的95.2%,o4-mini从93.4%提升至98.7%[5] - 在跨学科PhD级科学题(GPQA Diamond)上,o3以83.3%领先o4-mini的81.4%[5] - 专家级综合测试(Humanity's Last Exam)中,o3从20.3%提升至24.9%,o4-mini从14.3%提升至17.7%[5] - 多模态能力显著提升:o3在MMMU数据集从77.6%提升至82.9%,MathVista从71.8%提升至87.5%,CharXiv-Reasoning从55.1%提升至75.4%[8] 工具与代码能力 - o3首次实现满血版工具使用能力[2] - 在SWE-Lancer自由职业软件工程任务中表现突出[11] - 浏览器任务能力接近DeepResearch水平[14] - 函数调用能力(Tau-bench)相比o1未明显提升[14] - o3准确率0.59高于o4-mini的0.36,但幻觉率0.33也高于o4-mini的0.48和o1的0.16[15][16] 定价策略 - o3定价$10/$40(输入/输出),比o1的$15/$60便宜三分之一[17] - o4-mini保持$1.1/$4.4价格不变[17] - 所有新模型支持20万token上下文窗口和10万token最大输出[17] 视觉推理突破 - o3首次实现真正意义上的视觉推理能力,能像人类一样分析图像[18] - 成功识别北京门头沟109国道妙峰山段的具体位置[21][22][24] - 具备专业场景观察力潜力,可能改变安全监控、设计审稿、医疗影像等行业[30] 其他更新 - 开源AI编程工具Codex[31][33] - 视觉推理能力被视为范式级跃迁,可能带来行业变革[30][33]
可灵2.0正式发布 - 现实,真的不存在了。
数字生命卡兹克· 2025-04-15 15:24
可灵2.0技术突破 - 可灵2.0在运镜幅度、物理规律、人物表演、动作稳定性、语义理解等方面实现水桶式提升,将AI视频技术推向新高度[7][9][12] - 霸王龙案例展示2.0版本在环境交互、运动感和物理反馈上的显著进步,1.6版本存在树木橡胶化等缺陷[9][11][12] - 摘眼镜案例体现2.0版本对精细动作的完美还原,包括镜片光影变化和物理反馈,1.6版本出现眼镜腿抖动等穿帮[14][16][17] 多主体交互能力 - 五人篝火场景中2.0版本实现自然表情交互和火光动态映射,1.6版本存在人工感[23][25][26] - 派大星吹笛案例展示2.0强大的语义理解能力,能准确呈现停顿观察等复杂指令[27] - 多人场景下2.0版本保持各主体动作协调,1.6版本出现假动作等问题[20][21] 情感表达真实感 - 小丑妆女孩案例中2.0版本实现电影级情绪传递,包括眼神变化和嘴角抽动等微表情[14][17] - 外星人哭泣、老人敬礼等案例展示2.0版本对复杂情感的精准刻画[30][31] - 通过淋雨失恋、开车第一视角等场景建立强烈沉浸感[32][34] 技术局限性 - 群像高速运动时部分人物稳定性不足,出现分裂现象[49][50] - 投篮等需要精确物理模拟的场景仍存在轨迹失真问题[55] - 怪物猎人等复杂群像场景中小尺寸人物会出现混乱[52] 行业影响 - 技术达到"信"而非"像"的级别,首次实现观众情感共鸣[41][44][45] - 当前水平已超越其他AI视频模型,直接对标好莱坞特效标准[57] - 代表AI视频领域审美跃迁,重新定义真实感标准[38][39][46]