Workflow
ChatGPT 4o
icon
搜索文档
腾讯研究院AI速递 20250610
腾讯研究院· 2025-06-09 22:06
ChatGPT 4o更新 - ChatGPT 4o在回答复杂问题前会先停顿几秒"思考",页面显示"Thought for a few seconds",然后再决定搜索或直接回答 [1] - 这种"先理解后搜索"的能力提高了回答准确性,但用户需要等待更长时间,移动端触发率更高 [1] - OpenAI已将这种思考能力扩展到GPT-4.1和GPT-4.5等非推理模型中 [1] 谷歌Veo 3更新 - 谷歌Veo 3模型新增"360°"关键词功能,能生成3D环绕效果视频,但在物理真实性上仍有缺陷 [2] - 推出Veo 3-Fast版本,支持文生视频和自动生成配音,速度更快且价格降低80% [2] - Fast版本生成8秒720P视频仅需20 credits(比标准版便宜5倍),但面部细节和光照效果略有下降 [2] 智谱AI发布CoCo - 智谱AI推出CoCo企业自主Agent,具备"记忆能力"的AI助手,能记住员工互动、根据部门职能提供差异化服务 [3] - CoCo可集成企业知识库、数据库和系统工具,通过MCP平台实现与企业原有工作流的整合 [3] - 提供完整私有化部署方案确保数据安全,支持MCP小应用一键自动化工作流,已开放申请通道 [3] MiniCPM 4.0发布 - MiniCPM 4.0模型只关注重要内容,像人类阅读一样选择性处理信息,让手机等设备上的AI速度猛增220倍 [4] - 创新的"草稿+验证"机制让模型生成更快,同时用极致压缩技术将模型体积缩小90%但保持高性能 [5] - 自研专用软件系统和"小模型先试错"策略,让小模型用较小训练量就能超越同类产品,支持超长文本处理 [5] 小红书开源文本大模型 - 小红书hi lab开源dots.llm1大模型,采用MoE架构,总参数142B但仅激活14B,经11.2T高质量数据训练后性能可媲美Qwen2.5-72B [6] - 团队首次开源完整训练过程中每1T token的检查点,包括Pretrain与Instruct阶段共14个checkpoint [6] - 通过优化数据处理流程、AlltoAll通信重叠和Grouped GEMM实现,大幅提升训练效率,使用更少算力达到同等性能水平 [6] 即梦图片3.0 - 即梦智能参考3.0可用于海报重绘设计,上传图片后保持较好一致性,适合制作各类海报 [7] - 设计海报提示词结构公式:产品描述+布局+色调+背景+风格定位+情感氛围+标题设置+字体特色 [7] - 系统功能包括商业促销海报制作、活动展览海报设计及效果转换,可通过局部重绘精准修改文字内容 [7] DreamTech发布Direct 3D-S2 - Direct3D-S2 3D大模型刷新HuggingFace 3D建模趋势榜,被全球开发者广泛关注 [8] - 模型仅用8块GPU训练,效果超越闭源商用模型,训练效率提升近20倍,token吞吐量提高64倍 [8] - 核心创新为空间稀疏注意力机制(SSA),支持超大规模体素生成,已全面开源且采用MIT协议允许商业使用 [8] Meta投资Scale AI - Meta正与Scale AI洽谈超过100亿美元投资,将成为Meta最大外部AI投资和私企最大融资之一 [9][10] - Scale AI成立于2016年,由华裔Alex Wang和Lucy Guo创立,2024年5月获10亿美元F轮融资,估值138亿美元 [10] - 公司主要提供数据标注服务,包括图像视频标注、3D点云标注和NLP处理,客户包括OpenAI、微软、谷歌等科技巨头 [10] 荣耀进军机器人 - 荣耀进军机器人领域,首秀机器人奔跑速度达4m/s打破行业记录,展示其AI技术实力 [11] - 荣耀已发布阿尔法战略(HONOR ALPHA PLAN),将从智能手机制造商向AI终端生态公司转型,五年投资100亿美元 [11] - 荣耀组织架构已调整,成立AI&软件业务部、新产业孵化部,推进AI能力与产品线深度融合,通过HONOR AI Connect平台开放生态能力 [11] Ilya Sutskever演讲 - Ilya Sutskever在多伦多大学毕业典礼演讲中表示,AI最终将能完成人类所有工作,不是部分而是全部 [12] - 他解释称,人类大脑是生物计算机,数字计算机(AI)最终也能做到同样的事情,这将带来人类有史以来最大的挑战 [12] - Ilya呼吁人们密切关注AI发展,培养对AI能力的直觉,为即将到来的深刻变革做好准备 [12]
谷歌(GOOG.US,GOOGL.US)发布Veo 3 AI视频生成器 对标OpenAI Sora
智通财经网· 2025-05-21 06:16
谷歌发布AI视频生成工具Veo 3 - 谷歌正式发布最新AI视频生成工具Veo 3,具备生成视频同时嵌入音效的能力,成为对标OpenAI Sora的有力竞争者 [1] - Veo 3可基于文本和图像提示生成高质量视频,并能自动加入人物对白、动物叫声等音效,实现更逼真的视听体验 [1] - 该工具已向美国用户开放,需订阅谷歌Ultra会员计划(每月249.99美元)使用,也将纳入面向企业客户的Vertex AI平台 [1] 谷歌发布其他AI相关产品 - 同时发布Imagen 4升级版图像生成模型,可根据用户提示生成更高质量、更真实的图片 [1] - 推出电影制作辅助工具Flow,用户只需描述场景、镜头和风格偏好,便可生成具有电影感的视频作品 [1] - 对Veo 2进行更新,新增支持通过文字提示对视频中物体进行增删的功能 [2] - 开放AI音乐生成模型Lyria 2,供YouTube Shorts创作者及Vertex AI企业客户使用 [2] 行业背景与公司历史 - 生成式AI在图像和视频创作领域的应用日益普及,OpenAI ChatGPT 4o的图像生成功能因过度受欢迎一度导致计算芯片过热 [2] - 谷歌在AI图像生成领域曾因Imagen 3模型生成带有历史错误的图像内容而遭遇广泛批评,公司联合创始人承认问题源于"测试不充分" [2] 市场反应 - 截至周二收盘,谷歌股价下跌1.5%,报163.98美元 [3]
AI生成字体设计我有点玩明白了,用这套Prompt提效50%。
数字生命卡兹克· 2025-04-14 01:16
即梦3.0文字生成功能 - 核心功能是通过输入文字内容自动生成具有视觉设计效果的图文作品,涵盖多种风格如抽象概念、电竞动力、清逸笔迹等[2][3] - 支持中英文双语输入,并自动匹配适合的视觉风格和排版布局[3][4][6][8] - 生成效果包括文字边界溶解、字体半透明层叠、背景纹理融合等高级视觉处理技术[3][4] 风格分类与应用场景 - 抽象艺术风格:适用于哲学思考类文字,采用留白解构和意识流碎片化排版[3][14] - 电竞科技风格:适合热血竞技主题,使用尖锐俐落字体搭配深色科技背景[4][22] - 甜美可爱风格:针对轻松活泼内容,采用圆润蓬松字体和粉彩色调[8][41] - 历史文化风格:融合书法笔触与虚拟空间技术,适合国风题材[10][12] - 工业机械风格:适用于硬核科技主题,呈现金属切割感和霓虹光效[22][52] 技术实现原理 - 采用智能匹配系统分析输入文字的情感与内涵,自动选择对应风格集合[58] - 通过高频提示词反推机制优化输出效果,结合质量词提升生成稳定性[57] - 支持多模态输入,用户可上传图片辅助AI识别并生成匹配风格[59][62] 行业应用价值 - 教育培训领域可快速制作具有文化深度的视觉教材[12][35] - 娱乐产业能高效产出电竞、动漫等垂直领域宣传素材[4][45] - 文创行业可批量生成融合传统书法与现代设计的商业作品[10][12] - 营销领域适用于制作社交网络迷因和病毒式传播内容[17][67] 产品优化方向 - 当前在专业字体设计领域仍有提升空间,如书法五大书体的精确还原[51][56] - 需加强印刷字体类别的输出稳定性,如宋体、黑体等核心字体的准确生成[54][56] - 未来可拓展方向包括增强多语言支持、提升排版精细度等[69]