Workflow
Gemma
icon
搜索文档
腾讯研究院AI速递 20250711
腾讯研究院· 2025-07-10 22:48
马斯克发布Grok4 - 马斯克发布Grok4,强调其在各种测试中表现优异,特别是在"人类终极考试"测试中超越竞品 [1] - Grok4训练方式转变,注重"第一性原理"思考能力,并在训练阶段就学会使用工具解决问题 [1] - Grok面临"机械希特勒"争议,其不审查不过滤理念虽吸引用户但也引发问题,AI对齐挑战尚未解决 [1] 微软开源Phi-4家族新版本 - 微软开源Phi-4-mini-flash-reasoning,采用创新的SambaY架构,推理效率提升10倍,延迟降低2-3倍 [2] - SambaY架构通过门控存储单元实现跨层高效记忆共享,无需显式位置编码,大幅提升长上下文处理能力 [2] - 新模型适用于算力受限设备,单GPU可运行,在高级数学推理和长文本生成方面表现优异,适合教育科研领域 [2] Perplexity上线AI浏览器Comet - Perplexity正式推出AI浏览器Comet,以"智能体搜索"为核心,与谷歌Chrome竞争 [3] - Comet三大价值主张包括个性化了解用户思维、强大易用的内容理解能力、提升效率减少标签切换 [3] - Comet功能丰富,可代替用户操作网页、智能处理内容、管理邮箱日历、搜索个人数据,目前支持Mac和Windows系统 [3] OpenAI收购io公司 - OpenAI完成对io公司收购,前苹果设计师Jony Ive及其团队LoveFrom正式加入,担任深度设计与创意职责 [4] - Ive可能将帮助OpenAI开发全新智能硬件产品,团队已经将初步想法转变为切实可行的设计 [5] - io公司由Ive与多位专家共同创立,汇集了硬件软件工程师、科学家等专家,将与OpenAI研发团队紧密合作 [5] 谷歌发布医疗AI新模型 - 谷歌发布医疗AI新模型:多模态MedGemma 27B与轻量级编码器MedSigLIP,扩展HAI-DEF医疗模型集合 [6] - MedGemma系列包含4B和27B两种规模,支持图文输入并生成文本输出,4B版在医学问答测试达64.4%准确率,27B版达87.7% [6] - MedSigLIP是仅含4亿参数的医疗图像编码器,通过多种医学影像调优,适用于图像分类、零样本分类和语义检索,为MedGemma提供视觉理解能力 [6] 腾讯公开征集AI设计师 - 腾讯"生肖企鹅"共创活动上线几小时内请求量飙升300%,tokens使用量翻倍,服务器紧急扩容 [7] - 活动邀请用户使用混元3D AI创作引擎设计2026年的"马鹅"手办,只需输入文字、上传图片或画草图即可生成 [7] - 优秀作品将有机会与腾讯联名量产并在官方周边商店上架,活动截止到2025年7月27日 [7] OpenAI开源模型计划 - OpenAI计划发布"开放权重模型",类似o3 mini级别,最快下周上线,将允许企业自行部署,这是自2019年以来首次开放模型权重 [8] - OpenAI正开发基于Chromium构建的AI浏览器,将在ChatGPT原生界面处理网页内容,支持AI代理直接执行任务,挑战Google Chrome [8] - OpenAI正全面扩张业务范围,从模型研发到浏览器等用户入口,战略布局已超出传统模型公司边界,显示其对技术领先和生态掌控的野心 [8] Hugging Face开源机器人 - Hugging Face与Pollen Robotics联合推出开源机器人Reachy Mini,起售价299美元,专为人机交互和AI实验设计 [10] - Reachy Mini提供基础版(299美元)和无线版(449美元)两种配置,支持Python编程,配备摄像头、麦克风和扬声器等多模态交互功能 [10] - 机器人高28厘米,重1.5公斤,提供15种预设行为,完全开源且可扩展,基础版预计2025年夏末发货,无线版将于2025年秋季起分批交付 [10] Meta发布具身智能报告 - Meta发布40页报告,首次将"心智世界模型"与物理世界模型并列为具身智能的关键组成部分 [11] - 心智世界模型关注人类的目标意图、情绪状态、社会关系和交流方式,使AI能理解人类心理状态并进行社会互动 [11] - Meta提出整合"观察学习"(系统A)和"行动学习"(系统B)的双系统架构,前者提供抽象知识,后者负责探索行动,以实现更高效的智能体学习 [11] AI产品"反框架"路线 - 顶级AI产品如Cursor、Perplexity和Lovable选择"反框架"路线,基于AI基本单元直接构建而非使用框架 [12] - 框架在快速变化的AI领域成为创新障碍,过度抽象导致臃肿、迭代缓慢,而基本单元提供可组合性和专业性 [12] - 基本单元方法(如Memory、Thread、Tools等)让开发者像搭积木一样构建AI产品,降低认知负担,提高性能和灵活性,更适应AI技术快速迭代 [12]
编码器-解码器架构的复兴?谷歌一口气发布32个T5Gemma模型
机器之心· 2025-07-10 16:35
行业动态 - xAI发布Grok 4大模型,引发AI社区高度关注 [1] - 谷歌同期更新Gemma系列模型,包括MedGemma和T5Gemma [2][3][5] MedGemma模型 - 包含4B和27B两种参数规模的多模态模型,专注于医疗AI应用 [3] - 能够根据医疗图像和文本描述辅助诊断并提供建议 [4] T5Gemma模型架构 - 采用编码器-解码器架构,包含32个不同变体 [8][9] - 基于Gemma 2框架,参数规模包括2B和9B [8] - 支持不同大小的编码器与解码器组合,如9B编码器配2B解码器 [18] 技术特点 - 使用"适应"技术将预训练的仅解码器模型转换为编码器-解码器架构 [15] - 支持PrefixLM和UL2两种训练目标 [8] - 在GSM8K数学推理任务上延迟显著降低 [22][23] 性能表现 - T5Gemma 9B-9B在GSM8K得分比Gemma 2 9B高出9分 [28] - 在DROP阅读理解任务上得分高出4分 [28] - 平均性能优于仅解码器架构 [30] - 指令微调后MMLU得分提高12分,GSM8K从58%提升至70.7% [31] 应用优势 - 在摘要、翻译、问答等任务中表现优异 [7] - 可根据任务需求灵活配置编码器-解码器规模 [19] - 在质量-效率边界上占据主导地位 [21][29]
AI产业跟踪:海外:德国TNG推出DeepSeek变体模型,DeepSWE开源AIagent
国泰海通证券· 2025-07-09 19:12
报告行业投资评级 未提及 报告的核心观点 报告跟踪AI产业最新趋势,涵盖行业动态、应用资讯、大模型资讯和科技前沿等方面,展示AI领域的多项进展与创新 根据相关目录分别进行总结 AI行业动态 - 戴尔向CoreWeave交付首批英伟达GB300NVL72系统,该系统AI性能超“每秒百亿亿次浮点运算”,每个机架提供40TB快速内存,与上一代相比性能显著提升 [4] - Meta成立超级智能实验室,由前Scale AI CEO等领导,专注AI产品和应用研究,还从多家公司挖来11名顶尖人才 [5] AI应用资讯 - Meta为WhatsApp商业版增添AI功能,未来几周大型企业可通过API接口使用语音通话功能,客户与企业能互发语音消息,目前免费未来或收费 [6] - 亚马逊部署第100万台机器人并推出DeepFleet生成式AI基础模型,可协调机器人行动,缩短10%行动时间,提升配送效率并降成本 [7] - 谷歌推出Veo 3视频生成模型,能生成视频背景音效,可生成1080P、超60秒视频,已向美国地区Gemini Ultra会员开放 [8] - 法国Kyutai开源文本转语音模型Kyutai TTS,支持文本流式传输,延迟低至350毫秒,支持英法双语及长篇文章语音生成 [9] - 谷歌Gemini 2.5 Pro API恢复免费访问,提供每分钟5次请求、每分钟25万tokens及每日100次调用的免费额度 [11] - 谷歌发布Gemini教育版,面向全球教育领域免费开放,有免费和付费两种版本,计划年内推广至更多地区 [12] - Claude Code推出Hooks功能,基于Shell的钩子系统,能将编程会话中的不确定性转化为确定性命令 [13] AI大模型资讯 - 德国TNG推出DeepSeek变体模型R1T2,速度提升200%,是6710亿参数的开源混合模型,但欧洲企业使用或受限 [14] - 智谱开源GLM - 4.1V - Thinking,以90亿参数在28项多模态基准测试中表现惊艳,跨域泛化能力强 [15] - DeepSWE开源AIAgent框架,在SWE - Bench - Verified测试中表现出色,训练方法等全面开源 [16] - 谷歌开源Gemma 3n,原生支持多模态输入及文本输出,在多语言、数学、编码与推理方面均有质量提升 [18] - Grok4在「人类最后考试」拿下45%跑分,在多项基准测试中表现超竞品 [19] 科技前沿 - 欧洲第一台百万兆次级超级计算机JUPITER亮相,位于德国于利希超级计算中心,能效位列全球前五 [20]
产业观察:【AI产业跟踪~海外】德国TNG推出DeepSeek变体模型,DeepSWE开源AIAgent
国泰海通证券· 2025-07-09 17:45
AI行业动态 - 戴尔向CoreWeave交付首批英伟达GB300NVL72系统,AI性能超“每秒百亿亿次浮点运算”,每个机架提供40TB快速内存[8] - Meta成立超级智能实验室,从OpenAI等公司挖来11名顶尖人才[9] AI应用资讯 - Meta为WhatsApp商业版添加AI功能,月活超2亿,目前免费未来或收费[10] - 亚马逊部署第100万台机器人,推出DeepFleet模型,缩短机器人10%行动时间[11] - 谷歌推出Veo 3视频生成模型,已向美国地区Gemini Ultra会员开放[12] - 谷歌发布教育产品Gemini for Education,付费版每月2美元[17] AI大模型资讯 - 德国TNG推出速度提升200%的DeepSeek-TNG R1T2 Chimera模型,参数6710亿[19] - 智谱开源GLM - 4.1V - Thinking,在28项多模态基准测试中表现惊艳[20] - DeepSWE开源AIAgent,Pass@1准确率达42.2%,运用TTS策略后升至59%[21] - Grok4在「人类最后考试」用推理技术后跑分达45%,超OpenAlo3一倍[24] 科技前沿 - 欧洲首台百亿亿次超算JUPITER跻身全球TOP500榜单第四,能效位列全球前五[25] 风险提示 - AI软件销售、研发及capex投资计划可能不及预期[4][26]
cVLA:面向高效相机空间VLA模型的关键位姿预测方法
具身智能之心· 2025-07-06 19:54
视觉-语言-动作(VLA)模型研究 - 提出一种新型VLA方法,利用视觉语言模型(VLMs)直接推断机器人末端执行器在图像帧坐标中的位姿,取代传统低级控制指令输出 [2] - 模型设计轻量但高效,采用next-token预测架构学习可执行机器人轨迹,并探索深度图像潜力及解码策略 [2] - 通过模拟数据集训练展现良好模拟到现实迁移能力,结合真实数据验证在机器人系统的有效性 [2] 技术挑战与解决方案 - VLA发展面临三大约束:高计算成本(需大量资源训练)、数据限制(高质量多模态数据集采集难)、评估基准依赖真实世界测试 [3] - 采用可控合成数据集训练轻量VLA系统,基于PaliGemma架构微调,任务定为末端执行器关键位姿单步预测以提升效率 [3][6] - 利用模拟训练构建含丰富相机视角和目标变化的数据集,通过增强设计实现模拟到现实迁移 [3][10] 模型架构与动作表示 - 基础模型基于PaliGemma2微调,输入格式为<实时图像>+<机器人状态>+<任务描述>→<预测轨迹> [6] - 动作表示借鉴RT-1,用离散化令牌编码6自由度夹爪位姿,扩展定位令牌预测深度,分割令牌编码方向 [6] - 深度图通过viridis色图转换为RGB,复用预训练图像编码器处理 [7] 数据集生成与评估 - 使用ManiSkill模拟器生成数据,含CLEVR几何形状和Objaverse真实目标两类3D资产,应用图像增强与随机化 [9][10] - 真实评估采用DROID数据集子集(DROID-hard含干扰目标,DROID-easy测试泛化性),计算预测与真实位姿的L1误差 [11] - 消融实验显示深度信息显著提升模拟成功率,多样化3D资产对泛化至Objaverse场景至关重要 [12] 实验性能与推理优化 - 单样本模仿实验中,CLEVR-easy训练模型在模拟成功率达70%,而hard版本在真实数据表现更优(轨迹L1误差11.56) [16][17] - 输入图像裁剪策略改善小目标定位性能,多预测生成采用beam-search-NMS解码策略优于贪婪搜索(Top-1误差33.42) [18][20][23] - 提出使用平均精度(mAP)评估轨迹分布,设定L1距离阈值反映操作准确性 [23]
伦敦大学学院Echo Zhang:AIGC是一面照见创意、价值与信任的镜子
环球网资讯· 2025-07-06 14:39
AIGC技术定义与发展 - 生成式人工智能(AIGC)指能够生成文本、图像、音乐和视频的算法工具,代表产品包括ChatGPT、Midjourney和DALL·E [2] - 人工智能发展经历四波浪潮:符号推理→统计学习→深度学习→当前AIGC作为"共创伙伴"阶段 [3] - AIGC被文化学者定义为"文化软件",正在重塑数字时代的文化表达与传播方式 [3] AIGC行业应用 教育领域 - AI可动态调整学习难度并按需生成个性化学习资料,提升教育包容性与灵活性 [4] - 主要风险包括学生过度依赖导致批判性思维弱化,以及技术分布不均加剧数字鸿沟 [4] 医疗领域 - AI生成诊断报告和图像分析工具显著提升医疗效率,例如Google DeepMind的MedGemma模型可处理多模态医疗数据 [4] - 商汤科技推出"大医"模型,具备生成医疗报告、解释诊断结果和模拟智能问诊功能 [4] AIGC社会影响 - 在媒体行业导致信息污染与虚假内容泛滥,创意产业面临AI作品版权归属争议 [5] - 对文字、设计、客服等岗位产生潜在替代效应,引发职场结构性变化 [5] - 核心挑战在于AIGC可能引发社会信任危机,需要建立技术应用的伦理框架 [5] AIGC发展理念 - 技术本质是数据重组而非创造,最大价值体现在人类与AI的协同创作场景 [3] - 需通过跨领域合作(技术+艺术)释放创意潜力,实现"更加人性化"的技术发展方向 [3][5]
LeCun团队揭示LLM语义压缩本质:极致统计压缩牺牲细节
量子位· 2025-07-04 09:42
语义压缩研究 - 人类具备将不同事物归类到高级概念(如"水果")的语义压缩能力,即使面对新词汇也能通过语义线索快速分类 [1][2][3] - 图灵奖得主LeCun团队提出信息论框架,对比人类与LLM在语义压缩中的策略差异:LLM偏向统计压缩,人类更注重细节与语境 [4][5][17] 研究框架设计 - 构建包含1049个项目、34个语义类别的人类概念分类基准,整合认知科学经典研究数据,包含典型性评分以反映人类概念结构 [5][6][7] - 选取30+种LLM(参数规模3亿至720亿),包括BERT、LlamA、Gemma等,从嵌入层提取静态词元表示以确保与人类分类实验基准一致 [8] - 引入信息论框架,结合速率失真理论和信息瓶颈原理分析压缩效率与语义保真度的权衡 [9][12] 核心研究发现 - LLM概念分类与人类语义分类的对齐度显著高于随机水平,验证其基本语义组织能力 [10][11] - LLM难以处理细粒度语义差异,其内部概念结构与人类直觉不符,典型性判断与余弦相似度的相关系数较弱且大多不显著 [14][16] - 关键差异:LLM追求最小化冗余信息的统计压缩,人类则保持适应性与上下文完整性 [17] 研究团队背景 - 由斯坦福大学与纽约大学联合开展,第一作者为斯坦福博士后Chen Shani,Yann LeCun作为合著者参与 [19][20][22] - LeCun是Meta首席AI科学家、CNN架构先驱,与Hinton、Bengio共获2018图灵奖,推动深度学习工业应用与自监督学习发展 [24][25][26][27][28] 补充信息 - 论文发布于arXiv(编号2505.17117),研究引发AI社区广泛讨论 [29]
巨头开源的背后,是价格战还是价值战?
AI科技大本营· 2025-07-02 17:30
开源背后的巨头博弈与产业终局 - 谷歌开源轻量级模型Gemma但保留核心Gemini 2.5 Pro Meta的LLaMA虽开源但附加商业限制 反映巨头通过开源吸引开发者同时控制核心变现能力[1] - 中国公司如阿里通义千问 DeepSeek 百度文心4 5采取全尺寸开源策略 旨在快速抢占用户心智 建立事实标准与硬件生态 探索自主技术路径[1] - 百度与谷歌作为"搜索+大模型"代表 开源策略差异体现战略分歧 百度可能试图破解搜索业务创新瓶颈[4] AI时代的开源新格局 - 大模型可能像操作系统免费化 竞争焦点转向生态建设 后训练技术或成关键突破点[4] - 开源模型与国产硬件结合被视为中国发展自主AI的独特路径 挑战美国主导的开放标准体系[4][5] - 当前开源精神与商业逻辑相比传统开源项目如LVS发生显著变化 社区发展与巨头主导的平衡成焦点[4] 开源AI浪潮下的开发者机遇 - 开发者面临选择:成为Agent插件开发者或创建独立AI原生应用 氛围编程可能改变开发门槛但或导致应用泛滥[10] - 软件架构师角色价值受AI冲击 开发者核心竞争力需从编码转向提示工程 系统设计等新领域[10] - 基础模型免费化背景下 开源AI公司需探索新商业模式 如增值服务 硬件集成等[4][10] 产业趋势与竞争动态 - 参数规模触顶后 开源成为定义生态主导权的核心手段 涉及资源 标准 人才的多维度竞赛[8] - 行业进入产业范式重构期 企业需通过开源构建护城河 同时应对安全风险与速度的平衡挑战[5][8]
第四期全球名校“Z世代”领袖连线活动举办 中外青年共话AI技术应用
环球网资讯· 2025-07-02 11:25
上海交通大学的华小文从教育技术的演变出发,回顾了在线教育从"电话授课"到"线上平台",再 到"VR+脑电波传感器"教学的飞跃。她强调,技术不应替代教师,而应强化学习者的个性表达与多元智 能的发展。她提及,芬兰等国家已在中小学引入AI课程,鼓励学生用所学知识参与全球议题,如可持 续发展目标(SDGs)与全球气候变化。此外,她也警示了"技术成瘾"现象,呼吁推动"正向上瘾"型教 育应用的开发,如语言学习应用多邻国。华小文总结道:"技术应该服务于创造力、合作与批判思维, 而不是制造懒惰与分裂。" 6月30日,第四期全球名校"Z世代"领袖连线活动顺利举行。此次活动汇聚了上海交通大学、香港理工大 学,以及伦敦大学学院、加州大学伯克利分校、墨尔本大学、奥克兰大学、悉尼大学等15所世界知名高 校的40余名青年代表,与相关领域的专家相聚云端,围绕"AI技术与未来应用"主题展开深入探讨。 青年对话环节,与会的"Z世代"代表们以跨界视角展开思维碰撞,围绕人工智能技术前沿与社会发展等 话题畅所欲言、各抒己见。 人工智能与多语言大模型领域的青年学者、前阿里巴巴通义团队核心研究员杨建以"人人可编程"为主题 进行分享,深度解析了代码智能技 ...
跟着Google出海:教你怎么落地Gemini
Founder Park· 2025-07-01 23:07
活动核心内容 - AI模型能力已非瓶颈,关键在于如何将模型落地转化为商业价值 [1] - 联合Google推出「从模型到行动」系列AI工作坊,覆盖深圳、上海、北京三地线下专场 [1] - 目标行业包括泛娱乐、游戏、电商、智能制造等领域的开发者与创业者 [1] 活动提供内容 - 呈现Gemini模型系列及其先进推理能力,分享Google开放模型Gemma最新动态 [3] - 沉浸式动手实操环节:调用Gemini多模态能力处理图像、视频、音频及跨语言场景 [4] - 提供分层挑战项目、Google工程师设计的实操模板与代码资源,经验可复用至业务场景 [4] 活动日程安排 - 线下工作坊为期半天(约3小时),后续推出线上延展活动 [5] - 深圳站:7月12日 Google深圳办公室 [11] - 上海站:7月20日 Google上海办公室 [11] - 北京站:7月26日 Google北京办公室 [11] 目标参与人群 - 已有出海计划或服务海外市场的技术团队与创业者 [12] - 开发AI产品、Bot工具、AI视频/内容应用的开发者 [12] - 泛娱乐、电商、游戏等领域的技术决策者与工程师 [12] - 需快速理解Gemini多模态融合技术的工程师 [12] 活动附加价值 - 与其他优秀出海团队建立联系的机会 [10] - 获得Google团队一手技术反馈通道 [10] - 在工作坊中构建商业原型雏形 [10]