COG

搜索文档
Marie Brizard Wine & Spirits: First half 2025 revenues
Globenewswire· 2025-07-24 23:43
Charenton-le-Pont, 24 July 2025 First half 2025 revenues H1 2025 revenue of €86.6m, down 8.5%Q2 revenues of €44.4m, down 13.7% Sharp decline in France and a more moderate overall decline internationally, negatively impacted by the United States In France, revenues fell significantly, down 17.4% in the first half of 2025, following difficult commercial negotiations with the Off-Trade at the beginning of the year in a spirits market that continues to decline: Sales deteriorated in Q2 2025 (down 23.8% versus ...
ICML2025|清华医工平台提出大模型「全周期」医学能力评测框架MultiCogEval
机器之心· 2025-07-23 09:04
本文工作由清华大学电子系医工交叉平台吴及教授和刘喜恩助理研究员所领导的医学自然语言处理团队,联合北邮、科大讯飞、无问芯穹等单位共同完成。 第一作者周宇轩为清华大学电子工程系博士生,其研究方向聚焦于大模型的医疗垂类能力评估与优化,此前已提出 MultifacetEval(IJCAI 2024)与 PretexEval(ICLR 2025)等医学知识掌握的多面动态评估框架体系。吴及教授和刘喜恩助理研究员所领导的医学自然语言处理团队长期致力于面向真实需 求驱动的医工交叉前沿技术研究与产业变革,曾在 2017 年联合科大讯飞研发了首个以 456 分高分通过国家临床执业医师资格考试综合笔试测试 AI 引擎 Med3R(Nature Communications 2018)并在全国 400 多个区县服务于基层医疗;2021 年联合惠及智医研发了首个基于全病历内容分析的智慧医保 AI 审核引擎,获得国家医保局智慧医保大赛一等奖,并在全国多个省市进行示范应用。 大语言模型(Large Language Models,LLMs)技术的迅猛发展,正在深刻重塑医疗行业。医疗领域正成为这一前沿技术的 "新战场" 之一。大模型具备 强 ...
创智「小红书」震撼上线,让AI从效率工具进化为认知伙伴
机器之心· 2025-07-22 16:59
我们似乎正处在一个"收藏即掌握"的时代。 不管是知乎、论文库,还是小红书,只要看到一句金句、一篇好文、一个值得学习的案例,我们的第一反应往往是点个收藏,留着以后看。 然而, 我们真的 会"回头再看"吗? 让我们先来看一个令人震惊的统计: 你收藏夹里有多少吃灰的链接?你今天阅读了 50 篇论文,都消化掉了吗? 这背后反映的残酷现实是: 如果有一个平台,让你像刷小红书一样轻松,但每一次浏览与收藏都是给自己的认知 + 1,每一次思考都能和 AI 共同进化呢? 上海创智学院发布创智 "小红 书"(Deep Cognition)—— 全球首个可以主动构建认知并且让认知真正积累的 AI 平台,一个可以创造智慧的小红书! 「线上体验」:https://opensii.ai/ 信息过载的时代,如何识别高价值的洞见、认知是无数人的痛点需求。 在创智 "小红书" 中,每一张卡片都承载着一条最新的认知洞察。这里汇聚着数据驱动的洞 察,将最新研究的核心发现以直观的方式呈现;凝聚着理论突破的精华,用简洁明了的表达诠释复杂深奥的理论;沉淀着实践智慧的结晶,通过经验总结完成知 识的深度萃取。 点击体验一个具体的 "认知卡片" 实例:htt ...
机器人需求驱动导航新SOTA,成功率提升15%!浙大&vivo联手打造
具身智能之心· 2025-07-22 14:29
核心观点 - 浙江大学和vivo人工智能实验室团队开发了CogDDN框架,这是首个将心理学"双过程理论"应用于机器人需求驱动导航的系统,模拟人类认知机制以实现更灵活的决策能力[2][3] - CogDDN在AI2-THOR模拟器上的闭环实验中,导航成功率(NSR)比当前SOTA方法DDN提升15%,在未见场景中性能与依赖深度输入的InstructNav相当[12][28] - 该系统通过启发式过程(快速直觉决策)与分析过程(深度推理优化)的协同,实现了38.3%的NSR和17.2%的SPL,显著优于传统单视角方法[27][34] 技术架构 双过程理论应用 - 启发式过程(系统1)依赖经验库进行快速决策,包含Explore(环境扫描)和Exploit(精准执行)模块,通过思维链(CoT)优化路径[19][20] - 分析过程(系统2)利用VLM预训练知识进行障碍反思,通过500个epoch的迭代训练将错误修正经验整合至知识库,使SPL指标持续提升[23][31][32] 模块设计 - **3D感知模块**:采用UniMODE单目3D检测技术,仅需单视角图像即可精准定位物体,摆脱多传感器依赖[15] - **需求匹配模块**:通过有监督微调(SFT)优化LLM,解决模糊指令下推荐偏差问题(如"放花"误推杯子),提升物体选择准确率[16] 性能表现 基准测试 - 在ProcTHOR数据集400个场景中,CogDDN的NSR达38.3%(seen scene)和34.5%(unseen scene),较DDN的21.5%和16.1%实现跨越式提升[27][28] - 消融实验显示移除Exploit模块导致NSR下降至24.2%,去除CoT后SPL降低4.9个百分点,验证核心组件必要性[29][30] 跨场景适应性 - 在相同传感器输入条件下,CogDDN的SSR(选择成功率)达29.8%,远超CLIP-Nav-GPT(4.0%)等对比模型[27] - 反思机制使系统在连续训练中SPL增长曲线显著优于无反思版本,证明持续学习有效性[32] 行业意义 - 该技术突破传统导航对明确指令的依赖,使机器人能理解"我饿了"等抽象需求,适用于家庭服务、医疗护理等场景[6] - 双过程架构为具身智能领域提供新范式,其开源特性(项目主页已公布)可能加速行业技术迭代[33][35]
SoundHound vs. Twilio: Which Voice-Tech Stock Deserves Your Investment?
ZACKS· 2025-07-21 22:36
公司概况 - SoundHound AI是专注于语音AI技术的创新企业 提供语音识别和语音助手解决方案 而Twilio是通信平台巨头 为企业提供语音 短信等多渠道通信服务 [1] - 两家公司均利用生成式AI提升语音交互能力 SoundHound应用于汽车和餐厅场景 Twilio则聚焦客户互动工具 [2] 财务表现 - SoundHound 2025年Q1收入达2910万美元 同比增长151% 但非GAAP净亏损2230万美元 毛利率GAAP/非GAAP分别为36.5%和51% [4][6][7] - Twilio 2025年Q1收入11.7亿美元 同比增长12% 非GAAP每股收益1.14美元 自由现金流1.75亿美元 营业利润率提升300个基点至18.2% [8][7] 业务发展 - SoundHound在汽车 消费设备和餐厅领域取得突破 其Polaris AI模型响应速度比同行快4倍 餐厅语音订单季度处理量达1000万次 客户集中度低(单客户收入占比<10%) [4] - Twilio拥有30万活跃客户账户 新推出Conversation Relay工具包和Voice Intelligence功能 医疗客户Cedar预计2025年底将30%来电转为AI处理 [9] 增长预期 - SoundHound预计2025年收入1.57-1.77亿美元(较2023年4600万美元增长3倍以上) 2025年底有望实现调整后EBITDA盈亏平衡 [5][7] - Twilio上调2025年有机收入增长预期至7.5%-8.5% 但2025-2026年每股收益预期下调至4.49/5.07美元 [8][19] 市场表现与估值 - SoundHound股价近三月上涨57.4% 远期市销率27.17倍 Twilio同期涨幅56.2% 市销率仅4倍 [11][13] - SoundHound三年市销率区间2.92-94.4倍 显示高波动性 Twilio估值压缩但存在潜在上行空间 [13][14] 竞争格局 - SoundHound面临亚马逊 谷歌等科技巨头的竞争 需在多语言准确性和定制化方面保持优势 [6] - Twilio核心通信API业务趋于成熟 Segment客户数据部门Q1仅增长1% 需平衡增长与盈利 [10]
多模态大模型存在「内心预警」,无需训练,就能识别越狱攻击
机器之心· 2025-07-21 16:43
多模态大模型的安全挑战与解决方案 - 视觉语言大模型(LVLMs)如GPT-4V、LLaVA等在图文问答和视觉推理任务中表现突出,但相比纯文本模型更易被“越狱”,攻击者可通过图像注入危险意图[2] - 现有防御方法如跨模态安全微调、系统提示词设计等存在训练成本高、泛化能力差和误判风险[3] HiddenDetect技术原理 - 研究发现LVLMs即使被越狱生成不当内容,其隐藏状态中仍保留拒绝信号,中间层比输出层更早感知风险[5] - 通过构造“拒绝语义向量”(RV)并计算各层隐藏状态与RV的余弦相似度,量化模型拒绝强度,形成拒绝强度向量F[9] - 实验显示F在不安全输入中呈现中间层峰值特征,且最后一层拒绝倾向高于倒数第二层[9] 多模态安全响应差异 - 文本和图像输入激活不同安全通路,文本拒绝响应更早更强,视觉模态会延迟并削弱拒绝信号[17][19] - 关键层定位方法通过拒绝差异向量(FDV)识别对安全最敏感的中间层,其FDV显著高于末层[20] 实验结果与性能 - 在LLaVA、Qwen-VL、CogVLM等模型测试中,HiddenDetect在文本攻击(如FigTxt)和跨模态攻击(如FigImg)检测上表现最优,AUC最高达0.997[24] - 相比Perplexity、GPT-4V等基线方法,HiddenDetect在XSTest边界样本上保持高鲁棒性,误判率更低[23][24] 技术应用与未来方向 - 方法无需训练,结构轻量,可直接部署于现有LVLMs,聚焦风险提示但暂不调控模型行为[28] - 未来将探索模态信息与安全性的关联,推动多模态模型向更可控方向发展[28]
机器人需求驱动导航新SOTA,成功率提升15%!浙大&vivo联手打造
量子位· 2025-07-21 12:23
研究背景与动机 - 移动机器人逐渐应用于家庭、医院、仓库等场景,需具备理解人类需求的能力而非仅执行指令[5] - 传统导航方法依赖大量数据训练,难以应对陌生环境或模糊指令[6] - 研究团队受人类"双过程理论"启发,提出结合直觉式决策与深度推理的导航框架[6][7] CogDDN框架设计 - 首个模拟人类认知机制的需求驱动导航系统,基于视觉语言模型(VLM)构建[8] - 双过程决策模块:启发式过程(系统1)快速响应,分析过程(系统2)深度优化策略[8][9] - 3D感知模块采用UniMODE单目检测技术,无需多视角或深度传感器[15] - 需求匹配模块通过有监督微调(SFT)提升LLM的物体推荐精准度[16] 技术实现细节 - 启发式过程包含Explore(环境扫描)和Exploit(目标达成)模块,利用思维链(CoT)优化路径[19] - 分析过程通过VLM预训练知识进行障碍反思,积累经验至知识库实现持续学习[23][24] - 闭环实验中知识库支持经验迁移,启发式过程微调后决策效率提升15%[12] 性能验证结果 - 在AI2-THOR模拟器的400个场景测试中,CogDDN导航成功率(NSR)达38.3%,较基线DDN提升15%[27] - 与采用深度输入的InstructNav相比,在未见场景中NSR指标相当(34.5% vs 30.0%)[28] - 消融实验显示移除Exploit模块导致NSR下降10.3个百分点,去除CoT后SPL降低5.6点[29][30] - 反思机制使系统训练500轮后SPL显著提升,验证持续学习有效性[31][32] 应用价值 - 系统可无缝集成至现有机器人平台,在动态环境中实现灵活决策[34] - 双过程协同机制为智能机器人技术发展奠定基础,尤其在需求驱动导航领域[35]
一文尽览!近一年自动驾驶VLA优秀工作汇总~
自动驾驶之心· 2025-07-15 20:30
自动驾驶VLA技术进展 - 端到端自动驾驶成为主流范式,视觉-语言-动作(VLA)方法在学术界和工业界快速落地[2] - 理想、文远知行、小米、小鹏等主机厂正在大力尝试VLA技术的量产应用[2] - 2025年学术界和工业界涌现大量优秀工作,重点关注VLA落地可行性、扩散模型轨迹可靠性等问题[2] NavigScene技术突破 - 小鹏汽车提出NavigScene,解决局部传感器数据与全局导航信息的关键差距[2] - 开发三种互补方法:导航引导推理、导航引导偏好优化、导航引导VLA模型[2] - 实验显示显著提升感知、预测、规划和问答任务性能,实现超视距推理能力[2][6] - 在NuInstruct基准测试中,Qwen2.5-7B模型表现最佳,多项指标提升明显[5] AutoVLA创新框架 - UCLA提出AutoVLA,统一推理和动作生成的自回归模型[7] - 采用SFT+GRPO两阶段训练,在NAVSIM取得92.12 PDMS指标[9] - 在nuPlan、nuScenes等多个基准测试中展现竞争优势[8] - 实现自适应推理能力,可根据场景复杂度调整思维模式[12] ReCogDrive三阶段训练 - 华科与小米合作提出三阶段训练框架[13] - 收集2.3M高质量QA数据,通过预训练+模仿学习+强化学习流程[14] - 在NAVSIM基准达到89.6 PDMS,创下新SOTA记录[16] - 比之前最佳方法提升5.6 PDMS[16] 数据集与基准建设 - 清华AIR与博世发布Impromptu VLA数据集,包含80K+精选视频片段[17] - 理想汽车推出DriveAction基准,包含16,185个QA对,覆盖2610个驾驶场景[31] - 实验显示视觉和语言输入缺失会导致动作预测准确率下降3.3%-8.0%[31] - 基准建设被认为是行业未来重点发展方向[50] 技术趋势与挑战 - 思维链、空间理解成为标配技术,但车端必要性存疑[50] - 时序处理研究不足,与实际车端需求存在差距[50] - 轨迹输出形式分文本自回归和扩散模型两大路线[50] - 行业缺乏大规模自动驾驶预训练基座模型[50] - NAVSIM指标已逼近人类专家水平,验证技术可行性[50]
中国AI六小虎「智谱」,传同时准备A股、香港上市,A股IPO的概率可能高些
搜狐财经· 2025-07-12 15:26
IPO计划 - 北京智谱华章科技股份有限公司考虑将IPO地点由内地改为香港 可能募资约3亿美元(约23.4亿港元) [1] - 公司正同时准备港股和A股上市准备工作 且A股上市概率较高 [1] - 相关事宜仍在考虑中 尚未作出最终决定 包括规模在内的细节可能会发生变化 [1] 业务与技术 - 公司致力于打造新一代认知智能大模型 专注于做大模型的中国创新 [2] - 合作研发了中英双语千亿级超大规模预训练模型GLM-130B 并推出对话模型ChatGLM 开源单卡版模型ChatGLM-6B [2] - 打造了AIGC模型及产品矩阵 包括智谱清言 CodeGeeX CogVLM和CogView等 [2] - 推出大模型MaaS开放平台 践行Model as a Service市场理念 [2] 融资与投资者 - 投资者包括美团 蚂蚁 阿里 腾讯 小米 红杉 高瓴等多家知名机构和企业 [3] - 其他投资者包括中关村科学城 杭州城投 浦东创投集团 张江集团 达晨财智等 [3] - 国际投资者包括三星 沙特阿美旗下Prosperity7基金等 [3]
杭州开出首家机器人4S店
每日商报· 2025-07-11 06:49
公司动态 - 杭州具微科技有限公司在杭州市钱塘区开设具身智能4S店 面积约300平方米 主打产品为轮式四足机器人"MOVENEW T1" [1] - "MOVENEW T1"机器狗重60斤 负载能力达100斤 远超行业平均水平 适应全地形运动 [2] - 产品搭载NeuroFuse灵枢多模态感知系统与CogniDecide智策决策引擎 实现厘米级环境建图 毫秒级路径规划和高精度避障越障 [2] - 消费者可定制机器狗 提供36种颜色和多种外壳材质选择 支持"机器狗+上装模块"组合模式 实现移动行李箱 移动电源等功能 [2] - 未来计划搭建登山 露营等场景模拟区 结合VR技术展示产品性能 [2] 行业趋势 - 钱塘具身智能产业入选杭州市第一批未来产业先导区培育名单 已集聚超百家人工智能企业和100余个创新园区 [3] - 行业已涌现安防球形机器人 智能巡检机器人 水下机器人 工业机器人等标志性产品 [3] - 形成涵盖先进制程芯片 机器人 智能感知 AI算法等领域的全产业链布局 [3] - 钱塘区6月启动具身智能未来产业先导区建设 推动创新链 产业链 资金链 人才链融合 [3]