Workflow
语音交互
icon
搜索文档
这些股遭机构大幅净卖出
证券时报· 2025-06-20 21:56
市场表现 - 市场全天震荡调整,全市场成交额1 09万亿元,较上一个交易日缩量近1900亿元 [1] - 收盘上涨个股超1500只,其中收盘股价涨停的有53只 [1] - 沪指本周累计跌0 51%,深证成指累计跌1 16%,创业板指累计跌1 66% [2] 个股表现 - 本周超1200股上涨,20股涨幅超30% [3] - 涨幅最大的是山东墨龙,本周累计上涨61 38% [3] - 海科新源、联建光电、捷强装备本周累计涨幅均超50% [3] - 电力设备和电子行业均有4股涨幅超30%,国防军工行业有3股上榜 [3] 机构龙虎榜 - 本周机构专用席位共现身105股的龙虎榜,净买入46股,净卖出59股 [5] - 35股获机构净买入超千万元,悦康药业、利民股份等共6股获机构净买入金额超1亿元 [5] - 悦康药业本周上涨19 34%,机构合计净买入2 27亿元 [5] - 影石创新本周累计上涨0 12%,机构合计净卖出1 91亿元 [6] - 中曼石油、长城军工、永安药业等遭机构大幅净卖出 [7] 公司公告 - 汤姆猫在AI语音交互、情感陪伴领域具备核心优势,已实现与宇树科技机器狗产品的语音控制功能协同 [9] - *ST锦港收到上海证券交易所终止上市决定,股票进入退市整理期的起始日为2025年6月30日 [10] - 新疆浩源更名为"万憬能源",证券代码保持不变 [10] - 宁波华翔预计2025年上半年净利润亏损2 73亿元至3 69亿元,主要受欧洲业务剥离一次性影响8 98亿元 [10] - 诺德股份推出双面镀镍铜箔适配半固态/固态电池技术,但相关收入占比不足1% [11] - 长城军工股票价格4个交易日累计涨幅达37 06%,公司表示生产经营活动正常 [11]
美团提出首个语音交互GUI智能体,端到端语音训练能力优于传统文本训练
量子位· 2025-06-19 14:25
GUIRoboTron-Speech团队 投稿 量子位 | 公众号 QbitAI 只需要动动嘴就可以驱动GUI代理? 由美团和浙江大学联合推出的 GUIRoboTron-Speech ——让用户解放双手,直接对计算机"发号施令"。 从文本到语音,智能代理的下一次进化 当前,以大型语言模型(LLMs)为核心的自主GUI智能体,已能通过文本指令自动执行跨应用、多步骤的复杂任务,极大地提升了用户的工 作效率。但这种对文本的依赖,限制了其在更广泛场景下的应用。 试想一个常见的家庭场景:在对家中的公用电脑发出指令"打开我的浏览器"时,一个仅能理解文本的智能体将不知所措——它无法分辨指令发 出者是家庭中的哪一位成员,自然不知道什么是"我的"浏览器。 然而,一个能够直接处理语音的智能体,则可以通过分析独特的声纹特征,准确识别指令发出者的身份,并打开该成员的个性化Google浏览 器界面。 这正是语音模态所蕴含的独特价值——它不仅传递了指令内容,更包含了身份、情绪等丰富的非言语线索,而这些对于实现真正个性化和智能 化的交互至关重要。 传统的解决方案,如采用"语音识别(ASR)模型转录+文本GUI代理"的级联方式,不仅会增加系 ...
专利界 “奥斯卡” 揭榜,科大讯飞这一专利为什么能获奖?
搜狐网· 2025-06-06 10:45
行业动态 - 中国AI语音语义市场2024年上半年规模达72.3亿元人民币,同比增长18%,显示行业持续高速增长[1] - 语音交互技术已成为智能设备关键入口,正在深刻改变人类生活和生产方式[1] - 回声消除技术是语音交互系统的核心模块,直接影响通信质量和用户体验[1] 公司表现 - 科大讯飞在2024年上半年中国AI语音语义市场保持领先地位,市场份额第一[1] - 公司"基于时延估计的回声消除方法及装置"专利获第二十五届中国专利金奖[1] - 科大讯飞累计7次获得中国专利奖,包括2次金奖(安徽省唯一)、1次银奖、1次外观设计优秀奖和4次专利优秀奖[7] 技术突破 - 专利技术包含三大创新:异常频点检测技术、动态时延估计技术和实时回声消除技术[5] - 技术通过计算声音时延差实现精准回声消除,提升语音交互流畅度和自然度[5] - 解决方案可应对设备振动、采样率变化、网络延迟等多变场景下的技术挑战[4] 应用场景 - 智能家居领域提升语音指令识别率[6] - 车载场景改善狭小空间内的语音通信清晰度和安全性[6] - 医疗设备如助听器提高语音识别可靠性[6] - 工业自动化环境增强语音控制准确性,屏蔽设备噪声干扰[6] 行业影响 - 技术具备通用性,推动智能硬件发展和通信质量提升[5] - 促进音频处理技术及相关产业创新升级[5] - 专利金奖代表中国专利领域最高荣誉,由国知局和世界知识产权组织共同评定[6]
App适老化评测:容易陷入“伪适老”“低能化”误区
新京报· 2025-06-01 10:17
5月28日,新京智库发布了第二次App适老化评测报告。相比于2024年首次测评时的"首次集中曝光", 本次评估不仅对此前问题进行回访性追踪,也系统记录了过去一年中各类主流App在适老化改造上的进 展与退步。 一年来,部分App确实在适老细节上做出了积极响应。比如App从无"长辈模式"到有长辈模式,有的从 原来的小程序模式变成独立的长辈模式,页面明显更加友好。语音识别也成为越来越多的App采用的输 入模式,并且部分App支持手动修正内容。 但与此同时,适老化问题依然存在一些典型性的问题。新京智库的测评结果显示,在具有长辈模式的46 款主流App中,比如"语音识别无反馈""广告混入主界面""功能过度删减"等问题,有的App虽然在首页 进行了适老化调整,却未贯通至搜索、下单、支付等高频流程节点,甚至在二级页面又恢复成普通模式 的页面呈现,没有进行彻底的适老化改造。 西安交通大学管理学院副院长刘汕教授亦对新京智库表示,App适老化不是在既有系统上"做减法",而 是要在理解老年用户使用行为的基础上重新设计交互结构。当前众多平台在适老化过程中采取统一模板 此外,新京智库的测评还发现,适老化在用户分层策略上的缺失仍是普遍现 ...
江苏方天公司AI语音交互重塑作业模式
江南时报· 2025-05-22 07:13
智能化电力服务升级 - 国网靖江供电公司通过AI语音交互技术将传统电力作业流程效率提升200%,实现"动口不动手"的智能化操作[1] - 江苏方天公司2020年推出营销2.0移动作业APP后,于2024年11月研发营销移动智能助手,实现伴随式作业模式[1] - 智能助手打破传统作业模式局限,支持信息查询、业务办理、问题反馈等快速完成,大幅节省人力与时间成本[1] 智能助手功能创新 - 研发团队针对传统应用终端多、操作复杂等问题,以大模型与语音识别引擎为基础开发一线移动作业智能助手[2] - 智能助手通过语音交互实现电力知识问答、线索查询、用户欠费查询、作业路径规划等功能[2] - 系统每日使用人数超900,知识类、指标类、辅助类问答每日达1000多次,推动服务向深度数字化转变[2] 未来技术发展方向 - 公司将重点研发多模态交互技术,支持设备故障"扫一扫识别"和无网络环境下的离线语音响应[3] - 计划将应用场景扩大至配电运维、应急抢修等领域,持续优化智能助手功能[3] - 目标是通过技术创新全面提升现场作业效率,为行业数字化转型注入动力[3]
Z Product|被Meta收购后再创业,Sesame突破语音“恐怖谷”,a16z押注,“让AI听懂人心,让沟通回归自然”
Z Potentials· 2025-05-05 11:41
人机交互革命 - 语音交互被视为下一代人机交互范式的突破口 其根植于人类文明基因 但当前技术仍局限于简单指令 缺乏真人对话般的流畅性 [2] - 人工智能与硬件结合推动语音交互突破 Sesame公司旨在通过可穿戴设备实现自然交互 解决理解不准确、场景受限等痛点 [3][5] Sesame技术突破 - 开发Conversational Speech Model(CSM)实现情感智能与上下文感知 10亿参数模型基于Llama架构 使用超100万小时音频训练 [7] - 开源CSM模型变体 采用Apache 2.0许可 支持商业用途 模型托管于huggingface平台供开发者测试 [5][7] - 数字伴侣Demo展示卓越语音临场感 能模拟呼吸、轻笑等人类特征 但缺乏长期记忆能力 [14][15] 市场反馈 - 用户评价显示AI语音助手的拟人化程度引发震撼 部分用户产生情感依赖 如儿童将AI视为朋友 [16] - 声音设计通过刻意不完美增强真实感 但部分用户仍感到"恐怖谷"效应 认为对话方式过于逼真 [17] 团队背景 - 核心团队来自Oculus、Meta等公司 CEO Brendan Iribe曾领导Oculus以20亿美元被Facebook收购 [21] - CTO Ankit Kumar有AR/计算机视觉创业经历 工程负责人Ryan Brown具备硬件架构专长 [23][25] 融资进展 - 完成两轮融资 种子轮1012万美元 A轮4750万美元由Andreessen Horowitz领投 投资者包含Oculus早期支持者 [27] - 资金将用于扩展多语言支持、增强情商能力 并开发大型多模态模型 [28] 产品规划 - 布局轻量化智能眼镜研发 使数字伴侣能感知用户所见世界 目前设备处于研究阶段 [6] - 计划通过开源社区改进模型 探索预训练语言模型在语音文本多模态领域的应用 [28]
喝点VC|a16z合伙人:语音交互将成为AI应用公司最强大的突破口之一,巨头们在B2C市场已落后太多
Z Potentials· 2025-04-01 11:49
图片来源:a16z Z Highlights : Steph Smith 是 a16z 播客的主持人,本次访谈为 a16z 合伙人 Anish Acharya 和 Olivia Moore 分享他们在 AI 语音领域的投资经验与行业洞察。 Why Now:AI 语音 产品的历史与突破 Steph Smit h: 对我来说,当我想到AI语音,或者至少是语音产品时,我会想到Alexa,想到Siri。实际上,我个人把Siri关掉了,我想很多人也这么做了。那 么,跟我讲讲为什么会这样呢?为什么这些产品没有带来人们一直期待的AI语音魔力呢? Olivia Moore: 这真的很有意思,因为我觉得 在大语言模型的世界里,语音是与AI交互最神奇、最吸引人的方式之一。 但可以说,我们拥有这些AI语音产 品已经有一段时间了,它们却有点令人失望,说实话,并不那么引人入胜。我认为有几个原因,一方面,这些语音本身听起来像机器人发出的;另一方 面,我觉得最关键的其实是语音背后的东西,也就是其运作的引擎。以Siri或Alexa为例,它们可能只是与苹果生态系统或亚马逊生态系统中的一组基本集 成功能相连接。所以,它可能只是提取产品信息或回答 ...
宝马牵手阿里巴巴!
券商中国· 2025-03-26 12:26
宝马与阿里巴巴深化战略合作 - 宝马集团与阿里巴巴集团基于阿里通义AI大模型联合开发AI引擎 将应用于中国市场的宝马新世代系列车型 [1] - 合作聚焦AI大模型、智能语音交互等前沿技术领域 全新BMW智能个人助理采用共同开发的AI引擎 计划2026年在中国市场交付 [2] - AI引擎支持的智能座舱及智能出行交互场景将于2023年4月上海车展首次亮相 [3] 合作细节与技术应用 - 宝马专门设立德国以外唯一的Skylab人机交互研究中心 研究中国用户需求与偏好 [4] - 全新BMW智能个人助理融入AI Agent 实现自然交流、场景感知、服务组织与认知进化 提升精准意图捕捉、复杂指令解析等体验 [4] - 阿里巴巴CEO表示此次合作是AI与先进制造业融合的创新探索 旨在深化AI垂直领域应用 [4] 双方合作历史与行业影响 - 阿里巴巴与宝马自2015年起在数字化领域长期合作 覆盖电商、云计算、智能网联、车载导航、智能座舱、语音交互、AI大模型等领域 [4] - 除宝马外 小鹏、极氪、零跑、智己等汽车品牌智能座舱已接入阿里通义系列模型 [5] 阿里巴巴AI领域投入 - 阿里云营收增速提升 AI相关产品收入连续六个月实现三位数同比增长 [6] - 阿里云在全球顶尖高校招募AI技术人才 覆盖大语言模型、多模态理解与生成等领域 设置A Star和Al Clouder项目吸引顶尖人才 [6] - 阿里巴巴未来将专注三大业务类型 包括国内外电商业务、AI+云计算科技业务、互联网平台产品 [7]
2行代码与DeepSeek语音对话,1分钟不到一毛钱,所有大模型都能开口说话
量子位· 2025-03-07 15:12
核心观点 - 声网推出超低延迟实时对话式AI引擎,支持DeepSeek等大模型接入,仅需两行代码即可实现高质量语音交互[2][3] - 该引擎每分钟成本仅0.098元,单次对话平均成本3分钱,月成本不足5毛钱,年成本5元,价格极具竞争力[3][5] - 技术突破包括响应延迟中位数650毫秒,打断响应低至340ms,支持嘈杂环境和弱网条件下的稳定交互[7][8][9][10] - 开发者可在15分钟内完成AI语音交互功能部署,支持全球主流大模型和语音合成供应商的灵活切换[11][13][14] - 声网定位为"AI语音交互中间件",开创"语音交互即服务"新模式,推动生成式AI行业变革[17][19][22] 技术性能 - 关键延迟指标:对话响应延迟中位数650毫秒,远低于1.7秒的体验阈值[7][8] - 打断功能:支持自然打断,响应时间低至340ms,模拟人类对话节奏[9] - 抗干扰能力:可屏蔽95%环境噪声,在嘈杂场所保持对话质量[9] - 弱网适应:80%丢包率下仍可稳定交流,断网3-5秒不影响流畅度[10] - 全球覆盖:依托200+数据中心的SD-RTN网络实现跨区域低延迟[10] 成本优势 - 按用量付费模式:每分钟0.098元,单次赠送1000分钟[3] - 单次对话成本:平均3轮问答/21.1秒,成本3分钱[5] - 月成本:15次对话场景下不足5毛钱,年成本5元[5] - 无使用上限:支持百万级用户规模的多模态AI应用[5] 开发者体验 - 极简接入:2行核心代码即可完成大模型对接[2][11] - 快速部署:15分钟实现从零到完整AI Agent部署[11] - 模型兼容:支持全球主流大模型厂商,与OpenAI协议兼容[13] - 音色定制:可接入语音合成供应商的自定义音色[14] - 硬件适配:音视频SDK支持30000+终端机型,覆盖中低端设备[16] 行业影响 - 模式创新:开创"语音交互即服务"新业态,实现RTC与大模型技术解耦[17][18] - 生态定位:通过统一API接口成为"AI语音交互中间件"[19] - 基础设施:为多模态实时交互的Agent应用提供关键技术支撑[21] - 行业推动:加速"让所有AI都能开口说话"的生成式AI变革[22]