对比文件名称:2004-05-18_US6738745B_发明授权_US06738745B1 Methods and apparatus for identifying a non-target language in a speech recognition system
目标专利名称:使用多模匹配方案的对象辨识 CN104246796B
本次调用模型名称:专利创造性评估模型
### 特征比对表格
| 技术特征描述及公开性判断结果 | 对比文件原文引用 | 公开性论述 | ||
| 技术特征A《隐含公开》<br>所述方法包括:从在场景处记录的音频计算多个声学辨识特征 | 说明书第3栏第45-48行:“In one illustrative implementation, the probabilistic engine score provided by the speech recognition system is combined with the background model scores to normalize the engine score as well as to account for the potential presence of a non-target language.” <br>说明书第4栏第34-37行:“The background models are created or trained based on speech data in several languages...” <br>说明书第6栏第19-23行:“The exemplary background model score calculation process 300 calculates a phonotactic-acoustic score for each background model.” <br>说明书第6栏第38-42行:“...S<sub>N-BG</sub>(i)=log Π<sub>t=1</sub><sup>T</sup> P(v<sub>t</sub>\ | a<sub>t</sub>,i)· P(a<sub>t</sub>\ | a<sub>t-1</sub>, ..., a<sub>t-k</sub>,i)...” (其中v<sub>t</sub>代表声学证据) | 对比文件公开了一种语音识别系统,其中为识别非目标语言,需要计算背景模型分数。背景模型的训练基于多种语言的语音数据(说明书第4栏第34-37行),并且在计算背景模型分数时,明确涉及了声学证据v<sub>t</sub>(说明书第6栏第38-42行)。这表明对比文件公开了从音频(语音信号)中计算基于声学的特征(分数)的步骤。虽然对比文件中的“声学辨识特征”是用于语言识别,而目标专利中是用于对象(如乐器)识别,但“从音频计算特征”这一技术手段本身已被对比文件公开。本领域技术人员可以毫无困难地从对比文件的内容中推理出“从音频计算声学辨识特征”这一技术特征,因此该技术特征被**隐含公开**。 |
| 技术特征B《隐含公开》<br>将所述声学辨识特征与对应于一或多个对象的预定声学辨识特征进行比较以确定对象的声音源类型 | 说明书第3栏第45-48行:“...the probabilistic engine score provided by the speech recognition system is combined with the background model scores...” <br>说明书第4栏第27-33行:“In the presence of non-target language utterances, the transcription system 110 is not able to find a good match based on its native vocabulary, language models and acoustic models. Thus, the resulting recognized text will have associated lower engine score values.” <br>说明书第4栏第34-40行:“The background models are created or trained based on speech data in several languages... The features used for training may range from amplitude and fundamental frequency measurements (prosodic models) to higher phonetic features, such as phone-level statistics (phonotactic models)...” <br>说明书第7栏第1-5行:“Equation (3) leads to a positive or negative left side of the equation, resulting in acceptance or rejection of the utterance, respectively.” (接受或拒绝对应目标语言或非目标语言的判断) | 对比文件公开了将输入语音的声学证据(即计算出的特征)与预先训练好的背景模型(可视为“预定声学辨识特征”)进行比较,以获得背景模型分数(说明书第6栏第38-42行)。通过结合引擎分数和背景模型分数,系统最终做出接受(目标语言)或拒绝(非目标语言)的判断(说明书第7栏第1-5行)。这实质上是一个“比较-确定类型”的过程:将输入特征与预定模型比较,以确定其所属类别(目标语言或非目标语言)。目标专利中是将声学特征与预定特征比较以确定对象类型(如乐器类型)。虽然比较的目的(语言 vs 对象)和具体特征内容不同,但“将计算出的声学特征与预定特征进行比较以确定一个类别”这一技术手段已被对比文件公开。本领域技术人员可以合理推断出该技术特征,因此该技术特征被**隐含公开**。 | ||
| 技术特征C《未公开》<br>基于所述声音源类型选择所述对象中的稳定关键点 | 对比文件全文未涉及任何与“关键点”、“图像”、“视觉”、“对象”或“稳定关键点选择”相关的内容。 | 对比文件仅涉及语音信号的处理和语言识别,完全不涉及任何基于图像或视频的对象识别、关键点检测或选择技术。目标专利中“基于声音源类型选择稳定关键点”是一个结合了音频类型信息和视觉关键点处理的跨模态技术特征。对比文件没有任何内容能够直接或间接地公开、教导或暗示这一特征。因此,该技术特征**未被公开**。 | ||
| 技术特征D《未公开》<br>基于选定关键点和所述声音源类型识别所述对象。 | 对比文件全文未涉及任何与“关键点”、“对象识别”或结合关键点与声音源类型进行识别的内容。 | 该技术特征涉及利用视觉信息(选定关键点)和音频信息(声音源类型)进行对象识别的核心发明点。对比文件仅处理音频信号以进行语言分类,完全不涉及视觉信息处理或对象识别。因此,该技术特征**未被公开**。 | ||
| 技术特征E《未公开》<br>其进一步包括:基于在所述场景处记录的音频选择对应于一或多个对象的一或多个关键点标志 | 对比文件全文未涉及任何与“关键点标志”、“对象”、“基于音频选择视觉标志”或“多模匹配”相关的内容。 | “关键点标志”是目标专利中用于视觉匹配的模板。基于音频来选择这些视觉标志,是音频信息引导视觉搜索的重要步骤。对比文件完全没有提及任何视觉元素或基于音频信息来指导视觉处理过程。因此,该技术特征**未被公开**。 | ||
| 技术特征F《未公开》<br>识别所述场景的图像中的多个关键点 | 对比文件全文未涉及任何与“图像”、“场景”、“关键点检测”或“视觉特征提取”相关的内容。 | 识别图像中的关键点是纯粹的计算机视觉技术。对比文件仅涉及语音识别,其处理对象是音频信号流,而非图像。因此,该技术特征**未被公开**。 | ||
| 技术特征G《未公开》<br>将所述关键点与所述关键点标志进行比较以识别所述对象。 | 对比文件全文未涉及任何“关键点”、“关键点标志”或通过比较关键点进行对象识别的内容。 | 通过比较图像关键点与标志数据库来进行对象识别是典型的视觉对象识别方法(如SIFT)。对比文件完全不涉及此类技术。因此,该技术特征**未被公开**。 | ||
| 技术特征H《未公开》<br>基于在所述场景处记录的所述音频选择场景图像的一部分 | 对比文件全文未涉及任何“图像”、“场景图像”、“关注区(ROI)”或基于音频选择图像区域的内容。 | 该技术特征体现了利用音频信息(如声源位置)来聚焦视觉分析区域的多模态思想。对比文件仅处理音频,不涉及图像,更不用说基于音频信息来裁剪或选择图像区域。因此,该技术特征**未被公开**。 | ||
| 技术特征I《未公开》<br>仅从所述图像的所述部分内选择所述关键点。 | 对比文件全文未涉及任何“图像”、“图像部分”、“关键点选择”或限制关键点搜索空间的内容。 | 该技术特征是特征H的后续步骤,同样依赖于图像处理和基于区域的选择。对比文件未公开任何相关基础。因此,该技术特征**未被公开**。 | ||
| 技术特征J《未公开》<br>其中基于在所述场景处记录的所述音频选择所述图像的一部分包含:从所述音频确定音频到达方向DOA | 对比文件全文未涉及“到达方向(DOA)”、“麦克风阵列”、“声源定位”或利用DOA信息的内容。 | 确定音频DOA是利用麦克风阵列进行声源定位的特定技术。对比文件虽然涉及语音处理,但并未提及使用多个麦克风进行DOA估计,也未提及利用空间信息。其背景模型是基于语音内容而非声源方向。因此,该技术特征**未被公开**。 | ||
| 技术特征K《未公开》<br>基于所述音频DOA选择所述图像的所述部分。 | 对比文件全文未涉及“DOA”或基于DOA选择图像区域的内容。 | 该技术特征是特征J的具体应用。由于对比文件未公开DOA确定,自然也未曾公开基于DOA进行图像区域选择。因此,该技术特征**未被公开**。 | ||
| 技术特征L《未公开》<br>其中确定所述音频DOA包含:在位于所述场景处的多个麦克风处接收所述音频,借此产生多个麦克风信号 | 对比文件全文未明确描述使用“多个麦克风”或“麦克风阵列”来接收音频信号。其系统可能隐含有麦克风,但未强调多麦克风配置及其对DOA估计的作用。 | 目标专利中明确使用麦克风阵列来获取用于DOA估计的多通道信号。对比文件未提及或强调多麦克风配置,其处理单元是“语音信号”或“音频流”,并未揭示通过多个麦克风信号进行空间信息处理的技术手段。因此,该技术特征**未被公开**。 | ||
| 技术特征M《未公开》<br>基于所述麦克风信号确定所述音频DOA。 | 对比文件全文未涉及基于多个麦克风信号确定DOA的内容。 | 该技术特征是特征L的延续。对比文件未公开多麦克风信号处理以确定DOA。因此,该技术特征**未被公开**。 | ||
| 技术特征N《未公开》<br>其进一步包括:从所述场景的视频记录计算多个局部运动向量 | 对比文件全文未涉及“视频记录”、“局部运动向量(LMV)”或任何与运动分析相关的内容。 | 计算视频中的局部运动向量是动态场景分析技术。对比文件仅处理静态的音频信号,完全不涉及视频或运动分析。因此,该技术特征**未被公开**。 | ||
| 技术特征O《未公开》<br>通过将所述局部运动向量与对应于一或多个对象的预定局部运动向量数据库进行比较且通过将所述关键点与一或多个关键点标志进行比较来识别所述对象。 | 对比文件全文未涉及“局部运动向量”、“运动向量数据库”、“关键点”、“关键点标志”或多模态(运动+关键点)比较识别对象的内容。 | 该技术特征是结合运动信息和关键点信息的复杂多模识别方法。对比文件未公开任何构成该特征的子特征。因此,该技术特征**未被公开**。 | ||
| 技术特征P《未公开》<br>其中基于将所述关键点与一或多个关键点标志进行比较来识别所述对象。 | 对比文件全文未涉及“关键点”、“关键点标志”或通过关键点比较识别对象的内容。 | 同特征G,这是纯粹的视觉对象识别步骤。对比文件未公开。因此,该技术特征**未被公开**。 | ||
| 技术特征Q《未公开》<br>其中所述声学辨识特征包含梅尔频率倒谱系数。 | 对比文件全文未具体提及“梅尔频率倒谱系数(MFCC)”。其背景模型可能使用各种声学特征,但未明确公开MFCC。说明书第4栏第38-40行提到了“phone-level statistics (phonotactic models)”,但这不是MFCC。 | 目标专利明确限定了声学辨识特征包含MFCC。对比文件虽然使用了声学特征,但并未具体公开MFCC这一特定类型的特征。本领域技术人员不能从对比文件中毫无疑义地得出或必然推理出使用MFCC。因此,该技术特征**未被公开**。 | ||
| 技术特征R《未公开》<br>其进一步包括:确定出现在图像中的一或多个对象的范围信息 | 对比文件全文未涉及“图像”、“对象”、“范围信息”或“深度信息”。 | 确定图像中对象的范围(深度)是计算机视觉中的特定问题。对比文件完全不涉及图像处理,因此不可能公开确定对象范围信息。因此,该技术特征**未被公开**。 | ||
| 技术特征S《未公开》<br>基于所述范围信息分析所述关键点。 | 对比文件全文未涉及“范围信息”、“关键点”或基于深度分析关键点的内容。 | 该技术特征是特征R的后续应用,涉及利用深度信息优化关键点分析。由于对比文件未公开范围信息和关键点,该特征自然未被公开。因此,该技术特征**未被公开**。 | ||
| 技术特征T《未公开》<br>其中确定范围信息是选自由以下各项组成的群组:使用自动聚焦相机确定范围信息,使用多相机图像视差估计确定范围信息,和前述各项的任一组合。 | 对比文件全文未涉及“自动聚焦相机”、“多相机”、“视差估计”或任何具体的深度感知技术。 | 该技术特征具体限定了获取范围信息的几种技术手段,均属于图像/相机技术领域。对比文件是纯粹的音频处理专利,未涉及任何这些具体技术。因此,该技术特征**未被公开**。 |
<<<a>>><<<b>>>