非显而易见法律服务网

返回项目页面

对比文件列表

2005-04-28_JP2005117621A_发明专利_JP2005117621A Image distribution system_+++R_T_f_g_n_p_s+++.docx

2026-03-24 23:35

2011-12-08_US2011300929A_发明申请_US20110300929A1 SYNTHESIS OF INFORMATION FROM MULTIPLE AUDIOVISUAL SOURCES_+++F_J_L_M_R_T_a_b_g_h_k_p+++.docx

2026-03-24 23:35

2005-04-28_JP2005117621A_发明专利_JP2005117621A Image distribution system_+++R_T_f_g_n_p_s+++.docx

对比文件名称：2005-04-28_JP2005117621A_发明专利_JP2005117621A Image distribution system

目标专利名称：333使用多模匹配方案的对象辨识CN104246796B

模型名称：专利创造性评估模型

## 特征比对表格

技术特征描述及公开性判断结果	对比文件原文引用（翻译为中文）	公开性论述
技术特征A：所述方法包括：从在场景处记录的音频计算多个声学辨识特征<br>判断结果：未公开	[2] “音声処理部１２は、音声合成部１２ａと、音声認識部１２ｂとを有する。音声認識部１２ｂは、マイクＭＣから音声データが入力され、予め記憶している音声データと文字情報との対応関係に基づき、音声データから文字情報を生成し、行動決定部１４に出力するものである。”	对比文件公开了使用麦克风记录音频并进行语音识别（将音频数据转换为文字信息）。然而，目标专利中的“声学辨识特征”（如说明书[0091]提及的MFCC）是用于表征声音源（如乐器）类型的一组特征参数，其目的在于后续与预定特征库进行比较以识别声音源类型（如乐器分类）。对比文件中的语音识别是为了理解语音指令或内容，其“声学特征”（如果有）是服务于语音到文字的转换，而非用于辨识声音源的对象类型。二者目的和作用不同。本领域技术人员无法从对比文件中毫无疑义地得出或合理推断出“计算用于对象类型辨识的声学辨识特征”这一技术特征。
技术特征B：将所述声学辨识特征与对应于一或多个对象的预定声学辨识特征进行比较以确定对象的声音源类型<br>判断结果：未公开	同上。	对比文件仅公开了语音识别，即根据预存的音频数据与文字信息的对应关系进行匹配，以识别语音内容。这不同于目标专利中将提取的声学特征（如MFCC）与预先为不同对象（如各种乐器）建立的声学特征数据库进行比较，以确定发出该声音的对象的类型（如是小号还是钢琴）。对比文件未公开任何与“对象声音源类型”相关的预定声学特征库或比较过程。因此，该特征未被直接或隐含公开。
技术特征C：基于所述声音源类型选择所述对象中的稳定关键点<br>判断结果：未公开	无相关内容。	该特征依赖于特征B所确定的“声音源类型”。由于对比文件未公开特征B，即未公开基于音频确定对象类型，因此也就不可能基于此类型来选择关键点。对比文件中虽然有关键点/特征检测（如图像处理部11的移动体抽出和面部识别），但并非基于音频信息导出的声音源类型进行选择。因此，该特征未被公开。
技术特征D：基于选定关键点和所述声音源类型识别所述对象。<br>判断结果：未公开	无相关内容。	该特征是特征C的延续和应用，同样依赖于基于音频确定的“声音源类型”。由于对比文件未公开基于音频确定对象类型并据此选择关键点，因此“基于选定关键点和声音源类型识别对象”的整体方案无法从对比文件中得出。
技术特征E：其进一步包括：基于在所述场景处记录的音频选择对应于一或多个对象的一或多个关键点标志<br>判断结果：未公开	无相关内容。	目标专利中（如说明书[0091]），基于音频选择关键点标志是指根据音频分析结果（如声音分类器输出的音频置信度值）从关键点标志数据库中选择可能匹配的标志。对比文件中完全没有涉及“关键点标志”的概念，也未描述任何基于音频信息来从数据库中选择视觉特征标志的过程。因此，该特征未被公开。
技术特征F：识别所述场景的图像中的多个关键点<br>判断结果：隐含公开 (<<<f>>>)	[2] “画像処理部１１は、ステレオ処理部１１ａ、移動体抽出部１１ｂ、及び顔認識部１１ｃを有する。... 移動体抽出部１１ｂは、... 人物があると推定し、... 移動体を抽出し、顔認識部１１ｃへ移動体の画像を出力する。顔認識部１１ｃは、抽出した移動体から肌色の部分を抽出して、その大きさ、形状などから顔の位置を認識する。”	对比文件公开了从图像中提取移动体，并从移动体中识别出人脸的位置。虽然对比文件未使用“关键点”这一术语，但其“人脸位置”的识别实质上是一种对图像中特定特征点（即人脸）的检测和定位。在计算机视觉领域，特征点、关注点、关键点常可互换使用，指代图像中具有独特性的位置。因此，本领域技术人员可以从对比文件公开的“识别面部位置”中，合理推断出该系统执行了“识别图像中的多个关键点（至少包括人脸位置这一关键点）”这一步骤。尽管目标专利的关键点可能更广泛（如SIFT关键点），但对比文件已经公开了关键点识别的基本概念。
技术特征G：将所述关键点与所述关键点标志进行比较以识别所述对象。<br>判断结果：隐含公开 (<<<g>>>)	[2] “顔認識部１１ｃは、抽出した移動体から肌色の部分を抽出して、その大きさ、形状などから顔の位置を認識する。”	对比文件公开了“面部识别部”根据大小、形状等特征来识别人脸位置。这隐含了一个比较过程：将当前图像中提取的特征（肌色区域、大小、形状）与预先知道的“人脸”特征（可视为一种“关键点标志”或“对象特征模型”）进行比较，从而识别出“人脸”这一对象。虽然对比文件未明确说明有一个存储“关键点标志”的数据库，但面部识别算法通常依赖于预训练的特征模型或模板。因此，本领域技术人员可以合理推断，为了实现面部识别，必然存在将图像特征（关键点）与预先定义的人脸特征标志进行比较的过程。这与目标专利中通过比较关键点与关键点标志来识别对象（如乐器）在技术手段上是相似的。
技术特征H：其进一步包括：基于在所述场景处记录的所述音频选择场景图像的一部分<br>判断结果：未公开	无相关内容。	目标专利中（如说明书[0089]-[0090]），基于音频选择图像部分（ROI）是通过音频到达方向（DOA）估计声源位置，从而在图像中确定关注区域。对比文件完全没有描述任何利用音频信息来划定或选择图像特定区域的过程。其图像处理（如移动体提取、面部识别）是基于整个图像或图像序列的视觉分析。因此，该特征未被公开。
技术特征I：仅从所述图像的所述部分内选择所述关键点。<br>判断结果：未公开	无相关内容。	该特征依赖于特征H（基于音频选择图像部分）。由于对比文件未公开特征H，因此“仅从该部分内选择关键点”的特征也无法得出。对比文件中的关键点（人脸）选择是基于整个图像或提取出的移动体区域，而非一个由音频信息限定的区域。
技术特征J：其中基于在所述场景处记录的所述音频选择所述图像的一部分包含：从所述音频确定音频到达方向DOA<br>判断结果：未公开	无相关内容。	对比文件虽然提到了麦克风（MC），但仅用于语音输入和识别（见特征A论述），并未描述任何利用麦克风信号进行声源到达方向（DOA）估计的技术。目标专利中详细描述了使用麦克风阵列进行DOA估计以定位声源（如说明书[0070], [0089]）。对比文件未公开此子特征。
技术特征K：基于所述音频DOA选择所述图像的所述部分。<br>判断结果：未公开	无相关内容。	该子特征依赖于特征J（确定DOA）。由于特征J未被公开，此特征也无法得出。
技术特征L：其中确定所述音频DOA包含：在位于所述场景处的多个麦克风处接收所述音频，借此产生多个麦克风信号<br>判断结果：未公开	[2] “マイクＭＣ”（麦克风MC）	对比文件仅提及“麦克风MC”，从描述看是单个麦克风用于拾音。没有公开使用“多个麦克风”或“麦克风阵列”来接收音频以产生可用于DOA估计的多个麦克风信号。目标专利明确要求使用多个麦克风（阵列）。因此，该子特征未被公开。
技术特征M：基于所述麦克风信号确定所述音频DOA。<br>判断结果：未公开	无相关内容。	该子特征依赖于特征L（多个麦克风信号）。由于特征L未被公开，且对比文件无任何DOA估计的描述，此特征也无法得出。
技术特征N：其进一步包括：从所述场景的视频记录计算多个局部运动向量<br>判断结果：隐含公开 (<<<n>>>)	[2] “移動体抽出部１１ｂは、過去の数フレーム（コマ）の画像を記憶しており、最も新しいフレーム（画像）と、過去のフレーム（画像）を比較して、パターンマッチングを行い、各画素の移動量を計算し、移動量画像を生成する。”	对比文件公开了通过比较连续视频帧（过去帧与最新帧），进行模式匹配并计算每个像素的移动量，从而生成移动量图像。计算“各画素の移動量”实质上就是计算图像中每个像素或区域在帧间的运动矢量。虽然“局部运动向量(LMV)”是一个更具体的术语，但本领域技术人员可以毫无困难地从“计算像素移动量”这一公开内容中，合理推断出该系统能够“从视频记录计算多个局部运动向量”。二者技术实质相同，都是基于帧间差异分析运动。
技术特征O：通过将所述局部运动向量与对应于一或多个对象的预定局部运动向量数据库进行比较且通过将所述关键点与一或多个关键点标志进行比较来识别所述对象。<br>判断结果：未公开	参见特征F、G、N的引用。	对比文件分别公开了计算运动向量（特征N）和将图像特征（关键点）与预定特征比较以识别对象（特征G）。然而，目标专利的特征O要求将这两种比较方式结合起来用于对象识别，即一种多模匹配策略。对比文件没有描述将运动向量信息与关键点匹配信息相结合来共同识别一个对象的过程。在对比文件中，运动向量计算（移动体提取）用于初步筛选出可能是人物的区域，而面部识别则在该区域内进行。这是一种串联处理，而非将两种模态的置信度或匹配结果进行融合比较（如目标专利的贝叶斯估计）。因此，对比文件未公开这种特定的结合比较方式。
技术特征P：其中基于将所述关键点与一或多个关键点标志进行比较来识别所述对象。<br>判断结果：隐含公开 (<<<p>>>)	同特征G引用。	此特征为特征G的一部分或一种具体实施方式。如特征G论述，对比文件通过将图像特征（面部特征）与预存的人脸特征模型（可视为关键点标志）进行比较来识别人脸对象。因此，该特征被对比文件隐含公开。
技术特征Q：其中所述声学辨识特征包含梅尔频率倒谱系数。<br>判断结果：未公开	无相关内容。	对比文件未提及任何具体的声学特征提取方法，更没有提及“梅尔频率倒谱系数(MFCC)”。该特征是目标专利中声学处理的一种具体技术手段，未被对比文件公开。
技术特征R：其进一步包括：确定出现在图像中的一或多个对象的范围信息<br>判断结果：直接公开 (<<<R>>>)	[2] “ステレオ処理部１１ａは、左右のカメラＣ，Ｃが撮影した２枚の画像の一方を基準としてパターンマッチングを行い、左右の画像中の対応する各画素の視差を計算して視差画像を生成し、生成した視差画像及び元の画像を移動体抽出部１１ｂに出力する。この視差は、ロボットＲ１から撮影された物体までの距離を表すものである。”	对比文件明确公开了使用立体相机（左右相机C, C）拍摄图像，通过计算视差来生成视差图像，并且明确指出“该视差表示从机器人R1到被拍摄物体的距离”。这直接对应于目标专利中“确定出现在图像中的一或多个对象的范围信息”。二者技术手段和作用相同：都是通过立体视觉获取深度/距离信息。
技术特征S：基于所述范围信息分析所述关键点。<br>判断结果：隐含公开 (<<<s>>>)	[2] “移動体抽出部１１ｂは、... 視差画像と、移動量画像とから、カメラＣ，Ｃから所定の距離範囲内で、移動量の多い画素がある場合に、人物があると推定し、その所定距離範囲のみの視差画像として、移動体を抽出し...”	对比文件公开了移动体提取部利用视差图像（即范围信息）和移动量图像共同工作。具体地，它仅在“从相机C，C特定距离范围内”寻找移动量大的像素，从而推定人物存在并提取移动体。这实质上是“基于范围信息分析关键点（或感兴趣区域）”。目标专利中（如说明书[0081]），范围信息用于缩窄关键点搜索的空间范围。对比文件中的做法是：利用距离范围（来自视差）来限定移动体提取（可视为一种关键点/对象分析）的区域。因此，本领域技术人员可以合理推断出“基于范围信息分析关键点”这一技术特征。
技术特征T：其中确定范围信息是选自由以下各项组成的群组：使用自动聚焦相机确定范围信息，使用多相机图像视差估计确定范围信息，和前述各项的任一组合。<br>判断结果：直接公开 (<<<T>>>)	同特征R引用。	对比文件明确且唯一地公开了“使用多相机图像视差估计确定范围信息”这一具体选项。该选项包含在目标专利特征T所定义的群组中。因此，对比文件直接公开了特征T。