非显而易见杯

专利无效挑战赛

目标专利:333使用多模匹配方案的对象辨识

专利公开号:CN104246796B

专利权人:高通股份有限公司

无效请求书提交日期:2026年


上一项目 下一项目

非显而易见性评估仅供参考,不构成法律建议。



权利要求列表点击可跳转

序号 权利要求内容

1

一种由装置辨识场景中的对象的方法,所述方法包括:从在场景处记录的音频计算多个声学辨识特征;以及将所述声学辨识特征与对应于一或多个对象的预定声学辨识特征进行比较以确定对象的声音源类型; 基于所述声音源类型选择所述对象中的稳定关键点;以及基于选定关键点和所述声音源类型识别所述对象。

2

根据权利要求1所述的方法,其进一步包括:基于在所述场景处记录的音频选择对应于一或多个对象的一或多个关键点标志; 识别所述场景的图像中的多个关键点;以及将所述关键点与所述关键点标志进行比较以识别所述对象。

3

根据权利要求1所述的方法,其进一步包括:基于在所述场景处记录的所述音频选择场景图像的一部分;以及仅从所述图像的所述部分内选择所述关键点。

4

根据权利要求3所述的方法,其中基于在所述场景处记录的所述音频选择所述图像的一部分包含:从所述音频确定音频到达方向DOA;以及基于所述音频DOA选择所述图像的所述部分。

5

根据权利要求4所述的方法,其中确定所述音频DOA包含:在位于所述场景处的多个麦克风处接收所述音频,借此产生多个麦克风信号;以及基于所述麦克风信号确定所述音频DOA。

6

根据权利要求1所述的方法,其进一步包括:从所述场景的视频记录计算多个局部运动向量;以及通过将所述局部运动向量与对应于一或多个对象的预定局部运动向量数据库进行比较且通过将所述关键点与一或多个关键点标志进行比较来识别所述对象。

7

根据权利要求1所述的方法,其中基于将所述关键点与一或多个关键点标志进行比较来识别所述对象。

8

根据权利要求7所述的方法,其中所述声学辨识特征包含梅尔频率倒谱系数。

9

根据权利要求1所述的方法,其进一步包括:确定出现在图像中的一或多个对象的范围信息;以及基于所述范围信息分析所述关键点。

10

根据权利要求9所述的方法,其中确定范围信息是选自由以下各项组成的群组:使用自动聚焦相机确定范围信息,使用多相机图像视差估计确定范围信息,和前述各项的任一组合。

11

一种辨识场景中的对象的设备,其包括:音频处理器,其经配置以从在场景处记录的音频计算多个声学辨识特征; 关键点选择器,其经配置以基于声音源类型选择对象中的稳定关键点;以及匹配装置,其经配置以基于选定关键点且将所述声学辨识特征与对应于一或多个对象的预定声学辨识特征数据库进行比较以确定所述对象的所述声音源类型来识别所述对象。

12

根据权利要求11所述的设备,其进一步包括:关键点检测器,其经配置以识别场景的图像中的多个关键点; 其中所述关键点选择器经配置以基于在所述场景处记录的音频选择对应于一或多个对象的一或多个关键点标志;以及其中所述匹配装置经配置以将所述关键点与所述关键点标志进行比较以识别所述场景中的对象。

13

根据权利要求11所述的设备,其进一步包括:第一选择器,其经配置以基于在所述场景处记录的所述音频选择所述场景的图像的一部分;以及第二选择器,其经配置以仅从所述图像的所述部分内选择所述关键点。

14

根据权利要求13所述的设备,其中所述第一选择器包含:检测器,其经配置以从所述音频确定音频到达方向DOA;以及第三选择器,其经配置以基于所述音频DOA选择所述图像的所述部分。

15

根据权利要求14所述的设备,其中所述检测器包含:位于所述场景处的用于接收所述音频的多个麦克风,其产生多个麦克风信号;以及音频处理器,其经配置以基于所述麦克风信号确定所述音频DOA。

16

根据权利要求11所述的设备,其进一步包括:视频处理器,其经配置以从所述场景的视频记录计算多个局部运动向量; 其中所述匹配装置经配置以通过将所述局部运动向量与对应于一或多个对象的预定局部运动向量数据库进行比较且通过将所述关键点与一或多个关键点标志进行比较来识别所述对象。

17

根据权利要求11所述的设备,其中所述匹配装置经配置以通过将所述关键点与一或多个关键点标志进行比较来识别所述对象。

18

根据权利要求17所述的设备,其中所述声学辨识特征包含梅尔频率倒谱系数。

19

根据权利要求11所述的设备,其进一步包括:范围检测器,其经配置以确定出现在图像中的一或多个对象的范围信息;以及关键点检测器,其经配置以基于所述范围信息分析所述关键点。

20

根据权利要求19所述的设备,其中所述范围检测器包含选自由以下各项组成的群组的检测器:自动聚焦相机,多相机阵列,和前述各项的任一组合。

21

一种辨识场景中的对象的设备,其包括:用于从在场景处记录的音频计算多个声学辨识特征的装置;以及用于将所述声学辨识特征与对应于一或多个对象的预定声学辨识特征进行比较以确定对象的声音源类型的装置; 用于基于所述声音源类型选择所述对象中的稳定关键点的装置;以及用于基于选定关键点和所述声音源类型识别所述对象的装置。

22

根据权利要求21所述的设备,其进一步包括:用于基于在所述场景处记录的音频选择对应于一或多个对象的一或多个关键点标志的装置; 用于识别所述场景的图像中的多个关键点的装置;以及用于将所述关键点与所述关键点标志进行比较以识别所述场景中的所述对象的装置。

23

根据权利要求21所述的设备,其进一步包括:用于基于在所述场景处记录的所述音频选择所述场景的图像的一部分的装置;以及用于仅从所述图像的所述部分内选择所述关键点的装置。

24

根据权利要求23所述的设备,其中所述用于基于在所述场景处记录的所述音频选择所述图像的一部分的装置包含:用于从所述音频确定音频到达方向DOA的装置;以及用于基于所述音频DOA选择所述图像的所述部分的装置。

25

根据权利要求24所述的设备,其中用于确定所述音频DOA的装置包含:用于在位于所述场景处的多个麦克风处接收所述音频借此产生多个麦克风信号的装置;以及用于基于所述麦克风信号确定所述音频DOA的装置。

26

根据权利要求21所述的设备,其进一步包括:用于从所述场景的视频记录计算多个局部运动向量的装置;以及用于通过将所述局部运动向量与对应于一或多个对象的预定局部运动向量数据库进行比较且通过将所述关键点与一或多个关键点标志进行比较来识别所述对象的装置。

27

根据权利要求21所述的设备,用于将所述关键点与一或多个关键点标志进行比较的装置。

28

根据权利要求27所述的设备,其中所述声学辨识特征包含梅尔频率倒谱系数。

29

根据权利要求21所述的设备,其进一步包括:用于确定出现在图像中的一或多个对象的范围信息的装置;以及用于基于所述范围信息分析所述关键点的装置。

30

根据权利要求29所述的设备,其中用于确定范围信息的装置是选自由以下各项组成的群组:用于使用自动聚焦相机确定范围信息的装置,用于使用多相机图像视差估计确定范围信息的装置,和前述各项的任一组合。

31

一种体现可由一或多个处理器执行的指令集的计算机可读媒体,其包括:用于从在场景处记录的音频计算多个声学辨识特征的代码;以及用于将所述声学辨识特征与对应于一或多个对象的预定声学辨识特征进行比较以确定对象的声音源类型的代码; 用于基于所述声音源类型选择所述对象中的稳定关键点的代码;以及用于基于选定关键点和所述声音源类型识别所述对象的代码。

32

根据权利要求31所述的计算机可读媒体,其进一步包括:用于基于在所述场景处记录的音频选择对应于一或多个对象的一或多个关键点标志的代码; 用于识别所述场景的图像中的多个关键点的代码;以及用于将所述关键点与所述关键点标志进行比较以识别所述场景中的所述对象的代码。

33

根据权利要求31所述的计算机可读媒体,其进一步包括:用于基于在所述场景处记录的所述音频选择图像的一部分的代码;以及用于仅从所述图像的所述部分内选择所述关键点的代码。

34

根据权利要求33所述的计算机可读媒体,其中所述用于基于在所述场景处记录的所述音频选择所述图像的一部分的代码包含:用于从所述音频确定音频到达方向DOA的代码;以及用于基于所述音频DOA选择所述图像的所述部分的代码。

35

根据权利要求34所述的计算机可读媒体,其中用于确定所述音频DOA的代码包含:用于在位于所述场景处的多个麦克风处接收所述音频借此产生多个麦克风信号的代码;以及用于基于所述麦克风信号确定所述音频DOA的代码。

36

根据权利要求31所述的计算机可读媒体,其进一步包括:用于从所述场景的视频记录计算多个局部运动向量的代码;以及用于通过将所述局部运动向量与对应于一或多个对象的预定局部运动向量数据库进行比较且通过将所述关键点与一或多个关键点标志进行比较来识别所述对象的代码。

37

根据权利要求31所述的计算机可读媒体,其进一步包括:用于将所述关键点与一或多个关键点标志进行比较的代码。

38

根据权利要求37所述的计算机可读媒体,其中所述声学辨识特征包含梅尔频率倒谱系数。

39

根据权利要求31所述的计算机可读媒体,其进一步包括:用于确定出现在图像中的一或多个对象的范围信息的代码;以及用于基于所述范围信息分析所述关键点的代码。

40

根据权利要求39所述的计算机可读媒体,其中用于确定范围信息的代码是选自由以下各项组成的群组:用于使用自动聚焦相机确定范围信息的代码,用于使用多相机图像视差估计确定范围信息的代码,和前述各项的任一组合。


对比文件列表

编号 名称
0 1994-12-31_CA2125337A_发明专利_CA2125337A1 METHOD AND SYSTEM FOR SEARCHING COMPRESSED DATA.docx
0 2001-12-04_JP3234104B_发明专利_JP3234104B2 How to search the compressed data and system.docx
0 2003-06-05_US2003103647A_发明申请_US20030103647A1 Automatic detection and tracking of multiple individuals using multiple cues_+++H_J_K_L_M_N_f_i+++.docx
0 2004-05-18_US6738745B_发明授权_US06738745B1 Methods and apparatus for identifying a non-target language in a speech recognition system_+++a_b+++.docx
0 2004-06-24_US2004120554A_发明申请_US20040120554A1 System and method for real time lip synchronization_+++Q_a+++.docx
0 2005-04-28_JP2005117621A_发明专利_JP2005117621A Image distribution system_+++R_T_f_g_n_p_s+++.docx
0 2006-04-05_EP1643769A_发明公开_EP1643769A1 Apparatus and method performing audio-video sensor fusion for object localization, tracking and separation_+++a_b_d_e_f_g_h_i_j_k_l_m_p+++.docx
0 2009-12-17_JP2009296143A_发明专利_JP2009296143A Imaging device_+++H_J_K_L_M_a_f_i+++.docx
0 2009-12-23_EP1643769B_发明授权_EP1643769B1 Apparatus and method performing audio-video sensor fusion for object localization, tracking and separation_+++J_L_M_a_f_h_k+++.docx
0 2010-06-16_CN101742114A_发明公开_CN101742114A 通过手势识别来决定拍摄操作的方法及装置.docx
0 2010-07-01_JP2010148132A_发明专利_JP2010148132A Imaging device, image detector and program_+++A_B_F_G_H_I_J_K_L_M_P_e+++.docx
0 2011-03-31_US2011075851A_发明申请_US20110075851A1 AUTOMATIC LABELING AND CONTROL OF AUDIO ALGORITHMS BY AUDIO RECOGNITION_+++A_B_Q+++.docx
0 2011-04-07_US2011081082A_发明申请_US20110081082A1 VIDEO CONCEPT CLASSIFICATION USING AUDIO-VISUAL ATOMS_+++A_F_N_Q_b_d_g_o_p+++.docx
0 2011-07-14_JP2011137563A_发明专利_JP2011137563A Heat exchanger for intercooler.docx
0 2011-12-08_US2011300929A_发明申请_US20110300929A1 SYNTHESIS OF INFORMATION FROM MULTIPLE AUDIOVISUAL SOURCES_+++F_J_L_M_R_T_a_b_g_h_k_p+++.docx

权利要求1

一种由装置辨识场景中的对象的方法,所述方法包括:从在场景处记录的音频计算多个声学辨识特征;以及将所述声学辨识特征与对应于一或多个对象的预定声学辨识特征进行比较以确定对象的声音源类型; 基于所述声音源类型选择所述对象中的稳定关键点;以及基于选定关键点和所述声音源类型识别所述对象。


权利要求2

根据权利要求1所述的方法,其进一步包括:基于在所述场景处记录的音频选择对应于一或多个对象的一或多个关键点标志; 识别所述场景的图像中的多个关键点;以及将所述关键点与所述关键点标志进行比较以识别所述对象。


权利要求3

根据权利要求1所述的方法,其进一步包括:基于在所述场景处记录的所述音频选择场景图像的一部分;以及仅从所述图像的所述部分内选择所述关键点。


权利要求4

根据权利要求3所述的方法,其中基于在所述场景处记录的所述音频选择所述图像的一部分包含:从所述音频确定音频到达方向DOA;以及基于所述音频DOA选择所述图像的所述部分。


权利要求5

根据权利要求4所述的方法,其中确定所述音频DOA包含:在位于所述场景处的多个麦克风处接收所述音频,借此产生多个麦克风信号;以及基于所述麦克风信号确定所述音频DOA。


权利要求6

根据权利要求1所述的方法,其进一步包括:从所述场景的视频记录计算多个局部运动向量;以及通过将所述局部运动向量与对应于一或多个对象的预定局部运动向量数据库进行比较且通过将所述关键点与一或多个关键点标志进行比较来识别所述对象。


权利要求7

根据权利要求1所述的方法,其中基于将所述关键点与一或多个关键点标志进行比较来识别所述对象。


权利要求8

根据权利要求7所述的方法,其中所述声学辨识特征包含梅尔频率倒谱系数。


权利要求9

根据权利要求1所述的方法,其进一步包括:确定出现在图像中的一或多个对象的范围信息;以及基于所述范围信息分析所述关键点。


权利要求10

根据权利要求9所述的方法,其中确定范围信息是选自由以下各项组成的群组:使用自动聚焦相机确定范围信息,使用多相机图像视差估计确定范围信息,和前述各项的任一组合。


权利要求11

一种辨识场景中的对象的设备,其包括:音频处理器,其经配置以从在场景处记录的音频计算多个声学辨识特征; 关键点选择器,其经配置以基于声音源类型选择对象中的稳定关键点;以及匹配装置,其经配置以基于选定关键点且将所述声学辨识特征与对应于一或多个对象的预定声学辨识特征数据库进行比较以确定所述对象的所述声音源类型来识别所述对象。


权利要求12

根据权利要求11所述的设备,其进一步包括:关键点检测器,其经配置以识别场景的图像中的多个关键点; 其中所述关键点选择器经配置以基于在所述场景处记录的音频选择对应于一或多个对象的一或多个关键点标志;以及其中所述匹配装置经配置以将所述关键点与所述关键点标志进行比较以识别所述场景中的对象。


权利要求13

根据权利要求11所述的设备,其进一步包括:第一选择器,其经配置以基于在所述场景处记录的所述音频选择所述场景的图像的一部分;以及第二选择器,其经配置以仅从所述图像的所述部分内选择所述关键点。


权利要求14

根据权利要求13所述的设备,其中所述第一选择器包含:检测器,其经配置以从所述音频确定音频到达方向DOA;以及第三选择器,其经配置以基于所述音频DOA选择所述图像的所述部分。


权利要求15

根据权利要求14所述的设备,其中所述检测器包含:位于所述场景处的用于接收所述音频的多个麦克风,其产生多个麦克风信号;以及音频处理器,其经配置以基于所述麦克风信号确定所述音频DOA。


权利要求16

根据权利要求11所述的设备,其进一步包括:视频处理器,其经配置以从所述场景的视频记录计算多个局部运动向量; 其中所述匹配装置经配置以通过将所述局部运动向量与对应于一或多个对象的预定局部运动向量数据库进行比较且通过将所述关键点与一或多个关键点标志进行比较来识别所述对象。


权利要求17

根据权利要求11所述的设备,其中所述匹配装置经配置以通过将所述关键点与一或多个关键点标志进行比较来识别所述对象。


权利要求18

根据权利要求17所述的设备,其中所述声学辨识特征包含梅尔频率倒谱系数。


权利要求19

根据权利要求11所述的设备,其进一步包括:范围检测器,其经配置以确定出现在图像中的一或多个对象的范围信息;以及关键点检测器,其经配置以基于所述范围信息分析所述关键点。


权利要求20

根据权利要求19所述的设备,其中所述范围检测器包含选自由以下各项组成的群组的检测器:自动聚焦相机,多相机阵列,和前述各项的任一组合。


权利要求21

一种辨识场景中的对象的设备,其包括:用于从在场景处记录的音频计算多个声学辨识特征的装置;以及用于将所述声学辨识特征与对应于一或多个对象的预定声学辨识特征进行比较以确定对象的声音源类型的装置; 用于基于所述声音源类型选择所述对象中的稳定关键点的装置;以及用于基于选定关键点和所述声音源类型识别所述对象的装置。


权利要求22

根据权利要求21所述的设备,其进一步包括:用于基于在所述场景处记录的音频选择对应于一或多个对象的一或多个关键点标志的装置; 用于识别所述场景的图像中的多个关键点的装置;以及用于将所述关键点与所述关键点标志进行比较以识别所述场景中的所述对象的装置。


权利要求23

根据权利要求21所述的设备,其进一步包括:用于基于在所述场景处记录的所述音频选择所述场景的图像的一部分的装置;以及用于仅从所述图像的所述部分内选择所述关键点的装置。


权利要求24

根据权利要求23所述的设备,其中所述用于基于在所述场景处记录的所述音频选择所述图像的一部分的装置包含:用于从所述音频确定音频到达方向DOA的装置;以及用于基于所述音频DOA选择所述图像的所述部分的装置。


权利要求25

根据权利要求24所述的设备,其中用于确定所述音频DOA的装置包含:用于在位于所述场景处的多个麦克风处接收所述音频借此产生多个麦克风信号的装置;以及用于基于所述麦克风信号确定所述音频DOA的装置。


权利要求26

根据权利要求21所述的设备,其进一步包括:用于从所述场景的视频记录计算多个局部运动向量的装置;以及用于通过将所述局部运动向量与对应于一或多个对象的预定局部运动向量数据库进行比较且通过将所述关键点与一或多个关键点标志进行比较来识别所述对象的装置。


权利要求27

根据权利要求21所述的设备,用于将所述关键点与一或多个关键点标志进行比较的装置。


权利要求28

根据权利要求27所述的设备,其中所述声学辨识特征包含梅尔频率倒谱系数。


权利要求29

根据权利要求21所述的设备,其进一步包括:用于确定出现在图像中的一或多个对象的范围信息的装置;以及用于基于所述范围信息分析所述关键点的装置。


权利要求30

根据权利要求29所述的设备,其中用于确定范围信息的装置是选自由以下各项组成的群组:用于使用自动聚焦相机确定范围信息的装置,用于使用多相机图像视差估计确定范围信息的装置,和前述各项的任一组合。


权利要求31

一种体现可由一或多个处理器执行的指令集的计算机可读媒体,其包括:用于从在场景处记录的音频计算多个声学辨识特征的代码;以及用于将所述声学辨识特征与对应于一或多个对象的预定声学辨识特征进行比较以确定对象的声音源类型的代码; 用于基于所述声音源类型选择所述对象中的稳定关键点的代码;以及用于基于选定关键点和所述声音源类型识别所述对象的代码。


权利要求32

根据权利要求31所述的计算机可读媒体,其进一步包括:用于基于在所述场景处记录的音频选择对应于一或多个对象的一或多个关键点标志的代码; 用于识别所述场景的图像中的多个关键点的代码;以及用于将所述关键点与所述关键点标志进行比较以识别所述场景中的所述对象的代码。


权利要求33

根据权利要求31所述的计算机可读媒体,其进一步包括:用于基于在所述场景处记录的所述音频选择图像的一部分的代码;以及用于仅从所述图像的所述部分内选择所述关键点的代码。


权利要求34

根据权利要求33所述的计算机可读媒体,其中所述用于基于在所述场景处记录的所述音频选择所述图像的一部分的代码包含:用于从所述音频确定音频到达方向DOA的代码;以及用于基于所述音频DOA选择所述图像的所述部分的代码。


权利要求35

根据权利要求34所述的计算机可读媒体,其中用于确定所述音频DOA的代码包含:用于在位于所述场景处的多个麦克风处接收所述音频借此产生多个麦克风信号的代码;以及用于基于所述麦克风信号确定所述音频DOA的代码。


权利要求36

根据权利要求31所述的计算机可读媒体,其进一步包括:用于从所述场景的视频记录计算多个局部运动向量的代码;以及用于通过将所述局部运动向量与对应于一或多个对象的预定局部运动向量数据库进行比较且通过将所述关键点与一或多个关键点标志进行比较来识别所述对象的代码。


权利要求37

根据权利要求31所述的计算机可读媒体,其进一步包括:用于将所述关键点与一或多个关键点标志进行比较的代码。


权利要求38

根据权利要求37所述的计算机可读媒体,其中所述声学辨识特征包含梅尔频率倒谱系数。


权利要求39

根据权利要求31所述的计算机可读媒体,其进一步包括:用于确定出现在图像中的一或多个对象的范围信息的代码;以及用于基于所述范围信息分析所述关键点的代码。


权利要求40

根据权利要求39所述的计算机可读媒体,其中用于确定范围信息的代码是选自由以下各项组成的群组:用于使用自动聚焦相机确定范围信息的代码,用于使用多相机图像视差估计确定范围信息的代码,和前述各项的任一组合。


Powered by Django

网站备案号:渝ICP备2023012882号


重庆市非显而易见网络科技有限责任公司 A Anti NPE NPE