对比文件名称:2008-07-17_US2008170748A_发明申请_US20080170748A1 CONTROLLING A DOCUMENT BASED ON USER BEHAVIORAL SIGNALS DETECTED FROM A 3D CAPTURED IMAGE STREAM
目标专利名称:375基于手持式装置中的眼睛俘获的增强现实处理CN103262097B
本次调用的模型名称:深度分析模型
## 特征比对表格
| 技术特征描述及公开性判断结果 | 对比文件原文引用 | 公开性论述 |
| **技术特征A:** 其包含:使用装置的第一相机俘获第一图像,所述第一相机相对于所述装置的用户指向外<br>**《未公开》** | [0029] 3D object detector 104 captures images within a focus area... [0030] ...the three-dimensional movement is determined by using at least one image capture device aimed at the user. (段落 [0029]-[0030]) | **论述:** 该特征未被公开。目标专利中“第一相机相对于所述装置的用户指向外”指相机朝向用户观看的场景(如说明书[0004], [0023]所述,俘获“从用户向外的图像序列”)。对比文件中,图像捕获设备(202, 204)的目的是捕获用户的行为和运动(如[0029]所述“captures images within a focus area”,[0030]所述“aimed at the user”),其指向是朝向用户本身,而非从用户指向外的场景。两者作用不同:目标专利的第一相机用于获取待增强的现实世界场景;对比文件的相机用于监控用户行为以识别控制文档的信号。因此,本领域技术人员无法从对比文件得出“相机相对于用户指向外以俘获场景”的技术方案。 |
| **技术特征B:** 使用所述装置的第二相机俘获第二图像,其中所述第二图像包含所述用户的眼睛<br>**《未公开》** | [0029] ...detecting eye movement... [0047] ...3D object detector 104 may detect, from the captured video images... behaviors made with less motion, such as facial expressions... (段落 [0029], [0047]) | **论述:** 该特征未被公开。虽然对比文件提及可以检测“eye movement”(眼睛运动)或“facial expressions”(面部表情),但这仅是可检测行为类型的列举。对比文件未描述使用一个专门的、经定向的第二相机来俘获包含用户眼睛的独立图像。其图像捕获设备(202, 204)是用于捕获用户三维运动以进行行为分析的整体系统的一部分(见[0028], [0042]),并未区分出专门用于俘获眼睛图像的第二相机。目标专利中第二相机的作用是专门、定向地俘获用户眼睛的图像以用于生成概率图(见说明书[0004], [0023]),这与对比文件中仅将眼睛运动作为众多可分析行为之一的作用有本质区别。 |
| **技术特征C:** 基于所述第一图像中的一个或一个以上对象而产生第一概率图<br>**《未公开》** | [0031] Behavior interpreter 106 maps the streamed 3D object properties 110 into one or more behaviors for each detected user and estimates, for each predicted behavior of a detected user, the probability that the actual behavior ... is correctly predicted... [0046] Behavior interpreter controller 404 maps 3D object properties to one or more behavior definitions with a percentage probability... (段落 [0031], [0046]) | **论述:** 该特征未被公开。对比文件中的“行为解释器(behavior interpreter)”确实基于3D对象属性流预测行为类型并计算百分比概率(percentage probability),这可被视为一种“概率”输出。然而,该概率图是基于捕获用户行为的图像(即可检测行为运动102)产生的,其作用是预测用户行为的类型及该行为作为文档控制信号的概率(见[0031], [0080])。而目标专利的“第一概率图”是基于“第一图像”(即向外俘获的场景图像)中的一个或一个以上对象产生的,其作用是界定场景图像中哪些区域更可能包含感兴趣的对象(见说明书[0035], [0048], 图4A)。两者基于的图像不同(用户行为 vs. 外部场景),作用也不同(行为类型预测 vs. 对象存在可能性评估)。因此,对比文件未公开基于向外场景图像中的对象产生概率图的技术特征。 |
| **技术特征D:** 基于所述第二图像中的所述用户的所述眼睛而产生第二概率图<br>**《未公开》** | 无直接对应内容。对比文件未描述基于用户眼睛图像产生概率图。 | **论述:** 该特征未被公开。对比文件完全没有涉及基于“用户眼睛的图像”来产生任何形式的概率图。如特征B所述,眼睛运动仅是可能被检测的行为之一,但对比文件未教导或暗示根据眼睛图像生成一个用于指示用户兴趣区域概率的图。目标专利中“第二概率图”的核心作用是基于眼睛图像来指示第一图像(场景)中哪些区域具有更高的用户兴趣概率(见说明书[0035], [0049])。该技术构思在对比文件中完全没有体现。 |
| **技术特征E:** 基于所述第一和第二概率图而产生组合概率图<br>**《未公开》** | 无直接对应内容。对比文件未涉及组合两个不同来源的概率图。 | **论述:** 该特征未被公开。由于对比文件既未公开基于场景对象的第一概率图(特征C),也未公开基于眼睛的第二概率图(特征D),因此根本不存在将这两个概率图进行组合的基础。目标专利中组合概率图的作用是综合对象存在可能性和用户兴趣可能性,以更精准地指导AR处理优先级(见说明书[0035], [0050]-[0052])。对比文件的技术方案不涉及这种双重概率信息的组合。 |
| **技术特征F:** 至少部分基于所述组合概率图而产生与所述第一图像中的所述一个或一个以上对象相关联的增强现实AR信息<br>**《未公开》** | [0007] ...selecting whether control a document, including adding an element to a document or performing a function on the document, is triggered based on the identified type of behavior. [0070] ...document control system selects at least one document element to represent the at least one particular defined behavior and inserts the selected document element into the document. (段落 [0007], [0070]) | **论述:** 该特征未被公开。对比文件描述了基于预测的行为类型来控制文档,例如插入文档元素或执行功能(见[0007], [0070])。然而,这不同于“产生增强现实(AR)信息”。AR信息特指覆盖在实时视频或图像上的、用于增强用户对现实世界感知的图形、文本等信息(见目标专利[0002])。对比文件控制的“文档”是独立的计算机文件(如文字处理文件、电子邮件、网页,见[0027]),并非与实时捕获的图像一起显示的覆盖信息。此外,该文档控制是基于单一的行为概率预测,而非基于如目标专利所述的“组合概率图”。因此,对比文件未公开基于组合概率图产生AR信息的技术特征。 |
| **技术特征G:** 其中基于所述组合概率图而产生所述AR信息包含基于所述组合优先级图而区分所述第一图像中的不同对象的优先级。<br>**《未公开》** | 无直接对应内容。对比文件未涉及对图像中的不同对象进行优先级区分。 | **论述:** 该特征未被公开。对比文件的行为预测结果用于触发对文档的特定操作(如插入元素或执行功能),但并未教导根据某种概率图对图像(无论是用户行为图像还是场景图像)中的多个对象进行排序或区分处理优先级。目标专利中该特征的核心在于利用组合概率图来决定对场景图像中哪些对象优先执行AR处理(例如对象识别),以优化处理资源(见说明书[0032], [0048])。该技术构思在对比文件中没有体现。 |
| **技术特征H:** 其中所述概率图包含多个瓦片,且至少部分基于所述第二图像中的所述用户的所述眼睛而给予所述概率图的一个或一个以上瓦片比其它瓦片高的优先级。<br>**《未公开》** | 无直接对应内容。对比文件未提及将图像或概率图划分为“瓦片(tiles)”。 | **论述:** 该特征未被公开。对比文件在描述3D对象属性、行为预测或文档控制时,均未使用“瓦片”或类似概念来划分图像区域并分配优先级。目标专利中采用瓦片化概率图(见说明书[0024]-[0025],图3C-3D, 4A-4B)是一种具体的技术手段,用于将图像区域离散化,以便基于眼睛信息为不同区域分配不同的兴趣概率值。该具体手段未被对比文件公开。 |
| **技术特征I:** 其中所述第一概率图界定所述第一图像中的具有比所述第一图像中的其它区域高的包含感兴趣的对象的概率的一个或一个以上区域;并且中所述第二概率图界定基于所述用户眼睛相对于所述第一图像中的其它区域具有更高的用户兴趣的概率的一个或一个以上区域。<br>**《未公开》** | 无直接对应内容。对比文件未区分两种具有不同界定目标的概率图。 | **论述:** 该特征未被公开。该特征明确了第一、第二概率图各自的具体作用和界定内容。如前述对特征C和D的分析,对比文件既没有公开基于场景对象识别来界定“包含感兴趣对象的概率”区域的第一概率图,也没有公开基于眼睛图像来界定“用户兴趣概率”区域的第二概率图。因此,该详细限定的技术特征未被对比文件公开。 |
| **技术特征J:** 其进一步包括产生所述第一或第二图像中的至少一者的镜像版本,使得所述第一和第二图像从共同角度对准,其中所述第一和第二概率图中的至少一者是基于所述镜像版本而产生。<br>**《未公开》** | 无直接对应内容。对比文件未提及对图像进行镜像处理以实现角度对准。 | **论述:** 该特征未被公开。目标专利中,由于第一相机(向外)和第二相机(向用户)通常指向相反方向,因此可能需要对其中一个图像进行镜像处理,以便将从用户眼睛方向推断的兴趣区域与向外场景的图像进行对准(见说明书[0028], [0037])。对比文件的图像捕获设备(如202和204)都是为了从不同角度捕获用户行为以构建3D信息(见[0042]),不存在一个相机指向外、一个相机指向用户的相对定向设置,因此也不存在需要镜像对准以建立共同视角的问题。该技术特征未被公开。 |
| **技术特征K:** 其中使所述第一和第二图像时间同步。<br>**《隐含公开》** | [0026] In the example, a behavior processing system 100 includes a three-dimensional (3D) object detector 104. 3D object detector 104 represents multiple systems for capturing images and other data about moving and stationary objects... [0028] First video sequence的图像可与第二 video sequence的图像时间同步,从而意味着第一相机12可与由第二相机14俘获的图像同时俘获连续图像。 (注:此段为目标专利描述,用于说明“时间同步”的含义。对比文件中,[0042]描述“image capture device 202 and image capture device 204 capture a video stream of the movement...” ,隐含了多个设备同时捕获。) [0042] As a person moves hand 210 within 3D focus area 220, each of image capture device 202 and image capture device 204 capture a video stream of the movement of hand 210 within capture plane 206 and capture plane 208. (段落 [0042]) | **论述:** 该特征被隐含公开。对比文件描述了使用多个图像捕获设备(如图像捕获设备202和204)从不同平面(capture plane 206和208)捕获同一焦点区域(3D focus area 220)内手部运动(hand 210)的视频流(video stream)(见[0042])。为了从这些不同角度的视频流中生成连贯的3D对象属性,本领域技术人员能够理解,这些设备捕获的图像帧在时间上需要是同步或至少是时间关联的,否则无法准确重建3D运动。虽然对比文件未明确使用“时间同步(time synchronize)”一词,但为了实现其3D检测的目的,多个相机同时或按已知时间关系进行捕获是隐含的必要条件。这与目标专利中为了使眼睛注视信息与对外场景信息对应而进行时间同步的作用(确保信息对应性)在原理上相似,尽管应用场景不同(3D重建 vs. AR信息关联)。根据宽松的隐含公开判断标准,可以认为对比文件隐含公开了使多个图像时间同步的技术手段。 |
| **技术特征L:** 其进一步包括针对第一图像序列和第二图像序列的每个图像来重复所述方法,其中所述第一图像序列与所述第二图像序列时间同步。<br>**《隐含公开》** | [0124] Block 1202 depicts an object detector system receiving multiple image streams, via image capture devices, and sensed data, via one or more sensors. ... Block 1206 depicts the object detector system processing each image stream... (段落 [0124], 流程图步骤 1202, 1206) | **论述:** 该特征被隐含公开。对比文件描述了持续接收并处理来自多个图像捕获设备的图像流(multiple image streams)(见[0124])。流程图12的步骤1202和1206表明,该系统对每个图像流进行处理以检测和跟踪对象。这种对持续输入的图像流进行重复处理的过程,隐含了方法被针对图像序列的每个图像(或每帧)重复执行。结合特征K关于时间同步的隐含公开,本领域技术人员可以合理推断,为了持续进行行为监测和预测,系统会对时间同步的多个图像序列的每个图像(帧)重复执行捕获、处理和预测的方法。因此,该特征被对比文件隐含公开。 |
| **技术特征M:** 其进一步包括针对第一图像序列中的每第N图像以及第二图像序列中的每第N图像来重复所述方法,其中所述第一图像序列与所述第二图像序列时间同步,且其中N表示大于或等于2的整数。<br>**《未公开》** | 无直接对应内容。对比文件未提及跳过某些图像(每第N图像)进行处理以节省资源。 | **论述:** 该特征未被公开。目标专利该特征明确限定了为节省处理能力或电力,仅处理图像序列中的一部分图像(每第N帧)(见说明书[0039])。对比文件虽然处理图像流,但并未描述或暗示任何跳帧处理的策略。其关注点在于从图像流中尽可能准确地检测行为和生成3D属性,没有给出为了资源优化而选择性处理帧的技术启示。因此,该特征未被公开。 |
| **技术特征N:** 其中通过包含所述第一相机、所述第二相机和显示器的手持式装置来执行所述方法。<br>**《未公开》** | [0040] Further, in the present embodiment, image capture device 202 and image capture device 204 may be affixed to an apparatus that is carried by or worn by a person. For example, image capture device 202 and image capture device 204 may be affixed to a pair of glasses or other headwear for a person... (段落 [0040]) | **论述:** 该特征未被公开。对比文件提到图像捕获设备可以附着在由人佩戴或携带的装置上,例如眼镜或其他头戴设备(见[0040])。但这不等同于“手持式装置”。目标专利明确限定为“手持式装置”(如蜂窝电话、智能手机,见说明书[0003], [0022]),并强调其有限的处理能力和电池电力问题。对比文件描述的系统更倾向于一个可能由多个组件(服务器、处理器等)组成的、用于行为识别和文档控制的系统,其图像捕获设备可以是头戴式或环境安装式,并未明确限定或暗示整个系统集成在一个手持式装置内并包含显示器。因此,该特征未被公开。 |
| **技术特征O:** 其中实时地执行所述方法。<br>**《隐含公开》** | [0002] ...to provide a complete textual transcript of both the spoken words and behaviors of speakers and others during an event. [0125] Block 1112 depicts transmitting each predicted type of behavior ... in a predicted behavior record to at least one behavior-enabled document control system... (段落 [0002], [0125]) | **论述:** 该特征被隐含公开。对比文件的发明目的包括在事件(event)期间提供完整的文字记录(见[0002]),这意味着行为检测、预测和文档控制需要在事件进行过程中发生,即具有实时性。流程图11的步骤1112描述了将预测的行为记录传输给文档控制系统,这暗示了处理是连续且及时进行的,以便能够基于当前行为控制文档。虽然“实时”一词可能未被明确使用,但根据对比文件整体教导的应用场景(如会议记录、现场转录),本领域技术人员能够合理推断该系统被设计为实时或近实时地执行方法,以响应用户的当前行为。因此,该特征被隐含公开。 |
| **技术特征P:** 其进一步包括:使用所述第一相机俘获第一图像序列,使用所述第二相机俘获第二图像序列,其中所述第二图像序列包含所述用户的所述眼睛<br>**《未公开》** | [0124] Block 1202 depicts an object detector system receiving multiple image streams, via image capture devices... (段落 [0124]) | **论述:** 该特征未被公开。对比文件确实涉及接收多个图像流(multiple image streams)(见[0124])。然而,如特征A和B所述,对比文件并未区分出专门用于俘获向外场景的“第一相机”和专门用于俘获用户眼睛的“第二相机”。其多个图像流是用于从不同角度捕获用户行为以进行3D重建,而非目标专利中定义的具有不同指向和目的(场景 vs. 眼睛)的两个独立图像序列。因此,该特征未被公开。 |
| **技术特征Q:** 基于所述第二图像序列中的所述用户的所述眼睛而产生多个概率图<br>**《未公开》** | 无直接对应内容。 | **论述:** 该特征未被公开。基于特征B和D的分析,对比文件未公开基于用户眼睛图像产生概率图,因此更不可能基于眼睛图像序列产生多个概率图。该特征未被公开。 |
| **技术特征R:** 至少部分基于所述多个概率图而产生所述AR信息<br>**《未公开》** | 无直接对应内容。 | **论述:** 该特征未被公开。由于特征Q未被公开,且特征F(基于概率图产生AR信息)也未被公开,因此该特征自然未被公开。 |
| **技术特征S:** 显示所述AR信息与所述第一图像序列。<br>**《未公开》** | 无直接对应内容。对比文件涉及将文档元素插入文档或触发文档功能,但未描述将AR信息覆盖显示在实时图像序列上。 | **论述:** 该特征未被公开。对比文件的行为处理结果用于控制独立的文档(如插入文本、执行功能),并非用于在与捕获的图像序列(特别是向外场景的图像序列)一起的显示器上实时显示叠加的增强信息(AR信息)。目标专利中该显示步骤是其AR系统的核心输出环节(见说明书[0005], [0021])。该特征未被公开。 |
| **技术特征T:** 其进一步包括通过以优先级区分的次序处理AR信息而基于所述不同对象的优先级区分来执行对所述不同对象的对象识别。<br>**《未公开》** | 无直接对应内容。 | **论述:** 该特征未被公开。该特征是对特征G的进一步细化,明确了按优先级次序处理的具体内容是“对象识别”。对比文件完全不涉及对场景图像中的对象进行识别,更不涉及按优先级次序进行对象识别。其处理核心是识别用户行为本身。因此,该特征未被公开。 |
| **技术特征U:** 其进一步包括显示所述增强现实AR信息与所述第一图像。<br>**《未公开》** | 无直接对应内容。 | **论述:** 该特征未被公开。该特征与特征S实质相同,均是显示AR信息与(第一)图像。如特征S所述,对比文件未公开此技术特征。 |
<<<k>>><<<l>>><<<o>>>