场景知觉
场景知觉关注的是人如何知觉和加工复杂的真实环境信息。场景包括物体和背景两个重要的组成部分,根据复杂性与真实性程度,场景刺激材料可以分为三种不同的类型。已有研究主要从自上而下和自下而上两种方式来解释场景知觉中信息的提取和加工,也有研究试图从二者交互的角度来进行解释。
一直以来,研究者对于场景(scene )缺乏一个准确而统一的操作定义。Henderson 和 Hollingworth (1999)在其综述中将场景定义为由空间分布合理的背景和离散的物体构成的真实环境(real-world environment )的连贯图像。场景包括背景(background)和物体(objects)两个重要的组成部分。场景中的背景是指宽广的、静止的表面和结构,比如:地板、墙壁、天花板和山等都可以成为背景。场景中的物体是指比例较小的不连续物体。对于场景中背景与物体的定义是相对而言的,没有绝对的标准限定。比如,一个办公桌在办公室场景可以作为物体。但是如果视野只关注这张办公桌,那它也可以作为一个场景,这时办公桌上的订书机或电话就成为了这个场景中的物体。大部分研究一般采用正常人视野能看到的环境作为选择场景的依据。比如校园和操场就是比较好的场景,而一盒火柴和从空中俯瞰城市就不是好的场景。以上介绍的场景更多地被称作真实场景(real-world scene)
(Henderson, 2005; Henderson, 2007),而在其他的研究中,场景却有不同的含义。在视觉搜索的研究中,也把搜索目标和目标以外的背景定义为场景(Chun, 2000)。为了理解上的方便,在本文中除非特别提及一律采用场景的叫法。
场景知觉一直受到研究者的关注,在19 世纪70 年代就有研究者采用图片作为刺激材料探讨场景的知觉加工问题(Biederman, 1972)。早期的研究由于条件限制,材料多为一些简单图片或线条画(line drawing)(Friedman, 1979; Loftus & Mackworth, 1978)。这也导致了一个问题,就是场景与图片、线条画之间有什么样的区别和联系?正如Henderson 和 Hollingworth(1999)所描述,场景必须包括一定的物体和容纳这个物体的背景;但图片则不同,图片可能只包括一个简单的物体,或者只有连续的背景而没有突出的物体。但是到目前为止,仍没有比较明确的研究对此进行严格的区分。根据已有的文献来看,早期的很多场景研究使用的刺激材料多为黑白图片,后来才出现了一些彩色的图片。但是最近的一些场景研究已经不仅仅局限于二维的图片材料,而是加入了三维的立体视觉效果。也有一些研究(Hollingworth, 2004; Hollingworth, 2005 )开始尝试采用视觉模拟和真实的环境来研究场景的知觉问题,这种情况下的场景就更加接近人们的真实生活环境。
对于场景知觉研究的刺激材料,Henderson 和Ferreira(2004)提出了两个标准:
第一,材料可以是真实的环境本身,也可以是真实环境的描述形式(form of depiction);
第二,刺激可以是完整的也可以是采取某种方式的降低处理,比如合成。目前,有关场景知觉的研究材料大体有三大类。第一类是简单的无意义图形或字母构成的场景信息,比如在其他色块中构成的背景中搜索中间带点的色块;或者在很多不规则“L”构成的背景中搜索目标字母“T”(Chun, 2000;Jiang, Olson, & Chun, 2000)。这些研究更多关注的是视觉搜索中其他物体对搜索物体的影响,研究者也把它们作为一种最基础的场景知觉来看待。第二类是物体序列构成的场景,研究者将多个相关或不相关的物体摆放在一起,要求被试搜索或记忆其中的一个物体,那么其他的物体就对这个目标物构成背景(Hollingworth, 2007;Zelinsky & Loschky, 2005)。
第三类是自然场景,一般采用真实环境的彩色或3D模拟图片来代表场景(Davenport, 2007; Henderson, 2002; Henderson & Hollingworth, 1999; Hollingworth, 2004)。当目标物体处于自然场景中时,场景的所有布置和其他物体的分布都构成了这个目标物的背景,具体形式见图1。自然场景比较贴近我们现实生活中见到的各种环境,研究者(Henderson, 2005 )建议把真实的自然场景作为场景研究的刺激材料,提高研究的外部效度。这三种不同的分类也体现了场景知觉研究的不同层次和水平。
场景知觉的加工方式是场景知觉研究中最基本的问题,对不同加工方的探讨是研究关注的核心之一。场景知觉的研究属于知觉研究重要的组成部分,所以,研究者仍然采用认知加工中自上而下(top-down)和自下而上(bottom-up )的加工方式来解释场景知觉中信息的提取与加工。这两种加工也被描述为基于刺激的加工(stimulus-based )和知识驱动的加工(knowledge-driven )(Henderson, 2003)。Henderson(2007)把自上而下加工比喻为被“推”(push)的加工,而自下而上的加工是被“拉”(pull)的加工,这种比喻形象地说明了两种知觉加工方式的差异。场景的自下而上的加工是指由于场景中局部的视觉特性比较突出,而使被试被动地加工这些突出的区域。比如,场景中明亮而且色彩鲜艳的区域一般会受到更早和更多的注视。支持自下而上加工的典型解释就是“突显地图”(saliency map )理论(Castelhano, Wieth, & Henderson, 2007;Torralba, Oliva, Castelhano, & Henderson, 2006; Underwood & Foulsham, 2006;Underwood, Foulsham, van Loon, Humphreys, & Bloyce, 2006)。这种理论认为,场景中的颜色、密集度、对比度和边际朝向(edge orientation )等会造成一些区域突出于其他的周围区域,这些突出的区域会吸引人的注意,在视觉加工中会比较早地被注意和加工。自下而上的加工。
而自上而下的加工则是指由于受到先前认知加工和知识经验的影响,人会主动加工场景中一些特定的信息。比如:当要求被试从客厅场景搜索钟表获得时间时,被试会激活相关的知识经验,根据任务的要求主动搜索目标物体而不管场景中其他的区域是否鲜艳和明亮。自上而下的加工强调已有知识经验的作用,这些知识经验包括对先前场景信息的短时记忆和情景记忆,存贮在长时记忆中类似场景的有关视觉、空间和语义信息,以及被试的目的和计划等。就短时记忆而言,刚才看到过的一幅图片,当再看这幅图片或者类似图片时,我们会积极关注我们感兴趣的区域,或者认为信息丰富的区域。长时记忆中也包含着一些场景的信息,比如,厨房场景一般都会包括灶具,办公桌的场景一般都会包括电脑。这些信息会影响我们对场景的知觉和加工。场景记忆的研究发现,对场景的知觉图式和原有经验在场景的编码和记忆中具有重要的作用(Pezdek & Maki, 1988)。
由于图像本身的特性要比知识经验更容易量化和操作,所以很多的研究都倾向于采用自下而上的加工方式来建立视觉加工的计算模型或量化的预测。比较典型的代表就是突显地图模型(Henderson, 2007; Humphreys & Bloyce, 2006; Underwood & Foulsham, 2006; Underwood, Foulsham, van Loon, Humphreys, & Bloyce, 2006)。但是,场景的加工往往不是独立的加工能够完成的。场景知觉研究中有关背景对场景物体识别的结果发现,我们对场景的知觉可能受到两种加工的交互影响,无论是场景中突显的物体,还是场景中的模糊背景会通过相互的作用影响场景的知觉,所以很难用一种单一的加工方式来解释我们对真实复杂场景的知觉(Davenport & Potter, 2004; Henderson & Hollingworth, 2002; Underwood, Templeman, Lamming, & Foulsham, 2008)。因此,也出现了将两者结合的背景引导模型(Contextual Guidance Model )(Torralba, Oliva, Castelhano, & Henderson, 2006)。
场景知觉研究不同于基础的视觉研究,场景中包含的信息比较多,对于实验变量的控制比较困难,所以研究者设计了不同的实验范式来探讨场景的知觉。根据已有研究中所采用的实验任务不同,对于场景知觉的研究大体上有5种常用的实验范式:眼动(Eye Movement)、背景提示(Contextual Cueing)、物体觉察(Object Detection)、变化觉察(Change Detection )和点线索追随(Follow-The-Dot)。这几种范式虽然名称和叫法各不相同,但是彼此之间也存在一定的重合和继承,下面将分别对这些研究范式进行简单的介绍。
眼动范式
由于眼动跟踪技术允许被试在自由的状态下观看场景,所以很多的场景知觉研究采用眼动跟踪的方法。这些研究可以从两个方面来进行梳理。首先,从眼动的指标来看,对于场景知觉的眼动研究主要涉及三个方面,即场景知觉过程中眼睛的注视位置、注视时间和眼跳及信息整合(Henderson & Hollingworth, 1999)。眼动范式主要关注前两个方面的眼动控制问题,即场景知觉过程中眼睛注视哪里,注视多久。对场景知觉的信息整合和眼跳,需要结合其他的任务(比如:变化探测)进行研究。对场景知觉的眼动研究发现,场景知觉的加工时间是对场景注视的空间和时间分布的函数。其次,眼动研究还会结合变化觉察、物体识别(object identification )和场景记忆(scene memory )等实验任务,探讨场景知觉过程中局部信息提取、场景中的物体识别以及把物体和场景信息进行编码存入短时或长时记忆等问题(Henderson, 2007)。
眼动范式一般给被试呈现场景刺激,要求被试自由观看场景,在被试观看过程中记录被试的眼动信息,然后对眼动数据进行分析。刺激呈现的时间从几百毫秒到几秒不等。比较早的采用眼动范式研究场景知觉的是Loftus 和Mackworth(1978)的研究,他们给被试呈现两组线条画,一组为场景中的物体与场景关系一致,比如拖拉机出现在农场场景中;一组为场景中物体与场景关系不一致,比如章鱼出现在农场场景中。研究发现,物体与场景的关系是否一致(即物体出现在该场景中是否合理)会影响被试对场景中物体的眼动注视。相比一致的物体而言,被试对于那些与场景不一致的物体给予了更多的注视,而且注视的持续时间也更长。对目标物体的注视持续时间被认为是物体识别速度的重要指标。由于能够即时地测查被试对场景知觉的过程性信息,所以后来的很多研究都采用眼动范式来研究场景知觉,并且取得了很多有意义的结果(Boyce & Pollatsek, 1992; De Graef, Chistiaens, & d’Ydewalle, 1990;Friedman, 1979;Underwood, Templeman, Lamming, & Foulsham, 2008)。
虽然眼动能够获得很多过程性信息,但是眼动范式也有它的局限性。由于眼动很容易受到其他内部和外部因素的影响,所以必须进行严格的实验控制,排除无关变量的干扰,才能很好地解释自变量的影响作用。此外,对场景知觉的眼动研究中十分重视第一次注视持续时间,把它作为场景中物体识别的重要指标(De Graef, Chistiaens, & d’Ydewalle, 1990)。但是,至今还没有足够的证据证明第一次注视持续时间反映的是物体识别时间,还是随后的其他加工。除非有进一步的证据或者其他方式的辅助,否则单独靠眼动范式不能很好地解释对场景的知觉和加工。
背景提示范式
>在知觉场景时,背景提供了丰富的信息。比如:背景可以提供场景中特定物体可能的位置信息、大小信息以及物体与场景的关系信息等。对于视觉背景信息的加工能够为我们更有效地了解所看到的世界提供良好的基础。Marvin Chun(2000) 在综述中比较详细地介绍了有关背景提示范式的一些情况。背景提示范式主要是基于视觉搜索研究发展而来,目的在于探讨场景背景对目标搜索的影响。研究要求被试在由不规则L 构成空间背景中搜索目标字母T,同时判断字母T 的倾斜方向。实验控制了背景的布局差异,一种情况中,T 出现方向变化,但是其背景中的干扰项L 的空间布局和颜色没有任何变化,这种情况被称为旧背景组。另外一种情况被称为新背景组,在这组中仍然变化T 的方向,但是其出现的背景中的干扰项L 也进行了相应的空间位置变化。结果发现,旧背景组的反应时要低于新背景组。这种重复出现的背景布局能够提高被试的反应速度,具有提示的作用,被称为背景提示(contextual cueing)。有趣的是,当实验结束后,要求被试对新旧背景组进行再认时,两组被试间没有差异,判断的水平接近猜测水平。研究者认为被试对这种不变的旧背景的学习是内隐的,不需要有意识的编码和记忆(Chun & Jiang, 1998)。随后,研究者(Chun & Jiang, 1999 )把原来的空间背景提示改变为物体的相互关系提示,实验的刺激形式如图3 下图所示。目标物为垂直方向对称的图形,其他不以垂直方向对称的图形为干扰项,构成背景空间。实验为了更好地排除其他干扰,反应结束后,原来的所有刺激图形被一些探测字母替代,要求被试报告目标图形出现位置的字母。实验仍然分为新旧两组,旧组为目标图形与一些特定的干扰图形成对出现;新组为目标图形和干扰图形的出现是随机分派的。结果发现,被试对目标图形与干扰图形成对一致出现的刺激反应时更短。在此基础上,Chun 等采用动态事件提示(dynamic event cueing)和3D 刺激材料作为实验材料,得出了一致的结果(Chua & Chun, 2003; Chun & Jiang, 1999), 即搜索的目标物与特定背景的重复出现会利于视觉搜索。背景提示范式从总体上来说是支持视觉的自上而下加工的,它的理论假设认为视觉的背景信息可以促进场景的加工。
A:目标物位置的线索提示在场景消失后
B:目标物位置的线索提示在场景出现前
Brockmole和Henderson等(Brockmole, Castelhano, & Henderson, 2006;Brockmole, Hambrick, Windisch, & Henderson, in press;Brockmole & Henderson, 2006a )把这种范式应用到真实场景知觉中。真实的场景不同于随机排列的字母和图形,它们是连贯的,信息丰富的,背景与目标间联系也更加复杂。这种情况下,背景提示是如何对场景加工起作用的?背景提示是来自于场景的总体信息还是局部信息?这些都是研究者关心的问题。研究者首先把T 和L 作为目标物嵌入到真实场景中,目标物在场景中出现的位置是固定的。在新背景组中目标物出现的场景每次都是变化的,旧背景组则反复呈现8 个场景。结果发现,旧背景组对目标字母的搜索时间更快。与Chun 的结果不同的是,对被试进行新旧场景背景的再认发现,被试对旧场景背景的再认好于新场景背景,且正确率高于猜测水平(Brockmole & Henderson, 2006a)。相对随机的字母和无意义图形而言,场景更加的形象和具有意义,其记忆更多的是外显记忆。这些研究结果也得到了眼动数据的支持,发现被试对反复呈现的背景组的目标字母注视更少(Brockmole & Henderson, 2006b)。此外,Brockmole等通过变化场景中整体和局部背景布局来操纵不同的背景提示,考查了整体和局部背景提示对目标字母视觉搜索的影响。结果发现,在真实场景背景条件下,背景提示的促进作用主要来自整体的背景提示(Brockmole, Castelhano, & Henderson, 2006)。此外,Brockmole 等(in press)采用象棋专家和新手作为被试,要求被试搜索国际象棋棋谱中的目标字母。结果发现,在重复呈现情况下,有意义棋局对搜索的促进作用专家要比新手高四倍。无意义棋局对专家的搜索促进作用减半。
物体觉察范式
采用了这种实验范式。在其随后的研究中完善了这物体觉察范式把场景中目标物体的觉察准确性种范式,并将其命名为物体觉察范式,而且得出了作为物体觉察与否的指标。Biederman(1972)最早有意义的研究结果(Biederman, 1981; Biederman, Mezzanotte, & Rabinowitz, 1982)。经典的物体觉察范式见图4。实验首先给被试呈现目标物体的名称,然后呈现一个注视点,接着呈现场景刺激,然后是一个由无意义线条构成的掩蔽,在掩蔽上有一个圆圈提示目标物体出现的位置,最后让被试做是否的判断并记录其反应时。目标物位置提示可以出现在场景出现前也可以在其后,如果位置提示出现在场景呈现前,则反应时的记录从场景呈现结束后开始。但是,经典的物体觉察范式受到了一些批评和质疑。首先,由于混乱场景引入新的轮廓,导致正常场景和混乱场景在视觉方面的复杂性是不对等的,使得实验结果的真实性受到怀疑。其次,被试可以根据正常场景来编码物体的位置关系,从而选择那些可能在提示位置出现的物体,而这在混乱场景中很难做到。
针对经典范式的不足,研究者(Boyce, Pollatsek, & Rayner, 1989;Hollingworth & Henderson, 1998 )对实验范式进行了改进。其中一点就是采用了信号检测的方法,即通过测量的敏感性体现实验中自变量对因变量的影响。虽然信号检测方法能够控制一些反应偏向,但是实验还是不能把反应偏向从敏感性测量中去除。当研究者改进了设计来控制被试的反应偏向后,却没有发现先前的实验结果。此外,Hollingworth 和Henderson(1998)还对目标物体出现前给予位置提示提出了质疑。认为反应前对要出现的目标物给予位置提示会导致实验结果出现人为的偏向。他们改进了实验范式,把对目标物体呈现位置的提示放在场景呈现之后,却发现了与先前研究不同的结果。他们把这种改进后的实验呈现命名为场景后强迫判别(post-scene forced-choice discrimination procedure )。
变化觉察范式
变化觉察范式与物体觉察类似,都是对场景中的物体进行觉察,但是二者在变化方式上存在差异,所以把它作为一种单独的方式介绍。变化觉察的基本范式是给被试看一张场景图片,在观看过程中的某一时间,将场景图片中的一个具体物体改变,考察被试在之后的观看过程中能不能探测到前后的变化。由于这种变化只是图片中的一个物体或细节发生了变化,场景的其他成分与原来一致,所以通过觉察反应判断被试是否觉察到了该变化,即可判断是否对场景有正确的视觉记忆。根据不同的研究目的,变化觉察范式有两种不同的形式:闪烁范式(flicker paradigm)和眼动控制的变化觉察范式。
闪烁范式主要探讨在眼跳过程中对场景的知觉和表征。研究(Henderson, 1997 )发现人的视觉系统在眼跳过程中不能保持详细的视觉表象。Rensink 等人(1997)最早采用这种范式来考查人们在场景知觉过程中的变化视盲(change blindness)现象。具体形式为呈现场景A 240ms,然后呈现灰屏80ms, 接下来按同样方式呈现改变后的场景A’,然后一直反复地呈现这两个场景60s,直到被试按键报告发现真正的差异停止实验。呈现灰屏的目的在于干扰视网膜对信息的暂时停留。场景A 和A’除了场景中单个物体存在明显的变化外(比如:颜色改变、某个部分缺失等),其他背景信息均相同。结果发现被试很难发现前后场景的差异。随后的实验中,Rensink 等改变了呈现形式,仍有很大一部分被试不能发现前后场景的变化。研究认为通过眼跳很难保持视觉表征的信息,除非积极地投入注意并且进行编码。这种对场景的变化视盲现象在Levin和Simons(1997)的动态研究中得到了进一步的证实。
已有的变化觉察范式存在一个逻辑前提,即被试在变化发生之前看过这个物体。但事实上,由于场景观看不像文字阅读那样有着固定的顺序,被试在观看中可以按照任意的方式进行,所以就无法判断在变化发生前被试是否注视过这个物体。而且,闪烁范式的眼跳受到了人为灰屏的干扰,与正常观看中的眼跳存在差异。研究者(Hollingworth & Henderson, 2002 )针对此问题,改进了变化觉察范式。他们引入了眼动跟踪技术,根据被试的注视情况来确定何时变化目标物,分成注视后变化和注视前变化,具体形式见图5。图中B 区为中央区域,A 区为目标区域,它包含着目标物。C 区是变化启动区域,这个区域一般都设置得离A 区较远,这保证了被试在看这个区域时,通过边缘视觉无法觉察到A 区的变化。
在场景呈现之前,要求被试注视屏幕中央的点,保证被试最初的注视点在中央区域。在注视后变化中,被试对目标物区域A 的注视时间超过90ms 后,当注视点离开该区域时就会激活变化启动区域C, 之后只要被试的注视点到达区域C 时,就会将区域A 中的物体变化成为另一物体。然后,考察被试在之后的观看中再次注视区域A 时有没有发现这个物体的变化(Rensink, 2000),或者在A 区的平均注视持续时间有没有显著地长于其他区域(Brockmole & Henderson, 2005)。此范式保证了被试在物体变化之前对该物体进行了注视。在注视前变化中,当被试的注视点离开了中央区域B 时,启动变化区域C 就被激活。这时,如果在没有注视A 区之前先注视了C 区,只要被试的注视点到达区域C 时,就会将区域A 中的物体变化成为另一物体。然后,考察当被试在之后的观看中注视到A 时有没有发现变化。这种情况下,被试在物体变化前没有注视过该物体,所以不能发现A 的变化。因此,可以将这种情况作为基线水平,这样可以去除猜测或经验推理等对变化觉察的影响。
后来Henderson 等人(Henderson, Brockmole, & Gajewski, 2008; Henderson & Hollingworth, 2003 )进一步完善了眼动控制的变化觉察范式,使得这种范式更好地服务于场景知觉中物体变化觉察的研究。采用眼动控制的变化觉察范式得出了与闪烁范式类似的结果,被试仍然很难发现前后场景的变化。以上的研究结果说明无论眼跳还是注视中,局部的动态信息如果在输入过程中受到干扰或屏蔽,那么场景的变化很难被觉察到。
点线索追随范式
点线索追随范式是结合原来物体觉察判断和眼动注视的改进形式,目的是为了更好地保证实验的内部效度。在介绍点线索追随前,先简单介绍迫选再认任务(forced-choice recognition)。迫选再认任务在原来物体觉察的基础上发展而来。任务首先给被试看一个包含着很多物体的场景一段时间,看完之后呈现两个再认场景,这两个再认场景和原来看过的场景是一样的,但其中有一张场景中的某个物体发生了变化,让被试判断,哪个场景中的那个物体和原来的物体一样。这样通过被试反应的正确率就可以判断被试对物体的视觉记忆的成绩(Hollingworth, 2003;Hollingworth & Henderson, 2002)。
迫选再认任务是在看完一个场景之后对目标物进行迫选再认,但是由于场景中包含着多个物体,那么必然有的物体先看到,有的物体后看到,有的物体注视时间短,有的物体注视时间长。因此无法准确判断目标物与测试之间的时间间隔,无法考察视觉记忆的保持时间问题。针对这种情况,Hollingworth(2004)设计了点线索追随范式,来研究场景视觉短时记忆的保持和信息加工问题。该范式在呈现场景过程中,有一个点线索会依次指向各个物体,要求被试在观看过程中,眼睛追随点线索进行注视,即点线索在哪个物体上,被试就看哪个物体。这样就可以保证场景中所有的物体都被注视到,并且保证加工的时间基本一致。最重要的是,可以操纵某个目标物体是在什么时间被注视,通过计算目标物与测试之间间隔了多少个物体(即点线索指向了多少个物体)就可以推算出目标物注视到测试之间的时间间隔。结果发现,物体的视觉记忆在间隔0~4 个物体的情况下,成绩不断下降,但间隔4 个物体与间隔10 个物体的成绩差异不显著,此时的正确率保持在80%左右。根据这一结果,研究者提出视觉记忆的有关理论假设,即视觉记忆可以保持相当长的时间,且容量较大。
视知觉研究是基础心理学和实验心理学研究的重点内容,随着技术的进步和研究的深入,很多研究者越来越关注人是如何知觉和加工周围真实的场景环境的。以John M. Henderson 等人(Henderson & Hollingworth, 1999 )为代表的一些研究者,在基础视觉研究的基础上采用眼动等技术对自然场景知觉(scene perception )展开了相关的研究。Henderson 和Hollingworth(1999)把人类的视觉研究分为三个水平:低水平的视觉(low-level vision or early vision),中间水平的视觉(intermediate-level vision) 和高水平的视觉(high-level vision)。低水平的视觉研究涉及视觉图像的深度、颜色、纹理结构等视觉物理特征的提取,以及图像表征的形成;中间水平的视觉研究涉及对物体外形、轮廓和空间关系的提取,这种提取不受物体名称和意义的影响;高级水平的视觉研究关注从视觉表征到物体的意义、知觉和认知的交互影响、视觉信息的短时记忆以及物体与场景的识别。而在高级视觉研究中,有关场景知觉的研究成为一个备受关注的领域(Henderson, 2005; Henderson, 2007)。Henderson 等在2005 年第6 期的Visual Cognition 上专门组织了一期内容(special issue on real-world scene perception)来探讨有关场景知觉的研究问题。
附件列表
词条内容仅供参考,如果您需要解决具体问题
(尤其在法律、医学等领域),建议您咨询相关领域专业人士。