Storms, G., De Boeck, P., & Ruts, W. (2000). Prototype and exemplar-based information in natural language categories. Journal of Memory and Language, 42(1), 51-73
自然语言类别中的原型和基于范例的信息
摘要:本研究报告了两个实验,用范例模型和原型模型预测4个因变量的变化情况:典型性评分typicality ratings,反应时,分类命名频率category-naming frequencies,自然语言概念的范例生成频率exemplar-generation frequencies。实验一中,范例模型预测得更好,或者两个模型差异不大。实验二中,范例模型对因变量的预测更好。
EXEMPLAR AND PROTOTYPE MODELS FOR ARTIFICIAL CATEGORIES AND NATURAL LANGUAGE CONCEPTS
自然情景下的分类学习和实验室环境中的分类学习是有差别的,不能简单地泛化实验结果得到。和原型模型比起来,范例模型在模拟上有更多困难,因为无法确定每一个范例具体表示什么,(1)每一个范例表示一些抽象的表示(鱼包括鲨鱼,金鱼等等,其中鲨鱼、金鱼也是抽象的表示)(2)每一个范例是具体记忆痕迹的表示,不带有抽象表示(这一种解释被更多研究者采纳)。
在自然语言的环境中的分类,例如蔬菜,交通工具等等,有三种不同的理论观点:
(1)没有任何抽象:只记住了具体的例子,没有任何抽象信息用言语概念记住了。
(2)有部分抽象,但只存在比学习概念第一级的概念上:学习蔬菜,下一级概念是番茄等等。
(3)有抽象,并且在学习的概念(蔬菜)本身的抽象特点就被记住了。
前两种解释可以标记为范例模型,第三种解释可以标记为原型模型。
EXPERIMENT 1
典型性评分typicality ratings
原型:类别典型性的不同反映了原型与概念表示(concept representation)之间共有特征的相似性
范例:类别典型性的不同反映了与存储的类别中样本的相似性
反应时(在快速分类任务中的反应时)
在同一个类别中不同个体的反应时也是不同的,以下两种模型都可以来解释这种不同。
原型:(Hampton’s ,1979)当样本的特征与原型特征重合达到一个阈值时,被试就会给出“是”的反应,反之,如果非匹配特征达到一个阈值,也会给出一个“否”的回答 。
范例:一个好的类别中的样本是可以激活其他范例的,因此与存储的范例越相似,反应时会越短。
分类命名频率category-naming frequencies和自然语言概念的范例生成频率exemplar-generation frequencies
这两个频率在某种程度上是相反的:在category-naming任务,给被试一些范例,要求被试为这些范例所属的类别命名;在exemplar-generation任务,给被试类别的标签,要求被试命名具体的范例。
在category-naming任务中,有些样本会更大频率被贴上某一类的标签。原型模型可以解释为给的样本的特征可以激活类别原型的特征,从而让被试想起类别的名字。范例模型可以解释为类别与范例之间是具有概率性的。这两种解释的区别就在于之间是否有一个激活过程,但是激活过程的作用还不清楚,并且一个样本可以和多个类别有联系,这中间的重叠影响也没有明确的处理办法。
在exemplar-generation任务,同样两者的区别在于激活过程activation process,而这个过程在两个模型中的解释都不清晰,因此本实验收集这两个频率,希望可以进一步帮忙开发模型。
Prototype and Exemplar Based Predictors
实验一将原型模型的预测器和范例模型(可以用多个范例来实例化instantiate一个概念)的预测器相比较。虽然其中的激活过程难以观察到,但是可以假定在exemplar-generation任务的结果中可以得出在抽样分布上的近似值。同时,我们可以观察不同数量的范例对预测的影响。
实验用到的原型模型是在Hampton’s (1979)模型的基础上衍生的,针对不同类别的特征会进行适用性applicability的评分,并根据评分预测被试相关的决策。
Material
所有概念都是荷兰语,被试母语均为荷兰语。一个8种常见分类:厨房用具,家具,交通工具,运动,水果,蔬菜,鸟,鱼。每类包含36个项目(24个假定的exemplars,12个nonexemplars,这都是每个类别的上一级概念,例如水果的上一级概念是食物)。根据Hampton的研究,每个类别分别有13,11,12,14,13,9,16,和12个特征用来构成类别的原型。
Procedure
两个不同的任务给不同组别的被试:相似性评价任务(similarity rating task),特征适用性任务(feature applicability task)。同时还有四个任务用来测试上述4个因力量。
similarity rating task:被试拿到一共八张表(每个类别一张),被试需要评定每张表上的36个项目与1个关键词之间的相似性,10分评定(1分完全没有相似度-10分高度相似度)。每张表都会对应25个最常生成的范例,被试会随机分到25个中的一个关键词。该任务有250名大学生被试,用时大约30分钟。
feature applicability task(Matrix Filling):被试拿到一张矩阵,行是36个项目,列是类别特征,要求被试用1或0填写矩阵,表明这个特征是否存在于这个行项目中。80个被试,用时大约50分钟。
Typicality-rating task:对八个类别的项目集进行典型性评分,7分评定法(-3表示非常不典型,+3表示很典型)。10个大学生被试,用时30分钟。
Speeded categorization task:电脑上会出现一个类别名字(粗体在屏幕中央),项目的名字会出现在类别名字下面,被试需要快速并且正确地判断项目是否属于这个类别。一共9个类别(8个+1个练习),每个类别下有24个属于,16个不属于。18个被试,用时35-40分钟。
Category naming task:每个被试拿到一张表,表上8个项目,要求被试写下他最先想到的项目属于的类别。一共有36张不同的8个项目表,每个清单都有10名被试完成。
Exemplar generation task:被试在小册子上写下每个类别中想到的10个例子,按想到的顺序写下。
Results
Prototype predictions
根据之前的矩阵任务,将10个被试的分数相加,可以得到特征的分数,然后判断该特征是否适用于这个类别。图1 展示的是原始的直接相加,也有另外的加权相加,其中包括三种(1)基于定义概念时特征的重要性(2)基于特征的典型性(3)基于生成特征的频率(production, generation)
Exemplar prediction
本研究想要尝试不同数目范例的预测,比较不同范例个数可能带来的影响。25个范例预测因子(exemplar predictors)基于产生频率(generation frequency)进行排序。第一个预测器有简单的一个范例构成(与类别最相似)。第二个预测器是两个范例的总和。其余预测因子是通过和剩下的产生频率最高的范例添加相似度评分构建的。
Prediction of the four dependent variables
原型模型和范例模型都与四种因变量相关。这种相关都是基于每类中的24个项目(剩下的12个非类内成员被排除了),而被排除后,获得高预测水平也会更加困难。最后通过预测水平来评估模型那个更有效。
从图2可以发现,范例个数越多,相关越高,但是10个以上更多范例增加对性能提升不明显。同时典型性和反应时的模式非常相似,也预示着,两者的相似性越高,反应时的数据越可靠。
表2的最后一列是范例模型和原型模型的相关,发现有一些重叠,但是也不是完全不可区分。为了进一步分析,采用了ANOVA(方差分析)与split-plot factorial design(裂区设计),分析典型性预测最好,接下来是反应时,后面两个频率差异不显著。范例模型和原型模型在exemplar-generation频率上差异显著,范例模型更好,其他相互作用上,只有典型性范例略好,其他差异不显著。
Discussion
整体上,32个项目与4个因变量的相关都很高(除了1个),并且范例模型预测比原型模型表现更好。随着范例个数增加,范例模型预测更好,但是超过10个,优势就不明显。
虽然范例模型和原型模型有差异,但不是分成大的显著,例如在典型性解释上,范例模型预测水果,交通工具,与鱼,原型模型预测家具更好,其他类别的差异并不显著。
在category-naming任务上,两种模型差异不显著,但是在exemplar-generation任务上,范例模型表现更好。
在几种不同的原型模型比较中,不加权的简单加和模型预测最好,这个结果支持了1979年Hampton的研究。
实验二想要探究,不同计算方式的原型模型(实验一是Hampton(1979)(让被试想出每个类别的特征,包括向被试提问,更多激发他们对类别特征的描述),实验二是Rosch & Mervis (1975)(从类别中的例子出发,从例子身上提取特征,然后特征适用于更多的例子就分数更高,权重更高))和范例模型比较,范例模型的微弱优势能不能保持。
EXPERIMENT 2
实验二与实验一大体一致,是将新的原型模型与实验一的Hampton原型模型、实验一的范例模型进行比较。
Material
类别与实验一相同,但是只收集24个类内项目的数据,12个非类内项目被删除了。
Procedure
Attribute generation task:3个被试对5或6个类别中所有24个项目写下特征,每一个类别都有两个被试进行描述。
Attribute applicability judgment task:4个被试对每个类别中的24个项目和所有特征条目进行评定,每个类别完成后可休息,每个类别用时约25-50分钟。
Results
Attribute generation task:55,55,73,53,33,37,26,36个特征生成对应水果,鸟,交通工具,运动,家具,鱼,蔬菜,厨房用具。
Calculate the family resemblance scores:(1)将被试(一共4个)的选择加起来(2)≥3的记为1,其余为0(3)每个属性特征收到的权重1-24(4)加权后的和是每个属性的得分
表4中新算法原型模型与4个因变量的相关比实验一中的原型模型低一些。
同样采用了ANOVA与split-plot factorial design进行分析,范例模型在预测上显著优于两个原型模型,两个原型模型间的差异不显著。在四个因变量上,与实验一相同,典型性>反应时>两个频率(类别命名和生成例子差异不显著),并且每个因变量水平都是范例模型表现更好。
Discussion
范例模型比Rosch & Mervis (1975)的原型模型预测效果更好,也可以说范例模型中用到的加权方法比family resemblance measure要更好。
不同类别之间也有差异,鸟和交通工具可以被预测的更好,水果和蔬菜会更差,但是在ANOVA分析中差异并不显著。
GENERAL DISCUSSION
原型模型认为概念是由单个向量表示的(包含了概念类别中的特征)。Hampton认为这些特征是存储在概念层次,可以直接访问的,因此在分类是可以直接提取特征,然后判断项目是否符合这些特征;Rosch认为特征的提取应该从类型下的生成例子上开始,而不是直接运用概念标签concept lable。
范例模型认为概念是多个向量表示的(每个范例对应一个向量)。
实验数据也表明,即使是完全一样的分类和特征标准,原型模型和范例模型也做不到预测完全一样。(1)在实验中,只有鸟和交通工具的方差高度相似,有些分类方差差异很大。(2)原型模型是把类别中所有的项目都考虑进去,但是实验数据表明对于范例模型来说,超过10个范例,效果不会继续变好,甚至会变差。(3)构造一个新的范例模型,用到关于距离的方差,
Xim表示第m个特征对第i个项目的适用度。用这种计算后的新范例模型,预测效果不如直接评定的之前两个实验用到的范例模型。
之前的研究都认为,在完成分类任务时,所有之前学过的例子都会被激活,本实验数据证明只有一部分频繁生成的例子就足够预测典型性评分,反应时等等,并且范例个数过多还会降低预测正确率。
研究的数据和自然状态下概念的学习还是会有差距:(1)自然条件下的概念学习是多阶段,重复不定时的,但是实验室条件下是有规定是时间用来学习(2)实验用到的概念都是很基础的,可能在童年早期就学会的概念,被试已经运用这些概念很多年了,因此激活或者存储方式可能不同。