语言 数据与研究:阿檀小倪讲量化 20171.17
学习和探索 语言量化方法
聚焦 语言教学中的问题
讨论 语言数据的收集与分析
一 课程导读:
基本内容:研究问题 数据收集 统计回答
基本理念:用数据来回答问题
基本环节:故事 案例 示范
故事:编选一线教师最常见的情景故事:研究问题
案例:精选国际主流学术刊物发表论文:数据收集
示范:筛选SPSS软件常见的操作功能:统计回答(让图与表直观进行回答)
二 研究:什么是研究?什么是量化研究?
故事:文科生看量化,好像是在做统计,用调查问卷,用软件工具得出图表和公式。
对初学者来说,研究就是读学术论文,设计高深理论,找到重大发现。
本课认为:研究就是用数据回答问题。
研究的三个核心要素:问题 数据 回答
初学者还认为: 量化研究就是统计。真的吗?
本课认为:其实统计只是分析量化数据的方法,而不是量化研究本身。
一种研究是否是量化研究关键在于问题,看研究问题的属性。
你的问题是否需要对你的研究对象进行量化描述?
是否需要对你的研究对象之间的关系进行预测?
是否需要对你的研究群体之间的差异进行分析?
如果你的问题是:我们班上的学生的英语成绩如何?那就是描述研究。
如果你的问题是:英语成绩与所背英语单词数量之间的关系如何?那就是相关研究。
如果你的问题是:作业数量、背单词数量、复习时间与学生期末考试成绩之间的关系如何?那就是对多个群体与一个群体之间的关系进行量化分析,那就是回归研究。
4. 如果你的问题是:口语成绩与阅读成绩之间是否存在差异?那就是对两者之间的差异进行量化分析,那就是对比研究。
5. 如果你的问题是:一班、二班、三班和四班英语成绩是否存在差异?这是对多个群体之间的差异进行量化分析,那就是比较研究。
这就是五种不同的量化类型。
所以本课程会有:描述研究、相关研究、回归研究、对比研究、比较研究。
描述研究:描述:大致情况如何?
相关研究:相关:它俩有何关系?
回归研究:回归:它们有何关系?
对比研究:对比:它俩有何差异?
比较研究:比较:它们有何差异?
三 描述:大致情况如何?
问题:描述性问题是如何形成的?
在外语教学中,老师们经常需要对一个情况或现象做一个大致描述。如我们这个班学生水平如何?他们喜欢我的教学方式吗?对于情况或现象,需要通过数字进行量化描述。
决定一个研究属于什么样的量化研究?需要什么方法?最关键的就是研究问题。研究问题本身所关联的情景、概念、问题。
情景:就是自己所处的具体环境和状况。在其他老师也可能会出现这种情况。
概念:你认真分析这个情景,阅读相关文献,看别人是如何理解和解释这类情景
问题:你针对自己所处的环境和情况,吸收别人的理解和解释,提出的研究问题。
第二节 故事+案例
看故事,看描述性问题是如何形成的,如何聚焦情景,如何提炼出核心概念,如何形成合理的描述性问题。
如何来辨别哪些现象是属于描述性研究的情景?
如何在在这些情境中如何聚焦?
聚焦后,如何提炼出概念?
这些概念又如何帮助我们行程描述性研究问题?
故事:选读物
小陈老师回国不久,带回不少国外先进理念。小陈老师发现国内教材篇章内容陈旧,她认为要使用原版读物来泛读教学。老师的新方法学生很有热情。两周后发现效果不好,学生都读不懂,单词都不认识。小陈老师的问题:自选的原版读物对学生没有效果吗?
陈老师情景?
用美国原版读物让学生去读,结果发现效果不是自己想象的那么好。
陈老师情景聚焦:
效果不好,是陈老师最关心的事情。
效果不好的意思是:学生们认为不认识的单词太多了。
所以,陈老师的情景:
原版阅读材料里的生词太多。
聚焦这一研究情景之后该怎么办?如何提炼核心概念?
案例:
斯图尔特 约翰 两位老师的研究:
Webb, S., & Macalister, J.(2013). Is text written for children usefull for L2 extensive reading? TESOL Quarterly, 47(2),300-322.
提炼概念:
阅读的生词不能太多 不能太少怎么办?
所以要在阅读中对生词进行控制。
两位发现,过去的研究文献中提出了词汇需求量的概念(Vocabulary Size Necessary)即你需要多少词汇才能读懂一篇文章?
过去的研究发现,如果能认识一篇文章中98%的单词,就能对内容有相对充分的理解。
因此,词汇需求量就被提炼出来。
如何又能学到生词?
两位发现,过去的文献中提出了词汇学习机会(Vocabulary Learning Potential)
在大致读懂文章的基础上,为了保证学生通过阅读学会新的单词,还要考虑生词俄重复次数,给学生学习生词的机会。过去研究认为:党重复次数达到一定数量的时候,学生就能将其掌握了。过去不同研究结果不同,两位发现:词汇重复次数最少是6次。因此就提炼出了词汇学习机会这个概念。
论文的标题一定要包括或涵盖核心概念。
标题:
Webb, S., & Macalister, J.(2013). Is text written for children usefull for L2 extensive reading? TESOL Quarterly, 47(2),300-322.
usefull包括了 词汇需求量+词汇学习机会
只有实现了这两个方面,才能叫usefull
有了核心概念,就要看如何对应核心概念形成问题。
形成问题:
论文标题:usefull
核心概念:词汇需求量 词汇学习机会
研究问题:问题1-4
因此关于词汇需求量,提出三个问题:
由于想看国外儿童读物是否可以给外语学习者做学习材料?
三个问题分别关注:
国外儿童读物的词汇需求量、国外大人读物的词汇需求量、外语学习者分级读物的词汇需求量
关于词汇学习机会,两位认为问题是:
要看看国外儿童读物 国外大人读物 外语学习者分级读物中 词汇的重复次数究竟如何。
第三节 数据:如何进行描述性数据收集?
收集数据的三个重要因素:对象 工具 步骤
两位的研究对象:
国外儿童读物 国外大人读物 外语学习者分级读物
儿童读物517篇,选自School Journal
分级读物 (一到四级)33篇,选自Oxford Bookworm
国外大人读物 138篇
选自Wellington Written Corpus 文本类型包括新闻报道、小说
(为什么篇数不同?
因为三类文章长度不同,要保证每种读物的总词数相同,控制在28万。)
工具?
要考察儿童读物 分级读物 大人读物的 词汇需求量 词汇学习机会
词汇需求量:考察词汇的覆盖率问题
词汇学习机会:考察词汇的重复次数问题
选择Range 这个工具
Range 是一种词汇分析软件,就是根据词表对文章中的词汇进行覆盖率和重复次数的计算。
重复次数,就是计算指定的生词出现的次数,然后就能统计出词汇学习机会。
词汇覆盖率,其实就是指某一特定等级的词表,在一篇文章中所占的比值。这里的假设是:我们认为,学生对词汇的掌握是先学会高频词,然后再学会低频词。所以研究者根据大规模语料库中词的频率,研制出词汇的频率表,其中比较有名的就是Paul Nation的14级词频表。就是按照词频从高到低排列,每一级有1000词。Range就是使用这个14级词频表来计算覆盖率。
比如:
一级词 占 60%
二级词 占20%
三级词 占10%
累计3000词,占90%
那么也就是说,如果一个读者掌握了3000次,那么在该文本中的覆盖率就能达到90%
我们知道,以前的研究提出的结论:一篇文章,如果98%的词都认识,就能大致读懂。
假设
一级词 占 60%
二级词 占20%
三级词 占10%
四级词 占6%
五级词 占2%
那么到了五级,达到98%
这就说明,掌握5000词,就能大致读懂这篇文章。按照这个假设,就能大致估算词汇需求量了。有了这个工具,开始实施。
第一步:建立阅读文本库
第二步:统计词汇覆盖率
第三步:统计词汇重复次数
第一步:建立阅读文本库
儿童读物语料库 517个文本 285,143词
大人读物语料库 138个文本,285,143词
分级读物语料库 33个文本,285,143词
共计855,429词 文献 306-308页
第二步:统计词汇覆盖率
用range分别分析三个语料库,计算每个语料库的词汇累计覆盖比率,并以98%文本覆盖比率为标准,确定不同类型文本的词汇需求量。结果发现,达到儿童读物语料库98%的覆盖率,需要10000词,达到大人读物语料库98%覆盖率,需要10000词,达到分级读物语料库98%覆盖率,需要3000词.
第三步:统计词汇重复次数
用range计算不同类型文本中的词汇复现次数,分析词汇学习机会。
在这里主要分析除了一级词、二级词以外的词汇,因为大部分学习者已经掌握了一级、二级这2000个频率较高的词。
以儿童读物为例。
表6
儿童读物
单词数量 所占比例
复现1次 2171 占比 42%
复现2次 752 占比14%
复现3-4次 782 占比 15%
复现5-7次 529 占比 10%
复现8-9次 197 占比4%
复现10次以上 756 占比15%
688篇阅读文本
Range分析软件
分步骤实施研究
至此,完成了文本建库、词汇覆盖率、词汇重复次数的统计,成功收集到了为解决描述性研究问题所需的数据,为下一步分析做好了准备。
小结:
问题形成:
针对一种情况或现象描述,提出研究问题。要找准其中最重要的一个方面,或者一个环节,抓住牛鼻子。要对现象进行提炼。
数据收集:
样本量通常要很大,要具有广泛的代表性意义,否则达不到“描述”一种广泛现象的作用。