通用语料库:大而全
专业:新闻、教学
通用语料库:大而全
专业:新闻、教学
语料库基本概念
文本、标注
3.1文本
生文本:未经任何标注的语料
标注文本:经过人工标注或自动标注的语料
标注文本使生文本获得了“增值”
3.2标注
利用各种标签对语料库中的文本的各种属性加以标记。
目的是为了方便开展不同目的的研究。
元信息标注:有关语料库文本的非语言信息。包括引用源、出版商、作者等。
词性赋码(POS tagging):对文本的词性进行标注。
3.3词、形符、类符、类符/行符比
形符token:文本中任何一个独立的单词
类符type:文本中任何一个独特的词行
类行符比type-tpken ratio,TTR
标准类形符比STTR:较为可靠的测量工具
3.4频数、频率
频数frequencies:出现的次数
频率frequency:经过标准化计算得出的次数
3.5搭配、类联接
搭配collocation:词语之间的结伴关系
类联接colligation:词类及语法层面的结伴关系
类联接是搭配的更高层次,与语言的句法方面有密切关系。
3.6多词序列、语义韵
多词序列:词块lexical chunks、词簇word clusters、预制语块prefabricaed chunks、套语formulaic sequences、N元祖N-grams
语义韵:一个词项和一个词项和它的搭配词搭配在一起产生的语义氛围,分为积极、消极和中性三种。
一、语料库及其基本概念介绍
1.1定义:大规模电子文本集合
1.2主要类型
1.2.1通用/专用语料库
general corpus:最好的代表一种语言的全貌建成的语料库。
通用语料库举例:BNC英国国家语料库/COCA美国当代英语语料库
specialized corpus:只收集某特定领域的语料库样本
1.2.2笔语、口语语料库
written corpus:书面语。书籍报刊书信学术论文
spoken corpus:口语,包括语音文本
1.2.3共时/历时语料库
synchronic corpus:同时代
diachronic corpus:不同时代
1.2.4本族语者/学习者语料库
native speaker's corpus
learner's corpus(e.g. CLEC《中国学习者英语语料库》)
1.2.5单语/双语/多语语料库
monolingual corpus
parallel/biligual corpus
常见语料库软件操作
小型教学语料库创建
语料库的教学应用
语料库与教学研究
Lesson 20 语料库与教学研究
1.创建小型教学语料库
教材语料库
中考、高考真题及模拟题语料库
初中、高中英语学习者笔语语料库
初中、高中英语学习者口语语料库
初高中英语学习者笔语语料库
学生笔语(书面语)产出
平时书面表达
期中、期末考试书面表达
模拟测试书面表达
2.采用语料库工具进行文本、试题分析
文本分析
词频分析
易读度分析
词块分析
语法结构分析
语篇分析
3.2.1 Readability运用实例一以高考 题为例
自建小型教学用高考题语料库
注意检查核对文本,尽量将试题分类保存,便于研
究和写论文
用软件进行易读度、词数、句数、词长、句长、
(标准)类形符比统计
3.语料库辅助的学生笔语研究
3.3.1研究语料采集
词汇特征量研究的局限
3.3.3基于语料库的高三学生写作词汇短语使用情况调查
词汇短语(词块)提取
许家金和许宗瑞(2007) 的研究把3~6词词汇短语
在语料库中出现的最低频率分别设为:7、7、4、4
次,采用许家金、许宗瑞(2007) 研究的频数采集
后,我们发现数量难以满足本次研究之用,高三学
生的词汇短语产出量毕竟有限,因此本研究选择词
汇短语长度为3~6词,最小频率按照4频次进行提取。
词汇短语教学启示及后续研究
教学启示:
1.挖掘教材板块资源,进行话题短语的提取和运用
2.整合模块教材资源,进行语篇短语和交际短语的提取和运用
后续研究:
对本族语者书面语中词汇短语的使用情况进行对比分析
3. 3.4高中学生英语作文中连接词使用的调查及教学建议
连接词使用问题一(1) 过度使用
学生作文中and的使用为最多,有的学生甚至在一个段落里and到底。虽然and可以用来表达分句与分句、句子与句子之间的多种关系,但过多地使用也没有必要,有时甚至是错误的。学生作文中出现为了连接而连接的情况,结果反而造成冗余,影响了语义衔接。连接词的过度使用,容易造成逻辑不清,甚至混乱,这不能算好作文
连接词使用问题(2)重复使用
恰当地重复某些连接词,可以起到强调篇章纽带的作用,从而达到突出重点的目的。如:and可以和then, yet, still等连用,but可以和on the other
hand, for another, in fact等连用,以更加突出这些连接词后面的内容。(Chalker, 2004)
连接词使用问题(3) 错误使用
没有区分同类的不同连接词语之间的区别而错误使用连接词语
连接词的位置和标点符号使用不当
连接词的词性误用
拼写错误或生造--些连接词语等
连接词教学建议
连接词研究局限
要使学生的作文连贯性强,全面提高学生作文的质
量,仅靠连接词是不够的,还需要其他方式达到语
篇连贯的效果。
3.3.5英语高分作文的语言亮点探析
(Range软件的分析结果显示:
400篇作文总词数为67792词;
《课标》七级词92 .07%;
《课标》八级词2.93%;
《考试说明》补充词汇1.61%;
表外词汇占了3.39%。)
(将W ordsmith 5.0中cluster (词簇)自动析出的所有词簇进行手工筛选,发现:
it结构、there结构 、with和without结构、 定语从句、名词性从句、状语从句、倒装和强调等常见结构出现频率较高。)
亮点分析
3.3.6
Lesson 19
语料库分析工具Power Conc
2.语料库分析软件PowerConc
中国外语教育研究中心许家金教授、梁茂成教授和
贾云龙老师设计
使用说明:
许家金,贾云龙.基于R-gram的语料库分析软件
PowerConc的设计与开发[J].外语电化教学,2013(1).
PowerConc主要功能
词表(wordlist):词频,主题
语境共现(Concordance) :例句检索
搭配(Collocation) :搭配及强度检索
词块(N-gram list) :各种词块
主题词表(Keyword):文本对比
1.检索
@be 出现Be的所有词形
#代表词性
*代表任意词
如:a * of
混合检索:it @be * that
(it is said that, it is apparent that ....)
it @be #adj to #v
2.wordlist&word frequency
Data type中:word可以理解为形符,Lemma可以理解为类符
3. N-gram (词块,词簇,语块,N元组)
4. Concordance (语境共现)
也就是输入词的前几个词和后几个词,即语境
Lesson18 语料库与教学研究
写作文本测量工具介绍
易读度软件Readability Analyzer
词汇统计软件AntwordProfiler
赋码工具TreeTagger, CLAWS 7
对高三高分档作文易读度的统计
2.蚂蚁软件 文本词汇概貌统计
3.Tree Tagger,CLAWS7赋码软件
(可以统计出文本中各种词性的ci hu)
Lesson17 分档作文的主题词和主题词块研究
主题词:一个语料库相对于另一个语料库显著多用的一些人称代词等口语词汇,这些就是主题词,它能在一定程度上反应口语语体的特点
采用主题词分析法考查不同档次的作文各自有什么语言使用特点
一、研究问题
各档作文主题词和主题词块使用情况有何差异?
二、语料来源
某市高三模拟测试作文
题目:义务劳动算学分:太功利还是有必要?
2档至5档作文各随机抽取100篇
2档: 5.5分一 10分 ( 100篇)
3档: 10.5分一 15分 ( 100篇)
4档: 15.5分一 20分 (100篇)
5档: 20.5分一25分 (100 篇)
分档作文语料库(样本)位置:
2017 Corpus\01_ Texts\04_ 作文分析\分档作文RAW
三、研究工具
BFSU PowerConc
四、研究步骤
1.
2.生成各档作文的主题词表和2-3词主题词块表
五、结果与讨论
各档作文主题词和主题词块使用情况的差异可以从
以下角度分析:
词汇难度、丰富度
口语化倾向
立场词块
语篇词块
思考题
本研究发现的高分作文的语言特征,对英语作文
教学有何启示?
Lesson 16 易读度软件使用
Readability Analyzer2.0
ASL平均句子长度
AWL平均单词长度(音节数)
STTR标准类符形符比(1.0版本中才有)
易读度解读
高考文本的易读度一直稳定在50-60之间
小结
测试分析的常见软件
测试分析中的几点关注
Lesson 15 词汇概貌软件使用
●AntWord Profiler 1.4词数及词汇分级统计
1.左上choose载入高考卷文件
2.左下choose载入词表
3.view或 start
Lesson 14 子文件夹工具的使用
试题分析所用的常见软件
●Sub-corpus Creator创建子文件夹,归类分析
●AntWord Profiler 1.4词数及词汇分级统计
●Readability Analyzer 1.0词数、平均词长、平均句长、难度统计
Lesson 13 语料库与词汇教学
微型文本库
搭配教学
带下划线的是经过标准化测验后的使用频率
中间一栏是优先要教的语法搭配
多义词教学
同义词教学
语料库辅助的语境化的词汇复习
●相同、相似话题的文本阅读
相同或相似主题的篇章具有一定的主题关联性,具有关联性的主题会有相关联的文化背景与语境背景、词汇和句法结构以及语篇类型等,为学习者理解篇章、习得语言提供了最佳的语境效果。
●话题选择批量检索
●提取相关文本
(勾选batch search)批量搜索之前建好的高频词汇
提取目标文本
提取出话题的完形填空2篇、阅读理解12篇
选取主题为“体育精神”的文本:
2013北京卷完形填空 2010福建卷D篇
2010全国卷C篇 2010天津卷B篇
2011安徽卷C篇 2011江苏卷D篇
Lesson 11 语用视角的词汇
1.词汇分级
根据词汇常见性进行分级,以确定词汇教学的重点
2.词汇的搭配信息
an overnight success突如其来的成功
spell trouble 招致麻烦
feel strange 觉得不舒服
give sb the cold shoulder冷落某人
3.词汇的隐喻义、语义韵信息
the man on the street普通人
in the wake of紧随而来的(尤指不好的)
all walks of life 各行各业
4.词汇的构词信息
under-
①表示“在.....下面的”→underground (adj.地下的adv.在地下n.地铁),underpass (n. 地下通道),underneath(prep. & adv.在下面;在底下)
。
②表示“在内的”、“紧贴里面的”→underclothes (n.内衣,衬衣),underwear (n. 内衣裤),undercoat (n. 内涂层,底漆)
③“......不足”→underdeveloped (adj.不发达的;发育不全的),undervalue (vt. 轻视,低估),underweight (adj.重量不足的)
over-
①表示“外面的;覆盖的”→overcoat(n.外套)
overnight (adv. -夜之间;突然)overseas
(adj.海外的adv.在海外),overall (adj. 全部的adv.总共)
②表示“过多、过于、过度”→overcrowded (adj. 过于拥挤的),overshadow (vt. 使相形见绌),overvalue (vt.高估),overwork (vi., vt. & n.过分劳累)
③表示“ 额外的”+ overtime (n. 加班时间;加班费)
5.词汇的语义关系
Lesson11 在线语料库检索工具
在线语料库检索工具介绍
语料库专家Adam Kilgarriff设计的一种词典编纂
辅助系统
自动整理、分析语料,有效总结词汇、语法知识
主要功能:词汇特性素描,同义词典和词汇素描
异同等
以BNC为例进行检索
英国国家语料库( British National Corpus, BNC)
是可以用于在线Sketch Engine检索的语料库之- - 。
BNC语料库的总词容约1亿,收集的语料来自英
国1970- 1993 年的英语出版物,其中包括9千万
词的书面语文本和1千万词的口语文本。
绿色worthy,红色worthwhile,白色为共有
三列表中,左边是同义词,中间是常用修饰的词,右边是后面接的词
在线语料库检索工具
自动整理、分析语料,有效总结词汇、语法知识
主要功能:词汇特性素描,同义词典和词汇素描
异同等
Lesson 10 语料库辅助的词汇教学
语料库与词典编纂
1.语料库在词典编纂中的应用
例一
(使用越频繁的释义越靠前)
“cogn”表示know
例二
标黄都是同义,所以学生要关注后面的内容
语料库与词典编纂对词汇教学的启示
1⃣️词汇的广度和深度知识,词汇的搭配、类
联结、语义韵以及同义词和反义词都是词
汇教学的重要部分。
2⃣️词汇教学需要核心词汇(高频词)优先。
3⃣️词汇教学需要重视词块教学,语用教学
2.利用词典进行命题
Lesson 9
语料库创建所需软件介绍
创建语料库可用工具
思考题
自建学生笔语语料库,学生作文错误是改动还是不改动?
子文件夹创建工具的用途是什么?
Lesson7 创建小型教学语料库(设计原则)
小型教学语料库创建的意义
1.小型教学语料库:精心采集的、旨在帮助语言学习者理解语言现象的小型语料库。
2.服务英语教学:将语料库运用于教学,如词汇、语法、写作等课堂教学设计与实施;为教材(教辅)编写、试题编制提供素材及依据。
3.促进数据驱动教学:以“数据驱动学习”理念,开展‘
”探索式”、“发现式”学习提供可操作的平台。
教学语料库设计的原则
语料库的设计:语料库建设最重要的环节,直接
影响到语料库的质量和使用。
1.教学针对性原则
教材语料库
试题语料库
音频及视频语料库
学生口笔语语料库
2.实用性原则
“微型文本”
按照不同的教学目标,从大型语料库中提取目标
语料制作微型文本,适应课堂教学的要求。
采用自动赋码标软件进行词性和语法标注。
3.开放性、资源共享原则
1.团队合力参与语料的收集、整理和筛选
2.实现语料的动态更新和即时补充
3.在保证语料质量的前提下尽量扩大库容量,使语
料库更具代表性
4.实现资源的开放和共享
语料库设计的要点:
需要搜集的语料类型和文类
语料来源及获取语料的方法
入库文本的基本格式及编码
1.2.1语料的代表性及平衡问题
1⃣️语料类型、文类以及所搜集文本的大小标准的制定
2⃣️阅读文本低于300词的文本不采纳,写作文本低于100词的不采纳
1.2. 2语料的来源及获取
语料库的建库容量决定了该语料库的代表性
语料库是否具有代表性直接关系到在语料库基础上所做出的研究及其结论的可靠性和普遍性
1.2.3语料库文本的基本格式及编码
文本命名原则,尽量采用8位数字及字母编码
格式:纯文本,可用Microsoft Windows的记事本打开
编码: 8位数字
建库之初确定命名方法,以便建子语料库,进行对比研究
教材语料库
将教材文本按模块、板块等切分单独存放
将教学指导语单独存放,减少干扰
将所有文本,采用子文件夹工具进行分类
进行赋码,方便教学研究
教材语料库命名举例
A3SMAU1A
出版信息: A:外研社 3:第三次修订版本
分级: S:高中,J:初中,E:小学
分模块:MA:第一模块,7A:七年级上
分单元、板块: U1:第一单元
A: Welcome板块
B2J7AU2B
高考真题及模拟题语料库
按篇切分,将每篇的阅读文本和题项单独存放
按文体分类,提炼文体特点
按话题分类,提炼话题词汇或拓展话题文本
2016新课标“四选一’ 阅读理解A篇的文本:
2016XKA 1
2015新课标“短文改错”:2015XKP1
中考真题语料库
按篇切分,将每篇的阅读文本和题项单独存放
按文体分类,方便发现-些语 篇特点
按话题分类,方便进行词汇或阅读教学
2016安徽中考卷阅读理解A篇的文本: 2016AHA1
2015新疆中考卷“对话配对”: 2015XJM1
Lesson8 如何创建小型教学语料库
教学语料库设计的原则
文本信息录入及文本赋码
文本文头信息
<GENDER>F</GENDER>,性别:男生M,女生F
<GRADE>1</GRADE>学生所在年级
<SCORE> 19.0</SCORE>分数
<WRITINGDATE> 20160725</WRITINGDATE>如果是平时作文,注明写作的大致日期,按八位数字的写法
<YEAR>2014</YEAR>学生入学(高中/初中)的年份
书面语语料库文头文件
<DICTIONA RY>N</DICTIONARY> (不许字典)
<ENGTEXTBOOK>ADVANCE_WITH_ENGLISH</ENGTEXTBOOK>
<GENDER>M</GENDER>
<GRADE> 1</GRADE>
<ID>01141001</ID>
<PROMPT>AFTER_SCHOOL_ACTIVITIES</PROMPT>
<SCORE> 20</SCORE>
<STYLE>ARG</STYLE>
<TEXTCATEGORY>ASSIGNMENT</TEXTCATEGORY>
<WRITINGDATE> 2014 1001 </WRITINGDATE>
<YEAR> 2014</YEAR>
Raw Text (生文本)
In our school, students are offered much time for after-class activities. Students can do any sports which they like during break time. Between 9:10 a.m. and 9:30 a.m. every eekday
except Monday, students in all the three rades do activities together. Boys in Grade 1 are required to do martial arts while girls are taught to dance.
赋码文本
标点后要空格
录入时,标点要用半角
语料库创建所需软件介绍
Lesson 6 语料库软件第二大功能-- N- gram list词表相关功能
1.N-gram list 词表 (涉及1个语料库)
使用NESSIE语料库 RAW
1⃣️N-gram list--- count--freq.(按照频率排序) terms(按照首字母顺序排序)-- word改为Lemma(包含各种屈折形式)--右下角save可以保存词表
2⃣️保存一份length为2的词表
2.Key words list 主题词表 (涉及两个语料库之间的对比)
主题词指的是: -个语料库相对于另一个语料库,频数存在显著差异的词。
生成主题词表需要两个语料库,一个是用于观察和分析的语料库,称为“ 观察语料库”(observed corpus)另个是用于对比的语料库,称为“参照语料库”(reference corpus).
案例:中国中学生与本族语者作文主题词分析
语料库位置:
中国中学生作文语料库TECCL
2017 Corpus\01 Texts\01 软件操作\02 L earner corpora\TECCL middle school samples\TECCL middle_ school RAW
英美本族语者作文语料库NESSIE
2017 Corpus\01_ Texts\O1_ 软件操作\01_ native corpora INESSIEvl. OINESSIEvl RAW
首先加载TECCL语料库,生成一份词表--点击右下角Keyness--点击左上角Load Ref.wordlist--选择之前保存的NESSIE语料库的词表-- count
(显示的结果是中国中学生常用的一些词)
Lesson5
2.Collocation & Colligation 搭配&类联接
以look为例
输入@look--点击sort--设置sort mode (R1 代表 右1)-点击右下角 Coll.--Coll.Span 左边设置为0右边设置为1 (搭配)
-- Data Type选择POS--点击count 会显示look后常接的词性 (类联接)
Lesson4 语料库软件基本操作
一、检索相关功能
1.concordance词汇索引
raw 生文本
pos词性赋码后的文本
举例1:
is (左下角显示出现的频数)
is|was (|表达“或”的意思;右下角statistics可以查看具体分布)
@be (检索be动词所有形式)
举例2: (*用以匹配任意一个单词)
a * day
at the * of
举例3:(词性码)
JJ (形容词)
NN1 (单数名词)
JJ NN1 (检索形容词修饰单数名词的情况)
举例4: (#放在磁性类别码之前,匹配该词性大类对应的各词性码子类, 如 #n匹配所有的名词)
#n (Reduce Pos--- sys--Reduce_POS_CLAWS7)
#adv important (检索有哪些副词会用来修饰important)
#adv different
举例5:(混合表达式)
@be VVN (检索be动词加过去分词的情况)
@be #adv VVN (检索被动语态中间加副词的情况)
it @be #adj that (检索it作形式主语的情况)
举例6:(检索框上面的case是区分大小写功能)
选中case 输入However (检索大写However也即用于句首的情况)
选中case 输入however (检索however在句中的使用情况)
举例7: (批量检索--检索框上的 Batch Search)
新建一个txt文档--输入要批量检索的所有词汇--在检索框中选中Batch Search--点击load list选中txt文档--点击search
小结:
练习题:
检索下列语言形式: