分档作文的主题词和主题词块研究
Doc ToTxt批量转格式工具
文本整理器 清洁文本
语料库与教材编写
大规模电子文本
Concordance 词汇索引
Collocation/Colligation 搭配/类联接
词性类别:n名词 v动词 adj形容词 adv副词 pron代词 art冠词 det限定词 conj连词 prep介词 num数词
Case 区分大小写 Batch Search 批量检索(先新建一个文本,将需要检索的词输入进去,然后再导入到软件中)
|(同时检索两个,如is | was) @(检索同一屈折的词,如@be) #(检索同一词性类别的词,如#adj)
文本:可以用记事本打开的 真实的连续的口语或笔语
标注:对文本加以标记 元信息标注:1.文头信息的标注,非语言信息(出版商,年代,作者等) 2.词性标注:文本词性进行标注
形符(token):独立单词 类符(type):独立词形 类形符比(TTR):类符/形符 标准类形符比:STTR 频数:出现的次数 频率:经过标准化计算的次数
搭配(collocation):词语间的关系 类链接(colligation):词语在语法层面的关系
多词序列:词块,n元组 语义韵:积极消极中性
N-gram 词表
Term(s) 按字母排序
Freq. 按频率排序
Data Type——Lemma 将单词合并为屈折词
Save——保存作用
Length表示词块数
生成主题词的语料库
1.observed corpus
2.reference corpus
先打开观察语料库(Row)
Keyness——加载参照语料库——Load Ref. Wordlist
(可通过改变Length数值,比较不同词块)
sort 排序 sort mode 左/右
coll 排序统计 coll. span 排序间距
log-likehood 数值越大,搭配强度越大
课时4
创建语料库 BFSU PowerConc
加载的语料库是一个文件夹
file :一个
row 生文本
"|”"@#" "a * day" (匹配任意一个单词)
statistic 统计
词性码
JJ 形容词
NN1 单数名词
NN2 复数名词
JJ NN1
Tips: #n 匹配所有的名词
eg: #adv important
混合检索 eg: 被动语态 “@be VVN" "@be #adv VVN" "it @be #adj that"
case----表示现在输入的单词要区分大小写
batch———批量检索(先要建立一个需要检索的单词的文本,再导入到软件中进行检索)
语料库
~。
i话料库
任务七:教学语料库设计的原则
第一部分:教学语料库设计的原则
一
搭配和类联接
1.以look为例 @look
|
定义:按照一定的语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片段而建立的具有一定容量的大型电子文库。
类型:
通用语料库:大而全,代表一种语言的全貌
(BNC,COCA,BROWN- LOB,CROWN-CLOB)
专用语料库:特性领域的语料库样本
笔语语料库:书面语形式(报刊,书籍,论文等)
口语语料库:口语转写的文本合集,有时也包括语音文本
共时语料库:同一时代的语言使用者样本(横向)
历史语料库:不同时代的语言使用者样本(纵向)
本族语者语料库:本族语者(作为大型参照)
学习者语料库:非本族语学习者(CLEC,SWECCL)
单语语料库:同一种语言
双语语料库:两种语言(多用于翻译)
语料库——大规模电子文本库
通用语料库:BNC(英国) COCA(美国)
笔语语料库/口语语料库
共时语料库(横向)/历时语料库(纵向)
本族语者语料库/学习者语料库——CLEC、SWECCL
单语语料库/双语/多语语料库