第二部分: N-gram list作用
1. 相关功能:
N-gram list
选中源文件后,点击任务栏上方的N-gram,对word 或其他的长度尽心那个搜索,点击count得出频率
第二部分: N-gram list作用
1. 相关功能:
N-gram list
选中源文件后,点击任务栏上方的N-gram,对word 或其他的长度尽心那个搜索,点击count得出频率
1、N-gram list 词表
Keyword list 主题词表
2、Tokens:语料库的大小
N-gram 词表
Term(s) 按字母排序
Freq. 按频率排序
Data Type——Lemma 将单词合并为屈折词
Save——保存作用
Length表示词块数
生成主题词的语料库
1.observed corpus
2.reference corpus
先打开观察语料库(Row)
Keyness——加载参照语料库——Load Ref. Wordlist
(可通过改变Length数值,比较不同词块)
Lesson 6 语料库软件第二大功能-- N- gram list词表相关功能
1.N-gram list 词表 (涉及1个语料库)
使用NESSIE语料库 RAW
1⃣️N-gram list--- count--freq.(按照频率排序) terms(按照首字母顺序排序)-- word改为Lemma(包含各种屈折形式)--右下角save可以保存词表
2⃣️保存一份length为2的词表
2.Key words list 主题词表 (涉及两个语料库之间的对比)
主题词指的是: -个语料库相对于另一个语料库,频数存在显著差异的词。
生成主题词表需要两个语料库,一个是用于观察和分析的语料库,称为“ 观察语料库”(observed corpus)另个是用于对比的语料库,称为“参照语料库”(reference corpus).
案例:中国中学生与本族语者作文主题词分析
语料库位置:
中国中学生作文语料库TECCL
2017 Corpus\01 Texts\01 软件操作\02 L earner corpora\TECCL middle school samples\TECCL middle_ school RAW
英美本族语者作文语料库NESSIE
2017 Corpus\01_ Texts\O1_ 软件操作\01_ native corpora INESSIEvl. OINESSIEvl RAW
首先加载TECCL语料库,生成一份词表--点击右下角Keyness--点击左上角Load Ref.wordlist--选择之前保存的NESSIE语料库的词表-- count
(显示的结果是中国中学生常用的一些词)