文本:可以用记事本打开的 真实的连续的口语或笔语
标注:对文本加以标记 元信息标注:1.文头信息的标注,非语言信息(出版商,年代,作者等) 2.词性标注:文本词性进行标注
形符(token):独立单词 类符(type):独立词形 类形符比(TTR):类符/形符 标准类形符比:STTR 频数:出现的次数 频率:经过标准化计算的次数
搭配(collocation):词语间的关系 类链接(colligation):词语在语法层面的关系
多词序列:词块,n元组 语义韵:积极消极中性
文本:可以用记事本打开的 真实的连续的口语或笔语
标注:对文本加以标记 元信息标注:1.文头信息的标注,非语言信息(出版商,年代,作者等) 2.词性标注:文本词性进行标注
形符(token):独立单词 类符(type):独立词形 类形符比(TTR):类符/形符 标准类形符比:STTR 频数:出现的次数 频率:经过标准化计算的次数
搭配(collocation):词语间的关系 类链接(colligation):词语在语法层面的关系
多词序列:词块,n元组 语义韵:积极消极中性
语料库基本概念
文本、标注
3.1文本
生文本:未经任何标注的语料
标注文本:经过人工标注或自动标注的语料
标注文本使生文本获得了“增值”
3.2标注
利用各种标签对语料库中的文本的各种属性加以标记。
目的是为了方便开展不同目的的研究。
元信息标注:有关语料库文本的非语言信息。包括引用源、出版商、作者等。
词性赋码(POS tagging):对文本的词性进行标注。
3.3词、形符、类符、类符/行符比
形符token:文本中任何一个独立的单词
类符type:文本中任何一个独特的词行
类行符比type-tpken ratio,TTR
标准类形符比STTR:较为可靠的测量工具
3.4频数、频率
频数frequencies:出现的次数
频率frequency:经过标准化计算得出的次数
3.5搭配、类联接
搭配collocation:词语之间的结伴关系
类联接colligation:词类及语法层面的结伴关系
类联接是搭配的更高层次,与语言的句法方面有密切关系。
3.6多词序列、语义韵
多词序列:词块lexical chunks、词簇word clusters、预制语块prefabricaed chunks、套语formulaic sequences、N元祖N-grams
语义韵:一个词项和一个词项和它的搭配词搭配在一起产生的语义氛围,分为积极、消极和中性三种。
Lesson3 语料库的基本概念
1.文本
2.标注
元信息标注
词性赋码
3.词、形符、类符、类符/形符比
形符:文本中任何一个独立的单词
类符:文本中任何一个独特的词形
类形符比 TTR
标准类形符比 STTR
4.频数、频率
5.搭配、类联接
搭配:词与词之间的关系
类联接:词在语法之间的关系
6.多词序列、语义韵