工具:
DocToTxt批量转格式工具
文本整理器,清洁文本
Tree Tagger 3.0 自动词性赋码器
CLAWS 7 POS 工具
Sub-corpus Creator 子文件夹创建工具
工具:
DocToTxt批量转格式工具
文本整理器,清洁文本
Tree Tagger 3.0 自动词性赋码器
CLAWS 7 POS 工具
Sub-corpus Creator 子文件夹创建工具
doctotext
提前新建文件夹 eg. 01txt
文本整理器(批量处理)
tree-tagger(标注软件)
子文件夹创建工具
非空格 \S+
e.g. >F< 女生作文
创建语料库可用工具:
1.DocToTxt 批量转格式工具
2.文本整理器 清洁文本
3.Tree Tagger 3.0 自动词性赋码器
4.CLAWS 7 POS 工具
5.Sub-corpus Creator 子文件夹创建工具
步骤:先将文件转为txt格式;再处理空格和全角(批量处理是:点击“批量处理”
,添加整理方案 tree-tagger赋码, “open-dir”打开文件夹)
DocToTxt批量转格式工具
文本整理器 清洁文本
Tre Tagger 3.0 自动词性赋码器
CLAWS7 POS 工具
Sub-corpus Creator子文件夹创建工具
一、创建小型教学语料库:
1.教学语料库设计的原则
a.教学针对性原则
b.实用性原则
c.开放性、资源共享原则
2.文本信息录入及文本赋码
3.语料库创建所需软件介绍
二、语料库设计的特点:
1.需要搜集的语料类型和文类
2.语料来源及获取语料的方法
3.入库文本的基本格式及编码
语料库创建所需软件介绍
第一步:将文件转为txt格式。
第二步: 处理空格和全角批量处理是,点击“批量处理”
添加整理方案
———————————————————
tree-tagger赋码
“open-dir”打开文件夹
可以备份。
———————————————————
基于所有都是txt文本,可以尝试一下检索式
表示非空格
注意提前创建存储的文件夹
例如:
表示检索所有福建卷的内容
其二, 针对不同档
可以表达为
又例如,
表示以1结尾的非空格文本。
注意:
界定要清楚
检索非空格,要
————————
检索文头文件
如检索18分的
检索出含有sport的文本
DocToTxt批量转换格式工具
文本清洁器:批量修改
Tree Tagger 自动词形赋码器
Doc ToTxt批量转格式工具
文本整理器 清洁文本
Lesson 9
语料库创建所需软件介绍
创建语料库可用工具
思考题
自建学生笔语语料库,学生作文错误是改动还是不改动?
子文件夹创建工具的用途是什么?