工具:
DocToTxt批量转格式工具
文本整理器,清洁文本
Tree Tagger 3.0 自动词性赋码器
CLAWS 7 POS 工具
Sub-corpus Creator 子文件夹创建工具
工具:
DocToTxt批量转格式工具
文本整理器,清洁文本
Tree Tagger 3.0 自动词性赋码器
CLAWS 7 POS 工具
Sub-corpus Creator 子文件夹创建工具
教材语料库命名:
出版信息,分级,分模块,分单元。
按篇切分,按文体分类,按话题分类。
doctotext
提前新建文件夹 eg. 01txt
文本整理器(批量处理)
tree-tagger(标注软件)
子文件夹创建工具
非空格 \S+
e.g. >F< 女生作文
创建小学教学语料库的意义
设计原则
1.教学针对性原则(教材试题音频口语) 2. 实用性 3.开放性、资源共享原则
语料的代表性及平衡问题——阅读文本低于300词的文本不采纳(根据实际情况调整)
创建语料库可用工具:
1.DocToTxt 批量转格式工具
2.文本整理器 清洁文本
3.Tree Tagger 3.0 自动词性赋码器
4.CLAWS 7 POS 工具
5.Sub-corpus Creator 子文件夹创建工具
步骤:先将文件转为txt格式;再处理空格和全角(批量处理是:点击“批量处理”
,添加整理方案 tree-tagger赋码, “open-dir”打开文件夹)
文本信息:
1.文头信息——言语言信息
2.生文本——raw
3.赋码文本——Tree-Tagger
注意比较生文本和赋码文本
语料库的设计:语料库建设最重要的环节,直接
影响到语料库的质量和使用。语料库的设计要遵循以下三个原则:
教学针对性原则
实用性原则
开放性、资源共享原则
教学性针对原则有以下几个板块:教材语料库、试题语料库、音频及视频语料库学生口笔语语料库
实用性原则的重点是建立“微型文本”,即按照不同的教学目标,从大型语料库中提取目标
语料制作微型文本,适应课堂教学的要求。
采用自动赋码标软件进行词性和语法标注。
开放性、资源共享原则体现在以下几个方面:1、团队合力参与语料的收集、整理和筛选
2.实现语料的动态更新和即时补充
3.在保证语料质量的前提下尽量扩大库容量,使语料库更具代表性
4.实现资源的开放和共享
一、创建小型教学语料库:
1.教学语料库设计的原则
a.教学针对性原则
b.实用性原则
c.开放性、资源共享原则
2.文本信息录入及文本赋码
3.语料库创建所需软件介绍
二、语料库设计的特点:
1.需要搜集的语料类型和文类
2.语料来源及获取语料的方法
3.入库文本的基本格式及编码
文本信息录入及文本赋码:
1.文本文头信息
2.书面语语料库文头文件
3.Raw Test
4.赋码文本(Tree-Tagger 3.0)
5.生文本及赋码文本比较
6.带文头信息文本 (with metadata)
7.文本录入中的小问题
a.撇号不对
b.标点符号后面的单词与标点符号之间无空格
DocToTxt批量转格式工具
文本整理器 清洁文本
Tre Tagger 3.0 自动词性赋码器
CLAWS7 POS 工具
Sub-corpus Creator子文件夹创建工具
文本信息录入、文本赋码
(1)文头信息——言语言信息
(2)生文本——raw
(3)赋码文本——Tree-Tagger
注意比较生文本和赋码文本
1. 课程标准的语言知识;内容检索和重组——用教材教
2.中小学的缺少的部分——多模态,吸收到最多百分之五十左右。
3.历时跟踪;常见错误分析
一、创建小型教学语料库:
1.教学语料库设计的原则
a.教学针对性原则
b.实用性原则
c.开放性、资源共享原则
2.文本信息录入及文本赋码
3.语料库创建所需软件介绍
二、语料库设计的特点:
1.需要搜集的语料类型和文类
2.语料来源及获取语料的方法
3.入库文本的基本格式及编码
语料库创建所需软件介绍
文本信息录入及文本赋码
文本文头信息
生文本:无任何附加信息
赋码文本:“_赋码信息”
带文头信息的
1. 课程标准的语言知识;内容检索和重组——用教材教
3. 中小学的缺少的部分——多模态,吸收到最多百分之五十左右。
4. 历时跟踪;常见错误分析
(三)文本信息录入、文本赋码
1.文本信息
(1)文头信息——言语言信息
(2)生文本——raw
(3)赋码文本——Tree-Tagger
注意比较生文本和赋码文本
语料库与词典编纂对词汇教学的启示:
1.词汇的广度与深度知识,词汇的搭配,类联结,语义韵以及同义词和反义词都是词汇教学的重要部分。
2.词汇教学需要核心词汇(高频词)优先。
3.词汇教学需要重视词块教学,语用教学。