(0人评价)
语料库在基础英语教学及研究中的应用
价格 免费

工具:

DocToTxt批量转格式工具

文本整理器,清洁文本

Tree Tagger 3.0 自动词性赋码器

CLAWS 7 POS 工具

Sub-corpus Creator 子文件夹创建工具

[展开全文]

教材语料库命名:

出版信息,分级,分模块,分单元。

按篇切分,按文体分类,按话题分类。

[展开全文]

doctotext

提前新建文件夹 eg. 01txt

文本整理器(批量处理)

tree-tagger(标注软件)

子文件夹创建工具

非空格 \S+

e.g. >F< 女生作文

 

[展开全文]

创建小学教学语料库的意义

设计原则

1.教学针对性原则(教材试题音频口语) 2. 实用性 3.开放性、资源共享原则

[展开全文]

语料的代表性及平衡问题——阅读文本低于300词的文本不采纳(根据实际情况调整)

 

[展开全文]

创建语料库可用工具:
1.DocToTxt 批量转格式工具
2.文本整理器 清洁文本
3.Tree Tagger 3.0 自动词性赋码器
4.CLAWS 7 POS 工具
5.Sub-corpus Creator 子文件夹创建工具

步骤:先将文件转为txt格式;再处理空格和全角(批量处理是:点击“批量处理”
,添加整理方案 tree-tagger赋码, “open-dir”打开文件夹)

[展开全文]

 

文本信息:

1.文头信息——言语言信息

2.生文本——raw

3.赋码文本——Tree-Tagger

注意比较生文本和赋码文本

 

 

[展开全文]

语料库的设计:语料库建设最重要的环节,直接
影响到语料库的质量和使用。语料库的设计要遵循以下三个原则:
教学针对性原则
实用性原则
开放性、资源共享原则

教学性针对原则有以下几个板块:教材语料库、试题语料库、音频及视频语料库学生口笔语语料库

实用性原则的重点是建立“微型文本”,即按照不同的教学目标,从大型语料库中提取目标
语料制作微型文本,适应课堂教学的要求。
采用自动赋码标软件进行词性和语法标注。

开放性、资源共享原则体现在以下几个方面:1、团队合力参与语料的收集、整理和筛选
2.实现语料的动态更新和即时补充
3.在保证语料质量的前提下尽量扩大库容量,使语料库更具代表性
4.实现资源的开放和共享

 

[展开全文]

一、创建小型教学语料库:

1.教学语料库设计的原则

a.教学针对性原则

b.实用性原则

c.开放性、资源共享原则

2.文本信息录入及文本赋码

3.语料库创建所需软件介绍

二、语料库设计的特点:

1.需要搜集的语料类型和文类

2.语料来源及获取语料的方法

3.入库文本的基本格式及编码

[展开全文]

文本信息录入及文本赋码:

1.文本文头信息

2.书面语语料库文头文件

3.Raw Test

4.赋码文本(Tree-Tagger 3.0)

5.生文本及赋码文本比较

6.带文头信息文本 (with metadata)

7.文本录入中的小问题

a.撇号不对

b.标点符号后面的单词与标点符号之间无空格

[展开全文]

DocToTxt批量转格式工具

文本整理器 清洁文本

Tre Tagger 3.0 自动词性赋码器

CLAWS7 POS 工具

Sub-corpus Creator子文件夹创建工具

[展开全文]

文本信息录入、文本赋码

(1)文头信息——言语言信息

(2)生文本——raw

(3)赋码文本——Tree-Tagger

注意比较生文本和赋码文本

[展开全文]

1. 课程标准的语言知识;内容检索和重组——用教材教

2.中小学的缺少的部分——多模态,吸收到最多百分之五十左右。

3.历时跟踪;常见错误分析

[展开全文]

一、创建小型教学语料库:

1.教学语料库设计的原则

a.教学针对性原则

b.实用性原则

c.开放性、资源共享原则

2.文本信息录入及文本赋码

3.语料库创建所需软件介绍

二、语料库设计的特点:

1.需要搜集的语料类型和文类

2.语料来源及获取语料的方法

3.入库文本的基本格式及编码

[展开全文]

文本信息录入及文本赋码

文本文头信息

生文本:无任何附加信息

赋码文本:“_赋码信息”

带文头信息的

[展开全文]

1. 课程标准的语言知识;内容检索和重组——用教材教

3. 中小学的缺少的部分——多模态,吸收到最多百分之五十左右。

4. 历时跟踪;常见错误分析

[展开全文]
  • 创建语料库可用工具
  1. DocToTxt批量转格式工具
  2. 文本整理器   清洁文本
  3. Tre Tagger 3.0 自动词性赋码器
  4. CLAWS7 POS 工具
  5. Sub-corpus Creator子文件夹创建工具
[展开全文]

(三)文本信息录入、文本赋码

1.文本信息

(1)文头信息——言语言信息

(2)生文本——raw

(3)赋码文本——Tree-Tagger

注意比较生文本和赋码文本

[展开全文]

语料库与词典编纂对词汇教学的启示:

1.词汇的广度与深度知识,词汇的搭配,类联结,语义韵以及同义词和反义词都是词汇教学的重要部分。

2.词汇教学需要核心词汇(高频词)优先。

3.词汇教学需要重视词块教学,语用教学。

[展开全文]