一、语料管理
所有语料均存放于程序目录corpus文件夹中。
1、加入语料
可通过两种方式加入语料:一是直接复制语料(TXT文档)到corpus文件夹中,二是通过软件界面“加入语料”按钮进入加入语料操作界面进行操作。
2、删除语料
为确保不误删语料,软件界面上不提供删除语料的操作功能,只能从程序目录corpus文件夹中进行操作。
3、语料分类分级
在corpus文件夹根据语料类别建立新文件夹,以语料类别名称命名,即可建立一个语料类别。每个文件夹下的文件夹都算一个子类。比如建立一个“北方话”的文件夹,该文件夹下又可建立“东北话”、“西北话”、“北京话”等子文件夹,每个子文件夹下放入相应的语料TXT文档,软件运行后,即可在软件右侧文献列表中看到相应的树形目录。
二、语料检索
语料查询时,一定要先在文献列表中选中相应的文献。可以一次选择多篇文献后进行检索。
1、单个关键词检索
在关键词输入框中输入一个关键词,设置好左右显示字数(即关键词左右两侧的字数),点“搜索”按钮,就可以搜索到所选文献中含关键词的语句并显示到搜索提取语句列表中。
2、双关键词组合检索
在关键词输入框中输入两个关键词,两词之间以一个空格符号间隔,右侧设置关键词的配合模式(1、两关键词间隔字符数;2、第二词在第一词之后的多少字符范围内),点“搜索”按钮,即可检索出符合两关键词配合特点的语句并提取显示出来。
三、文献语句提取
1、提取对话句:选中文献,点“提取对话句”按钮,会将文献中引号内的对话语句提出出来以供进一上使用。
2、提取叙述句:选中文献,点“提取对话句”按钮,会将文献中对话之外的叙述句提取出来以供进一步使用。
3、提取所有语句:不区分对话和叙述类别,以汉语常用的断句标点作标记,按顺序逐句提取所有语句。由于是单线程方式提取,速度比较慢。字数较多的文献花的时间可能较多。