ROST中文字频统计分析软件官方版是一款占用空间十分小,且非常实用的的字频统计和分析软件,ROST中文字频统计分析软件官方版拥有丰富的功能,其为用户提供中文字频统计、中文词频统计、英文单词拼读、英文词组统计四大功能,可以快速对网页或文本内容进行统计分析,支持批量处理和字典工具。
功能介绍
1.统计一个文档中出现过的所有汉字及非汉字频度
2.统计一个文档中和另外一个字表对比之后超纲的词及词频数,对字频统计结果进行词频升序、词频降序、字母升序、字母降序排列
3.
词典工具具有超强功能:提取某个长度的词、删除首字符串含某字符串的词、提取尾字符串为某字符串的词、删除尾字符含某字符串的词、提取出首字符串为某字符串的词、字串的每一个词的unicode值或ASC值、提取尾字重复的字符串、词组排序、删除重复的字符串、删除含某个词串的词、将文本打散为一词一行、提取含某个词串的词、附带ASC码表、删除连续空格、任意提取单空格词组或多空格词组、删除词中含有的某些字符、剔除含有某些汉字或其他字符的行,提取某个字符串之前所有单词。对于普通文档可以将其打散后进行操作,本词典工具目前的处理速度尚未优化,准备在下一版本将词典工具单独拿出来,进行优化,以便处理极大的文档。
4.本软件一大特色是批量处理,用户可以批量选择一系列的文本文件,进行批量生成频度文件Fre。频度文件是一种包含字或词以及频度的自定义数据文件,是ROST的专有格式。通过Fre的定义,可以有效提高处理速度。对频度文件Fre的处理可以进行合集和交集的计算。合集得到所有频度文件的总和。而交集得到的是所有频度文件中都含有的文字。这在实际当中有何作用呢,可以对一系列文档进行交集提取,得到某个类型(如旅游类、计算机类)文档中的共同特征字。而合集则可以迅速对大文档进行处理,鉴于本软件的高速度,进行1000亿的文字统计也是可能的。
5.自定义过滤词表,可以使用菜单右键查看过滤词表,添加自己需要的过滤词。目前使用的过滤词表为空,用户可以自行增加。使用菜单保存词表之后将该文本文件覆盖软件目录下的dict目录下的compare.txt即可,使用过滤词可以非常方便的获得超纲的字有哪些。
6.从剪贴板统计文字。注意如果先点击了剪贴板统计文字,则非中文统计显示的是剪贴板里面的非中文,而不是文件里面的非中文