1、网页处理。删除标签区间或所有标签,转换网页转义符为实体字符。
2、文本替换。支持多行文本替换,支持并行符“|”隔开多组替换内容对应替换,支持正则表达式替换。
3、空行空格缩进。支持空行处理(删除所有空行、每行插入空行、保持间隔一行),空格处理(删除行首空、删除行尾空、删除行首尾空、删除全部空),缩进处理(Tab符或空格缩进),删除非段落换行
4、转换字符。转换汉字繁简体,转换字母大小写,转换字节全半角。
5、行首尾插入。在行的行头和行尾插入字符。
6、标点转换。英文标点到中文,中文标点到英文,删除多余标点符号。
7、删除字符。删除网址,删除邮箱,删除数字或连续数字,删除字母,删除汉字,删除其他符号。
8、去重打乱。可按指定符号分割数据,进行去除重复处理、打乱处理。
9、关键词插入。可全文随机插入和每隔指定字数插入。
10、插入。可以在文章头部或尾部或其他指定位置插入固定的一串文本
11、换行。可以每距离几个句子自动换行,并且支持在这么做之前取消原先所有换行。
12、截取。可以截取左边和右边字符之间的内容作为新内容(重组内容)或在原文中将其删除,截取方法还支持精确标签、正则提取等,支持截取所有符合的内容(而不仅仅是第一个符合内容)。
13、过滤。敏感字词过滤、替换