
啄木鸟校对是国内一流的汉字校对软件,由北京点连汇科技有限公司开发。它整合了人工校对的逻辑,完全按人的思路进行校对,它不但可以轻松找出各类出版物、网站、文稿、公众号、报纸、杂志中的错别字、敏感词,并提示最佳搭配,还可以找出句中搭配不当、多余累赘、语序不当、语意重复、前后矛盾、含糊不清、用词不当、指代不明、成分残缺、不合事理、分类不当、关联词语不当等成分,做到规范版面语言,提高编校质量。
可以校对出同音错别字、敏感词、禁用词、慎用词、数字与固定格式错误、成语错误、形似错别字、地名隶属关系混乱、量词的错误使用、成分残缺、词语用法错误、词性相似导致混用、语序错误、专有名词拼写错误、高频词使用错误、非规范字使用错误、英文单词拼写错误、标点符号错误等30多种错误。
啄木鸟校对是国内一流的汉字校对软件,由北京点连汇科技有限公司开发。它整合了人工校对的逻辑,完全按人的思路进行校对,它不但可以轻松找出各类出版物、网站、文稿、公众号、报纸、杂志中的错别字、敏感词,并提示最佳搭配,还可以找出句中搭配不当、多余累赘、语序不当、语意重复、前后矛盾、含糊不清、用词不当、指代不明、成分残缺、不合事理、分类不当、关联词语不当等成分,做到规范版面语言,提高编校质量。
啄木鸟人工智能校对软件与其它校对软件不同,不依赖大量的词库做对比校对。大多数校对软件的词组少则过1000万,多则上亿,如此庞大的词组,需要云端服务器或者单独的服务器做支撑。校对的时候,需要先将校对的内容上传至服务器,然后返回校对结果。这样是无法保证内容安全性的,即使局域网,也无法确保文件不在部门之间传阅。
啄木鸟校对云词库管理中心有一个智能校对机器人,通过阅读无错的内容完成以下操作。
在校对的过程中,遇到一些难以校对的内容,啄木鸟人工智能校对软件会试探更换近义词或者相似词到当前词境中,通过计算与周围词语的搭配度,给出最佳的结果。
校对字典用于存储语素与校对逻辑的文件,以行为单位存储,是词性容错分词法的基础,文件名称(dictionary.dic),存放在安装目录的D8文件夹内,以新华字典、成语字典、现代汉语字典为基础标准,并且收录各行各业的专有名词,目前为止。
共收录汉字:63922个。
通用规范字:8105个,详细查看《通用规范汉字表》。
一级字表为常用字集,收字3500个,主要满足基础教育和文化普及的基本用字需要。
二级字表收字3000个,使用度仅次于一级字。一、二级字表合计6500字,主要满足出版印刷、辞书编纂和信息处理等方面的一般用字需要。
三级字表收字1605个,是姓氏人名、地名、科学技术术语和中小学语文教材文言文用字中未进入一、二级字表的较通用的字,主要满足信息化时代与大众生活密切相关的专门领域的用字需要。
专有名词:105万,覆盖科技、医疗、政治、娱乐、文学、自然、交通、地理、中药、体育、饮食、网络等行业。
校对字典有三部分组成,汉语语素文件(dict.txt)、英语语素文件(endict.txt)。
汉语语素数据结构包含:全拼音、拼音、繁体、词频、反义词、近义词、语义、正确词、色彩(褒义、贬义、中性)、词性标注、功能分类、逻辑分类组成。
可标注的词性有:名词、动词、能愿、趋势、形容词、数词、代词、叹词、拟声词、量词、助词、副词、连词、介词、标点、姓氏、人物、 物品、时间、方位、行为、发展、心理、命令、判断、存现、形状、性质、状态、动量、名量、时量、确数、序数、概数、数学、重复、情态、范围、程度、时态、语气、疑问、指示。
功能分类的词性有:规范字、可分隔、 错词、敏感词。
逻辑分类的词性有:自然、中药、植物、动物、食物、人称、微生物、体育、化学、金融、交通、健康、网络、物理、地名、历史。
英语语素结构包括:单词、词频、词性标注、色彩(褒义、贬义、中性)。
可标注的词性:名词、名词复数、动词、及物动词、不及物动词、现在分词、过去分词、形容词、代词、感叹词、连词、敏感词组成。
大家都知道,汉语词性由名词、动词、形容词、数词、代词、叹词、拟声词、量词、助词、副词、连词、介词组成。除了名词数量日益增长之外,其它词性的数量几乎不变。通过那些方式缩减:
第一种:词语搭配融合与提纯减少词组数据量。比如虎有:华南虎、东北虎、巴里虎、孟加拉虎、苏门答腊虎、白虎、雪虎、金虎等十几种,经过智能校对机器人提纯后变成了一个词组。如图所示:
第二种:同样的内容,由字母组合代替。
第三种:大多数词组是可以分解的,“黄河大桥”可以分解为“黄河”与“大桥”,只是增加了词语搭配,并不增加词库的条数。
根据《统计用区划代码和城乡划分代码编制规则》(国统字〔2009〕91号)行政区划分界定,校对字典中包含中国所有省、市、县/区、乡/镇/街道/、村五级行政划分的所有的地名以及隶属关系,也包含所有国家以及各国的主要城市,还包含中国所有的与世界主要的山川、河流、湖泊。
【1】、密云县、延庆县、莱芜市、内蒙古省、广西省COPYRIGHT © 北京点连汇科技有限公司 ALL RIGHTS RESERVED,网站备案:京ICP备18058313号-2