首页 | 本学科首页   官方微博 | 高级检索  
     

基于字频分布的中文网页编码识别算法
引用本文:侯整风,张浩,张娜.基于字频分布的中文网页编码识别算法[J].计算机工程,2014(12).
作者姓名:侯整风  张浩  张娜
作者单位:1. 合肥工业大学计算机与信息学院,合肥,230009
2. 安徽移动淮南分公司,安徽 淮南,232001
基金项目:教育部广东省产学研基金资助项目(2009B090200049)。
摘    要:编码识别是网页内容过滤的必要前提,多种中文编码共存给中文网页的内容过滤带来不便。针对上述问题,提出一种基于字频分布的中文网页编码识别算法。根据汉字的使用频率,选取使用频度较高的字符构成高频字符编码表,以高频字符编码作为关键字,使用改进的模式匹配算法查找待识别网页,并统计匹配次数。将编码的匹配结果作为分析的依据,最终判定待识别网页的真实码制。实验结果证明,与Unigram算法相比,该算法对目前通用的中文编码识别率较高,适合对未知编码的中文网页进行快速编码识别。

关 键 词:中文编码  网页过滤  高频字符  模式匹配  有限状态自动机

Chinese Webpage Encoding Identification Algorithm Based on Word Frequency Distribution
HOU Zhengfeng,ZHANG Hao,ZHANG Na.Chinese Webpage Encoding Identification Algorithm Based on Word Frequency Distribution[J].Computer Engineering,2014(12).
Authors:HOU Zhengfeng  ZHANG Hao  ZHANG Na
Abstract:
Keywords:Chinese encoding  Web filtering  high frequency characters  pattern matching  finite state automata
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号