首页 | 本学科首页   官方微博 | 高级检索  
     

一种基于Token匹配的中文数据清洗方法
引用本文:刘嘉,张璟,李军怀.一种基于Token匹配的中文数据清洗方法[J].计算机应用与软件,2009,26(11):43-45,53.
作者姓名:刘嘉  张璟  李军怀
作者单位:西安理工大学计算机科学与工程学院,陕西,西安,710048
基金项目:国家高技术研究发展计划(863)课题,陕西省科技计划项目,西安市科技局应用发展研究项目 
摘    要:拼写错误和缩写问题是中文数据清洗的核心问题,目前相关研究还很欠缺。提出了一种基于Token匹配的中文数据清洗方法,将中文字符串转换成拼音字符串,采用Token匹配算法检测处理中文数据中的"脏数据"。实验表明,提出的方法能够有效地提高数据的准确度,大大减少了人工工作量。

关 键 词:中文数据清洗  Token  拼写错误  缩写

AN APPROACH FOR CHINESE DATA CLEANING BASED ON TOKEN
Liu Jia,Zhang Jing,Li Junhuai.AN APPROACH FOR CHINESE DATA CLEANING BASED ON TOKEN[J].Computer Applications and Software,2009,26(11):43-45,53.
Authors:Liu Jia  Zhang Jing  Li Junhuai
Abstract:
Keywords:Token
本文献已被 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号