首页 | 本学科首页   官方微博 | 高级检索  
     

基于双字Hash机制的交通信息分词算法研究
引用本文:李澎林,张献力,李伟. 基于双字Hash机制的交通信息分词算法研究[J]. 浙江工业大学学报, 2014, 42(6): 596-600
作者姓名:李澎林  张献力  李伟
作者单位:浙江工业大学计算机科学与技术学院,浙江杭州,310023
基金项目:国家863重大项目,浙江省自然科学基金资助项目
摘    要:互联网页面文本挖掘是大数据时代快速获取广域实时专题信息的重要技术手段.针对公众出行服务和交通相关应用,互联网页面中所蕴含的交通信息极具价值,但需要借助有效的自然语言分词方法来实现语义理解过程.针对互联网文本页面中蕴含交通信息的表达特点,设计了一种基于双字Hash和List相结合的三层词典数据结构,提出了一种改进的最大匹配分词算法,该算法在切分过程中增加了对关键词汇的词库归属性判断,保存了根据各个词库切分出来的关键词汇的个数与顺序,使其能够更好地满足自然语言语义理解的需求;同时,算法考虑了交通信息词库中词的长度分布,采用分治方法实现对长句或组合句的有效处理.实验表明:所提出的互联网文本页面蕴含交通信息的中文分词算法具有较好的精度和效率,可以满足互联网页面蕴含交通信息的实时分词需求,为交通信息文本的语义理解奠定了技术基础.

关 键 词:自然语言理解  文本挖掘  交通信息  双字Hash  最大匹配

Research on word segmentation algorithm based on double-Hash for traffic information
LI Peng-lin,ZHANG Xian-li,LI Wei. Research on word segmentation algorithm based on double-Hash for traffic information[J]. Journal of Zhejiang University of Technology, 2014, 42(6): 596-600
Authors:LI Peng-lin  ZHANG Xian-li  LI Wei
Affiliation:LI Peng-lin;ZHANG Xian-li;LI Wei;College of Computer Science and Technology,Zhejiang University of Technology;
Abstract:
Keywords:natural language understanding  text mining  traffic information  double-Hash  maximum match
本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号