排序方式: 共有1条查询结果,搜索用时 4 毫秒
1
1.
互联网页面文本挖掘是大数据时代快速获取广域实时专题信息的重要技术手段.针对公众出行服务和交通相关应用,互联网页面中所蕴含的交通信息极具价值,但需要借助有效的自然语言分词方法来实现语义理解过程.针对互联网文本页面中蕴含交通信息的表达特点,设计了一种基于双字Hash和List相结合的三层词典数据结构,提出了一种改进的最大匹配分词算法,该算法在切分过程中增加了对关键词汇的词库归属性判断,保存了根据各个词库切分出来的关键词汇的个数与顺序,使其能够更好地满足自然语言语义理解的需求;同时,算法考虑了交通信息词库中词的长度分布,采用分治方法实现对长句或组合句的有效处理.实验表明:所提出的互联网文本页面蕴含交通信息的中文分词算法具有较好的精度和效率,可以满足互联网页面蕴含交通信息的实时分词需求,为交通信息文本的语义理解奠定了技术基础. 相似文献
1