首页 | 本学科首页   官方微博 | 高级检索  
     

面向增量同生主题的维吾尔文爬虫的研究
引用本文:赵永霄,哈力旦·阿布都热依木,张振东.面向增量同生主题的维吾尔文爬虫的研究[J].计算机应用研究,2014(11).
作者姓名:赵永霄  哈力旦·阿布都热依木  张振东
作者单位:新疆大学 电气工程学院,乌鲁木齐,830047
基金项目:国家自然科学基金资助项目
摘    要:针对传统的主题爬虫对网页信息缺乏在知识层面上的处理和理解的问题进行了研究,提出了一种面向增量同生主题的维吾尔文爬虫,通过建立一个增量主题词库优化传统的主题模型,来描述维吾尔文关键词的应用语境及场景,提高了计算网页相关度的准确率。用改进的IC主题敏感算法来预测子页面优先级,过滤无关的网页地址。依据上述方法编写爬虫系统,用构建的维吾尔文语料库进行实验,表明了基于此模型的爬虫具有更好的稳定性和准确度。

关 键 词:网络爬虫  网页分类  IC主题模型  锚文本  维吾尔文

Research for Uyghur crawler face to incremental contemporaneous topic
ZHAO Yong-xiao,Halidan Abudureyimu,ZHANG Zhen-dong.Research for Uyghur crawler face to incremental contemporaneous topic[J].Application Research of Computers,2014(11).
Authors:ZHAO Yong-xiao  Halidan Abudureyimu  ZHANG Zhen-dong
Abstract:
Keywords:Web crawler  pages classification  IC topic model  anchor text  Uyghur
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号