首页 | 本学科首页   官方微博 | 高级检索  
     

一种自动分类的网页搜索排序算法
引用本文:刘铭瑀,刘学亮,胡骏.一种自动分类的网页搜索排序算法[J].计算机应用研究,2019,36(1).
作者姓名:刘铭瑀  刘学亮  胡骏
作者单位:合肥工业大学计算机与信息学院,合肥,230009;合肥工业大学计算机与信息学院,合肥,230009;合肥工业大学计算机与信息学院,合肥,230009
基金项目:国家自然科学基金资助项目(61472116,61502139);安徽省自然科学基金资助项目(1608085MF128)
摘    要:针对传统网页排序算法Okapi BM25通常会出现网页与查询关键词领域无关的领域漂移现象,以及改进算法需要人工建立领域向量的问题,提出了一种基于BM25和Softmax回归分类模型的网页搜索排序算法。该方法首先对网页文本进行数据预处理并利用词袋模型进行网页文本的向量表示,之后通过少量的网页数据来训练Softmax回归分类模型,来预测测试网页数据的类别分数,并与BM25信息检索的分数结合在一起,得到最终的网页排序结果。实验结果显示该检索算法无须人工建立领域向量,即可达到很好的网页排序结果。

关 键 词:领域向量  BM25  softmax回归分类  网页排序
收稿时间:2017/7/24 0:00:00
修稿时间:2018/4/24 0:00:00

Web page search ranking algorithm using automatic classification
Liu Mingyu,Liu Xueliang and Hu Jun.Web page search ranking algorithm using automatic classification[J].Application Research of Computers,2019,36(1).
Authors:Liu Mingyu  Liu Xueliang and Hu Jun
Affiliation:School of Computer & Information, Hefei University of Technology,,
Abstract:In the traditional Web page ranking algorithm Okapi BM25, there exists a problem that the retrieval results are independent to the domain keywords, and the improved algorithm needs to build the domain vector manually. To address this issue, we propose a web page ranking algorithm based on BM25 and softmax regression classification model. In this method, we first encode the web page text with the bag-of-words model, and then train the softmax regression classification model by a small amount of web data to predict the category scores of the test web data. Finally we combine the category scores and the BM25 information retrieval scores to get the final ranking of web page results. Experiment results show that our method can meet the user''s information need better without even manually creating the domain vector.
Keywords:domain vector  BM25  softmax regression classification  Web page ranking
本文献已被 万方数据 等数据库收录!
点击此处可从《计算机应用研究》浏览原始摘要信息
点击此处可从《计算机应用研究》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号