基于主题模型的深层网数据源选择算法 |
| |
作者姓名: | 王秋月 曹巍 史少晨 |
| |
作者单位: | 中国人民大学 信息学院, 北京 100872 |
| |
基金项目: | 国家自然科学基金资助项目(61202331,61472425);软件工程国家重点实验室开放研究基金资助项目(SKLSE2012-09-33)。 |
| |
摘 要: | 联邦搜索是从大规模深层网上获取信息的一种重要技术。给定一个用户查询,联邦搜索系统需要解决的一个主要问题是数据源选择问题,即从海量数据源中选出一组最有可能返回相关结果的数据源。现有的数据源选择算法大多基于数据源的样本文档集和查询之间的关键词匹配,通常无法很好地解决少量样本文档的信息缺失问题。针对这一问题,提出了基于隐含狄利克雷分布(LDA)主题模型进行数据源选择的方法。首先,使用LDA主题模型获得数据源和查询的主题概率分布;然后,通过比较两者主题概率分布的相近性来对所有数据源进行排序。通过将数据源和查询映射到低维的主题空间来解决高维词条空间稀疏性所带来的信息缺失问题。在TREC FedWeb 2013和2014 Track的测试集上分别进行了实验,并和其他参赛方法的结果进行了比较。在FedWeb 2013测试集上的实验结果显示比其他参赛方法的最好结果提高了24%;在FedWeb 2014测试集上的实验结果显示比传统的基于小文档和大文档的关键词匹配方法分别提高了22%和43%。另外,使用文档片段来代替文档还可以大幅提升系统的效率,更增加了此方法的实用性和可行性。
|
关 键 词: | 深层网 主题模型 隐含狄利克雷分布 数据源选择 联邦搜索 |
收稿时间: | 2015-04-07 |
修稿时间: | 2015-05-05 |
本文献已被 万方数据 等数据库收录! |
| 点击此处可从《计算机应用》浏览原始摘要信息 |
|
点击此处可从《计算机应用》下载全文 |
|