首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到8条相似文献,搜索用时 0 毫秒
1.
SemreX: Efficient search in a semantic overlay for literature retrieval   总被引:1,自引:0,他引:1  
The World Wide Web is growing at such a pace that even the biggest centralized search engines are able to index only a small part of the available documents on the Internet. The decentralized structure, together with the features of self-organization and fault-tolerance, makes peer-to-peer networking an effective information-sharing model; however, content searching still remains a serious challenge of large scale peer-to-peer networks. In this paper we present SemreX, a semantic overlay for desktop literature/ document retrieval in peer-to-peer networks. We present a semantic overlay algorithm by which semantically similar peers are locally clustered together, and long-range connections are rewired for a short-cut in peer-to-peer networks. Based on the semantic overlay, a heuristic query routing algorithm is proposed for efficient content searching. We conduct a comprehensive simulation to evaluate the search performance of our algorithms. Results show that search in our SemreX semantic overlay greatly improves search efficiency.  相似文献   

2.
为了在不加入外部语义知识的前提下改善向量空间模型的文本分类效果,通过挖掘语料库内部蕴含的词间关系和文本间关系,并以不同的方式融入原始的词文本矩阵,然后选择常用的SVM和KNN算法,在领域性较强的法律语料库和领域性较宽泛的新闻语料库上进行文本分类的对比实验。实验证明,加入词间关系和文本间关系通常能有效改善文本分类的效果,但是对不同的分类方法和领域特征有不同的影响,在实际应用中应该区别对待。  相似文献   

3.
潜在语义标引在中文信息检索中的研究与实现   总被引:1,自引:1,他引:0       下载免费PDF全文
居斌 《计算机工程》2007,33(5):193-196
随着网络信息的迅猛发展,信息检索已经成为人们获取信息不可缺少的工具。基于向量空间模型的检索方法是语义检索的重要研究方向,潜在语义标引模型是向量检索方法的一个有力扩展。对LSI中所涉及的关键技术,包括传统的向量空间模型的原理,以及潜在语义索引模型的原理、设计、实现,进行了研究和探讨,同时开发了一个适合中文信息检索的系统原型。对系统进行了测试,取得了较好的实验效果。  相似文献   

4.
基于语义理解的智能搜索引擎研究   总被引:1,自引:0,他引:1  
本文提出了一种基于自然语言理解的搜索引擎模型.它的核心技术是基于自然语言理解的相关技术,包括从 关键词、提问方式、提问重点三个层次对用户查询进行语义分析、特征向量提取及基于该思想建立了面向Web网页内容 的特征库,提出返回文档排序的算法,基于Lucene全文索引工具包建立了搜索引擎,对库中已收入的特征词进行了查询 测试,查准率为86.7%.实验表明,该模型基本实现了对查询短语的理解,对提高搜索引擎的查准率有显著的效果.  相似文献   

5.
基于概念空间的文本分类研究   总被引:3,自引:0,他引:3  
1.引言随着文本信息的快速增长,特别是Internet上在线信息的增加,文本(网页)自动分类已成为一项具有较大实用价值的关键技术,是组织和管理数据的有力手段。文本分类的方法分为两类:一是基于知识的分类方法;二是基于统计的分类方法。基于知识的文本分类系统应用于某一具体领域,需要该领域的知识库作为支撑。由于知识提取、更新、维护以及自我学习等方面存在的种种问题,使得它适用  相似文献   

6.
针对基于关键字的搜索引擎缺乏语义的问题,提出了一种面向专业领域的语义搜索引擎模型.以领域本体形式化描述为基础,构建本体语义框架,进而给出语义搜索模型.在模型中,以概念、概念-实例以及关键字等3种扩展特征项作为基础,对查询扩展算法和文档语义标注算法进行了研究,并且构建了语义索引,通过引入向量空间模型判定扩展检索词与语义文档的相似度.实验结果表明,该模型较传统模型较大提高了检索的查准率和查全率.  相似文献   

7.
分析了传统搜索引擎系统的缺点.设计了一种个性化搜索引擎的体系架构,提出了一种改进的向量空间模型.该模型利用非线性加权的思想来处理特征权值的计算.最后,给出了一种基于改进的向量空间模型的个性化搜索算法,能够针对不同用户提供不同的检索结果.实验结果表明,该结构和算法能够有效地提高搜索引擎的性能,满足用户的个性化需求.  相似文献   

8.
词向量和循环神经网络(Recurrent Neural Network,RNN)能够识别语义和时序信息,在自然语言识别方面中取得了巨大成功。同时,代码运行时产生的API调用序列也反映了代码的真实意图,因此我们将之应用于恶意代码识别中,期望在取得较高正确率的同时减少人工提取和分析代码特征工作。然而仍然存在三个问题:1)不少恶意代码故意通过随机混合调用敏感API和非敏感API破坏正常的上下文,对这两种API同等对待可能产生漏报;2)为尽可能全面收集代码行为,代码运行期间产生的API序列长度较长,这将导致RNN学习时间过长;3)经典RNN常用的softmax分类函数泛化能力不强,准确率有待提高。为了解决上述问题,本文提出了一种基于分片RNN(Sliced Recurrent Neural Network,SRNN)的敏感高效的恶意代码行为检测架构SEMBeF。在SEMBeF中,我们提出了一种安全敏感API权重增强的敏感词向量算法,使得代码表示结果既包含上下文信息又包含安全敏感权重信息;我们还提出了一种SGRU-SVM网络结构,通过并行计算大幅降低了因代码API调用序列过长引起的训练时间过长的问题,提高了检测正确率;最后针对样本平衡和网络模型超参数选择问题进行了优化,进一步提高了检测正确率。本文还实现了SEMBeF验证系统,实验表明,与其他基于经典词向量和RNN的深度学习方法以及常用的机器学习方法相比,SEMBeF不仅检测正确率最高,训练效率也得到了显著提升。其中,检测正确率和训练时间分别为99.40%和210分钟,与传统RNN相比,正确率提高了0.48%,训练时间下降了96.6%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号