共查询到20条相似文献,搜索用时 15 毫秒
1.
随着轮廓查询应用的扩展,轮廓查询被扩展为其他更复杂的查询问题,包括k支配轮廓、reverse轮廓、k最多支配轮廓等等.然而,现存的轮廓查询不符合某些用户需求,还需要研究新的轮廓查询及其相关算法.为了满足用户需求,提出k支配能力轮廓的概念,同时提出一种快速的k支配能力排序轮廓查询算法(KRA).由于不确定性数据带有概率,KRA算法不能直接应用于不确定性数据.针对不确定性轮廓查询的特点,提出不确定性k支配能力轮廓的概念,并提出不确定性k支配能力排序轮廓查询算法(KRA_U).实验结果表明,算法KRA和KRA_U均可以高效地计算出k支配能力轮廓. 相似文献
2.
针对关系数据库关键词查询系统中的结果排序问题,提出了一种新的排序方法.该方法结合了查询相关性和结构权重,将单个元组看作是一个虚拟文档,通过对元组引入信息检索(information retrieval,JR)式评分方式,采用标准化词频和标准化逆文档频率说明元组与查询条件之间的相关性程度,对整个结果采用结构权重来反应结果的语义强度.相比于以往只考虑结构权重的排序方法,该方法能更有效的将与查询高度相关的结果排在前面.实验结果表明,结合查询相关性的排序方法可以有效的对结果进行排序. 相似文献
3.
分析了当前Web信息检索的技术现状,指出检索效率不高的根本原因在于搜索引擎所采用的排序函数和标引词加权技术。介绍了传统的信息检索排序函数和标引词加权技术。分析了Web文档的特点,指出其主要形式HTML文档是一种结构化文档,结构由标签显式地定义,不同文档结构对检索性能的贡献不同。对本领域国内外学者的成果作了对比研究。最后探讨了Web信息检索排序函数及标引词加权技术的发展方向。 相似文献
4.
5.
作文跑题检测是作文自动评分系统的重要模块。传统的作文跑题检测一般计算文章内容相关性作为得分,并将其与某一固定阈值进行对比,从而判断文章是否跑题。但是实际上文章得分高低与题目有直接关系,发散性题目和非发散性题目的文章得分有明显差异,所以很难用一个固定阈值来判断所有文章。该文提出一种作文跑题检测方法,基于文档发散度的作文跑题检测方法。该方法的创新之处在于研究文章集合发散度的概念,建立发散度与跑题阈值的关系模型,对于不同的题目动态选取不同的跑题阈值。该文构建了一套跑题检测系统,并在一个真实的数据集中进行测试。实验结果表明基于文档发散度的作文跑题检测系统能有效识别跑题作文。 相似文献
6.
搜索引擎结果中Web文档的排序研究 总被引:1,自引:0,他引:1
信息检索结果中,如何对检索结果进行排序在很大程度上影响了用户所得到的检索结果。对现存典型的词频统计排序技术和超链分析排序技术进行了分析,并借助向量空间模型,提出了一种基于概念语义的查询词-文档相似度排序方法。 相似文献
7.
文档表示模型是文本自动处理的基础,是将非结构化的文本数据转化为结构化数据的有效手段。然而,目前通用的空间向量模型(Vector Space Model,VSM)是以单个的词汇为基础的文档表示模型,因其忽略了词间的关联关系,导致文本挖掘的准确率难以得到很大的提升。该文以词共现分析为基础,讨论了文档主题与词的二阶关系之间的潜在联系,进而定义了词共现度及与文档主题相关度的量化计算方法,利用关联规则算法抽取出文档集上的词共现组合,提出了基于词共现组合的文档向量主题表示模型(Co-occurrence Term based Vector Space Model, CTVSM),定义了基于CTVSM的文档相似度。实验表明,CTVSM能够准确反映文档之间的相关关系,比经典的文档向量空间模型(Vector Space Model,VSM)具有更强的主题区分能力。 相似文献
8.
跨语言文档聚类主要是将跨语言文档按照内容或者话题组织为不同的类簇。该文通过采用跨语言词相似度计算将单语广义向量空间模型(Generalized Vector Space Model, GVSM)拓展到跨语言文档表示中,即跨语言广义空间向量模型(Cross-Lingual Generalized Vector Space Model,CLGVSM),并且比较了不同相似度在文档聚类下的性能。同时提出了适用于GVSM的特征选择算法。实验证明,采用SOCPMI词汇相似度度量算法构造GVSM时,跨语言文档聚类的性能优于LSA。 相似文献
9.
基于相似度的区间数排序 总被引:1,自引:0,他引:1
为设计一种简便而又科学的区间数排序方法,在综合考虑区间数的特点、提取区间数中的隐形数据、对数据进行处理等基础上,根据各个区间数与目标区间数相似度程度的不同,提出了一种新的对区间数进行排序的方法,并提出了这种排序方法的一些优良性质,如:序关系完全性、传递性、等价替换性、区间数长度相等且区间数的属性为效益型时中心越大越好、区间数中心重合时区间越小越好等,充分表明了这种方法的科学性与可行性。最后,通过一个算例说明这种简单、方便、科学的排序方法的操作过程。 相似文献
10.
11.
Text Retrieval from Document Images Based on Word Shape Analysis 总被引:2,自引:1,他引:2
In this paper, we propose a method of text retrieval from document images using a similarity measure based on word shape analysis. We directly extract image features instead of using optical character recognition. Document images are segmented into word units and then features called vertical bar patterns are extracted from these word units through local extrema points detection. All vertical bar patterns are used to build document vectors. Lastly, we obtain the pair-wise similarity of document images by means of the scalar product of the document vectors. Four corpora of news articles were used to test the validity of our method. During the test, the similarity of document images using this method was compared with the result of ASCII version of those documents based on the N-gram algorithm for text documents. 相似文献
12.
介绍一种文档复制检测中基于窗口的特征提取方法,并从理论上分析了性能.采用重叠的文本块分割文档,利用滚动的HASH函数把文本块映射成散列值,再从定义的散列值窗口中选择文本特征,实验验证了方法的特性并与具有代表性的文档复制检测系统进行了对比,结果表明该方法能够确保发现文本长度大于保证闽值的复制内容,有效地提高了检测结果的准确性. 相似文献
13.
针对向量空间模型VSM中,在计算文档相似度时要求文档标引词必须相互独立这一缺陷,提出融合本体与粗糙集的文档相似度计算方法。在该方法中,不仅可以利用本体对概念关系的准确揭示,计算文档之间的概念相似度,还可以结合粗糙集对相关概念实例的属性重要性进行度量,从而计算属性相似度,克服了传统方法需要依赖人的先验知识这一缺陷,最后综合形成文档语义向量相似度,并通过实验分析证明该方法可以在很大程度上提高文档相似度计算的准确性。 相似文献
14.
排名运算按次序为数据库查询结果集中的每行分配一个排名值,针对RDBMS上无法直接支持排名运算的状况,提出了多种解决方案,通过在基准测试下分析各方案的性能差异,给出不同情况下的最佳方案。 相似文献
15.
缅甸语属于资源稀缺型语言,汉缅双语可比文档是获取平行句对的重要数据资源。该文提出了一种融合主题模型及双语词向量的汉缅双语可比文档获取方法,将跨语言文档相似度计算转化为跨语言主题相似度计算问题。首先,使用单语LDA主题模型分别抽取汉语、缅甸语的主题,得到对应的主题分布表示;其次,将抽取到的汉缅主题词进行表征得到单语的主题词向量,利用汉缅双语词典将汉语、缅甸语单语主题词向量映射到共享的语义空间,得到汉缅双语主题词向量,最后通过计算汉语、缅甸语主题相似度获取汉缅双语可比文档。实验结果表明,该文提出的方法得到的F1值比基于双语词向量方法提升了5.6%。 相似文献
16.
17.
基于语义关系查询扩展的文档重构方法 总被引:36,自引:0,他引:36
已知文档与用户查询之间相同概念不同表达形式造成的词不匹配问题是影响信息检索效果的重要原因之一.该文提出了根据词之间的语义关系进行扩展和替换的文档重构方法.它与传统的查询扩展不同,实现了同一概念信息的聚集,是更接近于人类进行信息查找的思维方法.进一步地,研究给出一种有效的实时文档重构检索策略,解决了文档重构方法在实际应用中的可行性.在标准测试数据集上的实验表明,基于查询扩展的文档重构方法不仅比不扩展的最佳性能始终有14%~23.4%的提高,而且比相对应的传统查询扩展方法也有约16%的提高. 相似文献
18.
史浩 《数字社区&智能家居》2014,(11):7328-7331
文档编写工作对于许多人而言是一项日常性的工作。为了提高文档编写效率,如何设计一些统一样式的文档成为一个有意义的问题。该文提出了可以将文档分为扁平型和层次型两类,并具体详细描述了层次型文档的创建步骤及其题注应用。层次型文档可以被用来构建出一个高效率的、自动化维护结构的、统一格式的文档模板。该类型的文档模板可以在工作小组中方便地共享和整合。 相似文献
19.
针对当前几种常用文本检索方法的不足,文中基于统计模型和小波变换,提出了一种新的文本检索方法。与传统方法的主要区别在于:1)利用小波变换把输入信号引入到频域进行处理,消除了交叉比较运算的巨大计算量;2)在进行相关度计算时,同时考虑了检索词的出现次数和出现位置因素,有效提高了检索精确度。理论分析和实验结果表明该方法较传统方法在查准率和查询速度上均有所提高。 相似文献
20.
阐述OpenOffice.org文档的压缩存储方式以及这种方式和其他的多种存储方式相比的优势;针对OpenOffice.org的各种文档描述了它们的结构,并且讨论了从OpenOffice.org的XML文档中读取元数据方法;最后进一步讨论了OpenOf-fice.org的XML元数据读取的意义以及它和文档结构化其他研究的关系。 相似文献