首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
首尾段落和首尾语句对语义有着较大的贡献,应该作为判别段落相似度的主要因素。本文将其以恰当权重融入SiteQ算法,提出关联首尾段落和首尾语句的多特征融合段落相似度计算算法Topic-SiteQ。该算法采用多特征融合的算法计算首尾语句的语义相似度,并以一定的权值体现它们对段落相似度的贡献,同时提高首尾段落的评分值,并根据这次评分值进行推荐排序。实验表明,采用该算法,相关段落排序的MRR值提高了0.032,F测度值平均提高了1.4%,说明该算法的改进是有效的。  相似文献   

2.
企业中的信息随着企业的不断发展而呈现爆炸式的增长,如何在海量数据中检索需要的文本是企业知识管理中的一个重要的研究课题。把本体引入到企业文本检索中来,以文本的自然段为检索的最小单位,提出了一个信息检索的模型。该模型能从企业文本中抽取信息而建立本体描述符,用本体描述符来表示文本的自然段,从而对检索要求和自然段进行语义匹配,最后得到检索结果。  相似文献   

3.
近年来,多跳机器阅读理解已经吸引了众多学者的关注,其要从多个文档中提取与问题相关的线索并回答问题。但很少有工作注重在段落选择时和回答问题时的多个段落之间的交互与融合,然而这对于多跳推理任务来说是至关重要的。因此,该文提出了一种针对多跳推理机器阅读理解的多段落深度交互融合的方法,首先从多个段落中筛选出与问题相关的段落,然后将得到的“黄金段落”输入到一个深度交互融合的网络中以聚集不同段落之间的信息,最终得到问题的答案。该文实验基于HotpotQA数据集,所提方法与基准模型相比,精确匹配(EM)提升18.5%,F1值提升18.47%。  相似文献   

4.
基于改进向量空间模型的Web信息检索技术研究   总被引:12,自引:1,他引:12  
提出了一种改进的向量空间模型。该模型将一篇文档的相关信息从逻辑上划分为多个相对独立的文本段,按照不同位置的文本段确定相应的索引项权重,并给出了该模型的相似度计算方法。实验表明,将该模型应用于Web信息检索中,具有对输出结果的排序能力强、查询速度快等优点。  相似文献   

5.
基于内容的邮件分类一般采用向量空间模型来表示邮件,该模型只是基于独立词在邮件内容中出现的频率来建立的,而并未考虑邮件的结构特征和词所在的上下文环境,这使得特征向量不能准确地表示邮件的内容,从而导致分类不够准确。文中提出了改进的向量空间模型,针对邮件特有的结构,以段落为分块单位,通过分析段落间的关系和段落中的内容来更改特征词的权重。以此模型设计了一个邮件分类系统,并对该系统进行了测试和结果分析。  相似文献   

6.
一种基于语义特征的逻辑段落划分方法及应用   总被引:1,自引:0,他引:1  
引入了一种以逻辑概念为中心的段落化匹配方式.该方法建立在概念词典之上,通过分析待分类文本中所包含的逻辑概念,将待分类文本中表达相同意义的段落进行聚类分析以得到一个逻辑层次,并建立以此逻辑层次划分方法为基础的逻辑段落概念,然后以该逻辑段落作为依据来衡量不同的段落对于文本主题表示的贡献程度.同时,针对匹配过程中存在的多义词和同义词现象,引入了同义词概念扩充和关联词语扩充.实验证明,该方法能够获得更高的内容过滤准确率,有效提高分类效果.  相似文献   

7.
Survey generation aims to generate a summary from a scientific topic based on related papers. The structure of papers deeply influences the generative process of survey, especially the relationships between sentence and sentence, paragraph and paragraph. In principle, the structure of paper can influence the quality of the summary. Therefore, we employ the structure of paper to leverage contextual information among sentences in paragraphs to generate a survey for documents. In particular, we present a neural document structure model for survey generation.We take paragraphs as units, and model sentences in paragraphs, we then employ a hierarchical model to learn structure among sentences, which can be used to select important and informative sentences to generate survey. We evaluate our model on scientific document data set. The experimental results show that our model is effective, and the generated survey is informative and readable.  相似文献   

8.
针对传统的向量空间模型和潜在语义分析方法应用于计算机辅助评估时存在的问题,提出一种将领域本体、一阶逻辑和潜在语义分析方法相结合的本体空间表示模型.该模型采用一阶逻辑表示从短文问题得到的二元关系并建立索引,使用潜在语义分析来计算关系集合中关系和包含段落的文档的相似度,从而得到段落在关系子集的平均相似度.实验结果表明,与向量空间模型相比,该模型的表示效果更好.  相似文献   

9.

In an era characterized by fast technological progress that introduces new unpredictable scenarios every day, working in the law field may appear very difficult, if not supported by the right tools. In this respect, some systems based on Artificial Intelligence methods have been proposed in the literature, to support several tasks in the legal sector. Following this line of research, in this paper we propose a novel method, called PRILJ, that identifies paragraph regularities in legal case judgments, to support legal experts during the redaction of legal documents. Methodologically, PRILJ adopts a two-step approach that first groups documents into clusters, according to their semantic content, and then identifies regularities in the paragraphs for each cluster. Embedding-based methods are adopted to properly represent documents and paragraphs into a semantic numerical feature space, and an Approximated Nearest Neighbor Search method is adopted to efficiently retrieve the most similar paragraphs with respect to the paragraphs of a document under preparation. Our extensive experimental evaluation, performed on a real-world dataset provided by EUR-Lex, proves the effectiveness and the efficiency of the proposed method. In particular, its ability of modeling different topics of legal documents, as well as of capturing the semantics of the textual content, appear very beneficial for the considered task, and make PRILJ very robust to the possible presence of noise in the data.

  相似文献   

10.
A comprehensive Arabic handwritten text database is an essential resource for Arabic handwritten text recognition research. This is especially true due to the lack of such database for Arabic handwritten text. In this paper, we report our comprehensive Arabic offline Handwritten Text database (KHATT) consisting of 1000 handwritten forms written by 1000 distinct writers from different countries. The forms were scanned at 200, 300, and 600 dpi resolutions. The database contains 2000 randomly selected paragraphs from 46 sources, 2000 minimal text paragraph covering all the shapes of Arabic characters, and optionally written paragraphs on open subjects. The 2000 random text paragraphs consist of 9327 lines. The database forms were randomly divided into 70%, 15%, and 15% sets for training, testing, and verification, respectively. This enables researchers to use the database and compare their results. A formal verification procedure is implemented to align the handwritten text with its ground truth at the form, paragraph and line levels. The verified ground truth database contains meta-data describing the written text at the page, paragraph, and line levels in text and XML formats. Tools to extract paragraphs from pages and segment paragraphs into lines are developed. In addition we are presenting our experimental results on the database using two classifiers, viz. Hidden Markov Models (HMM) and our novel syntactic classifier.  相似文献   

11.
为了改进传统以向量空间模型(VSM)为代表的基于词频统计的方法在中文段落相似度计算时存在的精度不高问题,在基于加权二部图匹配的思想上提出了一种计算中文段落之间相似度的方法。该方法将相似度计算分为段落和句子两个层次,将句子作为简单段落看待,也使用二部图匹配进行相似度计算。首先利用句子主干词汇提取算法来提取句子的主干词汇,将主干词汇作为二部图的顶点,把主干词汇之间的相似度作为二部图顶点之间的权值系数,进行句子相似度的计算。其次,将句子作为加权二部图的顶点,把句子之间的相似度作为二部图顶点之间的权值系数,进行段落之间的相似度计算。实验结果表明,该方法与VSM相比,由于它能准确识别同义词,自动匹配两个在段落中不同位置的相似词语,因而在准确度上有了很大的提高。  相似文献   

12.
从抄袭的定义和法律规定出发,在分析比较国内外主要的论文抄袭判定方法基础上,提出存在的问题和改进策略,最后给出一种基于段落相似度的论文抄袭判定算法。此算法可以检测出抄袭者将论文的段落顺序打乱或者将段落文字打乱重新组合的情况,并将确认抄袭和疑似抄袭的抄袭论文和原论文的相应内容输出,方便用户进一步审查。  相似文献   

13.
基于概念的文本结构分析方法   总被引:25,自引:1,他引:25  
本结构分析是本处理领域中的重要内容,它可以有效地改进本要、本检索以及本过滤的精度、中简要描述了本的物理结构和逻辑结构以及本分析的背景,提出了本结构分析中的层次分析方法。该方法保证了层次是分的有序性,可操作性强,便于解释,不依融于具体领域。其基本思想是对于输入本,首先识别出本的物理结构,然后在概念映射、要领密度和概念消歧的基础上,将本依据主题划分为若干层次;最终获得本的逻  相似文献   

14.
提出一种使用段落自动聚类思想的自动文摘方法,首先利用词频统计和词的位置特征得到文档的关键词向量、每个段落的关键词向量,并建立以段落为基础的向量空间模型;然后计算各段落间的相似度,采用K-medoids聚类算法实现文档语义段的划分,并通过一个自定义的目标函数来自适应的确定聚类数目K;最后根据在初始文档中的位置顺序从各语义段中选出与主题最相关的句子构成文摘。  相似文献   

15.
This paper presents a methodology for document processing, by separating text paragraphs from images. The methodology is based on the recognition of text characters and words for the efficient separation text paragraphs from images by keeping their relationships for a possible reconstruction of the original page. The text separation and extraction is based on a hierarchical framing process. The process starts with the framing of a single character, after its recognition, continues with the recognition and framing of a word, and ends with the framing of all text lines. The text line form a natural language text which requires analysis.  相似文献   

16.
自动文摘技术应尽可能获取准确的相似度以确定句子或段落的权重,但目前常用的基于向量空间模型的计算方法却忽视句子、段落、文本中词的顺序.提出了一种新的基于相邻词序组的相似度度量方法并应用于文本的自动摘要,采用基于聚类的方法实现了词序组的向量表示并以此刻画句子、段落、文本,通过线性插值将基于不同长度词序组的相似度结果予以综合.同时,提出了新的基于含词序组重要性累计度的句子或段落的权重指标.实验证明利用词序信息可有效提高自动文摘质量.  相似文献   

17.
文本挖掘技术是从海量文本信息中获取潜在有用知识的有效途径。传统的文本挖掘方法由于不能有效运用语义信息而难以达到更高的准确度。本体论为语义信息的合理表示和有效组织提供了理论支持和技术手段,把本体引入到商务企业文本检索中,以文本的段落为检索的最小单位,提出了一个信息检索的模型。该模型能从文本中抽取信息而建立本体标识符,用本体标识符来表示文本的段落,从而对检索要求和段落进行语义匹配,最后得到检索结果。  相似文献   

18.
计算机辅助审计是目前审计领域研究的一个热点。结合国内开展计算机辅助审计的现状及特点,以数据采集、数据预处理和数据分析为线索,对数据库技术在我国面向数据的计算机辅助审计中的应用进行了分析。最后,结合计算机辅助审计的发展趋势,探讨了数据库技术在持续审计中的应用,从而为我国实施计算机辅助审计提供理论和实践上的指导。  相似文献   

19.
使用软件审计检查应用软件的缺陷和漏洞时,存在类型不匹配和审计方法不完善的问题。适配器模式在匹配不同软件对象或接口时具有较好的安全性和灵活性。针对当前软件审计方法存在的问题,通过使用适配器模式和软件审计方法对应用软件进行审计,以此来降低审计风险并提高软件审计的灵活性。使用软件审计模式组合方法对高校人事管理系统应用软件进行审计,结果表明,相对于纯粹的软件审计方法,使用软件审计适配器模式组合方法对应用软件进行审计,具有较好的重构性和匹配效果。  相似文献   

20.
文本分类是数据挖掘的重要课题,它是获取信息资源的重要方式之一。根据对具有主题的大量文本的分析,基于神经网络的文本分类器在网络结构上,与文档的标题和段落结构之间建立了严格的对应关系。比较仔细地描述了神经网络的训练算法,包括正向传播算法和反向修正算法,对于算法的主要步骤,给出较详细计算方法。对基于神经网络的文本分类器的测试表明,该神经网络模型参数设置比较简单,其文本分类性能良好。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号