首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 140 毫秒
1.
专利领域中术语抽取结果的好坏决定了本体构建的质量。提出一种自动生成过滤词典并结合词汇密集度等影响因子的术语抽取方法。首先在分词和词性标注的基础上,对文献匹配词性规则算法生成的模板得到候选长术语和单词型短术语集合,然后利用文档一致度生成的过滤词典过滤部分候选长术语集,最后针对长术语的构成特点,将词汇密集度、文档差比、文档一致度三个术语因子加权平均作为整个长术语的术语权重值,并按值高低排序。在8000篇专利摘要文献的基准语料上进行实验,随机选取五组实验数据,平均准确率达到86%。结果表明该方法在领域术语抽取方面是行之有效的。  相似文献   

2.
刘柏嵩 《计算机工程》2008,34(8):229-231
提出一种通用的多策略本体学习框架,通过对Web上各专业领域文档集进行挖掘来实现本体自动构建。讨论本体学习中本体概念的抽取、概念之间语义关系的抽取和分类体系的自动构建等关键技术,通过实验对算法进行测试和评价。由于集成了多种机器学习算法,该方法在概念抽取和语义关系学习方面具有更高的准确性,采用通用本体WordNet和HowNet作为语料库,可适用于不同的专业领域。通过按需获取Web文档,该方法能实时生成本体。  相似文献   

3.
罗军  高琦  王翊 《计算机工程》2010,36(23):85-87
实现语义Web目标的一个重要前提是利用本体词汇标注Web资源。为此,提出一种基于弱监督(Bootstrapping)的本体标注方法。对给定的本体进行解析,生成规则文件,通过文本分类筛选出领域文档。采用Bootstrapping的方法进行信息标注抽取和本体推理,经过几次循环后,只利用少量的训练文本就能达到较好的标注效果。实验证明,该方法实体识别准确率高,标注效果好。  相似文献   

4.
基于领域本体的语义标注方法研究   总被引:3,自引:0,他引:3  
介绍了语义Web.本体以及语义标注的基本概念,对语义标注方法以及现有技术工具进行了简单地说明和分析,提出了一种基于领域本体的语义标注方法,并结合石油产品领域的本体对该方法进行了实例说明.该方法通过分析文档的特征词汇,使用基于领域本体的空间向量模型方法建立词汇与本体概念之间的映射.采用这种方法对文档进行语义标注后,可以把文档隐含的语义信息显式的表现出来,这样数据库内部文档之间就具有了语义关联关系,为检索的智能推理提供基础.  相似文献   

5.
为了解决已有信息抽取系统中方法不具有重用性及不能抽取语义信息的问题,提出了一个基于领域本体的面向主题的Web信息抽取框架.对Web中文页面,借助外部资料,利用本体解析信息,对文件采集及预处理中的源文档及信息采集、文档预处理、文档存储等技术进行了分析设计,提出了文本转换中的分词及词表查询和命名实体识别算法,并给出了一种知识抽取方案.实验结果表明,该方法可以得到性能较高的抽取结果.  相似文献   

6.
袁柳  张龙波 《计算机应用》2010,30(12):3401-3406
针对已有Web文档语义标注技术在标注完整性方面的缺陷,将潜在狄里克雷分配(LDA)模型用于对Web文档添加语义标注。考虑到Web文档具有明显的领域特征,在传统的LDA模型中嵌入领域信息,提出Domain-enable LDA模型,提高了标注结果的完整性并避免了对词汇主题的强制分配;同时在文档隐含主题和文档所在领域本体概念间建立关联,利用本体概念表达的语义对隐含主题进行准确的解释,使文档的语义清晰化,为文档检索提供有效帮助。根据LDA模型可为每个词汇分配隐含主题的特征,提出多粒度语义标注的概念。在20news-group和WebKB数据集上的实验证明了Domain-enable LDA模型的有效性,并指出对文档进行多粒度标注有助于有效处理不同类型查询。  相似文献   

7.
随着网络上信息的飞速增长,网络已发展成为一个巨大的数据库,人们对快速准确地获取网页数据提出了更多的需求。目前,自然语言处理领域已经将网页信息抽取技术的研究作为一个重点。首先该文介绍了关于本体的一些基础知识,在此基础上提出并实现了一种基于领域本体的网页数据抽取方法。在该文中,利用领域本体的关键词、概念及关系来生成抽取规则,采用语法分析模块对输入的文档进行预处理,最后根据语法分析的机构和生成的抽取规则来对文档实现数据抽取。实验证明,该方法具有良好的性能。  相似文献   

8.
随着网络上信息的飞速增长,网络已发展成为一个巨大的数据库,人们对快速准确地获取网页数据提出了更多的需求。目前,自然语言处理领域已经将网页信息抽取技术的研究作为一个重点。首先该文介绍了关于本体的一些基础知识,在此基础上提出并实现了一种基于领域本体的网页数据抽取方法。在该文中,利用领域本体的关键词、概念及关系来生成抽取规则,采用语法分析模块对输入的文档进行预处理,最后根据语法分析的机构和生成的抽取规则来对文档实现数据抽取。实验证明,该方法具有良好的性能。  相似文献   

9.
于静  吴国全  卢燚 《计算机应用》2010,30(6):1664-1667
现有政务信息检索系统存在两个主要问题:一是采用基于关键词匹配的检索技术忽略了对用户检索条件的语义理解,缺乏对于文档实质内涵的准确描述;二是由于对政务信息领域知识的缺乏,用户不能很好地提出符合自己检索需求的检索条件。针对这些问题,提出了基于领域本体的政务信息检索方法,即通过引入本体,在文档和检索条件间建立一种基于本体的由本体中的词汇集组成的结构化的对应关系;设计并实现了相应的概念词抽取、检索条件扩展算法以及原型系统。实验结果表明,该方法在检索的查全率和查准率方面都有很大的提升。  相似文献   

10.
利用关联规则挖掘文本主题词的方法   总被引:3,自引:1,他引:2       下载免费PDF全文
主题词抽取是目前信息检索领域研究的热点,与一系列数据挖掘相关的任务密切相关。该文提出一种新的利用关联规则挖掘中文文本主题词的方法,该方法抽取的主题词包括关键词和相关检索词两部分。在关键词抽取的基础上,采用数据挖掘中的关联规则挖掘算法抽取相关检索词,用于扩展检索或相关检索,提高了用户对于文档的理解。实验表明该方法取得了较好的效果。  相似文献   

11.
基于同义词链的中文关键词提取算法   总被引:4,自引:2,他引:2       下载免费PDF全文
针对传统中文关键词提取对语义和同义词的不重视而导致的精确度和召回率低的问题,提出基于同义词链的中文关键词提取算法。利用上下文窗口和消歧算法解决词语在上下文中的语义问题,利用文档中的同义词构建同义词链,简化候选词的选取。根据同义词链的特征,得到相应的权重计算公式,对候选词进行过滤。实验结果表明,该算法在同义词较多的文档中精确度和召回率有较大的提高,平均性能也有明显改善。  相似文献   

12.
同义词在信息检索、自动文摘、情感分析、机器翻译等应用中都发挥着重要的作用。该文提出在大规模语料中结合潜在语义分析与上下文互信息进行同义词挖掘的方法,分析了不同的词汇上下文窗口选择、权值计算、潜在语义分析降维、余弦相似度计算在同义词抽取中的作用。实验结果表明,同义词抽取的效果明显提高。  相似文献   

13.
汉越平行语料库的资源稀缺,很大程度上影响了汉越机器翻译效果.数据增强是提升汉越机器翻译的有效途径,基于双语词典的词汇替换数据增强是当前较为流行的方法.由于汉语-越南语属于低资源语言对,双语词典难以获得,而通过单语词向量获取低频词的同义词较为容易.因此,提出一种基于低频词的同义词替换的数据增强方法.该方法利用小规模的平行...  相似文献   

14.
基于Lucene的语义检索系统   总被引:5,自引:3,他引:2  
郑廷  郑诚 《计算机工程》2008,34(16):92-94
在一种基于LUCENE的传统文本检索引擎之上,采用C/S架构模式的语义检索实验系统。用户可以根据需要,从客户端向服务器提交相应的查询信息配置,服务器根据此配置,通过本体导航与同义词查询2种查询扩展优化技术,对提交的查询关键词组进行查询、扩展等优化处理后,将经优化处理过的查询关键词组导入传统的文本检索引擎中,对文档资源进行匹配,将查询结果根据用户要求的排列,并依次返回给用户。通过用户与服务器的信息交互与对查询语句的查询扩展,该系统提高了查准率与查全率。  相似文献   

15.

Text document clustering is used to separate a collection of documents into several clusters by allowing the documents in a cluster to be substantially similar. The documents in one cluster are distinct from documents in other clusters. The high-dimensional sparse document term matrix reduces the clustering process efficiency. This study proposes a new way of clustering documents using domain ontology and WordNet ontology. The main objective of this work is to increase cluster output quality. This work aims to investigate and examine the method of selecting feature dimensions to minimize the features of the document name matrix. The sports documents are clustered using conventional K-Means with the dimension reduction features selection process and density-based clustering. A novel approach named ontology-based document clustering is proposed for grouping the text documents. Three critical steps were used in order to develop this technique. The initial step for an ontology-based clustering approach starts with data pre-processing, and the characteristics of the DR method are reduced with the Info-Gain collection. The documents are clustered using two clustering methods: K-Means and Density-Based clustering with DR Feature Selection Process. These methods validate the findings of ontology-based clustering, and this study compared them using the measurement metrics. The second step of this study examines the sports field ontology development and describes the principles and relationship of the terms using sports-related documents. The semantic web rational process is used to test the ontology for validation purposes. An algorithm for the synonym retrieval of the sports domain ontology terms has been proposed and implemented. The retrieved terms from the documents and sport ontology concepts are mapped to the retrieved synonym set words from the WorldNet ontology. The suggested technique is based on synonyms of mapped concepts. The proposed ontology approach employs the reduced feature set in order to clustering the text documents. The results are compared with two traditional approaches on two datasets. The proposed ontology-based clustering approach is found to be effective in clustering the documents with high precision, recall, and accuracy. In addition, this study also compared the different RDF serialization formats for sports ontology.

  相似文献   

16.
为提供比单纯词汇信息更高效的概念特征信息和深层语义信息,并满足面向同一文本的多检索需求,在半自动化智能检索框架中引入本体视图,提出一种基于本体视图的特征项抽取方法。此方法首先针对文本特征建立本体视图;然后结合文本信息进行特征项抽取和类型映射,得到特征项集;最后基于特征项集完成检索过程。检索结果显示,基于本体视图特征项抽取方法能改善检索系统的性能,提高检索的准确率和效率。  相似文献   

17.
基于词关联语义的文本分类研究   总被引:5,自引:0,他引:5  
党齐民  吕冬煜 《计算机应用》2004,24(4):62-63,66
文章在对已有文本分类技术研究的基础上,提出了一种基于词关联语义的文本分类方法。该方法根据上下文中的词关联对同义词和多义词进行了有效地区分,经过实际使用该方法可改善文本分类的效率和准确性,取得了较好的应用效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号