首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
吴敬桐  陈玉泉 《计算机工程》2011,37(15):131-133,148
提出一种主次模板方法,构建面向童话故事的概念关系.对于主模板的构建,引入部分句法分析的模式;对于次模板的构建,引入生物信息学中序列比对的方法,同时在迭代过程中,加入模板置信评价机制.对童话故事内容进行抽取概念对的实验,结果表明,采用主次模板方法具有较高的正确率.  相似文献   

2.
在真实语言环境中,词语间的联系普遍存在、错综复杂。为了更好融合和使用各种语义资源库中的语义关系,构建可计算的汉语词汇语义资源,该文提出了通过构建语义关系图整合各种语义资源的方法,并在《知网》上实现。《知网》作为一个知识库系统,对各个词语义项是以分条记录的形式存储的,各种词汇语义关系隐含在词典文件和义原描述文件中。为提取《知网》中语义间的关系,本文首先将《知网》中的概念以概念树的形式重新表示,并从概念树中提取适当的语义关系,构建语义关系图。经过处理,得到88种589 984条语义关系,图上各种节点具有广泛的联系,为基于语义关系图的进一步分析和计算打下了基础。  相似文献   

3.
基于HowNet概念获取的中文自动文摘系统   总被引:11,自引:3,他引:11  
本文提出了一种中文自动文摘的方法。不同于其它的基于词频统计的一般方法,运用概念(词义)作为特征取代词语。用概念统计代替传统的词形频率统计方法,建立概念向量空间模型,计算出句子重要度,并对句子进行冗余度计算,抽取文摘句。对于文摘测试,采用两种不同的方法进行测试:一是用机器文摘和专家文摘进行比较的内部测试;二是对不同文摘方法进行分类,通过对分类正确率的比较的外部评测方法。  相似文献   

4.
面向信息检索需要的网络数据清理研究   总被引:2,自引:0,他引:2  
Web数据中的质量参差不齐、可信度不高以及冗余现象造成了网络信息检索工具存储和运算资源的极大浪费,并直接影响着检索性能的提高。现有的网络数据清理方式并非专门针对网络信息检索的需要,因而存在着较大不足。本文根据对检索用户的查询行为分析,提出了一种利用查询无关特征分析和先验知识学习的方法计算页面成为检索结果页面的概率,从而进行网络数据清理的算法。基于文本信息检索会议标准测试平台的实验结果证明,此算法可以在保留近95%检索结果页面的基础上清理占语料库页面总数45%以上的低质量页面,这意味着使用更少的存储和运算资源获取更高的检索性能将成为可能。  相似文献   

5.
基于概念统计和语义层次分析的英文自动文摘研究   总被引:5,自引:1,他引:5  
传统的自动文摘方法基于词语统计抽取文摘句,未进行文本的语义分析,导致文摘精度不高。为了克服传统方法的缺点,本文提出了一种基于主题概念的自动文摘方法,以概念统计和层次分析为基础设计并实现了一个英文自动文摘系统。系统利用WordNet以概念统计代替传统的词频统计,基于主题概念构建向量空间模型,计算句子重要度。并且根据主题概念在概念层次树上的分布进行文本结构分析划分意义块,以意义块为单元抽取文摘,初步解决了多主题文章的文摘结构不平衡问题。本文主要介绍了概念层次树的构造,主题概念的抽取步骤,基于主题概念的句子重要度的计算和意义块的划分算法。测试表明,通过概念统计和语义层次分析的方法,我们设计了更理想的向量空间模型,系统生成的文摘精度较高,并更全面地反映了原文的主要内容。  相似文献   

6.
实体关系自动抽取   总被引:36,自引:7,他引:36  
实体关系抽取是信息抽取领域中的重要研究课题。本文使用两种基于特征向量的机器学习算法,Winnow 和支持向量机(SVM) ,在2004 年ACE(Automatic Content Extraction) 评测的训练数据上进行实体关系抽取实验。两种算法都进行适当的特征选择,当选择每个实体的左右两个词为特征时,达到最好的抽取效果,Winnow和SVM算法的加权平均F-Score 分别为73108 %和73127 %。可见在使用相同的特征集,不同的学习算法进行实体关系的识别时,最终性能差别不大。因此使用自动的方法进行实体关系抽取时,应当集中精力寻找好的特征。  相似文献   

7.
基于概念树扩展的中文文本检索研究   总被引:2,自引:0,他引:2       下载免费PDF全文
分析了概念在语义层次上的扩展,将概念树中的父子概念关系用词语的相似度进行量化。提出了检索概念权重计算的两种方法和一种基于检索概念的文本概念权重计算方法,并将这些方法用于中文文本检索,因此,构建了基于概念树扩展的两个文本检索模型。实验显示,这两个检索模型的精确率与关键词检索模型保持基本一致,召回率却得到较大提高。  相似文献   

8.
目前广泛采用的基于关键字的全文检索无法满足用户对于查准率的要求,本文结合使用了本体技术和传统的向量空间模型,提出了一种基于本体的面向概念信息检索模型.利用领域本体良好的逻辑推理结构,引入级联查询和概念标注的方法,提高了信息检索的性能,并在一定程度上实现了用户查询的语意理解.  相似文献   

9.
在信息检索中,目前常见的评价方法仅能反映检索策略的平均性能,不能反映策略的稳定性、随机性等问题,因此对检索策略的评价不够全面。本研究提出了基于云模型的检索策略评价方法,该方法建立了定性评价和定量数据之间的自然转换,这种转换是通过严格的数学方法来实现的,用该方法评价检索策略,不仅能反映策略的平均性能,而且能反映策略的稳定性。实验数据表明,该方法是切实可行的,评价结果更加逼近实际情况。该方法也可以用于文本分类策略的评价。  相似文献   

10.
蒋建慧  陈玉泉 《计算机仿真》2009,26(12):122-125
随着网络资源的快速膨胀,海量的文本自动处理任务面临着巨大的挑战,而文本主题抽取就是文本自动处理领域中的一项重要研究课题.针对词语量化关系的主题概念抽取算法,首先在词聚类的基础上建立概念向量空间模型,由知网中词语相似度,加权计算出概念权重;然后利用词典中词语之间量化关系,通过对概念的相关向量和权重的向量乘积得到每个概念的主题重要度;最后依据重要度抽取出反映文本主题的概念来.实验证明,上述与传统的词频统计相比,准确率更高.  相似文献   

11.
面向主题的概念检索研究   总被引:2,自引:1,他引:2  
该文提出了一种基于概念网络和主题概念树的面向主题的文本检索算法。依托概念网络建立主题概念树,利用主题概念树对用户的查询请求进行语义扩展,实现同义和语义蕴涵检索。关联度的计算模型考虑了词与词之间,句与句之间的语义激励。通过关联度在主题概念树上的传播模型,实现复合概念关联度的计算。检索结果按关联度大小降序排列。基于主题概念树的概念检索导航为用户检索提供了便利。  相似文献   

12.
面向信息检索的自适应中文分词系统   总被引:16,自引:0,他引:16  
新词的识别和歧义的消解是影响信息检索系统准确度的重要因素.提出了一种基于统计模型的、面向信息检索的自适应中文分词算法.基于此算法,设计和实现了一个全新的分词系统BUAASEISEG.它能够识别任意领域的各类新词,也能进行歧义消解和切分任意合理长度的词.它采用迭代式二元切分方法,对目标文档进行在线词频统计,使用离线词频词典或搜索引擎的倒排索引,筛选候选词并进行歧义消解.在统计模型的基础上,采用姓氏列表、量词表以及停词列表进行后处理,进一步提高了准确度.通过与著名的ICTCLAS分词系统针对新闻和论文进行对比评测,表明BUAASEISEG在新词识别和歧义消解方面有明显的优势.  相似文献   

13.
14.
本文的重点是应用句法分析提高汉语信息检索的性能。本文使用定制的PCFG句法分析算法提取相邻实词的关系。在TREC Mandarin的实验证实相邻词关系对信息检索的作用:R—Precision从38.66%提高到39.74%,面向用户系统的重要指标——返回20个文档时的精确率由55.16%提高到57.89%,平均精确率从39.28%提高到40.34%。  相似文献   

15.
陈超群  李志华 《计算机科学》2016,43(Z11):346-351
针对移动云计算环境下数据外包所带来的安全问题,为了保证数据的安全性和密文检索的效率,通过改进传统的密文检索结构,增加私有云索引服务器以实现索引文件与密文文件的存储分离,并在此基础上提出了一种面向隐私保护的密文检索算法。考虑到移动设备的弱计算能力,算法采用对称可搜索加密的方式以减少计算开销,并以Trie树作为索引结构以提高检索效率,同时支持对检索结果排序。理论分析与实验结果表明,该算法能够实现对用户的隐私保护,并具有较好的存储空间和检索时间的性能。  相似文献   

16.
仲兆满  李存华  刘宗田  戴红伟 《软件学报》2013,24(10):2366-2378
针对用户获取事件类信息的需求,在分析Web 新闻特征、事件多要素检索特点的基础上,研究了面向Web 新闻的事件多要素检索方法.首先,提出了面向Web 新闻的事件多要素检索模型;然后,使用BNF(Backus-Naur form)形式化定义了事件多要素查询项;最后,结合事件的动作要素、Web 新闻标题的重要性及事件项与约束项之间的距离,提出了事件查询项与文档相关性的计算方法.设置了16 个事件多要素查询项,基于Baidu 搜索引擎对P@n 指标进行了实验分析,所提方法得到的平均P@10 结果为0.87,平均P@20 结果为0.83.对16 个事件查询主题,通过人工标注语料的方法对F-measure 指标进行了实验分析,所提方法得到的平均F-measure 为0.74.结果表明,所提方法对事件多要素的检索较为有效.  相似文献   

17.
面向过程的虚拟企业多路径多层次产品信息检索技术   总被引:5,自引:0,他引:5  
异地、异构、高度自治是虚拟企业成员的主要特点,而成员之间的信息是分散无序动态的.因此虚拟企业环境下信息检索更着重于过程中有序信息的提取和集成.文中以企业产品信息为主线,建立路径与层次相结合的信息有序集成,提供多路径多层次递归化检索,从而实现过程中信息由无序分散到有序集成.  相似文献   

18.
XML文档的查询索引是当前研究的热点.该文探讨XML文档的索引技术,包括索引结构的设计等问题,给出了一个高效的XML索引方法,采用独特的编码方法,对XML文档及其遵循的DTD同时建立索引,有效支持内容和结构的双重检索;该方法结合了区间编码、倒排表和路径索引的思想,利用DTD结构信息来提高查询的效率.实验结果表明,本文提出的方法可以有效地降低建立XML数据索引的代价,能够缩短查询的响应时间.  相似文献   

19.
基于空间关系的手绘草图检索   总被引:5,自引:0,他引:5  
手绘草图是人类最自然的人机交互方式,在普适计算模式下手绘草图将得到越来越多的应用,手绘草图的检索也成为一个新的课题。本文提出一种高效的草图检索方法,该方法以独立于用户绘制习惯的手绘草图统一表示为基础,以手绘草图空间关系为检索相似度匹配特征,并采用特征点调整的相关反馈机制优化检索结果。实验表明本文提出的方法具有很好的检索效果。  相似文献   

20.
Investigating the Relations used in Conceptual Combination   总被引:1,自引:0,他引:1  
How do people understand noun–noun compounds such as volcano science and pear bowl? In this paper, we present evidence against one approach to noun–noun compounds, namely that of arranging the meanings of compounds into a small, finite taxonomy of general semantic relations. Using a typical relation taxonomy, we conducted an experiment examining how people classify compounds into the taxonomy’s relation categories. We found that people often select not one but several relations for each compound; for example, people classify coffee stain as coffee MAKES stain, stain MADE OF coffee, coffee CAUSES stain and stain DERIVED FROM coffee. A natural metric for relational similarity follows from our experimental data; we found that using cluster analysis to group compounds’ interpretations with respect to this metric produced groupings that were different from the original taxonomic categories, suggesting that there is more than one way to classify the meanings of compounds. We also found that compounds which had similar constituent concepts tended to be interpreted with similar relations, indicating that the intrinsic properties of a compound’s constituent concepts help determine how that compound is interpreted. Such findings are problematic for taxonomic theories of conceptual combination  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号