首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 234 毫秒
1.
在垃圾短信检索中所使用的关键词与短信文本集中的词不匹配,从而影响检索效果。为此,提出一种基于上下文查询词扩展的检索方法,该方法根据关键词出现的上下文信息进行查询词扩展选择,同时考虑查询扩展词与整个查询语句及查询词的位置关系。选取3 000条短信文本进行实验,结果表明该方法能提高平均查准率。  相似文献   

2.
当设计师使用文本在设计库中检索素材时,基于词匹配的搜索无法有效地识别文本中的设计意图并推荐合适的素材.对此,提出一个结合词向量和自注意力机制的设计素材推荐系统.首先从预训练词向量模型中获取文本的词向量表征;然后利用自注意力机制学习文本中不同词的权重以及文本与设计语义间的映射关系;最后基于模型输出与向量相似,检索并重排序设计素材形成推荐.所提系统还能检索带有不同语义标签的素材数据,通过计算其语义与设计语义的词相似作为权重,转换其数据维度与模型输出维度一致.基于1 300个电商设计案例和200种字体进行实验的结果表明,用户评估推荐结果的有效率分别为55%和57.3%,处于同类工作中上水平;验证了该系统的可行性及有效性.  相似文献   

3.
《计算机工程》2019,(8):178-183
在线学习社区中的中文真词错误会给中文文本语义的理解带来困难,从而影响基于在线学习社区文本的学习分析效果。为此,提出一种针对在线学习社区短文本的真词错误检测与修复方法。构建混淆词集和混淆词对应的固定搭配知识库,基于n-gram概率统计模型、上下文语境模型和固定搭配知识库,分别计算每一个混淆词的n-gram得分、上下文语境得分和固定搭配得分,对其加权求和作为判断原文是否出错的依据,并将最高得分的混淆词作为修复意见。实验结果表明,该方法召回率、准确率与修复率分别为85.6%、86.3%、92.9%,能准确有效检测与修复学习社区中的中文真词错误。  相似文献   

4.
针对文本检索中所使用的查询词可能与文本词语不匹配而影响检索效果这一问题,提出了一种基于上下文的查询词扩展的方法,该方法根据查询词出现的上下文信息进行扩展词选择,同时考虑到查询扩展词与整个查询语句以及查询词的位置关系。实验结果表明,该方法大大提高了平均查准率。  相似文献   

5.
方面级情感分析是如今情感分析领域的重要研究任务之一,旨在计算文本中多个方面词的情感极性。现有的方面级情感分析方法通常将整个句子直接输入复杂的神经网络,尽管此类方法能够有效捕捉到词与词之间的依赖关系,却忽略了方面词与其上下文之间所隐含的位置特征。因此,提出了一种融合位置特征的方面级情感分析方法。将文本分别采用基于方面词间隔的上下文划分方式与基于单词距离的上下文划分方式,通过两个微调后的BERT模型,完成词向量的表达;将两种词向量送入多头注意力机制,计算其文本特征;使用平均池化将语义信息进行融合,在输出层完成方面词的情感极性分类。在SemEval2014 Task4数据集和Twitter数据集上的实验表明,提出的融合位置特征的方面级情感分析方法能够充分利用方面词上下文之间的位置特征,有效提升了准确率和F1值。  相似文献   

6.
基于查询扩展词条加权的文本检索研究   总被引:1,自引:1,他引:0  
本文分析了关键词检索文本,由于其查询词没有扩展导致检全率低;而概念检索文本虽然部分有检索词扩展,但是查询词权重与原查询词没有区分.为此,本文利用词条间的语义相似度,提出一种查询扩展词条权重计算方法--展开减小法,并将查询词以及扩展词经展开减小法计算权重后构建向量空间模型检索文本.实验表明,构建的检索模型检索文本,其综合...  相似文献   

7.
针对汉语统计参数语音合成中的上下文相关标注生成,设计了声韵母层、音节层、词层、韵律词层、韵律短语层和语句层6层上下文相关的标注格式。对输入的中文语句进行文本规范并利用语法分析获得语句的结构和分词信息;通过字音转换获得每个汉字的声韵母及声调;利用TBL(Transformation-Based error driven Learning)算法预测输入文本的韵律词边界和韵律短语边界。在此基础上,获得输入文本中每个汉字的声韵母信息及其上下文结构信息,从而产生统计参数语音合成所需的上下文相关标注。设计了一个以声韵母为合成基元的普通话的基于隐Markov模型(HMM)的统计参数语音合成系统,通过主、客观实验评测了不同标注信息对合成语音音质的影响,结果表明,上下文相关的标注信息越丰富,合成语音的音质越好。  相似文献   

8.
在信息检索过程中,因查询词短少而引起的检索歧义性是影响检索效率的主要原因之一,而查询扩展方法和本体扩展方法能有效改善这一问题.提出一种基于本体和局部上下文分析的查询扩展方法:本体扩展根据本体推理规则对短查询词进行推理,得到与查询词有逻辑关联的推理结果集,为查询词加入了标准化的关联信息.局部上下文分析通过对文档库的分析,在与用户查询词最相关的前m篇文档中抽取与用户查询词最相关的n个扩展词,为查询词加入了统计扩展信息.将两部分扩展查询词合并,再通过扩展查询词相关度计算对搜索结果集进行排序.该方法结合了这两种方法的各自优势,从语义角度扩展关键词.实验分析表明,该方法能有效提高检索查全率和查准率.  相似文献   

9.
赵世奇  张宇  赵琳  刘挺  李生 《软件学报》2009,20(7):1746-1755
词汇级复述研究旨在为词汇获取复述.词汇级复述是上下文相关的,即对同一个词在不同上下文中应获取不同的复述词.提出了一种获取上下文相关词汇级复述的方法.该方法包括两部分:基于网络挖掘的候选复述词获取以及基于二元分类的复述词确认.在《人民日报》语料库上的实验结果表明:(1) 基于网络挖掘的候选复述词获取方法是切实可行的,平均为每个待复述词在每个给定的上下文句子中获取2.3 个正确复述词;(2) 利用二元分类的方法进行复述确认是有效的,其F 值达到0.6023;(3) 利用该方法抽取得到的复述中,有75.11%和98.31%无法通过两种常用的上下文无关方法,即基于辞典和基于聚类的方法来获得.这证明了所提出的上下文相关复述方法可以有效地补充传统的上下文无关方法.  相似文献   

10.
针对静态词向量工具(如word2vec)舍弃词的上下文语境信息,以及现有专利文本分类模型特征抽取能力不足等问题,提出了一种融合RoBERTa的多尺度语义协同(RoBERTa-MCNN-BiSRU++-AT)专利文本分类模型。RoBERTa能够学习到当前词符合上下文的动态语义表示,解决静态词向量无法表示多义词的问题。多尺度语义协同模型利用卷积层捕获文本多尺度局部语义特征,再由双向内置注意力简单循环单元进行不同层次的上下文语义建模,将多尺度输出特征进行拼接,由注意力机制对分类结果贡献大的关键特征分配更高权重。在国家信息中心发布的专利文本数据集上进行验证,与ALBERT-BiGRU和BiLSTM-ATT-CNN相比,RoBERTa-MCNN-BiSRU++-AT部级专利的分类准确率分别提升了2.7%和5.1%,大类级专利的分类准确率分别提升了6.7%和8.4%。结果表明,RoBERTa-MCNN-BiSRU++-AT能有效提升对不同层级专利的分类准确率。  相似文献   

11.
一种基于核聚类的关键帧提取方法   总被引:4,自引:0,他引:4  
潘晓英  王昊 《微机发展》2005,15(3):29-31,53
为了在视频数据库中提供有效的视频检索和浏览功能,必须用简明的方式表示视频的内容。关键帧是对视频镜头的简洁表示,关键帧提取已成为视频检索的一个重要研究方向。文中提出了一种基于核聚类的视频关键帧提取方法,它通过对视频提取颜色特征.并将这些特征作为样本映射到高维特征空间之后,在特征空间中进行聚类,使原来没有显现的特征突现出来,自动将内容相似的样本归为同类,每一类可取一个样本代表其内容,这样的样本即为关键帧。实验结果表明这种方法可以较好地概括视频内容。  相似文献   

12.
基于视觉相似性的中文古籍内容检索方法   总被引:7,自引:2,他引:5  
施伯乐  张亮  王勇  陈智峰 《软件学报》2001,12(9):1336-1342
人类文化遗产的数字化应用是数字图书馆计划的重要组成部分.目前,数字化手书中文古籍尚缺乏有效的内容检索手段.提出了一种基于视觉相似性的计算机古籍内容检索方法,研制出关键支撑技术.该方法提取视觉对象的形态特征、全局位置特征和页面特征,采用高维空间索引技术组织形态特征构成的特征空间,完成视觉相似对象的快速检索,定义精度控制参数,动态调整由形态到语义的映射,借助约束验证技术提高一组相关对象的检索精度.原型系统证实了新方法的可行性,获得了直接在数字化图像上自动完成古籍内容检索的技术效果.  相似文献   

13.
《金匮要略》荟萃了后汉及其以前的医学知识及医疗经验,有效地指导了临床实实践,被誉为医方之祖,是学者必读、医者必尊之典范。基于此点,对《金匮要略》信息化存在的问题进行了研究,提出运用计算机数据库检索技术结合文献的规范化整理的结合,实现《金匮要略》内容之间智能化的联接和《金匮要略》原文多途径、多方位全面、准确的检索。  相似文献   

14.
中国动画从它的产生起就与中国绘画艺术有着紧密的联系。极其重视对中国绘画的借鉴和探索,从中寻找审美语言、造型风格和艺术符号;具有几千年历史的中国绘画语言在造型、色彩、写意抒情、构图等诸多方面影响着中国动画的创作。中国的水墨动画片之所以能打动人。正因为其中的国画元素极大地丰富了动画设计的形式与内涵。使人耳目一新,从而取得了巨大成功。具体分析中国水墨动画片中国画元素的巧妙运用,就要从中国传统哲学及绘画观念来深入探讨研究。  相似文献   

15.
句法树库是一项重要资源,它能为汉语语言研究和信息处理提供一个有利的数据平台。汉语句法树库检索的实现用到了流操作和GD I+图形操作。汉语句法库检索系统是基于句法树库的应用系统,提供了对句法树库的检索和统计,并且能够根据树库中的合法语句画出该语句的树状结构图,进而使用户对语句的句法结构有一个形象、直观的了解。  相似文献   

16.
图象分类系统的建立是信息检索以及模式识别中一个重要部分,其中,特征选择问题,即确定描述图象的特征参数是需要解决的关键问题,基于和图象检索技术的研究,近来得到了广泛的关注,由图象特征向量维数过高而引起的图象检索困难是基于内容的图象检索技术研究所面临的一个挑战,因此需要寻找一个有效降维技术,为解决此问题,设计了一个新的图象分类标准模型,通过寻找不同的特征组合来作为分类标准,进而提出了一种算法,用于实现此模型,实验结果显示,该模型能实现图象特征向量降维,并且算法能够极大地降低计算所花费的时间,同时,多种不同分类标准的引入,使得本方法能与信息检索技术进行有效的结合,为个性化信息检索提供一种实现思路。  相似文献   

17.
目前在电子商务中主要采用序列号形式的电子消费券,信息容量小且安全性差。为解决该问题,将PKI与二维条码技术相结合,提出一种新型二维条码电子消费券及其使用流程和系统架构,该电子消费券的创建过程为:将原始的消费券信息利用PKI技术进行签名和加密后,再利用Base64编码进行字符编码,最后利用二维条码技术生成二维条码图像形式的电子消费券。实验证明,相比现有技术,该电子消费券信息容量大,数据安全且来源可靠,并可以支持离线使用,适用于团购等新的电子商务模式。  相似文献   

18.
Text retrieval systems require an index to allow efficient retrieval of documents at the cost of some storage overhead. This paper proposes a novel full-text indexing model for Chinese text retrieval based on the concept of adjacency matrix of directed graph. Using this indexing model, on one hand, retrieval systems need to keep only the indexing data, instead of the indexing data and the original text data as the traditional retrieval systems always do. On the other hand, occurrences of index term are identified by labels of the so-called s-strings where the index term appears, rather than by its positions as in traditional indexing models. Consequently, system space cost as a whole can be reduced drastically while retrieval efficiency is maintained satisfactory. Experiments over several real-world Chinese text collections are carried out to demonstrate the effectiveness and efficiency of this model. In addition to Chinese, The proposed indexing model is also effective and efficient for text retrieval of other Oriental languages, such as Japanese and Korean. It is especially useful for digital library application areas where storage resource is very limited (e.g., e-books and CD-based text retrieval systems).  相似文献   

19.
20.
Traditional Chinese text retrieval systems return a ranked list of documents in response to a user‘s request. While a ranked list of documents may be an appropriate response for the user, frequently it is not.Usually it would be better for the system to provide the answer itself instead of requiring the user to search for the answer in a set of documents. Since Chinese text retrieval has just been developed lately, and due to various specific characteristics of Chinese language, the approaches to its retrieval are quite different from those studies and researches proposed to deal with Western language. Thus, an architecture that augments existing search engines is developed to support Chinese natural language question answering. In this paper a new approach to building Chinese question-answering system is described, which is the general-purpose, fully-automated Chinese question-answering system available on the web. In the approach, we attempt to represent Chinese text by its characteristics, and try to convert the Chinese text into ERE (E: entity, R: relation) relation data lists, and then to answer the question through ERE relation model. The system performs quite well giving the simplicity of the techniques being utilized. Experimental results show that question-answering accuracy can be greatly improved by analyzing more and more matching ERE relation data lists. Simple ERE relation data extraction techniques work well in our system making it efficient to use with many backend retrieval engines.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号