首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
在基于令牌传递算法的关键词检出技术中,为改进实时性,本文首先从限制模型规模的角度,提出了限制上下文相关的词内相关音素模型.针对误识率高的问题,提出了基于声学置信度的关键词确认方法,并实现了多次解码机制,提高了识别性能.其次,从改进解码算法的角度,研究了剪枝和控制最大激活模型数两种策略对识别性能的影响,并结合确认机制进行关键词检出,获得了满意的结果.  相似文献   

2.
在网页浏览推荐任务中,如何利用网页内容选取合适的推荐关键词是具有挑战性的研究热点.为了实现有效的关键词推荐方法,利用大规模的真实网络用户浏览行为数据,以及相关提取算法和新词发现算法实现并比较了基于领域关键词提取技术和基于查询词候选集合的关键词推荐方法.实验结果证明,2种方法都能够有效地表征用户信息需求,而第1种推荐方法的准确率更高,具有更好的推荐性能.  相似文献   

3.
微博社交媒体营销的兴起使得快速准确地在微博中定位行业信息变得越来越重要。提出一种基于关键词的行业信息个性化推荐方法以帮助用户快速准确地获得行业相关信息。从基于行业用户历史微博的关键词提取与基于词语共现信息的关键词扩展两个角度生成行业关键词向量,关键词提取与扩展的结果将根据用户自定义权重进行线性合并。最后,据此合并向量对用户订阅微博进行相关度计算,为用户推荐相关信息。该方法在新浪微博平台上以若干具有代表性的企业微博数据进行实验,证明了方法的有效性。  相似文献   

4.
时态信息广泛应用在自然语言处理、信息检索等领域,而时间关键词识别更是时态信息应用的关键,其直接影响到时态信息的使用。时间信息在文本或句中形式多样性、位置随意性以及边界不确定性等特点称为时间关键词识别任务中的难点。为了解决中文时间关键词的识别问题, 通过分析文本语句结构并结合语法结构树, 提出短语划分方法, 将文本转换成短语集从而确定短语边界; 在此基础上, 提出短语向量化表示法,以此构建向量空间; 最后,引入谱聚类的聚类思想, 将识别问题转化为聚类问题. 实验证明, 运用该方法进行中文时态关键词识别,具有较好的效果.  相似文献   

5.
敏感信息识别是净化互联网环境的关键,在当今信息爆炸的时代,人们每天都要从互联网中获得大量信息,如何过滤大量信息中的敏感信息对整个社会安定和谐有着重要的意义.现有的方法主要是基于敏感关键词的方法进行过滤,需要不断更新迭代敏感关键词,泛化性弱,本文中使用基于预训练模型的深度学习方法可以学习到互联网新闻文本中更深层的语义信息,进而更有效的识别和过滤敏感信息,泛化性强,但是只使用深度学习方法会一定程度上的损失敏感关键词特征.本文首次将传统的敏感关键词方法与深度学习方法相结合应用于互联网敏感信息识别,提出了一种融合敏感关键词特征的模型Mer-HiBert.实验结果表明,与之前的敏感关键词方法以及深度学习模型相比,模型的性能有进一步提高.  相似文献   

6.
对支持向量机理论进行了简要分析,并将支持向量机引入汉语语音关键词识别系统中,根据关键词置信度将关键词假想命中分为接受和拒识两类,从而提高系统正确识别率。针对线性支持向量机、不同核函数下的非线性支持向量机以及核函数为径向基函数时支持向量机的性能做了一些相关实验。实验结果显示,支持向量机是一种相当有效的关键词确认方法。  相似文献   

7.
前面我们用搜索引擎的分类目录表的查询方法在网上查询信息。但是日常生活中我们需要了解的信息很多,内容十分复杂,网站无法把那么多的信息逐一分类,有很多信息我们在分类栏里不能够直接找到。那么除了分类查询方法外,我们还有没有其它方法能够更方便、更快捷在网上查询信息呢?答案是有的,那就是:用关键词搜索信息。  相似文献   

8.
孙艳  周学广  陈涛 《计算机工程》2011,37(19):266-269
新型宣传媒介的网络舆情存在大量非法信息。为此,提出一种意会关键词信息取证方法,对中文意会关键词进行定义、分类和量化,给出6种意会关键词提取算法,对提取的证据信息进行完整性处理。实验结果表明,6种算法的提取速度均在毫秒级,查准率和查全率分别达到92%和95%,从而保证在网页舆情监控下非法信息的取证效率。  相似文献   

9.
基于SCHMM非特定人关键词检出语音识别系统   总被引:1,自引:0,他引:1  
乔跃刚  赵铁军  李生  朱莉 《计算机应用》2005,25(Z1):295-296
设计了一个基于半连续隐马尔可夫模型(SCHMM)以音节为基元的非特定人汉语小词表关键词确认语音识别系统.系统采用类似于Baum_Welch算法对VQ码书和HMM参数一起优化得到可靠的声学模型,并通过利用基于前向-后向搜索策略,来充分利用上下文相关信息,使关键词检出率在每个词每小时虚警率为10时已达到93%以上.还分析了码书大小对系统识别率的影响,并提出了以音节模型归一化算术均值作为关键词置信度的语音验证策略.  相似文献   

10.
基于语义的关键词提取算法   总被引:3,自引:1,他引:2  
关键词1提供了文档内容的概要信息,它们被使用在很多数据挖掘的应用中,在目前的关键词提取算法中,我们发现词汇层面(代表意思的词)和概念层面(意思本身)的差别导致了关键字提取的不准确,比如不同语法的词可能有着相同的意思,而相同语法的词在不同的上下文有着不同的意思.为了解决这个问题,这篇文章提出使用词义代替词并且通过考虑关键候选词的语义信息来提高关键词提取算法性能的方法.与现有的关键词提取方法不同,该方法首先通过使用消歧算法,通过上下文得到候选词的词义;然后在后面的词合并、特征提取和评估的步骤中,候选词义之间的语义相关度被用来提高算法的性能.在评估算法时,我们采用一种更为有效的基于语义的评估方法与著名的Kea系统作比较.在不同领域间的实验中可以发现,当考虑语义信息后,关键词提取算法的性能能够得到很大的提高.在同领域的实验中,我们的算法的性能与Kea 算法的相近.我们的算法没有领域的限制性,因此具有更好的应用前景.  相似文献   

11.
政府采购平台上的电商大数据,由于商品种类繁多且书写格式无统一规范,采用传统模型在大数据中标定出同一种商品时准确率低、速度慢、样本利用率低、泛化能力不足.提出一种基于长短时记忆网络(LSTM)的同一性标定模型,该模型由分词、重要性排序和相似度计算3个子模型串联组成.分词子模型对电商大数据进行预处理,获得有区分度的关键词序列;LSTM重要性排序子模型筛选最能表征商品信息的重要关键词序列;LS T M相似度计算子模型在给定大数据中准确标定出同一种商品.另外还引入二分查找、GloVe词向量化和词序列语义校验技术,分别用于提高标定速度、训练样本利用率与标定泛化能力.实验结果表明,在处理不同品类的电商大数据时,所提模型对易混淆样本的同一性标定准确率高.  相似文献   

12.
针对基于数据图的关系数据库关键词查询结果的排序问题, 提出了基于多因素的结果二度排序法。该方法结合结果结构权重和信息检索中常用的内容匹配, 首先采用结果路径权重衡量关键词之间的关联紧密程度对结果粗排序; 然后, 对于结构权重相等的结果, 引入信息元组中的关键词词频和包含关键词的信息量对结果细排序。实验分析表明, 该排序方法能将与查询条件高度相关的结果排在前面, 提高结果的查准率。  相似文献   

13.
Most Web pages contain location information, which are usually neglected by traditional search engines. Queries combining location and textual terms are called as spatial textual Web queries. Based on the fact that traditional search engines pay little attention in the location information in Web pages, in this paper we study a framework to utilize location information for Web search. The proposed framework consists of an offline stage to extract focused locations for crawled Web pages, as well as an online ranking stage to perform location-aware ranking for search results. The focused locations of a Web page refer to the most appropriate locations associated with the Web page. In the offline stage, we extract the focused locations and keywords from Web pages and map each keyword with specific focused locations, which forms a set of <keyword, location> pairs. In the second online query processing stage, we extract keywords from the query, and computer the ranking scores based on location relevance and the location-constrained scores for each querying keyword. The experiments on various real datasets crawled from nj.gov, BBC and New York Time show that the performance of our algorithm on focused location extraction is superior to previous methods and the proposed ranking algorithm has the best performance w.r.t different spatial textual queries.  相似文献   

14.
Keyword search is the most popular technique for querying large tree-structured datasets, often of unknown structure, in the web. Recent keyword search approaches return lowest common ancestors (LCAs) of the keyword matches ranked with respect to their relevance to the keyword query. A major challenge of a ranking approach is the efficiency of its algorithms as the number of keywords and the size and complexity of the data increase. To face this challenge most of the known approaches restrict their ranking to a subset of the LCAs (e.g., SLCAs, ELCAs), missing relevant results.In this work, we design novel top-k-size stack-based algorithms on tree-structured data. Our algorithms implement ranking semantics for keyword queries which is based on the concept of LCA size. Similar to metric selection in information retrieval, LCA size reflects the proximity of keyword matches in the data tree. This semantics does not rank a predefined subset of LCAs and through a layered presentation of results, it demonstrates improved effectiveness compared to previous relevant approaches. To address performance challenges our algorithms exploit a lattice of the partitions of the keyword set, which empowers a linear time performance. This result is obtained without the support of auxiliary precomputed data structures. An extensive experimental study on various and large datasets confirms the theoretical analysis. The results show that, in contrast to other approaches, our algorithms scale smoothly when the size of the dataset and the number of keywords increase.  相似文献   

15.
针对语义信息对TextRank的影响,同时考虑新闻标题信息高度浓缩以及关键词的覆盖性与差异性的特点,提出一种新的融合LSTM和LDA差异的关键词抽取方法。首先对新闻文本进行预处理,得到候选关键词;其次通过LDA主题模型得到候选关键词的主题差异影响度;然后结合LSTM模型和word2vec模型计算候选关键词与标题的语义相关性影响度;最后将候选关键词节点按照主题差异影响度和语义相关性影响度进行非均匀转移,得到最终的候选关键词排序,抽取关键词。该方法融合了关键词的语义重要性、覆盖性以及差异性的不同属性。在搜狗全网新闻语料上的实验结果表明,该方法的抽取结果相比于传统方法在准确率和召回率上都有明显提升。  相似文献   

16.
基于关系数据库的关键词查找技术像使用搜索引擎一样获取数据库中相关的数据.针对RDBMS上具体书目索引数据库的关键词查找高效性问题,提出了对返回结果集的一种排序策略.以查询序列与结果元组树之间的相似值作为排序依据,参照传统信息检索系统上关键词查找结果集排序的相似值计算公式,提出数据库上查询序列与结果元组树之间的相似值公式,并分析与重新定义了相关影响因子的标准化函数表达式.通过在简单数据库上的分析验证了该改进是合理的.  相似文献   

17.
Ranking is a main research issue in IR-styled keyword search over a set of documents. In this paper, we study a new keyword search problem, called context-sensitive document ranking, which is to rank documents with an additional context that provides additional information about the application domain where the documents are to be searched and ranked. The work is motivated by the fact that additional information associated with the documents can possibly assist users to find more relevant documents when the...  相似文献   

18.
针对XML文档集的关键词检索结果排序   总被引:1,自引:0,他引:1       下载免费PDF全文
探讨了针对XML文档集中只与内容相关的关键词检索结果的排序问题,针对XML文档特征提出了一种新的排序模型,它不同于面向Web的XML网页的搜索结果的排序。设计了满足这种排序模型的倒排列表索引结构和搜索引擎的体系结构。  相似文献   

19.
关系数据库上的关键词查询使得用户不必了解SQL语法或者数据库模式即可方便进行检索,并利用关系表的连接来保证查询的完整性。由于关键词集合查询的信息通常与不同数据类型的字段相关,并且分散在多个表中,而关系数据库缺乏对这类信息有效的索引,从而导致查询效率和准确率比较低。针对关系数据库的结构化模式,提出了一种基于层次树的数据提取方法,将关系数据库模型化为一棵层次树,关键词查询问题转化为树的遍历问题,并从关键词数据类型的分类、属性值之间的相关度、查询结果评分排序等方面设计了一个综合的优化方法。通过实验验证,该方法可以实现以较高的效率和较低的计算代价完成关键词查询。  相似文献   

20.
郑志蕴  刘博李伦  王振飞 《计算机科学》2015,42(7):234-239, 249
随着语义网数据的海量涌现,人们更加关注RDF图的数据查询效率,通过关键词匹配直接查询RDF数据图成为一个研究热点。针对关键词查询中普遍存在的结果冗余与偏离等问题,提出了一种基于关键词的RDF数据图查询模型。该模型首先采用提出的基于迭代的图查询算法(ISGR)对所查询关键词进行子图匹配,得到唯一且最大的结果子图集合;然后根据关键词图与结果子图之间的结构信息,利用统计语言模型,给出了一种结果子图排序方法(SimLM)。对比实验表明,提出的查询模型及排序方法在一致性和相关性方面的性能优于传统模型。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号