共查询到18条相似文献,搜索用时 109 毫秒
1.
2.
现有关键词抽取算法缺乏对短语的有效表示,为抽取出更能反映文本主题的关键短语,本文提出一种基于短语向量的关键词抽取方法PhraseVecRank.首先设计基于LSTM(Long Short-Term Memory)和CNN(Convolutional Neural Network)自编码器的短语向量构建模型,解决复杂短语的语义表示问题.然后,利用短语向量对每个候选短语计算主题权重,通过主题加权排序提高关键词抽取的效果.在公共数据集和学术论文数据上的实验表明,本文提出的方法能够有效提取与文本主题信息相关的关键短语,同时利用自编码器构造的短语向量可以更好地表示短语的语义信息. 相似文献
3.
基于图模型的TextRank方法形成的摘要不会脱离文档本身,但在抽取文本特征的时候,传统的词向量获取方法存在一词多义的问题,而基于BERT的词向量获取方式,充分挖掘了文本语义信息,缓解了一词多义问题.对不同词嵌入方法进行了实验对比,验证了BERT模型的有效性.基于词频统计的相似度计算方法也忽略了句子的语义信息,文中选择... 相似文献
4.
5.
6.
传统的VSM向量空间模型忽略了文本语义,构建的文本特征矩阵具有稀疏性。基于深度学习词向量技术,文中提出一种融合改进TextRank算法的相似度计算方法。该方法利用词向量嵌入的技术来构建文本向量空间,使得构建的向量空间模型具有了语义相关性,同时采用改进的TextRank算法提取文本关键字,增强了文本特征的表达并消除了大量冗余信息,降低了文本特征矩阵的稀疏性,使文本相似度的计算更加高效。不同模型的仿真实验结果表明,融合改进的TextRank算法与Bert词向量技术的方法具有更好的文本相似度计算性能。 相似文献
7.
针对医疗护理领域知识复杂性强、数据量大以及对准确度要求较高的问题,该研究提出一种基于卷积神经网络的医疗护理学实体关系抽取方法,实现对护理学语义关系的细粒度文本挖掘。该研究构建了医疗护理学语料标注系统,通过将医疗语料转化为向量特征矩阵,实现了对医疗语料的自动过滤和标注。通过向神经网络模型嵌入所构建的医疗关系语料库,一定程度上提高了模型疾病分类的准确度。在医疗护理学数据集上的实验表明,基于卷积神经网络的模型在指标精确度、召回率、F1值可达到89.78%、87.59%、89.77%。综上所述,该研究提出的基于卷积神经网络的医疗护理学实体关系抽取方法能够有效地抽取医疗语料数据中的实体关系,优于传统的实体关系抽取模型。 相似文献
8.
一种基于自举原理的语义模式自动获取方法 总被引:1,自引:1,他引:0
语义模式的自动获取是解决信息抽取系统可移植性问题的关键之一。文章提出了一种基于自举原理的语义模式自动获取方法。该方法是一种新的双循环自举机制,由内自举和外自举两部分组成。内自举借助通用的《同义词词林》扩张模式的语义范围;外自举利用模式之间的交叉项作为链接点自动寻找新模式。用于从未标注的文本中自动发现语义模式,启动时只须用户提供少量的抽取示例作为种子,运行中即可增量式地发现新语义模式。测试表明.该方法产生的语义模式在信息抽取中具有较好的准确率和召回率。 相似文献
9.
一种基于语义可理解的信息过滤算法 总被引:2,自引:0,他引:2
个性化与准确化是信息过滤技术发展面临的关键问题.语义理解技术有助于解决这一关键问题.其基本思想是对信息内容以及用户需求进行形式化语义描述,使其具备计算机可理解的形式,进而以语义为标准实现信息过滤.该文提出定义信息领域本体以描述语义,并将信息语义分为信息特征项和其解释,同时将用户需求语义分为显性需求和隐性需求.进而,给出了信息语义理解判定方法和用户需求语义理解判定方法.最后,该文提出了基于语义可理解的信息过滤算法.实验分析表明,这种信息过滤方式能够有效地提高信息获取的效率. 相似文献
10.
11.
协同过滤作为推荐系统核心技术,面临严重的评分数据稀疏性问题.融合物品文本信息可以有效的解决数据稀疏性问题,然而,目前的方法侧重于提取文本的单维特征,忽略了物品语义表示的多维特性.深度挖掘物品内容的多维特性可以更加精细化描述物品的语义信息,有助于提升推荐效果.为此,本文提出基于胶囊网络的概率生成模型.模型利用胶囊网络挖掘文本的多维语义特征,并以正则化方式融入概率矩阵分解框架,建立用户与物品之间的内在关系.实验结果表明本文提出的模型具有更高的评分预测精度. 相似文献
12.
基于类别分布差异和VPRS特征选择的文本分类方法 总被引:3,自引:0,他引:3
权值计算和特征降维是影响文本分类的精度和效率的两个重要步骤。该文首先根据特征词的类别分布差异进行特征过滤;然后,分析传统的权值公式TF-IDF的缺点,采用改进的权值计算公式简记为TF-CDF,依据TF-CDF公式计算每个特征词的权值,生成文档集的向量空间模型VSM;接着,提出了一种基于可变精度粗糙理论(VPRS)的特征选择进一步选择对分类贡献度大的特征,并用SQL实现。最后利用支持向量机LibSVM分类器进行实验,实验结果表明特征过滤和选择方法及TF-CDF权值公式有助于提高分类精度和分类效率。 相似文献
13.
一种基于段落同现频率的加权方法 总被引:1,自引:1,他引:0
聚类算法的研究已经非常成熟了,但是这些聚类算法一般都是基于数值型信息,所以怎样把现有的一些经典聚类算法有效地应用到文本聚类,特别是中文文本聚类是一个非常重要的问题。文中提出了一种基于语义分析,利用段落同现频率来加权特征向量权值的方法。实验证明:基于语义分析特征向量加权的方法能够提高10%左右的文本聚类效果。同时,文中还研究了段落同现频率阈值选取问题,发现段落同现频率阈值选取大小对聚类效果有很大影响。 相似文献
14.
15.
Web文本内容过滤方法的研究 总被引:7,自引:0,他引:7
文章研究了Web文本内容过滤的方法,分析了向量空间模型、关键词匹配算法等关键技术.并详细讨论了Web网页中文本内容过滤方法的实现过程。重点分析了该方法中的修正值选取、关键词权重函数以及过虑策略等方面的不足,提出了一个改进的Web文本内容过滤方法,能够有效降低算法的复杂性,提高性能。 相似文献
16.
《Digital Communications & Networks》2022,8(6):942-954
Nowadays short texts can be widely found in various social data in relation to the 5G-enabled Internet of Things (IoT). Short text classification is a challenging task due to its sparsity and the lack of context. Previous studies mainly tackle these problems by enhancing the semantic information or the statistical information individually. However, the improvement achieved by a single type of information is limited, while fusing various information may help to improve the classification accuracy more effectively. To fuse various information for short text classification, this article proposes a feature fusion method that integrates the statistical feature and the comprehensive semantic feature together by using the weighting mechanism and deep learning models. In the proposed method, we apply Bidirectional Encoder Representations from Transformers (BERT) to generate word vectors on the sentence level automatically, and then obtain the statistical feature, the local semantic feature and the overall semantic feature using Term Frequency-Inverse Document Frequency (TF-IDF) weighting approach, Convolutional Neural Network (CNN) and Bidirectional Gate Recurrent Unit (BiGRU). Then, the fusion feature is accordingly obtained for classification. Experiments are conducted on five popular short text classification datasets and a 5G-enabled IoT social dataset and the results show that our proposed method effectively improves the classification performance. 相似文献
17.
In this article, we propose a novel system for feature selection, which is one of the key problems in content-based image
indexing and retrieval as well as various other research fields such as pattern classification and genomic data analysis.
The proposed system aims at enhancing semantic image retrieval results, decreasing retrieval process complexity, and improving
the overall system usability for end-users of multimedia search engines. Three feature selection criteria and a decision method
construct the feature selection system. Two novel feature selection criteria based on inner-cluster and intercluster relations
are proposed in the article. A majority voting-based method is adapted for efficient selection of features and feature combinations.
The performance of the proposed criteria is assessed over a large image database and a number of features, and is compared
against competing techniques from the literature. Experiments show that the proposed feature selection system improves semantic
performance results in image retrieval systems.
This work was supported by the Academy of Finland, Project No. 213,462 (Finnish Centre of Excellence Program 2006–2011). 相似文献
18.
With the rapid development of deep learning techniques, convolutional neural networks (CNN) have been widely investigated for the feature representations in the image retrieval task. However, the key step in CNN-based retrieval, i.e., feature aggregation has not been solved in a robust and general manner when tackling different kinds of images. In this paper, we present a deep feature aggregation method for image retrieval using the Fourier transform and low-pass filtering, which can adaptively compute the weights for each feature map with discrimination. Specifically, the low-pass filtering can preserve the semantic information in each feature map by transforming images to the frequency domain. In addition, we develop three adaptive methods to further improve the robustness of feature aggregation, i.e., Region of Interests (ROI) selection, spatial weighting and channel weighting. Experimental results demonstrate the superiority of the proposed method in comparison with other state-of-the-art, in achieving robust and accurate object retrieval under five benchmark datasets. 相似文献