首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 109 毫秒
1.
胡佳妮  郭军  邓伟洪  徐蔚然 《通信学报》2007,28(12):121-124
提出了一种基于短文本的独立语义特征抽取算法,旨在降低文本向量的稀疏性并提其高语义表示能力。该算法首先采用潜在语义分析降低文本的维数并去除噪声,然后运用独立成份分析方法在潜在语义特征中提取出最能表达语义且相互统计独立的特征。实验表明此算法优于潜在语义索引算法。  相似文献   

2.
孙新  盖晨  申长虹  张颖捷 《电子学报》2021,49(9):1682-1690
现有关键词抽取算法缺乏对短语的有效表示,为抽取出更能反映文本主题的关键短语,本文提出一种基于短语向量的关键词抽取方法PhraseVecRank.首先设计基于LSTM(Long Short-Term Memory)和CNN(Convolutional Neural Network)自编码器的短语向量构建模型,解决复杂短语的语义表示问题.然后,利用短语向量对每个候选短语计算主题权重,通过主题加权排序提高关键词抽取的效果.在公共数据集和学术论文数据上的实验表明,本文提出的方法能够有效提取与文本主题信息相关的关键短语,同时利用自编码器构造的短语向量可以更好地表示短语的语义信息.  相似文献   

3.
基于图模型的TextRank方法形成的摘要不会脱离文档本身,但在抽取文本特征的时候,传统的词向量获取方法存在一词多义的问题,而基于BERT的词向量获取方式,充分挖掘了文本语义信息,缓解了一词多义问题.对不同词嵌入方法进行了实验对比,验证了BERT模型的有效性.基于词频统计的相似度计算方法也忽略了句子的语义信息,文中选择...  相似文献   

4.
基于语义分析的倾向性文本过滤   总被引:12,自引:0,他引:12  
采用基于统计的文本过滤技术对具有倾向性的文本进行过滤的效果并不理想,原因在于基于统计的方法忽略了文本中的语义约束,无法有效识别倾向性信息。本文提出一种基于语义分析的文本过滤技术,将文本中的语义关系加以考虑,能高效地识别和过滤倾向性文本信息。  相似文献   

5.
情感分类是观点挖掘的热点研究之一,微博文本情感分类具有很高的应用价值.鉴于传统特征选择方法存在语义缺陷,采用神经网络语言模型,提出了基于概率模型的对词向量进行权重分配的深层特征表示方法,构建文本语义向量.将文本深层特征与浅层特征融合,构建融合语义信息的特征向量,弥补传统特征选择方法语义的缺陷.采用SVM层次结构分类模型,实现多种情感分类.实验结果表明,采用特征融合的层次结构情感分类方法,能有效提高微博情感分类的准确率.  相似文献   

6.
卢佳伟  陈玮  尹钟 《电子科技》2009,33(10):51-56
传统的VSM向量空间模型忽略了文本语义,构建的文本特征矩阵具有稀疏性。基于深度学习词向量技术,文中提出一种融合改进TextRank算法的相似度计算方法。该方法利用词向量嵌入的技术来构建文本向量空间,使得构建的向量空间模型具有了语义相关性,同时采用改进的TextRank算法提取文本关键字,增强了文本特征的表达并消除了大量冗余信息,降低了文本特征矩阵的稀疏性,使文本相似度的计算更加高效。不同模型的仿真实验结果表明,融合改进的TextRank算法与Bert词向量技术的方法具有更好的文本相似度计算性能。  相似文献   

7.
针对医疗护理领域知识复杂性强、数据量大以及对准确度要求较高的问题,该研究提出一种基于卷积神经网络的医疗护理学实体关系抽取方法,实现对护理学语义关系的细粒度文本挖掘。该研究构建了医疗护理学语料标注系统,通过将医疗语料转化为向量特征矩阵,实现了对医疗语料的自动过滤和标注。通过向神经网络模型嵌入所构建的医疗关系语料库,一定程度上提高了模型疾病分类的准确度。在医疗护理学数据集上的实验表明,基于卷积神经网络的模型在指标精确度、召回率、F1值可达到89.78%、87.59%、89.77%。综上所述,该研究提出的基于卷积神经网络的医疗护理学实体关系抽取方法能够有效地抽取医疗语料数据中的实体关系,优于传统的实体关系抽取模型。  相似文献   

8.
一种基于自举原理的语义模式自动获取方法   总被引:1,自引:1,他引:0  
语义模式的自动获取是解决信息抽取系统可移植性问题的关键之一。文章提出了一种基于自举原理的语义模式自动获取方法。该方法是一种新的双循环自举机制,由内自举和外自举两部分组成。内自举借助通用的《同义词词林》扩张模式的语义范围;外自举利用模式之间的交叉项作为链接点自动寻找新模式。用于从未标注的文本中自动发现语义模式,启动时只须用户提供少量的抽取示例作为种子,运行中即可增量式地发现新语义模式。测试表明.该方法产生的语义模式在信息抽取中具有较好的准确率和召回率。  相似文献   

9.
一种基于语义可理解的信息过滤算法   总被引:2,自引:0,他引:2  
张波  向阳  王坚 《电子与信息学报》2010,32(10):2324-2330
个性化与准确化是信息过滤技术发展面临的关键问题.语义理解技术有助于解决这一关键问题.其基本思想是对信息内容以及用户需求进行形式化语义描述,使其具备计算机可理解的形式,进而以语义为标准实现信息过滤.该文提出定义信息领域本体以描述语义,并将信息语义分为信息特征项和其解释,同时将用户需求语义分为显性需求和隐性需求.进而,给出了信息语义理解判定方法和用户需求语义理解判定方法.最后,该文提出了基于语义可理解的信息过滤算法.实验分析表明,这种信息过滤方式能够有效地提高信息获取的效率.  相似文献   

10.
为了提高机器单词翻译的准确性,需要进行关键语义筛选和特征提取,故提出一种基于主题词表自然语义信息抽取的海量数据机器单词中关键语义筛选方法。首先构建海量数据机器单词的文本语义主题词概念决策树模型,采用语义信息转换方式计算机器单词中关键语义的利用规则、聚类中心等信息参量;然后采用主题词表自然语义信息抽取方法进行语义评估和翻译可靠性测试,实现关键语义自动筛选控制;最后进行仿真测试。结果表明,采用该方法进行机器单词中关键语义筛选,提高了文本机器翻译的自适应配准能力,翻译的准确性得到有效提高。  相似文献   

11.
任开旭  王玉龙  刘同存  李炜 《电子学报》2019,47(9):1848-1854
协同过滤作为推荐系统核心技术,面临严重的评分数据稀疏性问题.融合物品文本信息可以有效的解决数据稀疏性问题,然而,目前的方法侧重于提取文本的单维特征,忽略了物品语义表示的多维特性.深度挖掘物品内容的多维特性可以更加精细化描述物品的语义信息,有助于提升推荐效果.为此,本文提出基于胶囊网络的概率生成模型.模型利用胶囊网络挖掘文本的多维语义特征,并以正则化方式融入概率矩阵分解框架,建立用户与物品之间的内在关系.实验结果表明本文提出的模型具有更高的评分预测精度.  相似文献   

12.
基于类别分布差异和VPRS特征选择的文本分类方法   总被引:3,自引:0,他引:3  
权值计算和特征降维是影响文本分类的精度和效率的两个重要步骤。该文首先根据特征词的类别分布差异进行特征过滤;然后,分析传统的权值公式TF-IDF的缺点,采用改进的权值计算公式简记为TF-CDF,依据TF-CDF公式计算每个特征词的权值,生成文档集的向量空间模型VSM;接着,提出了一种基于可变精度粗糙理论(VPRS)的特征选择进一步选择对分类贡献度大的特征,并用SQL实现。最后利用支持向量机LibSVM分类器进行实验,实验结果表明特征过滤和选择方法及TF-CDF权值公式有助于提高分类精度和分类效率。  相似文献   

13.
一种基于段落同现频率的加权方法   总被引:1,自引:1,他引:0  
聚类算法的研究已经非常成熟了,但是这些聚类算法一般都是基于数值型信息,所以怎样把现有的一些经典聚类算法有效地应用到文本聚类,特别是中文文本聚类是一个非常重要的问题。文中提出了一种基于语义分析,利用段落同现频率来加权特征向量权值的方法。实验证明:基于语义分析特征向量加权的方法能够提高10%左右的文本聚类效果。同时,文中还研究了段落同现频率阈值选取问题,发现段落同现频率阈值选取大小对聚类效果有很大影响。  相似文献   

14.
微博短文本中存在一些相同或相近、但与主题关系不大的词项,对准确度量文本之间的相似性具有较大的干扰作用,影响微博话题被发现的质量。提出一种基于文本内容与结构化信息相结合的特征词选择算法,能有效提取具有代表性的特征词,并对文本、话题间相似度的计算策略进行改进,然后将特征词选择算法与相似度计算方法融合,应用于微博文本数据实现话题发现。实验结果表明,本算法能有效降低话题发现的平均漏检率与误检率,提高话题发现质量。  相似文献   

15.
Web文本内容过滤方法的研究   总被引:7,自引:0,他引:7  
文章研究了Web文本内容过滤的方法,分析了向量空间模型、关键词匹配算法等关键技术.并详细讨论了Web网页中文本内容过滤方法的实现过程。重点分析了该方法中的修正值选取、关键词权重函数以及过虑策略等方面的不足,提出了一个改进的Web文本内容过滤方法,能够有效降低算法的复杂性,提高性能。  相似文献   

16.
Nowadays short texts can be widely found in various social data in relation to the 5G-enabled Internet of Things (IoT). Short text classification is a challenging task due to its sparsity and the lack of context. Previous studies mainly tackle these problems by enhancing the semantic information or the statistical information individually. However, the improvement achieved by a single type of information is limited, while fusing various information may help to improve the classification accuracy more effectively. To fuse various information for short text classification, this article proposes a feature fusion method that integrates the statistical feature and the comprehensive semantic feature together by using the weighting mechanism and deep learning models. In the proposed method, we apply Bidirectional Encoder Representations from Transformers (BERT) to generate word vectors on the sentence level automatically, and then obtain the statistical feature, the local semantic feature and the overall semantic feature using Term Frequency-Inverse Document Frequency (TF-IDF) weighting approach, Convolutional Neural Network (CNN) and Bidirectional Gate Recurrent Unit (BiGRU). Then, the fusion feature is accordingly obtained for classification. Experiments are conducted on five popular short text classification datasets and a 5G-enabled IoT social dataset and the results show that our proposed method effectively improves the classification performance.  相似文献   

17.
In this article, we propose a novel system for feature selection, which is one of the key problems in content-based image indexing and retrieval as well as various other research fields such as pattern classification and genomic data analysis. The proposed system aims at enhancing semantic image retrieval results, decreasing retrieval process complexity, and improving the overall system usability for end-users of multimedia search engines. Three feature selection criteria and a decision method construct the feature selection system. Two novel feature selection criteria based on inner-cluster and intercluster relations are proposed in the article. A majority voting-based method is adapted for efficient selection of features and feature combinations. The performance of the proposed criteria is assessed over a large image database and a number of features, and is compared against competing techniques from the literature. Experiments show that the proposed feature selection system improves semantic performance results in image retrieval systems. This work was supported by the Academy of Finland, Project No. 213,462 (Finnish Centre of Excellence Program 2006–2011).  相似文献   

18.
With the rapid development of deep learning techniques, convolutional neural networks (CNN) have been widely investigated for the feature representations in the image retrieval task. However, the key step in CNN-based retrieval, i.e., feature aggregation has not been solved in a robust and general manner when tackling different kinds of images. In this paper, we present a deep feature aggregation method for image retrieval using the Fourier transform and low-pass filtering, which can adaptively compute the weights for each feature map with discrimination. Specifically, the low-pass filtering can preserve the semantic information in each feature map by transforming images to the frequency domain. In addition, we develop three adaptive methods to further improve the robustness of feature aggregation, i.e., Region of Interests (ROI) selection, spatial weighting and channel weighting. Experimental results demonstrate the superiority of the proposed method in comparison with other state-of-the-art, in achieving robust and accurate object retrieval under five benchmark datasets.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号