首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 250 毫秒
1.
针对在传统语义融合的文本相似度算法设计与实现中由于汉语语义复杂存在容易形成局部极小值而得不到全局最优、训练次数较多、学习效率降低、隐节点的选取缺乏理论依据等问题,提出一种改进算法。首先在把握文本相似度算法内涵和分类情况的基础上,通过调整数字识别方向、选取合适的数据来源,依据图像识别技术和算法深度学习的共性需求,从语义融合角度提出以核心词为节点进行文本相似度计算;然后通过多特征融合向量空间模型对特征项的类间分布问题进行分析,最终通过加权计算得到文本相似度。从算法实现效果来看,相较于传统算法能够获得更高文本分类准确度,改进基于文本相似度算法的语言处理技术更加高效、准确。  相似文献   

2.
基于图模型的TextRank方法形成的摘要不会脱离文档本身,但在抽取文本特征的时候,传统的词向量获取方法存在一词多义的问题,而基于BERT的词向量获取方式,充分挖掘了文本语义信息,缓解了一词多义问题.对不同词嵌入方法进行了实验对比,验证了BERT模型的有效性.基于词频统计的相似度计算方法也忽略了句子的语义信息,文中选择...  相似文献   

3.
随着人工智能应用越来越广泛,自然语言处理技术得到了快速发展。针对文本的语义分析、比对,一直是研究的热点与难点。因此,在自然语言处理语义相似度相关算法研究的基础上,针对垂直领域中的政策法规,依据政策法规用语规范、构成具有一定规律的特点,采用词向量、句法分析、深度神经网络LSTM模型结合规则库的一种多特征融合语义分析与比对方法,对政策法规进行智能审核,并通过相关实验证明了此方法的有效性。  相似文献   

4.
由于电力调度过程中存在大量重复性电力文本,导致语义识别结果形式与理想形式差距较大。针对该问题,提出了基于改进Bert-AutoML的电力文本语义识别算法。采用基于词块的粒度划分方式,提取电力文本字粒度语义特征。计算语义序列与命名实体数据库中语义的相似度,获取多个对应语义序列,构建电力文本语义识别模型。使用自动机器学习法训练模型文本输入,计算输入向量和电力文本库中向量匹配度。结合字符掩码训练策略,将掩盖的内容与背景相联系,得到最终语义识别结果。实验结果表明,该算法语义识别结果呈现段落-结构形式,排列整齐且简洁,与理想识别结果一致。  相似文献   

5.
提出一种基于差异化融合的语义信息检索算法,并实现模型设计和仿真。构建语义本体模型,提取关联维差异化特征,进行特征融合,采用自顶向下和分治的方法构建差异化语义信息特征的融合模型,求得融合后的差异化语义信息特征信息增益,在语义信息检索本体模型特征空间中,计算语义信息特征,将不同文本分量元素进行初始化倾向性分类处理,基于集中度、分散度和频度构建特征空间,进行信息抽取,对分层差异化特征进行融合处理,实现语义信息检索算法改进。  相似文献   

6.
王侃  曹开臣  徐畅  潘袁湘  牛新征 《电讯技术》2019,59(10):1175-1181
传统的文本摘要方法,如基于循环神经网络和Encoder-Decoder框架构建的摘要生成模型等,在生成文本摘要时存在并行能力不足或长期依赖的性能缺陷,以及文本摘要生成的准确率和流畅度的问题。对此,提出了一种动态词嵌入摘要生成方法。该方法基于改进的Transformer模型,在文本预处理阶段引入先验知识,将ELMo(Embeddings from Language Models)动态词向量作为训练文本的词表征,结合此词对应当句的文本句向量拼接生成输入文本矩阵,将文本矩阵输入到Encoder生成固定长度的文本向量表达,然后通过Decoder将此向量表达解码生成目标文本摘要。实验采用Rouge值作为摘要的评测指标,与其他方法进行的对比实验结果表明,所提方法所生成的文本摘要的准确率和流畅度更高。  相似文献   

7.
针对Word2Vec等模型所表示的词向量存在语义模糊从而导致的特征稀疏问题,提出一种结合自编码和广义自回归预训练语言模型的文本分类方法。首先,分别通过BERT、XLNet对文本进行特征表示,提取一词多义、词语位置及词间联系等语义特征;再分别通过双向长短期记忆网络(BiLSTM)充分提取上下文特征,最后分别使用自注意力机制(Self_Attention)和层归一化(Layer Normalization)实现语义增强,并将两通道文本向量进行特征融合,获取更接近原文的语义特征,提升文本分类效果。将提出的文本分类模型与多个深度学习模型在3个数据集上进行对比,实验结果表明,相较于基于传统的Word2Vec以及BERT、XLNet词向量表示的文本分类模型,改进模型获得更高的准确率和F1值,证明了改进模型的分类有效性。  相似文献   

8.
情感分类是观点挖掘的热点研究之一,微博文本情感分类具有很高的应用价值.鉴于传统特征选择方法存在语义缺陷,采用神经网络语言模型,提出了基于概率模型的对词向量进行权重分配的深层特征表示方法,构建文本语义向量.将文本深层特征与浅层特征融合,构建融合语义信息的特征向量,弥补传统特征选择方法语义的缺陷.采用SVM层次结构分类模型,实现多种情感分类.实验结果表明,采用特征融合的层次结构情感分类方法,能有效提高微博情感分类的准确率.  相似文献   

9.
目前计算机辅助翻译在相似度计算方面存在很大的局限性,精度较低。针对特定领域,收集领域相关的训练语料,采用Google的word2vec进行英语和汉语的词向量模型构建,设计并实现汉语句子的相似度计算方法,提出基于词向量Jaccard相似度与基于词向量依存句法相结合的相似度计算方法,实验结果显示其效果比传统方法有较大提升。最后,将相关英汉句子相似度算法以接口的形式封装,作为商品化软件华建IAT系统的相似度计算模块投入实际应用。  相似文献   

10.
刘敏娜 《现代电子技术》2012,35(11):186-187,191
为了能够实现对信息检索中的文本分类策略,采用了空间模型算法,做了实验文档测试,获得了各自的权重文档搜索结果,得到在检索过程中,向量空间模型根据文档之间的相似度,计算哪个文档最符合用户输入的关键字的结论,具有信息检索中文本相似度根据权值大小分类显示的特点。  相似文献   

11.
冀鑫  冀小平 《电视技术》2015,39(23):101-105
基于内容的图像检索算法一直是图像领域研究的热门课题,因此提出一种新的融合矢量量化与LBP的图像检索算法。首先,将彩色图像转化到HSI颜色空间,进行矢量量化编码,统计图像码字出现的频数,形成颜色直方图,完成颜色特征的提取;然后,再将彩色图像转化成灰度图像,利用局部二进制模式(LBP)算法提取纹理特征;最后,相似度计算采用颜色特征和纹理特征相似度加权平均,并且改变颜色特征和纹理特征的权值,多次实验,得到使查准率最高的权值。实验结果表明,算法能有效地提升图像检索性能。  相似文献   

12.
Keyword extraction by Term frequency-Inverse document frequency (TF-IDF) is used for text information retrieval and mining in many domains,such as news text,social contact text,and medical text.However,keyword extraction in special domains still needs to be improved and optimized,particularly in the scientific research field.The traditional TF-IDF algorithm considers only the word frequency in documents,but not the domain characteristics.Therefore,we propose the Scientific research project TF-IDF (SRP-TF-IDF) model,which combines TF-IDF with a weight balance algorithm designed to recalculate candidate keywords.We have implemented the SRP-TF-IDF model and verified that our method has better precision,recall,and F1 score than the traditional TF-IDF and TextRank methods.In addition,we investigated the parameter of our weight balance algorithm to find an optimal value for keyword extraction from scientific research projects.  相似文献   

13.
In order to improve the accuracy of text similarity calculation, this paper presents a text similarity function part of speech and word order-smooth inverse frequency (PO-SIF) based on sentence vector, which optimizes the classical SIF calculation method in two aspects: part of speech and word order. The classical SIF algorithm is to calculate sentence similarity by getting a sentence vector through weighting and reducing noise. However, the different methods of weighting or reducing noise would affect the efficiency and the accuracy of similarity calculation. In our proposed PO-SIF, the weight parameters of the SIF sentence vector are first updated by the part of speech subtraction factor, to determine the most crucial words. Furthermore, PO-SIF calculates the sentence vector similarity taking into the account of word order, which overcomes the drawback of similarity analysis that is mostly based on the word frequency. The experimental results validate the performance of our proposed PO-SIF on improving the accuracy of text similarity calculation.  相似文献   

14.
针对信息增益模型在文本分类中的不足之处,提出了一种基于灰关系与信息增益的文本分类算法.首先基于改进的χ2统计进行类别特征选择用于类内文本表示,提高类别中心向量的表示能力;其次针对IG模型对低频词赋权过大问题,提出了基于频数和位置的改进加权方法;最后提出了基于灰关系的文本相似度计算途径,改善了基于距离的相似度计算模式的不足.试验表明,此算法提高了文本分类效率.  相似文献   

15.
脱婷  马慧芳  李志欣  赵卫中 《电子学报》2000,48(11):2131-2137
针对短文本特征稀疏性问题,提出一种熵权约束稀疏表示的短文本分类方法.考虑到初始字典维数较高,首先,利用Word2vec工具将字典中的词表示成词向量形式,然后根据加权向量平均值对原始字典进行降维.其次,利用一种快速特征子集选择算法去除字典中不相关和冗余短文本,得到过滤后的字典.再次,基于稀疏表示理论在过滤后的字典上,为目标函数设计一种熵权约束的稀疏表示方法,引入拉格朗日乘数法求得目标函数的最优值,从而得到每个类的子空间.最后,在学习到的子空间下通过计算待分类短文本与每个类中短文本的距离,并根据三种分类规则对短文本进行分类.在真实数据集上的大量实验结果表明,本文提出的方法能够有效缓解短文本特征稀疏问题且优于现有短文本分类方法.  相似文献   

16.
针对Web新闻信息结构和内容特征,在分析了传统的向量空间模型存在不足的基础上,提出了根据特征词进行语义分组的向量空间模型.该模型将一篇新闻报道中的特征词从语义上划分为相对独立的4个组:时间、地点、人物和事件,进而形成了4个向量空间,并对每个向量空间进行特征项权值和相似度的计算.理论分析和实验结果表明,改进后的模型更适应...  相似文献   

17.
基于知网的概念特征抽取方法   总被引:14,自引:0,他引:14  
文本特征抽取是文本过滤的一项重要基础,但通常采取的用字、词作为特征项的显著缺点是无法表达文本的语义信息,所以本文在向量空间模型的基础上提出了一种以知网为语义知识库、基于语义信息的文本特征项抽取方法。该方法比单纯的词汇信息更能体现文本的概念特征,提高过滤系统的性能;同时还能降低文本向量的维数,减少计算量,提高过滤效率。我们在引入了该方法的中文文本过滤系统上进行的实验结果也充分证实了其有效性。  相似文献   

18.
为解决米波雷达低空测角的精度问题,该文结合稀疏贝叶斯学习方法,利用相邻快拍稀疏结构的相似性,将多观测向量模型通过Kronecker积变换成具有块稀疏结构的单观测向量模型,同时通过矩阵变换解决了贝叶斯准则在复数域中的应用。通过稀疏贝叶斯学习的不断迭代恢复出了信号在感知矩阵下的系数矩阵,得到了信源的角度信息。仿真实验验证了该方法相对于广义MUSIC和M-FOCUSS算法具有更好的性能,并且分析了快拍数变化对算法性能的影响。  相似文献   

19.
高光谱影像具有波段数多、冗余度高的特点,因此特征提取成为高光谱影像分类的研究热点。针对此问题,该文提出一种半监督稀疏流形嵌入(S3ME)算法,该方法充分利用标记样本和无标记样本,通过基于切空间的稀疏流形表示来自适应地揭示数据间的相似关系,并利用稀疏系数构建一个半监督相似图。在此基础上,增加了图中同类标记样本的权重,然后在低维空间中保持图的相似关系不变,并最小化加权距离和,获得投影矩阵实现特征提取。S3ME方法不仅能揭示数据间的稀疏流形结构,而且增强了同类数据的集聚性,能有效提取出鉴别特征,改善分类效果。该文提出的S3ME方法在PaviaU和Salinas高光谱数据集上的总体分类精度分别达到84.62%和88.07%,相比传统特征提取方法提升了地物分类性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号