首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
Text representation based on word frequency statistics is often unsatisfactory because it ignores the semantic relationships between words, and considers them as independent features. In this paper, a new Chinese text semantic representation model is proposed by considering contextual semantic and background information on the words in the text. The method captures the semantic relationships between words using Wikipedia as a knowledge base. Words with strong semantic relationships are combined into a word-package as indicated by a graph node, which is weighted with the sum of the number and frequency of the words it contains. The contextual relationship between words in different word-packages is stated by a directed edge, which is weighted with the maximum weight of its adjacent nodes. The model retains the contextual information on each word with a large extent. Meanwhile, the semantic meaning between words is strengthened. Experimental results of Chinese text classification show that the proposed model can express the content of a text accurately and improve the performance of text classification. Compared to Support Vector Machines, Text Semantic Graph-based Classification can improve the efficiency by 7.8%, reduce the error rate by 1/3, and show more stability.  相似文献   

2.
针对传统LDA主题模型无法体现词与词之间的顺序及关联性这一不足,提出一种改进的加权W-LDA情感分类方法.首先,在该模型的主题采样及其分布期望计算过程中引入平均加权值,以此避免与主题紧密相关词被高频词所淹没,从而提高主题间的区分度; 然后,以提取到的高质量文档-主题分布及主题-词向量为基础,引入支持向量机算法(SVM),构建一个集有情感词分析与提取、主题分布计算与情感分类功能的文本语料情感分析方法; 最后,利用真实的教学评价数据和公共评论集对本文方法的有效性进行了验证.结果表明,本文提出的方法在主题区分度  相似文献   

3.
分析了目前常用的不良倾向文本识别方法存在的困难和不足,设计了一种基于语义分析的不良倾向文本识别算法。该算法以语句为基本处理单元,采用依存句法获得句子的语义结构,结合How Net词汇褒贬倾向性判别,识别不良信息。实验结果表明,此算法能够较好地提高不良文本识别效率和准确率。  相似文献   

4.
Web文本分类是Web文本挖掘的一个重要研究领域.Web文本分类中通常采用向量空间模型(VSM)来表达文本特征,但是所产生的维数是巨大的,从而导致处理过程非常复杂,所以需要先对文本特征进行合理的降维处理.本文对常见的特征选择算法进行了介绍,并对它们进行了比较,最后结合当前的研究成果分析特征选择的发展趋势.  相似文献   

5.
针对文本分类问题,提出新的基于知识增强的图卷积神经网络(KEGCN)分类模型. KEGCN模型在整个文本集上构建了一个包含单词节点、文档节点、外部实体节点的文本图,不同类型节点之间使用不同的相似性计算方法;在文本图构建完成后将其输入到2层图卷积网络中学习节点的表示并进行分类. KEGCN模型引入外部知识进行构图,捕获长距离不连续的全局语义信息,是第1个将知识信息引入图卷积网络进行分类任务的工作. 在4个大规模真实数据集20NG、OHSUMED、R52、R8上进行文本分类实验,结果表明,KEGCN模型的分类准确率优于所有的基线模型. 将知识信息融入图卷积神经网络有利于学习到更精准的文本表示,提高文本分类的准确率.  相似文献   

6.
在利用大规模英汉双语平行语料库进行双向双语翻译词典建设时发现:由于错误累计问题.现有词对齐技术无法直接获取质量较高的双语词汇知识.由此提出一种基于HowNet以及WordNet进行相似度计算,然后设定相似度阈值来进行词义过滤的方法.实验结果表明该方法行之有效.并对HowNet以及WordNet相似度计算方法进行了基于实际应用的对比与探讨后得出:HowNet在语义区分上粒度更细因此其召回率较高,WordNet则具有更高的精确率.  相似文献   

7.
为解决传统的文档分类方法和手工分类方法都不适宜于处理查询分类的问题,提出了一种基于Web的自动构建特定主题的语义词典的方法来分类搜索查询,通过基于主题的Web信息采集和bootstrap-ping,由某个主题的少量关键词逐步扩充,最终得到该主题的语义词典及词典中每个单词的相对词频.Web中信息的冗余和各主题语义上的差别使各主题的语义词典中单词的种类和数量存在很大差异,这种差异可以用来对用户的搜索查询进行分类.实验结果表明,利用语义词典可以较准确地将用户的查询分类,同时该分类方法基本上不需要人工介入,且可适应搜索查询覆盖面广和实时性强的特点,较好地解决了搜索查询分类的问题.  相似文献   

8.
In order to solve the poor performance in text classification when using traditional formula of mutual information (MI),a feature selection algorithm were proposed based on improved mutual information.The improved mutual information algorithm,which is on the basis of traditional improved mutual information methods that enhance the MI value of negative characteristics and feature’s frequency,supports the concept of concentration degree and dispersion degree.In accordance with the concept of concentration degree and dispersion degree,formulas which embody concentration degree and dispersion degree were constructed and the improved mutual information was implemented based on these.In this paper,the feature selection algorithm was applied based on improved mutual information to a text classifier based on Biomimetic Pattern Recognition and it was compared with several other feature selection methods.The experimental results showed that the improved mutual information feature selection method greatly enhances the performance compared with traditional mutual information feature selection methods and the performance is better than that of information gain.Through the introduction of the concept of concentration degree and dispersion degree,the improved mutual information feature selection method greatly improves the performance of text classification system.  相似文献   

9.
为解决单纯依赖图像低级视觉模态信息进行图像识别准率低的问题. 考虑到许多图像中存在文本信息,提出了利用图像中的文本信息辅助图像识别的语义级文本协同图像识别方法. 该方法通过文本定位方法定位到图像中的文本块,对其进行分割、二值化、提取特征等处理;然后获取语义,提取图像底层视觉信息,计算两模态的相关性,从而得到协同后验概率; 最后,得到联合后验概率,并取其中最大联合后验概率对图像进行识别. 在自建体育视频帧数据库中,通过与以朴素贝叶斯为代表的单模态方法进行比较,方法在3种不同视觉特征下均具有更高的准确率. 实验结果表明,文本协同方法能够有效辅助图像识别,具有更好的识别性能.  相似文献   

10.
一种文本处理中的朴素贝叶斯分类器   总被引:22,自引:0,他引:22  
首先在特征独立性假设的基础上,讨论了朴素贝叶斯分类器的原理,以及训练朴素贝叶斯分类器和应用朴素贝叶斯分类器进行分类的问题。然后,通过EM算法(期望值最大算法),自动增加训练量,以得到较为完备的训练文本库,扩展了朴素贝叶斯分类器的应用,提高了朴素贝叶斯分类器的分类精度。文章最后给出一组实验数据。本文的研究发现,朴素贝叶斯分类器分类精度较高,并且不存在单分类器与多分类器的实现差异,是一个比较实用的分类器。  相似文献   

11.
Data sparseness,the evident characteristic of short text,has always been regarded as the main cause of the low accuracy in the classification of short texts using statistical methods.Intensive research...  相似文献   

12.
采取TF-IDF、LDA、位置权重指派与MMR相结合的方式,对不同的句子分配不同的权重.结合Word Embedding模型,分析了在BERT、RoBERTa-wwm-ext等模型测试的分类效果.  相似文献   

13.
在对化工领域类文本进行分类任务时,由于文本的专业性以及复杂多样性,仅仅依靠现有的词向量表征方式,很难对其中的专业术语以及其他化工领域内相关字词的语义进行充分表征,从而导致分类任务的准确率不高.本文提出一种融合多粒度动态语义表征的文本分类模型,首先在词嵌入层使用动态词向量表征语义信息并引入对抗扰动,使得词向量具有更好的表征能力,然后利用多头注意力机制进行词向量权重分配,获得带有关键语义信息的文本表示,最后使用提出的多尺度残差收缩深层金字塔形的卷积神经网络与混合注意力胶囊双向LSTM网络模型分别提取不同粒度的文本表示,融合后对得到的最终文本表示进行分类.实验结果表明,相比于现有模型,所提出的模型使用不同词向量表示时,在化工领域文本数据集上F1-Score最高可达84.62%,提升了0.38~5.58个百分点;在公开中文数据集THUCNews和谭松波酒店评论数据集ChnSentiCorp上进行模型泛化性能评估,模型也有较好表现.  相似文献   

14.
文本分类中特征项权重的计算方法   总被引:4,自引:0,他引:4  
特征项权重的计算方法是基于向量空间模型的文本分类中一个核心问题,计算方法的选择关系到最终分类的效果.本文对文本分类中特征项权重的计算方法进行了说明,并根据实验对几种特征项权重的计算方法进行了比较。  相似文献   

15.
为了提高具有关联工单数据的录音文本的分类精确率,根据录音文本及关联数据的特点,设计基于深度学习的录音文本分类方法. 针对录音文本,通过双向词嵌入语言模型(ELMo)获得录音文本及工单信息的向量化表示,基于获取的词向量,利用卷积神经网络(CNN)挖掘句子局部特征;使用CNN分别挖掘工单标题和工单的描述信息,将CNN输出的特征进行加权拼接后,输入双向门限循环单元(GRU),捕捉句子上下文语义特征;引入注意力机制,对GRU隐藏层的输出状态赋予不同的权重. 实验结果表明,与已有算法相比,该分类方法的收敛速度快,具有更高的准确率.  相似文献   

16.
跨领域文本情感分析时,为了使抽取的共享情感特征能够捕获更多的句子语义信息特征,提出域对抗和BERT(bidirectional encoder representations from transformers)的深度网络模型。利用BERT结构抽取句子语义表示向量,通过卷积神经网络抽取句子的局部特征。通过使用域对抗神经网络使得不同领域抽取的特征表示尽量不可判别,即源领域和目标领域抽取的特征具有更多的相似性;通过在有情感标签的源领域数据集上训练情感分类器,期望该分类器在源领域和目标领域均能达到较好的情感分类效果。在亚马逊产品评论数据集上的试验结果表明,该方法具有良好的性能,能够更好地实现跨领域文本情感分类。  相似文献   

17.
特征抽取是文本分类的重要研究领域,针对原始特征空间的高维性与稀疏性给分类算法带来"维数灾难"问题,探讨了基于词条聚合的特征抽取方法,设计了一种利用词条聚合进行特征抽取的文本分类的方案.该方案利用改进的树型动态自组织映射(TGSOM)进行词条聚合,并根据聚合特征的特点,考虑所包含的词条的文档频率的不同和区分文档类别属性的能力的不同,提出了一种新权重计算方法,最后利用SPRINT决策树算法进行分类,实验表明该方法比普通方法分类精度提高4.32%.  相似文献   

18.
针对短文本分类问题,提出基于伪相关反馈(PFR)的短文本扩展与分类方法.在保持语义不变的情况下,利用互联网中的相似语料对短文本的内容进行了扩展.对现有的仅使用局部特征的扩展语料特征抽取方法进行改进,引入全局特征抽取,将全局特征与局部特征相结合得到了更好的特征向量,有效地解决了分类过程中由短文本长度有限导致的特征矩阵高度稀疏的问题.通过在开放数据集上的测试和与其他文献的结果比对,验证了该方法在短文本分类的问题上可以取得较好的效果.  相似文献   

19.
针对传统的文本分类深度学习模型由于收敛速度慢或严重依赖于预先训练好的词向量,在大规模数据集上通常耗时较长,提出了一种结合卷积神经网络(CNN)、门控循环单元(GRU)和高速公路网络(HN)的字符级短文本分类模型,该模型具有快速收敛的捕获全局和局部文本语义的能力.此外,将误差最小化极值学习机(EM-ELM)引入到模型中,进一步提高了分类精度.实验表明,与现有方法相比,该方法在大规模文本数据集上取得了更好的性能.  相似文献   

20.
针对信息增益算法只能考察特征对整个系统的贡献、忽略特征对单个类别的信息贡献的问题,提出改进信息增益算法,通过引入权重系数调整对分类有重要价值的特征的信息增益值,以更好地考虑一个词在类别间的分布不均匀性. 针对传统专利自动分类中训练集标注瓶颈问题,提出基于改进三体训练算法的半监督分类方法,通过追踪每次更新后的训练集样本类别分布来动态改变3个分类器对同一未标记样本类别的预测概率阈值,从而在降低噪音数据影响的同时实现对未标记训练样本的充分利用. 实验结果表明,本研究所提出的分类方法在有标记训练样本较少的情况下,可以取得较好的自动分类效果,并且适当增大未标记样本数据可以增强分类器的泛化能力.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号