首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 93 毫秒
1.
本文提出一种基于概念图和简单语义分析相结合的文本过滤技术.利用概念图知识表示方法定义文本中概念间的语义倾向关系,把文本过滤问题转换成基于概念图的语义匹配问题.在使用概念图匹配推理中,利用敏感词汇分类和词语的褒贬性,有效简化过滤的匹配处理.经实际应用表明,基于概念图的倾向性文本过滤方法可以有效的识别和过滤倾向性文本信息.  相似文献   

2.
传统推荐算法通过主题模型或者词语向量化的平均值对文本内容进行映射。针对现有方法不能充分利用文本信息或忽略词序信息这一问题,文中面向科学文献,提出了一种多任务学习推荐方法。该方法基于多任务学习框架,设计编码器并搭建了GL模型。该模型被训练为内容推荐与文本元数据预测的组合,可改善传统协同过滤的稀疏性问题,使得协同过滤模型正则化。最后,分别在公开数据集与私有数据集上进行了评估测试,结果表明所提方法性能优于现有的经典方法。  相似文献   

3.
《现代电子技术》2018,(8):167-170
针对当前文本分类神经网络不能充分提取词语与词语和句子与句子之间的语义结构特征信息的问题,提出一种基于LSTM-Attention的神经网络实现文本特征提取的方法。首先,分别使用LSTM网络对文本的词语与词语和句子与句子的特征信息进行提取;其次,使用分层的注意力机制网络层分别对文本中重要的词语和句子进行选择;最后,将网络逐层提取得到的文本特征向量使用softmax分类器进行文本分类。实验结果表明,所提方法可以有效地提取文本的特征,使得准确率得到提高。将该方法应用在IMDB,yelp2013和yelp2014数据集上进行实验,分别得到52.4%,66.0%和67.6%的正确率。  相似文献   

4.
牛洪波  丁华福 《信息技术》2007,31(12):100-102
针对目前网络上不良信息变换不同方式逃脱过滤以及中文分词器分词后存在的问题,提出了基于文本分类技术的信息过滤方法,通过在原有的文本自动分类系统中添加三个过滤模块,以过滤掉无用信息、单个独立字、敏感信息等不良内容,从而保障分类安全高效。  相似文献   

5.
李慧  施荣华 《信息技术》2007,31(12):73-76
网页过滤系统旨在帮助用户屏蔽不健康的网页。提出了基于混合模式的网页过滤模型,将传统的基于网址过滤和敏感词过滤的方法与基于文本分类的过滤方法结合起来。重点讨论了特征量选取、网页结构化信息利用等方面的改进措施。实验表明这种模型在保持易于实现的特点的同时,在速度和准确度方面都有不同程度的提高。  相似文献   

6.
介绍了中文文本分类系统的原理,在特征提取上采用了文档频率法(DF)与潜在语义分析法(K认)相结合的方法,先采用DF法过滤掉DF值低的词条,降低文本矩阵的稀疏性,然后使用LSA法进行词语间的语义分析,消除同义词和多义词的影响,提高文本分类的速度与精确度。实验结果表明使用此种降维方法取得了良好的效果。  相似文献   

7.
论文提出了一种基于邻近类别分类的邮件过滤系统模型,并介绍了系统涉及到的文本特征选择、贝叶斯分类算法等关键技术,最后给出了评价方法与实验结果。结果表明,该方法能够显著地提高系统对于垃圾邮件的查准率。  相似文献   

8.
词语的情感极性判别是文本情感分析的前提和基础.本文针对如何判别中文词语的情感极性,提出了一种基于图的半监督学习方法.该方法将词语看成图中的节点,链接节点的边的权重由《知网》 2008提供的词语间的语义相似度决定.少量已知情感极性的词语作为标签,通过标签传递算法来判别大量未知词语的情感极性.实验结果表明该方法比传统的基于知网的词语情感极性判别方法有较高的正确率.  相似文献   

9.
在分析了文本中重要事件识别和文本分类方法的基础之上,提出了一种基于重要事件的文本分类方法.重点研究了该方法涉及到的两个关键技术:以重要事件表示文本和获取文本类别的模板.在中文事件语料CEC上,使用本文介绍的文本分类方法得到的平均准确率达到80%,而使用传统的以词为特征的文本分类方法得到的平均准确率为72%.  相似文献   

10.
为了提高网页文本分类的准确性.克服传统的文本分类算法易受网页中虚假、错误信息的影响.提出一种基于链接信息的网页分类算法.通过对K近邻方法的改进.利用当前网页与其父网页的链接信息对网页实沲分类,用空间向量表示待分类网页的父链接信息。在训练集合中找到K篇与该网页链接信息向量最相似的网页,计算该网页所属的类别,通过实验与传统文本分类算法进行了对比,验证了该方法的有效性.  相似文献   

11.
基于语义分析的倾向性文本过滤   总被引:12,自引:0,他引:12  
采用基于统计的文本过滤技术对具有倾向性的文本进行过滤的效果并不理想,原因在于基于统计的方法忽略了文本中的语义约束,无法有效识别倾向性信息。本文提出一种基于语义分析的文本过滤技术,将文本中的语义关系加以考虑,能高效地识别和过滤倾向性文本信息。  相似文献   

12.
基于知网的概念特征抽取方法   总被引:14,自引:0,他引:14  
文本特征抽取是文本过滤的一项重要基础,但通常采取的用字、词作为特征项的显著缺点是无法表达文本的语义信息,所以本文在向量空间模型的基础上提出了一种以知网为语义知识库、基于语义信息的文本特征项抽取方法。该方法比单纯的词汇信息更能体现文本的概念特征,提高过滤系统的性能;同时还能降低文本向量的维数,减少计算量,提高过滤效率。我们在引入了该方法的中文文本过滤系统上进行的实验结果也充分证实了其有效性。  相似文献   

13.
关键词过滤是基于文本内容过滤中最为常用的一种方法,有着广泛的应用.汉字由部件组成,将汉字拆成部件给关键词过滤造成了困难.提出了基于汉字部件组合的关键词过滤技术,依托于汉字结构标注库,运用改进的多模式匹配算法处理海量文本内容.实验结果证明,该方法能够找出被故意拆分的关键词.  相似文献   

14.
提出一种基于多特征模糊关联的垃圾邮件过滤方法.该方法分为预处理和实时处理两个阶段,在预处理阶段,分析训练样本集,提取邮件的发送源特征和文本特征的典型特征值集合,计算典型特征值与合法邮件类、垃圾邮件类之间的模糊关联度.在实时处理阶段,根据待分类邮件所包含的特征值,计算邮件的类支持度,然后利用Dempster-Shafer 证据理论实现多个特征的分类融合与判决.实验结果表明,此方法能有效提高垃圾邮件过滤的查全率和查准率.  相似文献   

15.
信息过滤技术是当前信息技术研究的一个热点。本文对BP神经网络和遗传算法在信息过滤技术中的应用,包括BP神经网络、遗传算法、文本特征提取、学习方法等,进行了研究和探讨。提出了一种基于BP神经网络和GA算法的信息过滤模型,实验结果表明,此模型运行可靠,过滤效率有明显提高。  相似文献   

16.
Web文本内容过滤方法的研究   总被引:7,自引:0,他引:7  
文章研究了Web文本内容过滤的方法,分析了向量空间模型、关键词匹配算法等关键技术.并详细讨论了Web网页中文本内容过滤方法的实现过程。重点分析了该方法中的修正值选取、关键词权重函数以及过虑策略等方面的不足,提出了一个改进的Web文本内容过滤方法,能够有效降低算法的复杂性,提高性能。  相似文献   

17.
为了实现准确、高效地从模糊的检务图像中提取文字目标,本文针对多种不同类型 的模糊检务图像,基于人工免疫原理,利用免疫因子的相关理念结合自适应滤波算法提出一 种自适应免疫算法。该算法首先通过动态地改变滤波窗口实现自适应滤波,达到兼顾保留文 字目标细节和滤除噪声的效果,再根据模糊类型的不同设计不同的免疫因子,从而实现最大 程度地保证提取文字目标的完整性、准确性。实验结果表明,本文算法在处理同种类型的模 糊图像时,相对于其他传统算法真阳率(true positive rate,TPR)有更明显地提高;且该 算法的假阳率(false positive rate,FPR)优于其他传统算法。通过各项评价指标的分析 ,表明本文算法在模糊检务图像文字提取方面具有可行性、准确性。  相似文献   

18.
为了减少将合法邮件误判为垃圾邮件的误报率及将垃圾邮件误判为合法邮件的漏报率的损失,首先基于现有的文本特征提取评估函数:期望交叉熵及互信息提出一种新的评估函数。利用此函数可提取到更具有代表性的邮件特征向量。在此之上提出一种基于贝叶斯公式可减少损失的垃圾邮件过滤方法。经过仿真测试后,发现基于新评估函数的新方法可有效降低误报率和漏报率。  相似文献   

19.
李新 《电子工程师》2009,35(6):15-20,23
信息安全是人们关注的焦点,从传统的基于行为的安全向基于内容本身的安全不断发展,信息安全的外延在不断扩大。Internet提供的海量、庞杂的信息中,不良信息以不同的表现形式,从不同的角度对不同人群造成毒害或干扰。因此,对网络访问进行必要的、有效的内容过滤是营造健康安全网络环境的重要环节。但是,传统的文本信息过滤算法仅能实现结构对应层次上的判断,无法体现文本的语义,过滤效果难以满足智能化的要求。文中结合计算机语言学知识,提出并实现了一种语义分析的过滤方法,对于那些冗长文本中因为分散存在的关键字而造成的假匹配,通过语义分析,可以很好地甄别处理,从而提高系统的召回率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号