首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 234 毫秒
1.
基于主题和态度分类的文本过滤系统   总被引:3,自引:0,他引:3       下载免费PDF全文
闵锦  黄萱菁 《计算机工程》2007,33(2):163-164
文本过滤是指从大量的文本数据流中寻找满足特定用户需求的文本的过程。该文介绍了一种文本过滤算法,该算法把基于空间向量模型的主题分类算法与基于支持向量机文本态度分类结合起来。实验结果表明该方法具有较高的精度和召回率。  相似文献   

2.
该文设计了一种面向信息内容安全的不良文本信息过滤模型。该模型采用主题信息过滤和倾向性过滤两级过滤模式,以语句为基本处理单元,采用依存句法获取语句的语义框架,结合基于知网的词汇褒贬倾向性判别,识别文本中的不良信息并予以过滤。实验表明,该模型能够较好地提高文本过滤效率和准确率。  相似文献   

3.
基于概念扩充的文本过滤模型   总被引:7,自引:1,他引:7  
该文在介绍文本过滤的背景及向量空间模型的同时,提出了基于语义词典对用户模板进行扩充的文本过滤模型,该模型首先对文本进行分析,把文本表示成向量空间中的向量形式,在形成用户初始模板之后,对用户模板进行同义词扩充,形成扩充后的用户模板,以此模板来进行文本过滤。在用户反馈的基础上,自适应地修改该模板,以适应用户变化的需求及改善系统过滤性能。实验表明,这样的确可以提高系统覆盖面,提高系统效率。  相似文献   

4.
传统的向量空间过滤模型通常是提取字、词、短语等作为特征项,这样做的缺点是没有考虑文本的语义信息。文章提出了利用知网对向量空间模型的文本向量进行同义词消除的过滤方法。该方法比传统的单纯基于关键词匹配的方法更精确地体现了文本之间的相似度,提高了过滤性能,同时也降低了向量空间的维数,减少了计算量,提高了过滤的效率,实验结果表明基于该文的过滤方法确实提高了系统的性能。  相似文献   

5.
互联网文本数据量的激增使得对其作聚类运算的处理时间显著加长,虽有研究者利用Hadoop架构进行了k-means并行化研究,但由于很难有效满足k-means需要频繁迭代的特点,因此执行效率仍然不能让人满意。该文研究提出了基于新一代并行计算系统Spark的k-means文本聚类并行化算法,利用RDD编程模型充分满足了k-means频繁迭代运算的需求。实验结果表明,针对同一聚类文本大数据集和同样的计算环境,基于Spark的k-means文本聚类并行算法在加速比、扩展性等主要性能指标上明显优于基于Hadoop的实现,因此能更好地满足大规模文本数据挖掘算法的需求。  相似文献   

6.
基于词汇链的文本过滤模型   总被引:5,自引:0,他引:5  
在介绍文本过滤的背景及传统基于关键词的向量空间方法不足之处的同时,引入了词汇链的概念,提出了基于词汇链表示文本的文本过滤模型,该模型首先对文本进行分析,把文本表示成词汇链的形式,在形成用户初始模板之后,以此模板来进行文本过滤。在用户反馈的基础上,自适应地修改该模板,以适应用户变化的需求及改善系统过滤性能,实验表明,这样的确可以提高系统精度。  相似文献   

7.
一个基于决策粗糙集理论的信息过滤模型   总被引:3,自引:0,他引:3  
介绍了决策粗糙集理论,提出了一个基于决策粗糙集理论的通用信息过滤模型,并通过对电子邮件进行过滤,与传统的基于文本内容的信息过滤方法——朴素贝叶斯方法进行了比较,比较结果证明该文提出的基于决策粗糙集理论的信息过滤模型可以降低误判率,有较高的正确率。  相似文献   

8.
协同过滤推荐算法通常基于物品或用户的相似度来实现个性化推荐,但是数据的稀疏性往往导致推荐精度不理想。大多数传统推荐算法仅考虑用户对物品的总体评分,而忽略了评论文本中用户对物品各个属性面的偏好。该文提出一种基于情感分析的推荐算法SACF(reviews sentiment analysis for collaborative filtering),该算法在经典的协同过滤推荐算法的基础上,考虑评论文本对相似度计算的影响。SACF算法利用LDA主题模型挖掘物品潜在的K个属性面,通过用户在各个属性面上的情感偏好计算用户相似度,从而构建推荐模型。基于京东网上评论数据集的实验结果表明,SACF算法不但可以有效地改善传统协同过滤推荐算法中数据稀疏性的问题,而且提高了推荐系统的精度。  相似文献   

9.
针对传统贝叶斯分类算法无法满足复杂网络文本过滤需求,提出一种多词 贝叶斯分类算法(Multi Word-Bayes,MWB)。该算法一方面引入了特征权重(Term Frequency-Inverse Document Frequency,TF-IDF)的计算思想,优化了传统贝叶斯分类算法只考虑词频不考虑文本间关系的问题;另一方面将词与词间的关系作为文本分类的重要参考项,克服了传统贝叶斯分类算法在分类器训练上对语义分析的忽视。实验结果表明,MWB在垃圾文本过滤上具有更好的分类性能。  相似文献   

10.
中文文本过滤的信息分流机制   总被引:17,自引:2,他引:15  
在文本过滤中信息分流是提高过滤效率的有力的手段,为此,提出了一种新的中文文本过滤的信息分流机制.其基本思路是在概念扩充基础上,将不同用户的信息需求组织为树状结构,使其共同的部分成为共享分支,依据提出的侧面相似度和侧面匹配率来实现文本与模板的定量匹配,减弱传统的布尔模型对文本与模板匹配的严格限制,也弥补向量空间模型单纯数量化的不足,更加全面地反映用户的信息需求,试验表明该机制能够明显地提高过滤效率。  相似文献   

11.
Spammers often embed text into images in order to avoid filtering by text-based spam filters, which result in a large number of advertisement spam images. Garbage image recognition has become one of the hotspots in the field of Internet spam filtering research. Its goal is to solve the problem that traditional spam information filtering methods encounter a sharp performance decline or even failure when filtering spam image information. Based on the clustering algorithm, this paper proposes a method to expand the data samples, which greatly improves the number of high-quality training samples and meets the needs of model training. Then, we train a convolutional neural networks using the enlarged data samples to recognize the SPAM in real time. The experimental results show that the accuracy of the model is increased by more than 14% after using the method of data augmentation. The accuracy of the model can be improved by 6% compared with other methods of data augmentation. Combined with convolutional neural networks and the proposed method of data augmentation, the accuracy of our SPAM filtering model is 7–11% higher than that of the traditional method.  相似文献   

12.
为提高专利文本自动分类的效率和准确度,提出一种基于双通道特征融合的WPOS-GRU(word2vec and part of speech gated recurrent unit)专利文本自动分类方法。首先获取专利摘要文本,并进行清洗和预处理;然后对专利文本进行词向量表示和词性标注,并将专利文本分别映射为word2vec词向量序列和POS词性序列;最后使用两种特征通道训练WPOS-GRU模型,并对模型效果进行实验分析。通过对比传统专利分类方法和单通道专利分类方法,双通道特征融合的WPOS-GRU专利分类方法提高了分类效果。提出的方法节省了大量的人力成本,提高了专利文本分类的准确度,更能满足大量专利文本分类任务自动化高效率的需要。  相似文献   

13.
医疗文本专业术语复杂,垂直领域训练样本不足,传统的分类方法不能满足现实需求,提出一种基于元学习的小样本文本分类模型提高医疗文本分类效率。该模型基于迁移学习思想,加入注意力机制赋予句子中的词语不同的权重,利用两个相互竞争的神经网络分别扮演领域识别者和元知识生成者的角色,通过自适应性网络加强元学习对新数据集的适应性,最后使用岭回归获得数据集的分类。实验对比分析结果验证了该模型对一些公开文本数据集和医疗文本数据具有很好的分类效果。基于元学习的小样本文本分类模型可以成功地应用在医疗文本分类领域。  相似文献   

14.
文本过滤是指从大量的文本中寻找满足用户需求的文本的过程。以互联网上下载的突发事件新闻文本为研究背景,提出了基于新闻标题的文本过滤模型,根据示例文本构建标题过滤模板,采用基于关键字的过滤方法对突发事件新闻文本进行过滤。其特点是实现简单,过滤速度快,有一定的实际作用。  相似文献   

15.
李军  廖豪  陈洁  谭建龙 《计算机科学》2010,37(12):22-25
多媒体数据流包含多种数据形态(文本、图片、音视频)和多种通道信息(地址信息、链接信息、时间和会话信息等)。多媒体数据流通道之间具有一定的内容相关性。以往对多媒体过滤的相关工作局限于单一的数据模态,不支持不同模态信息的融合过滤和不同数据通道间的关联过滤。提出了一个新的支持多模态融合过滤和多通道联合过滤的多媒体数据流过滤模型(简称为MCFMS模型)。在真实多媒体数据流上的实验结果证明,在复杂数据流环境下,MCFMS模型可以有效地进行多模态融合过滤和多通道联合过滤。  相似文献   

16.
文本分类技术是知识管理系统实现知识有效组织、存储和检索的重要手段,而基于词向量空间模型的文本分类没有考虑知识管理系统的特点,从而也不能满足知识管理系统中多分类的需要.论文提出了一种新的基于知识本体的文本分类算法,该方法利用知识管理系统中的本体集,实现了多概念粒度分类,实验表明该方法具备良好的分类性能.  相似文献   

17.
为了进一步遏制图像型垃圾邮件的泛滥,本文首次提出了一种基于Kolmogorov复杂性的垃圾图像分类模型。该模型利用数据压缩技术,实现了对垃圾图像的有效分类。与目前主流垃圾图像分类方法相比,本模型既不需要提取图像中的文字,也不需要对图像特征进行定义和选择,而是一种无参数的分类方法。实验验证了本模型的有效性和鲁棒性,同时还表明,Kolmogorov复杂性在垃圾信息过滤中具有广阔的应用前景。  相似文献   

18.
原媛  孙敏 《电脑开发与应用》2007,20(10):19-21,24
针对传统包过滤防火墙解决不了的基于内容的网络攻击,提出了一个基于Windows系统下的文本过滤防火墙的设计,包括三部分:数据采集模块;文本内容分析模块;过滤控制模块。其中文本内容分析模块是核心,首先采用CLARA聚类方法从海量的网页中选取对分类最具有代表性页的网页作为训练集,然后再利用KNN文本分类算法实现分类过程。实验结果证明:这种方法应用在防火墙上比单纯地用KNN算法在准确率与召回率上均有提高,在性能方面可以接受。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号