共查询到15条相似文献,搜索用时 89 毫秒
1.
本文设计并实现了一个面向信息内容安全应用的文本过滤与自动分类系统。系统采取探测器和分类器两个步骤实现高速网络环境下数据截取、还原、分类的功能。探测器采取简单规则匹配和高速字符串匹配算法来提高数据截取和自身的过滤性能,分类器采取基于简单向量空间模型设计,采取自动学习和人工干预相结合的方法来提高系统的查准率和查全率。本文给出了探测器和分类器在实际应用时的技术性能。 相似文献
2.
针对当今网络信息内容本身对社会、国家和个人所产生的负面影响,设计实现了一种支持文本分类过滤的通用代理服务器.从而应用代理技术实现访问控制、身份认证和数据截取等安全策略,同时采用文本分类技术对文本数据进行主题分析.从而控制非法文本数据的传播。 相似文献
3.
4.
5.
6.
基于后缀树模型的文本实时分类系统的研究和实现 总被引:8,自引:1,他引:8
本文在面向网络内容分析的前提下,提出了一种基于后缀树的文本向量空间模型(VSM) ,并在此模型之上实现了文本分类系统。对比基于词的VSM,该模型利用后缀树的快速匹配,实时获得文本的向量表示,不需要对文本进行分词、特征抽取等复杂计算。同时,该模型能够保证训练集中文本的更改,对分类结果产生实时影响。实验结果和算法分析表明,我们系统的文本预处理的时间复杂度为O(N) ,远远优于分词系统的预处理时间复杂度。此外,由于不需要分词和特征抽取,分类过程与具体语种无关,所以是一种独立语种的分类方法。 相似文献
7.
论文在研究各种分类算法的基础上,总结了分类系统的一般流程和框架,设计并实现了一个适应性很强的可扩展的分类系统THTC。它利用面向对象技术构造,采用了一些常用的设计模式。实验证明,该系统性能与同类算法相当,能够兼容各种不同的算法和适应不同的文档,具有较强的可扩展性。 相似文献
8.
杨爱芹 《电脑与微电子技术》2012,(17):7-11
云计算模式解决了大规模数据存储和计算能力上存在的瓶颈,为大规模数据挖掘技术提供了理想的计算模式和技术手段。分析Hadoop云计算平台的数据存储和计算模型,在云计算模式的基础上.实现云计算平台上Web文本数据的贝叶斯分类模型。对于大规模数据挖掘中的数据存储和计算的问题和难点.提出一种高效、低成本的解决方案。 相似文献
9.
文本层次分类系统的研究 总被引:4,自引:0,他引:4
文章提出了层次分类模型,将类别按相似程度形成一棵树形结构,对文章分类时是一层一层逐层比较的,这样就使得文本分类时文本与类别之间的比较次数大为减少,同时由于大的类别的特征之间的区别比较明显,因此又能在一定程度上提高文本分类的精准率。考虑到一篇文章的标题和正文对决定文章所处的类别上所起的作用是不同的,文中将标题和正文分开处理。还有在进行特征选择时将TFIDF和MI结合起来,这也是该文的创新之处。实验结果表明,层次分类的方法在速度上比一般分类快15%左右,而精准率又有一定程度的提高。 相似文献
10.
基于Python的文本分类系统开发研究 总被引:1,自引:0,他引:1
介绍了Python在文本分类系统开发过程中的便捷之处,讨论了Python在整个开发过程中各个环节的特点与优点,并以线性核函数参数寻优结合数据可视化和自适应kNN分类算法为例具体展示了应用Python语言开发文本分类系统的优点. 相似文献
11.
基于N元汉字串模型的文本表示和实时分类的研究与实现 总被引:4,自引:0,他引:4
该文提出了一种基于N元汉字串特征的文本向量空间表示模型,用这个表示模型实现了一个文本实时分类系统。对比使用词语做为特征的文本向量空间模型,这种新的模型由于使用快速的多关键词匹配技术,不使用分词等复杂计算,可以实现实时文本分类。由于N元汉字串的文本表示模型中的特征抽取中不需要使用词典分词,从而可以提取出一些非词的短语结构,在特殊的应用背景,如网络有害信息判别中,能自动提取某些更好的特征项。实验结果表明,使用简单的多关键词匹配和使用复杂的分词,对分类系统的效果影响是很小的。该文的研究表明N元汉字串特征和词特征的表示能力在分类问题上基本是相同的,但是N元汉字串特征的分类系统可以比分词系统的性能高出好几倍。该文还描述了使用这种模型的自动文本分类系统,包括分类系统的结构,特征提取,文本相似度计算公式,并给出了评估方法和实验结果。 相似文献
12.
13.
14.