共查询到20条相似文献,搜索用时 140 毫秒
1.
2.
基于关联规则的安全特色关键词提取研究 总被引:2,自引:0,他引:2
互联网中的不法分子为了逃避安全过滤,将不良信息中的文本进行变形将其在网络中散布。为了识别和过滤这些不良文本,首先,根据词同现和字符编码规则对文本进行初始识别,识别出没有词义但频繁出现的有害词串;然后针对这些有害词串中各字符相邻、有序、频繁出现的特点,提出一种关联规则新算法自学习提取特色主题词。实验表明,该方法可以改善传统方法无法识别变形主题词的现状,对关键字过滤和主题过滤提供补充,提高基于内容的安全过滤的效率。 相似文献
3.
互联网中的不法分子为了逃避安全过滤,将不良信息中的文本进行变形,并在在网络中散布。为了识别和过滤这些不良文本,该文分析了其变形的特征,根据词同现和字符编码规则的不同对文本进行预处理,从文本中抽出包含有变形特征的有害词串。针对这些有害词串中各字符相邻、有序频繁出现的特点,提出采用基于关联规则自学习算法提取具有安全特色的关键词。实验表明,该方法可以改善传统方法在安全过滤过程中无法识别变形关键词的现状,对主题过滤提供补充,提高基于内容的安全过滤的效率。 相似文献
4.
随着互联网信息的快速剧增,文本过滤技术成为互联网内容处理的关键技术,对海量信息处理具有很重要的意义.目前研究热点是基于语义的过滤方法,但是这些方法一般都需要大量规则和领域知识的支持,可用性不是很好.为了使机器更好地理解用户需求和文本内容,使过滤结果更能反映用户的真正需求,提高文本过滤的准确率和召回率,提出了基于用户本体模型UOM的文本信息过滤方法.该方法主要包括UOM构建、文本结构分析、文本概念提取和语义相关度计算等.基于UOM(User Ontology Model)的过滤方法,不仅可以表示复杂的用户需求,而且还避免了领域本体的构建,因而其有效性和实用性得到了很大的提高.通过在网络教学资源的智能按需服务系统中的实际运用,表明此方法能更有效地为用户提供过滤服务. 相似文献
5.
现有分词系统不能及时收录新词语,因而不能有效识别领域组合词。针对此问题,提出一种位置标签与词性相结合的组合词抽取方法。首先对语料进行文本预处理、添加位置标签、加权词频过滤等建立词条的位置标签集;然后依据位置标签集计算词条在句子中的相邻度判定组合词;最后制定反规则对抽取结果进行过滤,并对垃圾串进行两端逐步消减再判定进一步识别组合词。通过在不同语料库上进行实验,表明本方法具有更高的准确率。 相似文献
6.
朴素贝叶斯算法在垃圾邮件过滤领域得到了广泛应用,该算法中,特征提取是一个必不可少的环节。过去针对中文的垃圾邮件过滤方法都以词作为文本的特征项单位进行提取,面对大规模的邮件训练样本,这种算法的时间效率会成为邮件过滤技术中的一个瓶颈。对此,提出一种基于短语的贝叶斯中文垃圾邮件过滤方法,在特征项提取阶段结合文本分类领域提出的新的短语分析方法,按照基本名词短语、基本动词短语、基本语义分析规则,以短语为单位进行提取。通过分别以词和短语为单位进行垃圾邮件过滤的对比测试实验证实了所提出方法的有效性。 相似文献
7.
基于SPI与VSM的Web访问控制与过滤系统的研究与设计 总被引:1,自引:0,他引:1
对用户请求的Web文本信息进行实时控制与过滤是信息安全的一个重要研究分支.基于Winsock SPI技术实现了一个Web访问控制与过滤系统.系统利用VSM模型计算网页间的相似度,采用URL规则和Web页内容审计的混合策略进行过滤.系统既能过滤新Web页,又能自动维护URL规则库,经多次测试效果良好. 相似文献
8.
9.
在数据抽取中,网页中噪音数据的处理是关键的第一步。针对噪音数据类型以及它们在网页中的位置,采取利用启发式规则和基于文本内容方法两种策略分步对噪音数据区域过滤,使用kNN文本分类算法进一步对列表页中的非用户关注栏目过滤。 相似文献
10.
本文针对基于关联规则的文本过滤器设计做了如下探索:(1)针对中文网络语言的特点,引入n-Gram方法提取文本的特征;(2)提出边界样本的概念;(3)在设计基于关联规则的文本过滤器时,引进了否定选择算法,采用否定选择算法对过滤器的检测器集合进行自体耐受,最终建立高准确率的文本过滤器。实验表明,经过自体耐受的过滤器 可以有效地提高过滤准确率。 相似文献
11.
一种基于SVD和Rough集的信息过滤方法 总被引:2,自引:0,他引:2
论文提出了一种信息过滤方法,即在奇异值分解(SVD)的基础上,运用粗糙集(Rough Sets)理论进行信息过滤。通过对词语×文档矩阵进行奇异值分解得出近似矩阵,改变了一些词语在相应文档中的重要性,从而使得词语更好地体现文档内容。然后运用粗糙集理论中决策表上的规则推理方法,生成人们感兴趣信息的规则库,将未知文档的条件属性与规则库中的规则进行相似匹配,进行信息过滤。实验表明,该方法在准确度方面比传统的VSM和LSI要好。 相似文献
12.
在销售决策支持系统中,存在着大量的信息和很多不确定的因素,这使得做出科学合理的决策变得很困难。粗糙集理论是处理不确定性知识与不完整数据的有效工具,因此可以根据粗糙集理论通过分析推理找出销售数据中存在的有用的知识。依据粗糙集理论实现了一种对销售决策表知识简化的方法,采用粗集理论处理大量销售信息,从中提取有用规则,通过分析和推理产生最小决策规则。通过实例分析,验证了粗糙集理论与销售决策支持系统相结合方法的可行性。该方法有效地解决了智能销售决策支持系统中决策规则的获取与理解等问题。 相似文献
13.
粗糙集理论在故障诊断规则获取中的应用 总被引:7,自引:0,他引:7
本文的目的是给出一种利用粗糙集理论解决故障诊断的规则获取问题的方法 ,该方法的特点是可以处理由于类重叠引起的样本信息不精确、不一致情况下的规则获取 .以规则形式表示的知识接近于人脑推理过程 ,因此基于规则的诊断方法在故障诊断中得到广泛使用 ,但规则获取是其瓶颈之一 .粗糙集 (RS)理论是为开发自动规则生成系统而提出的 ,其主要思想是在保持分类能力不变的前提下 ,通过知识约简 ,导出概念的分类规则 .因此 ,可以把 RS理论用于规则的故障诊断中 .本文给出了基于决策矩阵和决策函数的获取规则方法的流程图 ,以故障诊断实例说明其使用方法 ,并验证了其有效性 相似文献
14.
基于缺省规则的决策支持方法* 总被引:2,自引:0,他引:2
利用Rough集理论的基本原理和方法,在提出一种缺省规则挖掘策略和算法的基础上,系统地描述了基于缺省规则的决策支持方法,将其应用于汽车故障诊断决策分析中.试用表明,该方法能较好地排除噪声的影响,使决策者在有限的时间和有限的知识下,作出比较合理的决策. 相似文献
15.
在研究如何更好地开发利用网箱渔场的过程中,人们已经认识到由于污染所引起的环境风险和其他影响因子。但是如何来评估网箱渔场的风险呢?粗糙集理论是一种数据推理的有力工具。该文介绍利用粗糙集理论进行风险规则挖掘的一种方法。首先介绍不完备信息系统下有关最大分布约简的概念,再对渔业环境中老化程度和风险等级进行了量化描述,最后给出了基于最大分布约简的网箱渔场老化风险规则的挖掘算法。 相似文献
16.
文章在信息表的信息度量的基础上,主要做了如下两方面的工作:给出了一种基于Roughset理论提取决策规则的信息度量方法;提出了一种衡量提取决策规则优劣的目标函数,该工作为基于Roughset理论规则提取的进一步研究提供了一定的理论依据。论文的最后提出了有待解决的问题。 相似文献
17.
结合新型文档频和二进制可辨矩阵的特征选择 总被引:1,自引:0,他引:1
特征选择是文本分类的一个核心研究课题.分析了几种经典特征选择方法并总结了它们的不足,提出了一个新型文档频,引入粗糙集理论,并给出了一个基于二进制可辨矩阵的属性约简算法,最后把该属性约简算法同新型文档频结合起来,提供了一个综合的特征选择方法.该方法首先利用新型文档频进行特征初选以过滤掉一些词条,然后利用所提属性约简算法消除冗余.通过对人民网的8类新闻组,每类300篇文档的分类实验,结果表明此种特征选择方法在分类准确率和召回率上优于互信息、CHI和信息增益方法. 相似文献
18.
基于Rough集的规则学习研究 总被引:9,自引:1,他引:8
Rough Sets方法是一种处理不确定或模糊知识的重要工具,本文在对Rough Sets理论进行深入研究的基础上,提出了一种基于Rough Sets的自增量学习算法,该算法利用简化的差异矩阵和置信度,能较好地进行确定性规则和非确定性规则的学习。 相似文献
19.
特征选择在文本分类中起重要的作用。文档频率(DF)、信息增益(IG)和互信息(MI)等特征选择方法在文本分类中广泛应用。已有的实验结果表明,IG是最有效的特征选择算法之一,该方法基于申农提出的信息论。本文基于粗糙集理论,提出了一种新的特征选择方法(KG算法),该方法依据粗糙集理论关于知识的观点,即知识是分类事物的能力,将知识进行量化,提出知识增益的概念,得到基于知识增益的特征选择方法。在两个通用的语料集OHSUMED和NewsGroup上进行分类实验发现KG算法均超过IG的性能,特别是在特征空间的维数降到低维时尤其明显,可见KG算法有较好的性能; 相似文献