首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 109 毫秒
1.
《现代电子技术》2017,(14):81-84
用户评论中存在产品特征表达多样性问题,在细粒度观点挖掘任务中需要对产品特征词聚类。首先,结合不同的语义相似度计算的特点,提出基于语义知识和上下文熵模型的语义相似度混合计算方法,计算抽取得到的特征词语义相似度;然后改进了传统CBC算法,提出适用于产品特征词聚类的CBC-LIKE方法实现聚类。最后在三个领域的真实评论语料上进行实验,对提出的语义相似度计算方法和聚类算法的性能进行了分析。实验结果表明,所提方法是有效的,与另外两种基线方法相比性能较优,取得了较好效果。  相似文献   

2.
《现代电子技术》2017,(4):61-65
传统的信息挖掘方法挖掘面窄,扩展性差,无法有效挖掘出网络中的不安全信息。因此,设计并实现了网络信息安全防范与Web数据挖掘系统,其由Web文本采集模块、文本分类模块和类别判断模块构成。Web文本采集模块从网络Web网页中采集文本信息,并将信息反馈给文本分类模块。文本分类模块由训练模块、分类模块和分类器构成。训练模块采用完成分类的文本对文本分类模型进行训练,获取不同类别特征词间的关联性,塑造向量空间模型。分类模块对将要进行分类的Web文本进行分词处理,通过向量描述文本特征词。分类器运算待分类文本特征向量同各类中心向量间的相似度,确保Web文本被划分到具有最高相似度的文本类型中。类别判断模块辨识待分析的网络文本信息是否属于不安全信息类,并通过报警模块对不安全信息进行报警。软件部分给出了系统的功能结构以及文本分类模块的程序实现代码。实验结果表明,所设计系统具有较高的查全率、查准率和较高的检测性能。  相似文献   

3.
韦相 《电子世界》2013,(10):241
同一家庭的成员,相貌相似度高,不同家庭的成员,相貌相似度低。而聚类算法就是对数据进行分类,使同一类的数据对象相似度高,不同类的数据对象相似度低。本文构造相貌相似的模糊相似矩阵,计算出传递闭包,获得准确的聚类结果。本文提供了模糊传递闭包的理论和具体的应用实例,有较好的参考价值。  相似文献   

4.
模糊C均值(FCM)聚类算法及其相关改进算法基于最大模糊隶属度原则确定聚类结果,没有充分利用迭代后的模糊隶属度矩阵和簇类中心的样本属性特征信息,影响聚类准确度。针对这个问题,该文提出一种新的改进思路:改进FCM算法输出定类原则。给出二元属性拓扑子空间中属性相似度的定义,最终提出一种基于属性空间相似性的改进FCM算法(FCM-SAS):首先,选择FCM算法聚类后模糊隶属度低于聚类置信度的样本作为存疑样本;然后,计算存疑样本与聚类后聚类中心的属性相似度;最后,基于最大属性相似度原则更新存疑样本的簇类标签。通过UCI数据集实验,证明算法不仅有效,还较一些基于最大模糊隶属度原则定类的改进算法具有更优的聚类评价指标。  相似文献   

5.
袁飞  詹宜巨  王永华 《信号处理》2012,28(10):1370-1378
区间数模糊c均值聚类方法中,区间数距离公式存在无法描述区间数之间相对位置的问题,针对该问题,本文分析了该问题产生原因,提出了相对位置相异度公式,并将该相异度公式应用于区间数模糊c均值聚类中。理论分析说明相对位置相异度公式能定量描述区间数之间相异程度,还能描述区间数之间相对位置。仿真实验结果表明,相对于基于现有区间数距离公式的区间数模糊c均值聚类,基于相对位置相异度的区间数模糊c均值聚类方法具有更好的聚类效果。同时,给出了相对位置相异度公式中参数选择标准。   相似文献   

6.
针对基于语义的短文本相似度计算方法在短文本分类中准确率较低这一问题,提出了结合词性的短文本相似度算法( GCSSA)。该方法在基于hownet(“知网”)语义的短文本相似度计算方法的基础上,结合类别特征词并添加关键词词性分析,对类别特征词和其他关键词的词性信息给定不同关键词以不同的权值系数,以此区别各种贡献度词项在短文本相似度计算中的重要程度。实验表明,该算法进行文本相似度计算后应用于短文本分类中较基于hownet的短文本分类算法在准确率宏平均和微平均上提升4%左右,有效提高了短文本分类的准确性。  相似文献   

7.
为了准确实现目标识别,从红外图像的特点出发,提出了将L_1空间度量的二型(Type-2)熵模糊聚类算法应用干红外图像分割.该算法首先通过L_1空间度量样本点与类别中最大最小值的距离,代替了传统聚类算法中样本点与聚类中心的聚类,然后根据熵模糊聚类算法获得上模糊隶属度和下模糊隶属度两个隶属度函数,并采用二型模糊融合得到隶属度函数,其中给出了一种权重加权降型算法.通过对实际的红外图像分割表明,这种算法能准确地实现红外图像分割,自适应性强,鲁棒性好,能够在复杂背景下获得较为理想的分割效果.  相似文献   

8.
微博短文本中存在一些相同或相近、但与主题关系不大的词项,对准确度量文本之间的相似性具有较大的干扰作用,影响微博话题被发现的质量。提出一种基于文本内容与结构化信息相结合的特征词选择算法,能有效提取具有代表性的特征词,并对文本、话题间相似度的计算策略进行改进,然后将特征词选择算法与相似度计算方法融合,应用于微博文本数据实现话题发现。实验结果表明,本算法能有效降低话题发现的平均漏检率与误检率,提高话题发现质量。  相似文献   

9.
众多的入侵检测告警关联方法中,因果关联是最具代表性的方法之一。针对因果关联在一些条件下会引发关联图分裂的问题,提出利用模糊聚类的方法实现攻击场景重构。在聚类过程中,针对告警特性提出一种基于属性层次树的相似度隶属函数定义方法,并给出评价相似度度量和衡量攻击场景构建能力的若干指标。实验结果表明,该方法能够有效地组合分裂的关联图,重构攻击场景。  相似文献   

10.
基于VSM的文本聚类忽略了文本关键词稀疏带来的相似度漂移问题和关键词之间的语义信息和各维度之间的关系,致使文本的相似度计算不精确,文中对相似度计算方法 TF-IDF进行了改进,并提出一种新的聚类方法,利用分布式估计算法和禁忌搜索算法进行聚类,融合分布式估计算法的收敛速度快和禁忌搜索算法能跳出局部搜索的优点,首先对文本进行预处理,然后用分布式估计算法和禁忌搜索算法聚类,既能快速聚类又能防止聚类收敛到局部最优。测试结果表明这种算法行之有效。  相似文献   

11.
基于VSM的文本聚类忽略了文本关键词稀疏带来的相似度漂移问题和关键词之间的语义信息和各维度之间的关系,致使文本的相似度计算不精确,文中对相似度计算方法TF—IDF进行了改进,并提出一种新的聚类方法,利用分布式估计算法和禁忌搜索算法进行聚类,融合分布式估计算法的收敛速度快和禁忌搜索算法能跳出局部搜索的优点,首先对文本进行预处理,然后用分布式估计算法和禁忌搜索算法聚类,既能快速聚类又能防止聚类收敛到局部最优。测试结果表明这种算法行之有效。  相似文献   

12.
文本特征提取的正确高效直接影响聚类结果准确率,针对文本特征提取中文本数据的高维、高噪声问题,提出采用独立分量分析作为文本特征词的提取技术.采用TF-IDF方法形成文本特征的数字描述矩阵一向量空间模型,使用独立分量分析算法实现对矩阵的关键特征词提取,使用非负矩阵分解及其扩展算法对矩阵进行聚类分析,实现聚类.  相似文献   

13.
针对数据在性态和类属方面存在不确定性的特点,提出一种基于模糊C均值聚类的数据流入侵检测算法,该算法首先利用增量聚类得到网络数据的概要信息和类数,然后利用模糊C均值聚类算法对获取的数据特征进行聚类。实验结果表明该算法可以有效检测数据流入侵。  相似文献   

14.
The choice of a fuzzy partitioning is crucial to the performance of a fuzzy system based on if-then rules. However, most of the existing methods are complicated or lead to too many subspaces, which is unfit for the applications of pattern classification. A simple but effective clustering approach is proposed in this paper, which obtains a set of compact subspaces and is applicable for classification problems with higher dimensional feature. Its effectiveness is demonstrated by the experimental results.  相似文献   

15.
The choice of a fuzzy partitioning is crucial to the performance of a fuzzy system based on if-then rules. However, most of the existing methods are complicated or lead ,o too many subspaces, which is unfit for the applications of pattern classification. A simple but effective clustering approach is proposed in this paper, which obtains a set of compact subspaces and is applicable for classification problems with higher dimensional feature. Its effectiveness is demonstrated by the experimental results.  相似文献   

16.
徐超  周一民  沈磊 《电子与信息学报》2010,32(11):2695-2700
该文针对上下文树核用于文本表示时缺乏语义信息的问题,提出了一种面向隐含主题的上下文树核构造方法。首先采用隐含狄利克雷分配将文本中的词语映射到隐含主题空间,然后以隐含主题为单位建立上下文树模型,最后利用模型间的互信息构造上下文树核。该方法以词的语义类别来定义文本的生成模型,解决了基于词的文本建模时所遇到的统计数据的稀疏性问题。在文本数据集上的聚类实验结果表明,文中提出的上下文树核能够更好地度量文本间主题的相似性,提高了文本聚类的性能。  相似文献   

17.
该文提出了一种将模糊C-均值聚类法与矢量量化法相结合进行说话人识别的方法。该算法将从语音信号中提取的 12阶 LPC(线性预测编码)倒谱系数作为待分类样本的 12个指标,先用矢量量化法求出每个说话人表征特征参数的码书,作为模糊聚类算法的聚类中心,最后将待识别的特征矢量以得到的码书为聚类中心,进行聚类识别。该算法所使用的特征参数较少,计算比较简单,但识别率较矢量量化法高。  相似文献   

18.
A new clustering algorithm called fuzzy self-organizing feature maps is introduced. It can process not only the exact digital inputs, but also the inexact or fuzzy non-digital inputs, such as natural language inputs. Simulation results show that the new algorithm is superior to original Kohonen's algorithm in clustering performance and learning rate.  相似文献   

19.
基于粗集与遗传算法相结合的文本模糊聚类方法   总被引:1,自引:0,他引:1  
该文将粗集与遗传算法相结合的方法成功应用于文本模糊聚类.在聚类过程中,将权重参数的设定也通过编码由遗传算法确定,从而使得权重参数的设定具有科学性和可操作性,避免了在类似算法中确定权重时的主观性和不可靠性.最后的实例说明了算法的可行性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号