首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
网页正文提取是WEB挖掘的重要步骤。传统网页正文提取方法都需要经过分块这一步骤之后来识别网页正文块,提出了利用行文本之间的内容相似度和标签相似度结合的方法来提取网页正文。该算法避免了传统网页提取算法的分块步骤,在规范网页之后,先提取网页的最大文本行,然后计算每行文本与最大行的内容相似度和标签相似度,再结合内容相似度与标签相似度来提取网页正文。实验中,利用随机抽取的网页进行了测试,其测试精度接近95%,表明该算法在实际中是有效的。  相似文献   

2.
为了利用已有的分类方法对短文本信息进行分类,选取大量长文本作为训练集,以此形成“词典”,并利用改进的简单向量距离算法实现分类.理论和实验结果表明,该方法非常适用于短文本信息的分类.  相似文献   

3.
K-邻近算法作为一种比较简单,易于实现并且错误低的分类算法,广泛应用于网页分类、模式识别和数据挖掘等多个领域中.本文介绍了传统K-邻近算法并分析了该算法在网页相似度值的计算存在的不足,在此基础上,本文提出了基于类中心向量的K-近邻算法,通过理论分析和仿真实验结果证明了该算法对于中文网页分类具有较好的分类效果.  相似文献   

4.
随着Internet上的信息量迅速增长,用户对搜索结果的查准率提出了更高的要求。通过对PageRank算法进行分析,指出PageRank算法不足之处,同时提出了改进方案,改进后的PageRank算法考虑了网页之间的相似度,可提高检索结果的查准率。  相似文献   

5.
介绍了基于KNN方法的中文文本分类流程及相关技术,在分析传统KNN方法不足的基础上提出一种改进的KNN方法.该方法在特征选取、权值确定、相似度计算等方面进行了改进,并给出了优化措施.实验表明:与传统的KNN方法相比,改进后的KNN方法在保证分类准确率的同时,使分类效率得到了有效提高.  相似文献   

6.
如何对Internet上的服装网页进行自动识别是服装资源挖掘研究的重要内容.本文研究了KNN算法和Bayes算法对服装网页测试集进行自动分类的效果.实验表明KNN和Bayes的分类准确率相当;特征提取的维数可以控制在一定的范围;过高的特征数目不一定有较高的分类准确率;针对领域特点进行算法或特征提取调整才能进一步提高分类的准确率.  相似文献   

7.
目的提出一种基于P2P结构的移动对象kNN查询框架.方法假设移动对象具有计算处理能力和储存空间,在此基础上进行P2P结构的设计.查询的发起、响应以及计算等不借助中心服务器,而将其转移到移动对象上进行处理.采用距离-响应时间计算算法和kNN查询分段排序算法来进行移动对象kNN查询.结果距离-响应时间计算算法和kNN查询分段排序算法能较好利用框架中各个移动对象响应查询时存在间隔这一特征进行简化计算,提高了框架的工作效率,增强了查询实时性.在更新的过程中通过使用安全时间的概念来减少盲目的对象更新,减少了数据冗余.结论在模拟实验中,框架能充分发挥P2P结构的优点进行移动对象kNN查询,查询响应迅速,查询结果具有较好实时性.  相似文献   

8.
针对电力客户投诉信息进行短文本分类,介绍了K近邻(KNN)算法和中心向量算法,并针对KNN分类算法的某些缺陷作了相关改进,主要加入了中心向量法的思想.对改良后的KNN算法、中心向量算法和传统的KNN算法进行了实验比较,结果发现,相比传统的KNN算法,改良后的新方案能更好地运用在电力客户投诉信息的分类操作上.  相似文献   

9.
一种改进的KNN分类方法   总被引:1,自引:0,他引:1  
介绍了基于向量空间模型(VSM)中的KNN文本分类方法,分析了KNN方法的实质,指出了该方法的不足,对KNN分类中的文档相似性度量公式提出了一种改进方法.改进方法是在文本属性关联和概念共现等基础上提出来的.分类实验结果表明,分类准确率平均提高了约12%.  相似文献   

10.
介绍了基于向量空间模型(VSM)中的KNN文本分类方法,分析了KNN方法的实质,指出了该方法的不足,对KNN分类中的文档相似性度量公式提出了一种改进方法.改进方法是在文本属性关联和概念共现等基础上提出来的.分类实验结果表明,分类准确率平均提高了约12%.  相似文献   

11.
针对信息增益算法只能考察特征对整个系统的贡献、忽略特征对单个类别的信息贡献的问题,提出改进信息增益算法,通过引入权重系数调整对分类有重要价值的特征的信息增益值,以更好地考虑一个词在类别间的分布不均匀性. 针对传统专利自动分类中训练集标注瓶颈问题,提出基于改进三体训练算法的半监督分类方法,通过追踪每次更新后的训练集样本类别分布来动态改变3个分类器对同一未标记样本类别的预测概率阈值,从而在降低噪音数据影响的同时实现对未标记训练样本的充分利用. 实验结果表明,本研究所提出的分类方法在有标记训练样本较少的情况下,可以取得较好的自动分类效果,并且适当增大未标记样本数据可以增强分类器的泛化能力.  相似文献   

12.
根据最优超平面和类电磁机制算法的思想,提出了一种组合优化线性分类方法.该方法利用样本训练提取样本个体的类别特征,寻找到将类别分类的最优超平面,设计并实现了一种采用改进的类电磁机制算法的组合优化线性分类方法.试验取得了很好的分类效果,证实了组合优化线性分类方法的可行性.  相似文献   

13.
为在流程相似度计算中加入流程间深层语义关联的度量,同时在流程节点较多的情况下,实现流程匹配算法在寻优时间复杂度和相似度匹配输出值两方面的综合优化,提出一种面向流程的遗传匹配算法,将遗传算法引入并应用在流程语义和结构的相似度计算寻优过程中.确定遗传算法的参数编码方式,并利用贪婪算法进行初始种群的设置,定义各个遗传算子,提出有效的简化策略,解决了流程节点较多时流程匹配过程寻优问题.实验研究表明,在流程节点数较多时,本文算法在寻优时间花费和相似度值两方面的折中优化性能明显优于其他两种算法.将遗传算法应用到流程的相似度计算及其寻优过程,可以有效地控制时间复杂度并保证较好的匹配输出结果.  相似文献   

14.
In order to solve the poor performance in text classification when using traditional formula of mutual information (MI),a feature selection algorithm were proposed based on improved mutual information.The improved mutual information algorithm,which is on the basis of traditional improved mutual information methods that enhance the MI value of negative characteristics and feature’s frequency,supports the concept of concentration degree and dispersion degree.In accordance with the concept of concentration degree and dispersion degree,formulas which embody concentration degree and dispersion degree were constructed and the improved mutual information was implemented based on these.In this paper,the feature selection algorithm was applied based on improved mutual information to a text classifier based on Biomimetic Pattern Recognition and it was compared with several other feature selection methods.The experimental results showed that the improved mutual information feature selection method greatly enhances the performance compared with traditional mutual information feature selection methods and the performance is better than that of information gain.Through the introduction of the concept of concentration degree and dispersion degree,the improved mutual information feature selection method greatly improves the performance of text classification system.  相似文献   

15.
摘要:为提高处理文本相似度的效果,提出了一种基于相对熵度量文本差异的KNN算法.该算法首先对文本进行预处理(分字与删去停用字)和构建特征字字典; 然后计算训练集中所有文本特征字的概率,并组成训练集(特征字概率矩阵); 最后计算预测文本的特征字概率向量,并通过计算和统计K个预测文本与训练集文本间相对熵最小的文本类别个数后将数目最多的类别作为测试样本的类别.实验结果表明,该算法的分类效果不仅显著优于传统KNN、SVM、Decision Tree、朴素Bayes算法的分类效果,且在小样本数据情况下  相似文献   

16.
为了提高文本聚类的有效性,提出一种基于网络社团结构的文本聚类算法。基于语义知识库理论,利用文本集与词语间的关系,引入文本相似度概念,再结合Newman社团聚类算法特性,将文本集作为独立社团,用文本相似度表示社团联系的紧密程度,对网络文本进行聚类。实验结果表明,该方法有效可行。  相似文献   

17.
种群分类粒子群改进算法研究   总被引:4,自引:1,他引:3  
针对粒子群算法在陷入局部最优时难于跳出的缺陷,提出一种改进的粒子群算法.该算法首先利用粒子适应值的统计规律对粒子进行分类,对属于不同类别的粒子采用不同的进化模型,对于利用完全模型进化的粒子,采用动态调整学习因子的方法,从而大大提高了算法的优化效率和优化精度.通过反复实验分析,得出学习因子随着进化推进的最优变化规律,并给出了学习因子的最佳函数表达式.仿真结果表明,利用改进的PSO算法优化4种具有代表性的基准函数,无论是在优化精度方面还是在优化效率方面,均较以往提出的PSO算法在性能上有本质的提高.  相似文献   

18.
为了合理规划最优路径,满足实际应用的需要,对基于改进路网分层算法和A*算法的最优路径进行了研究。首先分别改进了路网分层算法和A*算法,然后提出了一种融合改进路网分层算法和改进A*算法的最优路径算法,并给出了最优路径算法在GIS平台上的实现过程。最后将该算法应用于苍南电力有限责任公司,结果表明,与传统A*算法相比,该算法降低了搜索时间,得到了最优的路径,提高了企业的工作效率。  相似文献   

19.
通过SIFT描述目标特征,利用Bag-of-words模型将目标特征构建为codebook,通过PLSA分类器对目标进行分类,根据PLSA分类学习过程中存在迭代复杂的问题,将贝叶斯分类器中的直接统计方法替换PLSA中最大似然估计,为PLSA提供足够的先验知识,减少学习过程中迭代次数,实验结果表明,相比于传统PLSA分类算法,本文方法检测结果较为准确,算法切实可行。  相似文献   

20.
电子邮件的普及给人们的生活带来极大的方便,但目前垃圾邮件的泛滥严重影响了用户的正常使用。贝叶斯算法因简单在英文邮件过滤中取得了良好的过滤效果,分析了贝叶斯算法的原理及其在垃圾邮件过滤中的应用,给出垃圾邮件过滤的整个过滤流程,设计并实现了一种语言无关的垃圾邮件过滤系统。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号