首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
针对Web信息挖掘中的文本自动分类问题,提出了一种基于模糊向量空间模型和BP网络的分类方法。在进行文本分类特征提取时,根据特征词在文档中的位置信息和文档结构,构造出模糊分类特征向量,在此基础上,采用BP网络对Web文档进行分类,使分类方法更接近于手工分类。提高了文本分类的精度。文中以中国期刊网专题分类为例验证了方法的有效性。  相似文献   

2.
针对标记数据不足的多标签分类问题,提出一种新的半监督Boosting算法,即基于函数梯度下降方法给出一种半监督Boosting多标签分类的框架,并将非标记数据的条件熵作为一个正则化项引入分类模型。实验结果表明,对于多标签分类问题,新的半监督Boosting算法的分类效果随着非标记数据数量的增加而显著提高,在各方面都优于传统的监督Boosting算法。  相似文献   

3.
基于多粒度树模型的Web站点描述及挖掘算法   总被引:2,自引:0,他引:2  
田永鸿  黄铁军  高文 《软件学报》2004,15(9):1393-1404
随着Web所拥有的信息量和信息种类的急剧增长,Web站点挖掘对于自动实现特定主题的Web资源发现和分类具有重要的意义.然而现有的Web站点分类或挖掘算法在利用上下文语义信息、去除噪声信息以进一步提高分类准确率等方面还缺乏深入研究.从站点的采样尺寸、分析粒度和描述结构3个方面分析了设计高效的Web站点挖掘算法所需要解决的问题.在此基础上,提出了一种新的Web站点多粒度树描述模型,并描述了包括基于隐Markov树的两阶段分类算法、粒度间上下文融合算法、两阶段去噪程序以及基于熵的动态剪枝策略在内的多粒度Web站点挖掘算法.站点的多粒度描述方法及挖掘算法为多站点查询优化、Web效用挖掘等的深入研究奠定了基础.实验表明,该算法相对于基线系统平均可以提高16%的分类准确率,并减少了34.5%的处理时间.  相似文献   

4.
基于规则归纳的信息抽取系统实现   总被引:2,自引:0,他引:2  
面对Web信息的迅猛增长,信息抽取技术非常适合于从大量的文档中抽取需要的事实数据。通过文档对象模型(DOM)解析以及检索、抽取、映射等规则的定义,设计并实现了一种具有规则归纳能力的信息抽取系统,用于Web信息的自动检索。在用于抽取规则归纳的框架下,还重点对用于生成抽取模式的WHISK学习算法进行了实验对比分析,结果表明系统对于单槽和多槽数据都具有不错的归纳学习能力。  相似文献   

5.
张彬  蒋涛 《计算机与数字工程》2007,35(10):80-82,103
文档分类是Web信息抽取一个基础性的问题.尽管Web文档是超链接的,然而大部分提出的分类技术很少利用链接结构信息,主要依靠文本特征信息.讨论Web内容分类、链接分析等基本概念,提出一个基于链接的分类方法,可以单独使用也可以结合基于文本的分类技术一起使用.  相似文献   

6.
肖勇  刘建勋  胡蓉  曹步清  曹应成 《软件学报》2021,32(12):3751-3767
随着SOA技术的发展,Web服务被广泛应用,服务数量增长迅速.正确高效地对Web服务进行分类,对于提高服务发现质量、促进服务组合效率非常重要.然而,现有的Web服务分类技术存在描述文本稀疏、未充分考虑属性信息以及结构关系等问题,难以有效提升Web服务分类的精度.针对此问题,提出一种基于GAT2VEC的Web服务分类方法.首先,针对Web服务之间的结构关系和自身的属性信息分别构建出多个相对应的结构关系图和属性二分图,并采用随机游走算法生成Web服务的结构上下文和属性上下文;然后,利用SkipGram模型对联合上下文进行训练,得到融合多维信息的表征向量;最后,采用SVM模型实现Web服务的分类预测.在ProgrammableWeb真实数据集上进行对比实验,实验结果表明:相比于Doc2vec,LDA,Deepwalk,Node2vec和TriDNR这5种方法,所提出的方法在Macro F1值上有了135.3%,60.3%,12.4%,10.5%和4.3%的提升,切实提高了服务分类的精度.  相似文献   

7.
基于信息融合的多文档自动文摘技术   总被引:7,自引:0,他引:7  
徐永东  徐志明  王晓龙 《计算机学报》2007,30(11):2048-2054
提出了一个面向多文档自动文摘任务的多文本框架(Multiple Document Framework,MDF),该框架通过系统地描述不同层面的文本单元之间的相互关系以及文档集合蕴含的事件在时间上的发生及演变,将多篇文档在不损失文档集合原有信息的前提下实现信息融合.MDF简化了传统交叉文本结构理论的文本集合表示模型,又补充了信息融合理论中缺乏的事件主题的演变性和分布性信息.文中给出了建立MDF、基于MDF的信息融合、文摘生成等一整套算法.通过对32组不同主题的网络文档试验结果表明,MDF策略很好地实现了多知识源的并行融合,并获得了较好的结果.  相似文献   

8.
Naive Bayesian分类器是一种有效的文本分类方法,但由于具有较强的稳定性,很难通过Boosting机制提高其性能。因此用Naive Bayesian分类器作为Boosting的基分类器需要解决的最大问题,就是如何破坏Naive Bayesian分类器的稳定性。提出了3种破坏Naive Bayesian学习器稳定性的方法。第一种方法改变训练集样本,第二种方法采用随机属性选择社团,第三种方法是在Boosting的每次迭代中利用不同的文本特征提取方法建立不同的特征词集。实验表明,这几种方法各有其优缺点,但都比原有方法准确、高效。  相似文献   

9.
对Web文档进行分类可以较好地解决网上信息杂乱的现象,介绍了Web文档分类的相关知识以及关键技术,并对目前的分类方法进行了总结,对Web文档分类中关联规则挖掘研究现状和主要技术进行了论述,指出了负关联规则在Web文档分类中的发展趋势.  相似文献   

10.
在自然语言处理和计算语言学相关技术支撑下,研究基于网络的动态多文档文摘系统框架,重点描述动态多文档文摘系统框架的相关内容,介绍利用矩阵子空间方法进行动态演化建模,利用相似度和质心整体优选计算方法进行信息过滤,并利用动态流形排序方法进行句子加权的动态多文档文摘生成系统.按照多文档文摘生成步骤的划分,对3 种创新的模型方法进行融合,综合起来从不同侧重点考虑,形成互补,提高系统性能.在网络环境下,此框架保证了动态演化的多文档文摘具有较高的信息新颖性和历史信息的演化性.  相似文献   

11.
特征权对贝叶斯分类器文本分类性能的影响   总被引:1,自引:0,他引:1  
高秀梅  陈芳  宋枫溪  金忠 《计算机应用》2008,28(12):3080-3083
在文本分类研究中,人们希望用特征权来改善文本分类效果。以最优分类器——贝叶斯分类器为基准分类器,研究了特征权对文本分类性能的可能影响。理论推导表明,就最优分类器而言,特征权不能有效提高文本分类效果。  相似文献   

12.
用Matlab语言建构贝叶斯分类器   总被引:2,自引:1,他引:2  
文本分类是文本挖掘的基础与核心,分类器的构建是文本分类的关键,利用贝叶斯网络可以构造出分类性能较好的分类器。文中利用Matlab构造出了两种分类器:朴素贝叶斯分类器NBC,用互信息测度和条件互信息测度构建了TANC。用UCI上下载的标准数据集验证所构造的分类器,实验结果表明,所建构的几种分类器的性能总体比文献中列的高些,从而表明所建立的分类器的有效性和正确性。笔者对所建构的分类器进行优化并应用于文本分类中。  相似文献   

13.
论文在人工免疫记忆分类器用于解决数据分类的基础上,提出将该分类器用于解决文本分类的方法。与两种基于免疫原理的文本分类方法和传统的贝叶斯分类器进行了比较研究。结果表明该分类器在标准文本样本集合上的性能好于其他三种分类器,在小样本分类上具有一定优势。  相似文献   

14.
一个基于朴素贝叶斯方法的web文本分类系统:WebCAT   总被引:2,自引:0,他引:2  
如果缺乏好的对文本自动进行索引及摘要的工具,要从Internet浩瀚的文本中检索有用信息是很困难的。因此,文本分类成为信息检索(InformationRetrieval)的重要组成部分。朴素贝叶斯分类是应用统计理论进行文本分类的有效方法之一。该文结合web文本的特点使用朴素贝叶斯分类器实现了一个web文本分类系统WebCAT,并获得了很好的分类结果。  相似文献   

15.
本文针对贝叶斯网络分类器的时间复杂性均取决于特征值间的依赖程度,甚至可能是NP完全问题,提出了一种基于分治理论的贝叶斯分类器算法,该算法把分治理论的思想和贝叶斯网络分类器有机结合起来,既保留了贝叶斯网络分类器模型的结构简单、复杂度低的优点,又降低了传统贝叶斯分类器时间复杂度的问题。通过大量数据的进行贝叶斯网络训练得到的检测结果,与传统的基于神经网络和遗传算法相比,检测率提高5%以上。同时,该算法还有误检率低的优点。  相似文献   

16.
分析了贝叶斯分类器家族中有代表性的分类器;给出变量之间预测能力的概念及估计方法,在此基础上建立了基于变量间预测能力的贝叶斯网络分类器结构学习方法,并使用UCI数据进行分类实验.实验结果显示,该方法能够有效地进行贝叶斯网络分类器学习,使得贝叶斯网络分类器倾向于简单化,具有较强的分类能力.  相似文献   

17.
本文提出了一个基于n-gram语言模型进行文本表示,采用链状朴素贝叶斯分类器进行分类的中文文本分类系统。介绍了如何用n-gram语言模型进行文本表示,阐述了链状朴素贝叶斯分类器与n-gram语言模型相结合的优势,分析了n-gram语言模型参数的选取,讨论了分类系统的若干重要问题,研究了训练集的规模和质量对分类系统的影响。根据863计划文本分类测评组所提供的测试标准、训练集以及测试集对本文所设计的分类系统进行测试,实验结果表明该分类系统有良好的分类效果。  相似文献   

18.
提出一个文本分类器性能评价模型,对文本分类结果的可信度进行了估计,给出计算可信度的公式。将每一个子分类器的可信度指标用于Bagging集成学习算法,得到了改进的基于子分类器性能评价的Bagging算法(PBagging)。应用支持向量机作为子分类器基本模型,对日本共同社大样本新闻集进行分类。实验表明,与Bagging算法相比,PBagging算法分类准确率有了明显提高。  相似文献   

19.
针对维吾尔文网页论坛中的文本过滤问题,提出一种基于术语选择和Rocchio分类器的文本过滤方法。首先,将论坛文本进行预处理以删除无用词,并基于N-gram 统计模型进行词干(术语)提取;然后,提出一种均衡考虑相关性和冗余性的均衡型互信息术语选择方法(BMITS),对初始术语集合进行降维,获得精简术语集;最后,将文本特征术语作为输入,通过Rocchio分类器进行分类,以此过滤掉论坛中的不良文本。在相关数据集上的实验结果表明,提出的方法能够准确地识别出不良类型文本,具有有效性。  相似文献   

20.
该文利用DF与CHI统计量相结合的特征选取方法,针对互联网上对外汉语相关领域的网页进行特征提取,并在此基础上,构建了基于标题与正文相结合的两步式主题相关度判定分类器。基于该分类器做对外汉语相关主题的网页爬取工作,实验表明,效率和召回率比传统分类器都有较大程度的提高,目前该分类器已经用于为大型对外汉语语料库构建提供数据源。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号