首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 203 毫秒
1.
随着信息的海量化,如何获取用户所需已经日益突显出其重要性.Web文本挖掘可对Web上大量文档集合的内容进行总结、分类、聚类、分析以便于利用.介绍了Web文本挖掘的定义、特点,重点分析了其相关的几种关键技术-文本特征表示、特征子选取、文本分类、文本聚类,并对其发展作以展望.  相似文献   

2.
基于FVSM和自组织映射网络的Web文本自动分类方法   总被引:1,自引:0,他引:1  
针对Web信息挖掘中的文本自动分类问题,提出了一种基于模糊特征向量(FVSM)和自组织特征映射网络的分类方法.网络由输入层和竞争层组成.输入层节点与竞争层节点实行全互连接.输入层完成分类样本的输入,竞争层提取输入样本所隐含的模式特征,并对其进行自组织,在竞争层将分类结果表现出来.分无监督和有监督两个阶段完成对网络的分类训练.该方法在特征提取时充分考虑了特征项在文档中的Web位置信息,构造出模糊特征向量,使自动分类原则更接近手工分类方法.以中国期刊网全文数据库部分文档数据为例验证了该方法的有效性.  相似文献   

3.
针对短文本数据量较小情况下CNN模型无法获得较好文本分类特征造成文本分类精度不高的问题,提出一种结合BERT语义分析和CNN的短文本分类模型,通过对BERT预训练模型进行微调获得文本向量表示,文本向量能够体现文本特征的全局语义关系,并将文本向量表示数据输入CNN模型进行分类模型训练,获得最终的文本分类特征实现分类。此方法能够实现短文本分类精度的有效提升。  相似文献   

4.
互联网网页数量爆炸性地增长,使得网页文档分类技术研究成为目前Web挖掘的一大热点.针对面向某特定领域文档的特点,提出一种基于层次特征词权重的文档特征表示方法,以此为基础,在网页文档分类时,通过对网页结构和文本链接分析,设计了网页文档分类算法HFSHA(Text Categorization Algorithm Based on Hierarchy Feature Word Weight and Structure and Hyperlink Analysis).在服装网页文档语料库上的分类实验表明,对服装专业文档HFSHA算法比基于向量空间模型(VSM)的普通文本分类算法的分类准确率高.  相似文献   

5.
讨论了文本分类系统中的特征提取方法.探讨了文档频率(DF)、信息增益(IG)、互信息算法(MI)三种不同的特征提取方法对中文文本分类的影响,并提出了一种结合信息增益和互信息的特征提取方法.实验表明本文提出的特征提取方法一定程度上提高了中文文本分类准确性.  相似文献   

6.
考虑网络事件的时间距离,基于半结构化网页中不同位置特征项重要程度的不同,提出改进的single-pass文本聚类算法single-pass*,优势在于对Web文本不同位置特征项的加权处理,仅需计算新文档与同类别种子文档间的相似度。实验结果表明,相比single-pass,改进算法极大减少了漏检率和错检率,降低了由于新文本流内文档进行相似度计算导致系统性能的下降,平均提高Web文本聚类效率40%。将聚类后的Web文本应用于网络舆情分析,进行主题关注度分析和话题热度特性分析。  相似文献   

7.
为了对突发事件Web新闻进行更精确的分类,研究了突发事件Web新闻的多层次自动分类方法.该方法初步分析了突发事件Web新闻的分类,给出3层分类器的构造方法,即第1级和第2级通过规则定制来完成,第3级通过统计学习训练并实现,并研究了HTML文本向量空间模型及特征项的抽取方法.将该自动分类方法在甲型H1N1、法国空难以及汶川大地震等突发事件的Web新闻中进行了训练和测试.实验结果表明,所提方法的分类效果优于改进前的方法.  相似文献   

8.
不均衡文本分类时分类结果过于倾向多数类,忽略少数类,导致分类效果较差,本文研究了基于深度学习的不均衡文本分类方法。利用类别区分能力(DA)方法选择不均衡文本特征,将评分标准设置为文档概率相关度之差的最小值,令所选取文本特征均衡分布于多数类以及少数类中,改进文本特征的均衡性。将特征选取所获取的子集作为多个受限玻尔兹曼机所构成的深度信念网络的输入,受限玻尔兹曼机通过预训练获取训练样本的最佳概率分布,利用对比分歧算法确定受限玻尔兹曼机权值,完成受限玻尔兹曼机参数设定后,利用贪婪算法迭代训练受限玻尔兹曼机,直至完成全部文本分类。实验结果表明:该方法可有效分类不均衡文本,分类精度高达99.5%以上。  相似文献   

9.
对文本特征表示模型和文本特征提取方法进行了探讨,分析了分类效果的影响因素,设计了一种动态调整训练集的文本分类算法,并结合支持向量机验证了该分类系统的类别特征信息和分类适应性.  相似文献   

10.
提出了一种基于文本的信息隐藏算法,利用格式文档的特点,对文档进行字分类和节分类,然后通过字体变换,文本颜色变换等多种变换方法达到隐藏密文信息的目的。实验结果表明这一算法具有较好的隐藏效果,具有一定的抗攻击能力,从而使其鲁棒性有所提高。  相似文献   

11.
文本自动分类是数据挖掘和机器学习中非常重要的研究领域 .针对难以获得大量有类标签的训练集问题 ,提出了基于小规模标注语料的增量式Bayes文本分类算法 .该算法分两种情况处理 :第一种情况是新增样本有类标签 ,可直接重新计算样本属于某类别的条件概率 .第二种情况是新增样本无类标签 ,则利用现有分类器为其训练类标签 ,然后利用新样本来修正分类器 .实验结果表明 ,该算法是可行有效的 ,比Na veBayes文本分类算法有更高的精度 .增量式Bayes分类算法的提出为分类器的更新提供了一条新途径  相似文献   

12.
Web挖掘采用数据挖掘信息处理技术,从Web信息资源中发掘用户所需信息。本文在分析Web文本信息特征的基础上,揭示了Web文本数据挖掘的目标样本的特征提取、分词处理与Web文本分类等关键技术,以Google为例讨论了该技术在网络信息检索中的应用。  相似文献   

13.
为了改进传统的文本检索技术存在检索文件格式种类单一,索引大数据量文件速度慢,甚至造成内存溢出等问题,基于Lucene系统及相关技术,研究了基于合并因子的多种格式文件索引技术,并在此基础上构建了中文文本信息检索系统.实验分析表明,本系统有效地实现了多种格式文件检索功能,通过合并因子的设定有效提高了索引速度,系统可靠性高.  相似文献   

14.
Matlab Web服务器在"信号与系统"网络教学中的应用   总被引:3,自引:0,他引:3  
根据建构主义教学系统的设计理论,利用Matlab Web Server技术实现了信号分析与系统分析的网络仿真,学生可以利用Internet登陆网络教学系统,通过浏览器输入数据,调用服务器进行计算及产生图形,并在输出页面上显示仿真结果.实现了学习超越时空限制、资源共享及交互主动学习的情境设计.  相似文献   

15.
随着Internet的发展,Web上信息呈爆炸式增长趋势,呈现方式也愈发多种多样,这就给多媒体内容的检索,信息提取等计算机处理带来了巨大困难。针对信息提取后,网页的多媒体内容的不一致性,本文提出了一种Web网页多媒体信息提取的融合算法。该算法通过对图像和文本的语义融合,判断信息提取后的网页中的各种形态的内容是否一致,并通过网页中的文字更加准确地表示图片所传达的内容。对来自30个网站的307个网页进行测试后的实验表明,本文提出的方法是可行的。  相似文献   

16.
文本归类是处理大量文本数据自动分类的重要技术。基于粗集理论建立的林业文本信息归类系统,是在已知类别的训练集的基础上,通过分析训练数据样本,建立决策表产生区分矩阵构造出区分函数,并化简它,得到最小属性约简,最后应用Apriori算法产生最终分类的规则表,利用产生的规则表,可将林业文本信息数据进行自动归类。  相似文献   

17.
概述Web服务技术的基本概念及其体系结构,分析其研究的问题和核心技术,描述了Web服务的发现和集成技术及语义Web服务,最后提出了研究面临的挑战。  相似文献   

18.
基于改进的kNN算法的中文网页自动分类方法研究   总被引:6,自引:0,他引:6  
概述了中文网页分类的一般过程,重点论述了在分类过程中特征词提取、训练库建立和文本分类算法等关键问题,针对向量空间模型的文本特征表示方法中特征词数量的多少与分类算法的效率有着密切关系的特点,提出了基于词性的特征词提取方法,并且在文本相似度计算时,融入传统的特征向量的比较方法来对kNN算法进行改进,提出了基于特征词减少的改进kNN算法,提高了分类算法的效率和性能.  相似文献   

19.
为了提高Web图像的检索质量,提出了一种融合文本关键字和图像视觉内容的Web图像检索方法.通过改进的图像自动标注模型,将Web图像本身所蕴含的低层视觉特征映射到图像高层语义特征,即图像文本标注;再将词汇相似性计算技术作为语义信息的度量手段,将图像文本标注转换成带有权重的文本标注;利用贝叶斯推理网检索模型内在的多信息融合能力,将带权重的Web图像文本标注特征和Web文档中的文本信息无缝地融合在一起实现Web图像检索.实验结果表明,将Web中的文本关键字和Web图像视觉内容融合起来可在一定程度上提高Web图像检索质量.  相似文献   

20.
从社会关系抽取的角度出发,设计了一个基于主题的Web人名抽取系统。该系统可根据给定的主题获取相应的Web文档,并从中抽取出与该主题相关的中英文人名,从而为基于主题的Web社会关系抽取提供有效的数据支撑。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号