共查询到20条相似文献,搜索用时 93 毫秒
1.
孙莉娜 《数字社区&智能家居》2006,(26)
面对当前大量的文本数据信息,如何帮助人们准确定位所需信息,成为文本挖掘领域的一个研究趋势。通过将文本分类和聚类方法应用于信息检索-—对网页文本进行聚类,提出了基于超链接信息的Web文本自动聚类模型。利用结构挖掘技术获得主题领域的多个权威网页作为初始聚类中心,通过去除超链接信息中的噪声和多余链接得到网站的简明拓扑结构,并结合内容挖掘,动态调整聚类中心,最终将网页聚成各主题下的不同子类别。 相似文献
2.
3.
基于Web的文本挖掘技术研究 总被引:2,自引:0,他引:2
许高建 《计算机技术与发展》2007,17(6):187-190
Internet上大多数信息的表现形式为文本,如何在浩瀚的文本信息中挖掘到潜在的知识是一个有待解决的问题。文本挖掘的目的是从不同格式的文本中发现有用的知识,这是一个分析文本并从中抽取特定信息的过程。系统地介绍了文本挖掘的含义,并对文本挖掘过程的各个方面进行了进一步的探讨,包括文本特征的建立、特征的提取技术、文本的分类、文本的聚类等相关技术。同时提出了一种基于Web的文本信息挖掘的模型,将以高校BBS论坛为信息源,利用高级语言开发技术来构建一个自动的文本分类器。 相似文献
4.
Internet上大多数信息的表现形式为文本,如何在浩瀚的文本信息中挖掘到潜在的知识是一个有待解决的问题。文本挖掘的目的是从不同格式的文本中发现有用的知识,这是一个分析文本并从中抽取特定信息的过程。系统地介绍了文本挖掘的含义,并对文本挖掘过程的各个方面进行了进一步的探讨,包括文本特征的建立、特征的提取技术、文本的分类、文本的聚类等相关技术。同时提出了一种基于Web的文本信息挖掘的模型,将以高校BBS论坛为信息源,利用高级语言开发技术来构建一个自动的文本分类器。 相似文献
5.
6.
7.
为深层挖掘电力数据文本蕴藏的信息,本文基于自然语言处理技术分析了电力文本挖掘与分类流程,通过分词技术分析文本内容,提取文本特征,并构建分类器模型以自动分类文本,最后以实例分析了电力文本挖掘与分类的实际效果.结果表明,中文电力数据文本挖掘准确度较高,适用范围广泛,方式方法灵活,可及时准确挖掘隐藏的关键信息,为分析客户用电诉求与投诉要求提供了完善的数据依据;以文本自动分类分析,构建的分类器模型查准率与准确率相对较高,且调优之后分类器模型可更加准确地识别出热点事件投诉工单. 相似文献
8.
9.
Web文本主题挖掘技术研究 总被引:2,自引:0,他引:2
目前,如何快速、准确、全面、及时地检索到自己感兴趣的信息已成为人们关注的焦点。本文针对目前搜索引擎精度不高的问题,讨论了Web文本主题挖掘涉及到的相关核心技术,重点讨论自动分词技术和Web文本的特征表示。 相似文献
10.
张静 《计算机光盘软件与应用》2010,(6):23-23
随着互联网的大规模普及,造成了大量的文本数据累积,其中很大一部分是短文本数据。如何从海量信息中发现突发事件的新闻流主题,并跟踪突发事件的相关信息,文本挖掘技术就显得尤为重要了。本文介绍了文本挖掘在新闻文本挖掘中的应用,分析了新闻事件挖掘的研究现状。 相似文献
11.
12.
文章首先探讨了Web挖掘的地位,基于WEB的文本挖掘是WEB挖掘的重要组成部分。文章重点对文本特征提取、文本分类、文本聚类等WEB文本挖掘关键实现技术做了介绍,最后讨论了Web文本挖掘的价值。 相似文献
13.
文章首先探讨了Web挖掘的地位,基于WEB的文本挖掘是WEB挖掘的重要组成部分。文章重点对文本特征提取、文本分类、文本聚类等WEB文本挖掘关键实现技术做了介绍,最后讨论了Web文本挖掘的价值。 相似文献
14.
生物医学领域信息量的飞速增长,极大地促进了人们的交流和研究,同时也使人们在海量的信息面前无所适从;这就提出了对信息进行分类筛选的需求。词库对于文本分类的结果有着至关重要的作用,只有能实时更新新词的词库才能适应使用的需要。该文章提出并实现一种基于频繁序列的新词挖掘算法,能够正确提取出中文文本中的新词,从而及时更新维护词库,使文本分类更为准确。 相似文献
15.
16.
词语是中文文本的基本元素,汉语语言模型在中文文本挖掘中起关键作用。中文文本挖掘是高维度的数据处理技术,挖掘算法对维度的大小比较敏感,因此挖掘效果依赖于词库的质量。另外,现存的汉语语言模型一般都是基于统计的,比如N-gram语言模型以及各种改进模型都具有较高的计算复杂度。为降低语言模型的计算复杂度、提高词库的质量和构词效率,借鉴关联规则理论对中文词语进行定义,在此基础上构建Auto-word自动构词算法。该算法可以从大量中文语料库中动态地构造词表,并以此为基础进行中文文本挖掘工作。最后通过实验证明了提出的自动构词算法的有效性。 相似文献
17.
简要介绍Web挖掘的概念、分类及其功能,重点分析了Web文本挖掘的方法,包括文本的特征表示与抽取、文本的分类与聚类等。最后对Web文本挖掘的应用领域作了展望。 相似文献
18.
基于阻塞先验知识的文本层次分类模型 总被引:7,自引:0,他引:7
文本层次分类中阻塞现象是影响层次分类器性能的重要原因。针对这一问题,提出基于阻塞先验知识的文本层次分类模型。该模型包括两部分:首先对阻塞分布进行估计,提出“阻塞对”识别技术,重点在于获取严重的阻塞方向;其次,把分析出的阻塞先验知识融合到分类过程中,利用层次拓扑结构修正算法,引导阻塞文本“回归”正确分类路径。在中文语料TanCorp上的实验表明,该算法在没有额外增加分类器数目的前提下,能有效改善层次分类性能,是解决层次分类阻塞问题的一种方法。另外,与平面分类算法比较后,该算法更稳定。 相似文献
19.