首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
基于Web的文本挖掘研究   总被引:10,自引:6,他引:4  
基于Web的文本挖掘是数据挖掘的重要组成部分,文章重点对文本特征提取、文本分类、文本聚类等Web文本挖掘关键实现技术做了介绍,最后讨论了Web文本挖掘的价值及其对Web发展的重要性。  相似文献   

2.
本文主要讨论了聚类算法在Web文本挖掘中的应用研究情况.着重总结了Web文本挖掘的特点、一般过程和适用于Web文本聚类的算法条件,总结了当前的研究热点,并提出了Web文本聚类算法的发展方向.  相似文献   

3.
本文主要讨论了聚类算法在Web文本挖掘中的应用研究情况。着重总结了Web文本挖掘的特点、一般过程和适用于Web文本聚类的算法条件,总结了当前的研究热点,并提出了Web文本聚类算法的发展方向。  相似文献   

4.
如何从海量评论文本中提出关键、有价值的文本数据为用户所用成为当前研究的重点。笔者主要针对国内评论挖掘技术系统尚未成熟问题,拟研究一个基于句法依存结构方法的特征评论挖掘方法,用于支持高效地聚类分析句子倾向性,得出有较好价值参考的评论数据信息。  相似文献   

5.
互联网的迅猛发展,越来越迫切地需要全面准确对网上信息进行分类及统计,Web挖掘技术的兴起,尤其是该技术中的文本挖掘,使这种统计成为可能。本文研究了互联网信息统计的现状,介绍了Web挖掘技术并分析了Web文本挖掘的关键技术。继而结合文本挖掘技术设计了网站分类系统的模型,同时对其开发步骤进行了说明。最后展望了此技术方案在相关领域的应用前景。  相似文献   

6.
网络提供了海量的共享资源,人们需要从网络上搜索出自己感兴趣的信息,由此产生了Web挖掘的问题。Web挖掘就是借用数据挖掘技术来实现的。Web挖掘主要是文本信息的挖掘,本文主要研究了实现文本挖掘的层次凝聚类算法,对于传统的算法存在的问题,提出了改进的算法,研究了相似度值对整个算法过程的影响,设计了一个动态改变相似度值的计算公式。  相似文献   

7.
本文以Web挖掘为基础。首先,从定义、功能、过程3方面介绍了Web内容挖掘中的文本挖掘;其次,重点探讨了Web文本挖掘的两种重要功能——分类及其它们常用的算法,并分别对算法做了比较;最后,得出结论并进行了展望。  相似文献   

8.
如何利用数量庞大的专利并从中找到用户感兴趣的专利进行推荐是很多专利数据库迫切需要解决的问题。文中从专利文本的标题和摘要入手,提出一种基于文本挖掘的专利推荐方法。首先,利用词袋模型将专利文本转化成计算机能够识别的数据;其次,利用文本聚类算法完成专利数据集进行领域划分;再次,结合词频-逆文档频率特征权重计算和余弦相似度来选择合适的发明人进行专利的推荐;最后,以我国物流产业下的专利数据作为数据集完成文中所提方法的验证与分析。实验结果表明,基于文本挖掘的专利推荐研究能够实现对发明人的个性化推荐。  相似文献   

9.
研究基于关联度挖掘的海量网络文本挖掘方法;随着计算机和网络技术的快速发展,网络上的文本呈现海量增长的趋势,传统的网络文本挖掘方法采用基于特征提取的方法实现,能够实现小数据量下的文本挖掘,但是在信息量的快速增长下,传统方法已经不能适应;提出一种基于关联度挖掘的海量网络文本挖掘方法,首先采用特征提取的方法对海量文本进行初步的分类和特征识别,然后采用关联度挖掘的方法对各个文本特征之间的关联度进行计算处理,根据关联度的大小最终实现文本挖掘,由于关联度可以很好的体现特征文本之间的相互关系;最后采用一组随机的网络热门词汇进行测试实验,结果显示,算法能够很好适应海量文本下的挖掘实现,具有很好的应用价值。  相似文献   

10.
基于改进遗传算法的Web文本挖掘系统   总被引:1,自引:1,他引:0  
文本分类是文本数据挖掘中一个非常重要的技术,已经被广泛地应用于信息管理、搜索引擎、推荐系统等多个领域.现有的文本分类方法很难适用于大规模的文本数据集.为此,提出了一种基于改进遗传算法的文本挖掘系统.提出的改进遗传算法极大地提高了文本挖掘系统的分类效率.实验结果表明,该方法适用于大规模文本数据集;该方法提取规则的分类正确率较高,分类速度较快.  相似文献   

11.
针对个人技术博客缺乏深层次的主题挖掘,较少利用文本挖掘或机器学习算法研究其领域方向和演化态势的问题,提出了一种基于LDA模型和社交网络的个人技术博客文本挖掘算法.首先,通过Python抓取CSDN论坛的博客文本;其次,利用LDA模型和层次聚类算法挖掘技术博客的核心主题,揭示其博客创作的演化历程;最后,通过社交网络分析法...  相似文献   

12.
张伟 《电子设计工程》2022,30(5):145-149
目前设计的网络信息搜索目标预测系统存在预测准确率低、预测时间长的问题,基于文本挖掘设计了一种新的网络信息搜索目标预测系统。系统硬件主要设计了采集器、处理器、存储器和传输器,采集器芯片选用三星公司生产的高速、低功耗的A/D转换芯片SD8276,处理器使用GS446架构,存储器芯片选择TU公司生产的TDYEBI663芯片,传输器由传统的4路单线接收机调整为6路双线接收机,以提升传输器的传输性能。利用文本挖掘中的文本摘要、结构分析和数据演变对网络用户搜索的信息内容进行系统分类,抽取网络信息中的不协调信息,对目标定位进行检索,辅助预测系统分析文本信息中的关键信息,从而实现网络信息搜索目标预测。实验结果表明,基于文本挖掘的网络信息搜索目标预测系统能够有效提高预测准确率,缩短预测时间。  相似文献   

13.
李健  马力  武波 《现代电子技术》2004,27(23):10-11,14
研究了一种基于Web文本聚类的用户兴趣发现方法.他通过Web文档信息获取,文本的形式表示,以及Web文本聚类方法最终提取用户兴趣知识,并给出了一个设计模型。  相似文献   

14.
针对目前研究生入学自主选课具有一定的盲目性,文章提出了一套基于关联规则的文本挖掘算法,用于研究研究生选课与研究课题之间的相关性,为研究生提供参考信息。首先提出用于计算词语关联度的方案,得出词语之间的关联值,然后提出了一种基于并行结构的相似度计算方法,并将词语关联值用于文档的相似度计算中,得出文档相似度。以数字图书馆作为实验平台,将这一系列的算法用于挖掘课程属性与研究课题属性之间的文档相似度,最终得出与研究课题的相关的课程序列。实验证明,此方案具有一定的可参考性和使用价值。  相似文献   

15.
一种基于多Agent技术的Web挖掘模型及应用   总被引:1,自引:0,他引:1  
石福斌 《信息技术》2007,31(6):60-63
随着因特网的迅猛发展,计算机拥有了海量的资源,但也困扰着人们获取其中有用的信息。提出了一个基于Multi—agent技术的Web挖掘模型,利用多Agent体系实现数据的收集。最后给出根据该模型设计和实现的某企业人才素质评价系统的实例,系统运行结果证明了模型的有效性和科学性。  相似文献   

16.
对海量数据进行聚类,从中获取有价值的隐含知识,已经成为一项迫切的需求。传统的基于词频或距离的文本聚类技术在准确度方面存在较大差距。引入文本语义信息的聚类方法,提高了聚类的准确度。实验结果表明,基于语义特征的模糊聚类算法具有较好的聚类效果。  相似文献   

17.
宋立华 《电子设计工程》2022,30(3):31-34,39
由于电网中存在大量的缺陷文本,传统方法无法精准区分缺陷类型,导致文本挖掘精准度较低,为此提出了基于信息抽取的电网缺陷文本挖掘系统设计.使用数据存储模块直接访问系统内存,通过负载均衡服务器执行请求响应.设计多进程浏览器架构,负责浏览多进程应用程序.构建文本挖掘模型,将大量信息元素整理成电网缺陷术语表形式,输入电网缺陷文本...  相似文献   

18.
《现代电子技术》2018,(1):125-128
传统文本信息挖掘技术系统能够对文本信息进行系统的信息挖掘,但是在大数据环境下容易产生系统的数据识别乱码以及数据干扰。针对上述问题,提出一种大数据环境下文本信息挖掘系统设计方案,在系统的硬件设备上增加数据简化器,通过数据简化器能够对数据进行一定的过滤筛选,保证数据进入识别阶段的准确率,同时促进了数据挖掘过程的效率,对文本信息挖掘的过程使用质数矩阵模型,通过建立的质数矩阵模型能够有效地对文本信息进行深层次的挖掘。同时优化了Aprioirt计算方法,保证了对文本信息的优先识别度,避免了传统方法中出现的数据混乱以及数据干扰问题。为了验证设计的大数据环境下文本信息挖掘系统的有效性,设计了对比仿真实验,通过实验数据的分析,有效地证明了设计的大数据环境下文本信息挖掘系统的有效性,避免了传统方法中出现的数据混乱以及数据干扰问题。  相似文献   

19.
黄名选  蒋曹清 《电子学报》2018,46(12):3029-3036
主题漂移和词不匹配是自然语言处理中一个难题,文本挖掘与信息检索的结合有助于解决该问题.鉴于此,本文提出一种基于完全加权正负关联模式挖掘的越-英跨语言查询译后扩展算法.该算法采用新的完全加权正负项集支持度和关联度计算方法以及模式评价框架,对初检用户相关反馈文档集挖掘与原查询词相关的正负关联模式,从模式中提取扩展词实现跨语言查询译后扩展.与现有基于伪相关反馈、加权关联模式挖掘的跨语言扩展算法比较,本文算法能有效地减少查询主题漂移和词不匹配问题,提高跨语言信息检索性能;本文模式挖掘方法可用于推荐系统,提高其准确性.  相似文献   

20.
采用了空间解析几何中的球极映射方法,形成高维向量到低维向量的拓扑变换模型,实现了矩阵形武的高维空间文本集合到低维空间文本集合的一一映射,编制了相应的算法,从而有效地解决了文本挖掘中的非线性降维问题,克服了以往研究中的缺陷.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号