首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 143 毫秒
1.
基于XML的Web中文文本挖掘系统设计   总被引:1,自引:0,他引:1  
语料本的挖掘和本语料库的建设对语言学研究具有重要意义,因此语料本的挖掘和本语料库的建设就越来越值得探讨。但由于Web上本的半结构化特征和异构本源的问题,在Web上的本挖掘具有很多困难。本提出了将XML技术与Web挖掘技术相结合,根据研究的个人需求定制个性化的Web中本挖掘系统框架和实现方案,并给出了面向法律领域的Web本挖掘系统Laws Miner的实例。  相似文献   

2.
Web日志挖掘是Web数据挖掘的重要分支,已成为研究人员关注的焦点。本文首先分析了Web日志的格式,再对Web日志挖掘过程中的数据预处理进行了深入的讨论,最后阐述了Web日志挖掘在网站建设上的应用。  相似文献   

3.
Web访问挖掘中事务聚类研究   总被引:4,自引:0,他引:4  
Web访问挖掘可以发现用户浏览Web的目标、兴趣等行为模式,使Web变得更容易获取信息。聚类分析是Web访问挖掘系统的重要组件,聚类分析的质量决定挖掘结果的有效性。现有的三类聚类算法具有各自的缺点,本文概述了三种算法,给出了一种基于广义后缀树的聚类算法,通过实例说明了它的原理和优点。  相似文献   

4.
Web日志挖掘就是运用数据挖掘的思想来对服务器日志进行分析处理,以发现相似客户群体、相关Web页面和频繁访问路径等,其目的在于从用户访问Web系统的行为中发现用户的访问模式.在对Web日志挖掘的原理和技术进行讨论的基础上,重点探讨了如何将Apriori改进算法应用于对Web日志的挖掘,提出了一种基于该算法的Web日志挖掘实现方法,实验结果表明了算法的有效性.  相似文献   

5.
针对Web地震新闻挖掘的需求,采用网络爬虫抓取新闻文本作为研究语料,采用改进的TF-IDF(Term Frequency-Inverse Document Frequency)算法对语料集进行文本训练,选取权值较大的特征词初步识别地震类文档;采用特征词构成要素描述地震事件,构建了地震事件的知识框架;基于框架的要素特征词匹配从地震类文档中获取候选事件语句,对候选事件语句进行句法分析,总结出地震要素出现形式和规律,构造抽取规则,编写抽取算法,完成了地震事件识别和提取实验,并对地震事件提取的精度进行分析和评价,验证了该方法具有较高的地震事件识别和提取精度,是一种有前景的Web专题事件挖掘的途径.  相似文献   

6.
基于Web使用挖掘的电子商务个性化服务研究   总被引:3,自引:1,他引:3  
基于国内外最新研究成果对电子商务中个性化服务的Web使用挖掘进行了深入研究。介绍了个性化服务系统的内涵,提出了Web使用挖掘的基本过程和关键技术,围绕模式识别,研究了其中的一些关键的数据挖掘技术与算法。最后针对电子商务的个性化服务提出了基于Web使用挖掘的体系结构,并对其工作流程进行了简略的介绍。  相似文献   

7.
文章叙述Web数据挖掘的概念、分类、技术等,重点讨论了基于XML语言的Web数据挖掘技术,解决了Internet上绝大多数非结构化甚至是无结构的、Web信息的组织结构性差而导致的Web数据挖掘困难的问题。  相似文献   

8.
随着互联网的飞速发展,如何高效利用万维网这一巨大信息源,从中挖掘潜在的有价值的信息和知识,已成为国际学术界一个研究热点.传统的Web信息检索技术已无法满足人们日益增长的Web信息检索和挖掘需求,而网络挖掘技术可以弥补搜索引擎的不足.重点介绍一个网络挖掘原型系统WebME,包括其系统结构、主要功能和特点,并提出了进一步完善的一些设想.WebME采用了一些独特的网络挖掘技术,集多种网络挖掘功能于一体,是目前国内功能最为全面的网络挖掘系统之一.  相似文献   

9.
Web数据挖掘技术在电子商务中的应用越来越广泛,已成为现代电子商务企业获取市场信息极为重要的工具。本文简要介绍了Web数据挖掘的定义等相关内容,并对Web数据挖掘技术在电子商务领域中的应用进行了阐述。  相似文献   

10.
Web日志中时态约束浏览模式挖掘算法研究   总被引:1,自引:0,他引:1  
为了有效地从海量的Web日志中挖掘出有用的用户浏览模式,将顺序约束和时态约束加入到快速关联规则挖掘算法中,给出了一种基于时态约束的浏览模式挖掘算法FPMBTC.该算法简化了挖掘过程中候选模式的生成操作,对数据库扫描一次,求出所有事务的连续子序列集,利用集合交差运算求得支持度,同时逐步修正会话事务时间得到浏览模式的有效时间,根据网站结构及Web日志不断变化的特点,给出了增量更新挖掘算法.实验结果表明:与类Apriori算法相关工作相比,运行时间少,扩展性好,并且挖掘出的模式具有时效性,适合于不断变化的且有时态特点的Web日志信息的挖掘.此研究对于学习和研究Web挖掘技术具有很好的参考价值,对建造实际的Web挖掘系统具有重要的理论意义和实用价值.  相似文献   

11.
提出一种新的搭配(Collocation)翻译方法,该方法在最大熵模型框架下,充分利用各种从单语和双语语料库中获取的信息.与过去的过分依赖双语语料库的方法不同,新的搭配翻译方法可以使用单语语料库训练翻译模型,在搭配内在信息的基础上,进一步引入了上下文信息.采用EM(Expectation Maximization)算法估计基于上下文的词汇翻译概率.本模型同时具备集成来自双语语料库信息的能力.实验表明,本文方法优于现有的基于单语语料库的搭配翻译方法,在双语语料库的支持下还可以得到更好的结果.  相似文献   

12.
为了识别汉语实体,提出了利用模式匹配技术构造一个抽取模型。为了识别该模型的有效性,系统的测试语料采用Internet网上真实语料,语料全部来自新加坡联合早报,主要是新闻领域,经过开放测试,该系统识别实体召回率46.02%,准确率为52.94%。  相似文献   

13.
生产者-消费者模式是程序设计中的经典模式。为了满足舆情监控系统Web数据挖掘的实时高效性,提出基于生产者-消费者模式的二维矩阵队列链模型,得到二维长度设定准则,并引入线程池进行管理,提高了系统资源的利用率,实时高效,且能够十分方便的对其队列进行日志监控,为Web数据抓取分析系统提供了可供借鉴的经验。  相似文献   

14.
The performance of a machine translation system heavily depends on the quantity and quality of the bilingual language resource.However,getting a parallel corpus,which has a large scale and is of high quality,is a very difficult task especially for low resource languages such as Chinese-Vietnamese.Fortunately,multilingual user generated contents (UGC),such as bilingual movie subtitles,provide us access to automatic construction of the parallel corpus.Although the amount of UGC parallel corpora can be considerable,the original corpus is not suitable for statistical machine translation (SMT) systems.The corpus may contain translation errors,sentence mismatching,free translations,etc.To improve the quality of the bilingual corpus for SMT systems,three filtering methods are proposed:sentence length difference,the semantic of sentence pairs,and machine learning.Experiments are conducted on the Chinese to Vietnamese translation corpus.Experimental results demonstrate that all the three methods effectively improve the corpus quality,and the machine translation performance (BLEU score) can be improved by 1.32.  相似文献   

15.
The performance of a machine translation system heavily depends on the quantity and quality of the bilingual language resource.However,getting a parallel corpus,which has a large scale and is of high quality,is a very difficult task especially for low resource languages such as ChineseVietnamese.Fortunately,multilingual user generated contents (UGC),such as bilingual movie subtitles,provide us access to automatic construction of the parallel corpus.Although the amount of UGC parallel corpora can be considerable,the original corpus is not suitable for statistical machine translation (SMT) systems.The corpus may contain translation errors,sentence mismatching,free translations,etc.To improve the quality of the bilingual corpus for SMT systems,three filtering methods are proposed:sentence length difference,the semantic of sentence pairs,and machine learning.Experiments are conducted on the Chinese to Vietnamese translation corpus.Experimental results demonstrate that all the three methods effectively improve the corpus quality,and the machine translation performance (BLEU score) can be improved by 1.32.  相似文献   

16.
随着Internet的迅速发展,使得“数据丰富而信息贫乏”这对矛盾显得日益突出,数据挖掘技术正是应了这一需求而结合了机器学习、模式识别、统计学、人工智能、神经网络等多学科而出现的一项新技术,基于Web的数据挖掘是数据挖掘技术在网络信息处理中的应用。本文叙述了Web数据挖掘的概念、分类、技术等,重点讨论了基于XML语言的Web数据挖掘技术,解决了Internet上绝大多数非结构化甚至是无结构的、Web信息的组织结构性差而导致的Web数据挖掘困难的问题。  相似文献   

17.
基于Web日志挖掘的智能站点体系   总被引:4,自引:0,他引:4  
Web日志挖掘是通过分析Web服务器的日志文件,以发现用户访问站点的浏览模式,为站点管理员提供各种利于Web站点改进或可以带来经济效益的信息。在分析了Web日志挖掘主要特点之后,提出了一个可行的面向Web日志挖掘的智能站点结构,并给出了一个架构于Apache服务器上的智能站点原型。  相似文献   

18.
Web挖掘作为数据挖掘在Web上的一种应用形式,是电子商务推荐系统的核心。根据Web挖掘理论,文章构建了包含离线部分和在线部分的电子商务推荐系统的体系结构模型。重点分析了基于关联无规则的推荐算法和基于协同过滤的推荐算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号