期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

张霄军张凌岚《术语标准化与信息技术》2004,(3):31-35

语料本的挖掘和本语料库的建设对语言学研究具有重要意义，因此语料本的挖掘和本语料库的建设就越来越值得探讨。但由于Web上本的半结构化特征和异构本源的问题，在Web上的本挖掘具有很多困难。本提出了将XML技术与Web挖掘技术相结合，根据研究的个人需求定制个性化的Web中本挖掘系统框架和实现方案，并给出了面向法律领域的Web本挖掘系统Laws Miner的实例。相似文献

2.

Web日志挖掘技术的研究与应用

吴志霞《适用技术之窗》2010,(6):43-45

Web日志挖掘是Web数据挖掘的重要分支,已成为研究人员关注的焦点。本文首先分析了Web日志的格式,再对Web日志挖掘过程中的数据预处理进行了深入的讨论,最后阐述了Web日志挖掘在网站建设上的应用。相似文献

3.

Web访问挖掘中事务聚类研究 总被引：4，自引：0，他引：4

朱霞殷凯黄树成《常州工学院学报》2004,17(6):45-49

Web访问挖掘可以发现用户浏览Web的目标、兴趣等行为模式,使Web变得更容易获取信息。聚类分析是Web访问挖掘系统的重要组件,聚类分析的质量决定挖掘结果的有效性。现有的三类聚类算法具有各自的缺点,本文概述了三种算法,给出了一种基于广义后缀树的聚类算法,通过实例说明了它的原理和优点。相似文献

4.

基于Apriori改进算法的Web日志挖掘支撑工具的实现

陈炼孙金华饶泓廖远林渝《南昌大学学报(工科版)》2007,29(2):190-193,201

Web日志挖掘就是运用数据挖掘的思想来对服务器日志进行分析处理,以发现相似客户群体、相关Web页面和频繁访问路径等,其目的在于从用户访问Web系统的行为中发现用户的访问模式.在对Web日志挖掘的原理和技术进行讨论的基础上,重点探讨了如何将Apriori改进算法应用于对Web日志的挖掘,提出了一种基于该算法的Web日志挖掘实现方法,实验结果表明了算法的有效性. 相似文献

5.

基于事件分析的Web地震新闻时空信息挖掘研究

樊红李怀远杜武杨继文《武汉大学学报(工学版)》2018,(2):183-188

针对Web地震新闻挖掘的需求,采用网络爬虫抓取新闻文本作为研究语料,采用改进的TF-IDF(Term Frequency-Inverse Document Frequency)算法对语料集进行文本训练,选取权值较大的特征词初步识别地震类文档;采用特征词构成要素描述地震事件,构建了地震事件的知识框架;基于框架的要素特征词匹配从地震类文档中获取候选事件语句,对候选事件语句进行句法分析,总结出地震要素出现形式和规律,构造抽取规则,编写抽取算法,完成了地震事件识别和提取实验,并对地震事件提取的精度进行分析和评价,验证了该方法具有较高的地震事件识别和提取精度,是一种有前景的Web专题事件挖掘的途径. 相似文献

6.

基于Web使用挖掘的电子商务个性化服务研究 总被引：3，自引：1，他引：3

刘建涛《武汉理工大学学报(信息与管理工程版)》2006,28(8):114-117

基于国内外最新研究成果对电子商务中个性化服务的Web使用挖掘进行了深入研究。介绍了个性化服务系统的内涵，提出了Web使用挖掘的基本过程和关键技术，围绕模式识别，研究了其中的一些关键的数据挖掘技术与算法。最后针对电子商务的个性化服务提出了基于Web使用挖掘的体系结构，并对其工作流程进行了简略的介绍。相似文献

7.

基于XML的WEB数据挖掘

蒋社想《长沙通信职业技术学院学报》2006,5(4):30-33

文章叙述Web数据挖掘的概念、分类、技术等，重点讨论了基于XML语言的Web数据挖掘技术，解决了Internet上绝大多数非结构化甚至是无结构的、Web信息的组织结构性差而导致的Web数据挖掘困难的问题。相似文献

8.

WebME--一个大型网络挖掘环境系统

鲁明羽张红付克明陆玉昌《哈尔滨工业大学学报》2004,36(9):1164-1167,1172

随着互联网的飞速发展，如何高效利用万维网这一巨大信息源，从中挖掘潜在的有价值的信息和知识，已成为国际学术界一个研究热点．传统的Web信息检索技术已无法满足人们日益增长的Web信息检索和挖掘需求，而网络挖掘技术可以弥补搜索引擎的不足．重点介绍一个网络挖掘原型系统WebME，包括其系统结构、主要功能和特点，并提出了进一步完善的一些设想．WebME采用了一些独特的网络挖掘技术，集多种网络挖掘功能于一体，是目前国内功能最为全面的网络挖掘系统之一．相似文献

9.

Web数据挖掘技术及应用

熊兴无俞龙生《适用技术之窗》2012,(4):54-56

Web数据挖掘技术在电子商务中的应用越来越广泛,已成为现代电子商务企业获取市场信息极为重要的工具。本文简要介绍了Web数据挖掘的定义等相关内容,并对Web数据挖掘技术在电子商务领域中的应用进行了阐述。相似文献

10.

Web日志中时态约束浏览模式挖掘算法研究 总被引：1，自引：0，他引：1

宁慧李红宇吴培莲《哈尔滨工业大学学报》2008,40(9):1474-1480

为了有效地从海量的Web日志中挖掘出有用的用户浏览模式,将顺序约束和时态约束加入到快速关联规则挖掘算法中,给出了一种基于时态约束的浏览模式挖掘算法FPMBTC.该算法简化了挖掘过程中候选模式的生成操作,对数据库扫描一次,求出所有事务的连续子序列集,利用集合交差运算求得支持度,同时逐步修正会话事务时间得到浏览模式的有效时间,根据网站结构及Web日志不断变化的特点,给出了增量更新挖掘算法.实验结果表明:与类Apriori算法相关工作相比,运行时间少,扩展性好,并且挖掘出的模式具有时效性,适合于不断变化的且有时态特点的Web日志信息的挖掘.此研究对于学习和研究Web挖掘技术具有很好的参考价值,对建造实际的Web挖掘系统具有重要的理论意义和实用价值. 相似文献

11.

基于多特征的搭配翻译模型研究

陈鄞吕雅娟李生《哈尔滨工业大学学报》2007,39(11):1790-1795

提出一种新的搭配(Collocation)翻译方法,该方法在最大熵模型框架下,充分利用各种从单语和双语语料库中获取的信息.与过去的过分依赖双语语料库的方法不同,新的搭配翻译方法可以使用单语语料库训练翻译模型,在搭配内在信息的基础上,进一步引入了上下文信息.采用EM(Expectation Maximization)算法估计基于上下文的词汇翻译概率.本模型同时具备集成来自双语语料库信息的能力.实验表明,本文方法优于现有的基于单语语料库的搭配翻译方法,在双语语料库的支持下还可以得到更好的结果. 相似文献

12.

汉语部分实体的抽取模型

张秀丽《沈阳理工大学学报》2000,19(4):57-63

为了识别汉语实体,提出了利用模式匹配技术构造一个抽取模型。为了识别该模型的有效性,系统的测试语料采用Internet网上真实语料,语料全部来自新加坡联合早报,主要是新闻领域,经过开放测试,该系统识别实体召回率46．02％,准确率为52．94％。相似文献

13.

生产者-消费者二维队列模型在舆情监控系统中的应用

雷龙艳万亚平徐强阳小华《衡阳工学院学报》2013,(3):56-60

生产者-消费者模式是程序设计中的经典模式。为了满足舆情监控系统Web数据挖掘的实时高效性,提出基于生产者-消费者模式的二维矩阵队列链模型,得到二维长度设定准则,并引入线程池进行管理,提高了系统资源的利用率,实时高效,且能够十分方便的对其队列进行日志监控,为Web数据抓取分析系统提供了可供借鉴的经验。相似文献

14.

Improving Parallel Corpus Quality for Chinese-Vietnamese Statistical Machine Translation

Huu-anh Tran Yuhang Guo Ping Jian Shumin Shi Heyan Huang 《北京理工大学学报(英文版)》2018,27(1):127-136

The performance of a machine translation system heavily depends on the quantity and quality of the bilingual language resource.However,getting a parallel corpus,which has a large scale and is of high quality,is a very difficult task especially for low resource languages such as Chinese-Vietnamese.Fortunately,multilingual user generated contents (UGC),such as bilingual movie subtitles,provide us access to automatic construction of the parallel corpus.Although the amount of UGC parallel corpora can be considerable,the original corpus is not suitable for statistical machine translation (SMT) systems.The corpus may contain translation errors,sentence mismatching,free translations,etc.To improve the quality of the bilingual corpus for SMT systems,three filtering methods are proposed:sentence length difference,the semantic of sentence pairs,and machine learning.Experiments are conducted on the Chinese to Vietnamese translation corpus.Experimental results demonstrate that all the three methods effectively improve the corpus quality,and the machine translation performance (BLEU score) can be improved by 1.32. 相似文献

15.

Improving Parallel Corpus Quality for Chinese-Vietnamese Statistical Machine Translation

Huu-anh Tran Yuhang Guo Ping Jian Shumin Shi Heyan Huang 《北京理工大学学报(英文版)》2018,(3):127-136

The performance of a machine translation system heavily depends on the quantity and quality of the bilingual language resource.However,getting a parallel corpus,which has a large scale and is of high quality,is a very difficult task especially for low resource languages such as ChineseVietnamese.Fortunately,multilingual user generated contents (UGC),such as bilingual movie subtitles,provide us access to automatic construction of the parallel corpus.Although the amount of UGC parallel corpora can be considerable,the original corpus is not suitable for statistical machine translation (SMT) systems.The corpus may contain translation errors,sentence mismatching,free translations,etc.To improve the quality of the bilingual corpus for SMT systems,three filtering methods are proposed:sentence length difference,the semantic of sentence pairs,and machine learning.Experiments are conducted on the Chinese to Vietnamese translation corpus.Experimental results demonstrate that all the three methods effectively improve the corpus quality,and the machine translation performance (BLEU score) can be improved by 1.32. 相似文献

16.

基于XML的网页数据挖掘

熊一利徐鹏《适用技术之窗》2010,(1):73-75

随着Internet的迅速发展,使得“数据丰富而信息贫乏”这对矛盾显得日益突出,数据挖掘技术正是应了这一需求而结合了机器学习、模式识别、统计学、人工智能、神经网络等多学科而出现的一项新技术,基于Web的数据挖掘是数据挖掘技术在网络信息处理中的应用。本文叙述了Web数据挖掘的概念、分类、技术等,重点讨论了基于XML语言的Web数据挖掘技术,解决了Internet上绝大多数非结构化甚至是无结构的、Web信息的组织结构性差而导致的Web数据挖掘困难的问题。相似文献

17.

基于Web日志挖掘的智能站点体系 总被引：4，自引：0，他引：4

周则顺水俊峰夏红霞范斌《武汉理工大学学报(信息与管理工程版)》2003,25(6):72-75

Web日志挖掘是通过分析Web服务器的日志文件,以发现用户访问站点的浏览模式,为站点管理员提供各种利于Web站点改进或可以带来经济效益的信息。在分析了Web日志挖掘主要特点之后,提出了一个可行的面向Web日志挖掘的智能站点结构,并给出了一个架构于Apache服务器上的智能站点原型。相似文献

18.

基于Web挖掘的电子商务推荐系统研究

姚琪《长沙通信职业技术学院学报》2013,12(3):69-71

Web挖掘作为数据挖掘在Web上的一种应用形式,是电子商务推荐系统的核心。根据Web挖掘理论,文章构建了包含离线部分和在线部分的电子商务推荐系统的体系结构模型。重点分析了基于关联无规则的推荐算法和基于协同过滤的推荐算法。相似文献