首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 104 毫秒
1.
通过对网络Web服务器日志中记录的大量用户信息进行Web日志分析,研究在Web服务器中及其系统中引入和实现Qos控制的机制和策略,了解用户习惯,提高服务质量和效率。  相似文献   

2.
基于Web日志分析的Web QoS研究   总被引:4,自引:0,他引:4  
Internet的服务模式正由传统的数据通信与信息浏览向电子交易与服务转变,需要对不同的用户或HTTP请求提供区分服务和性能保证.本文通过对网络Web服务器日志中记录的大量用户信息进行Web日志分析,研究在Web服务器中及其系统中引入和实现Qos控制的机制和策略,了解用户习惯,提供个性服务,提高服务质量和效率.  相似文献   

3.
基于本体的Web分类技术研究   总被引:2,自引:3,他引:2  
李恒杰  李明 《微计算机信息》2006,22(21):215-217
主要提出了一种基于本体的抽象的Web挖掘模型。首先利用本体的方法表示出要挖掘的领域,然后把从用户处收集来的数据转换成表格;最后再根据定义和公式来进行知识发现。抽象的Web挖掘模型可以提取出语义Web中隐藏在大量信息背后的近似概念,来实现知识发现。  相似文献   

4.
通过对网络Web服务器日志中记录的大量用户信息进行Web日志分析,研究在Web服务器中及其系统中引入和实现Qos控制的机制和策略,了解用户习惯,提高服务质量和效率.  相似文献   

5.
提出了一种基于关键字的Web数字信息挖掘方法。利用该方法,充分挖掘出Web页面上的关于高考招生的数据信息,在此基础上利用回归分析设计并实现了一种基于Web挖掘的高考预测系统。  相似文献   

6.
Web挖掘指使用数据挖掘技术在万维网数据中发现潜在的、有用的信息。文章通过对Web挖掘在远程教育中的应用进行分析,提出一种基于Web挖掘的远程教学服务系统模型,着重介绍了Web挖掘的基本过程。  相似文献   

7.
为便于从大量组织松散动态性强的Web文本集合中快速有效地发现知识,提出了一种基于Agent的聚类系统,它以聚类算法为核心,自动聚合相似内容的网页,并最终提交给用户界面显示,通过模糊聚类得到的样本属于各种类的不确定性程度,表达了样本类属的中介性,能更客观地反映现实世界,因而更有效地改善了查询结果,使其更具客观性。  相似文献   

8.
基于多示例学习的中文Web目录页面推荐   总被引:12,自引:0,他引:12  
黎铭  薛晓冰  周志华 《软件学报》2004,15(9):1328-1335
多示例学习为中文Web挖掘提供了一种新的思路.提出中文Web目录页面推荐这种特殊的Web挖掘任务,并且将其转化为多示例学习问题来解决.在真实世界数据集上的实验结果显示,该方法能够有效地解决该问题.  相似文献   

9.
针对学生网络学习环境设计了一种新颖的个性化教学推荐系统。该系统通过测试学生的学习风格和挖掘Web浏览日志,构造了不同学生学习风格和Web使用习惯的模型。首先利用Item-Based Top-N推荐算法对数据稀疏的学习风格测量数据进行处理,实现对学生学习风格的诊断;然后,采用AprioriAll算法挖掘Web浏览日志中序列频繁集,分析出学生Web使用的常见习惯和兴趣;最后,依据不同的学习风格和Web使用习惯实现学习内容的个性化推荐。模拟实验表明,该推荐系统的设计是可行并有效的,能够很好地符合用户的真实需求。  相似文献   

10.
基于多知识源的中文词法分析系统   总被引:11,自引:0,他引:11  
姜维  王晓龙  关毅  赵健 《计算机学报》2007,30(1):137-145
汉语词法分析是中文自然语言处理的首要任务.文中深入研究中文分词、词性标注、命名实体识别所面临的问题及相互之间的协作关系,并阐述了一个基于混合语言模型构建的实用汉语词法分析系统.该系统采用了多种语言模型,有针对性地处理词法分析所面临的各个问题.其中分词系统参加了2005年第二届国际汉语分词评测,在微软亚洲研究院、北京大学语料库开放测试中,分别获得F量度为97.2%与96.7%.而在北京大学标注的《人民日报》语料库的开放评测中,词性标注获得96.1%的精确率,命名实体识别获得的F量度值为88.6%.  相似文献   

11.
本文提出了一种利用双字耦合度和t-测试差解决中文分词中交叉歧义的方法: 首先利用词典找出所有的交叉歧义,然后用双字耦合度和t-测试差的线性叠加值来判断各歧义位置是否该切分。实验结果表明,双字耦合度和t-测试差的结合要优于互信息和t-测试差的结合,因此,用双字耦合度和t-测试差的线性叠加值来消除交叉歧义是一种简单有效的方法。  相似文献   

12.
中文分词是计算机自动处理文本的基础。通过比较常用的机械分词算法的优缺点,提出了分层逐字二分算法,综合了TRIE树和逐字二分分词的特点,以求通过较小的开销来实现较快的匹配速度。实验结果表明,该算法在综合性能上有显著提高。  相似文献   

13.
该文研究和探讨一种新的分词方法 基于词边界分类的方法。该方法直接对字符与字符之间的边界进行分类,判断其是否为两个词之间的边界,从而达到分词的目的。相对于目前主流的基于字标注的分词方法,该方法的实现和训练更加快速、简单和直接,但却能获得比较接近的分词效果。更显著的是我们可以很容易地从词边界分类方法获得在线分词学习方法,该方法能够使我们的分词系统非常迅速地学习新的标注样本。  相似文献   

14.
一种基于ICA的汉字信息隐秘传输方法   总被引:8,自引:0,他引:8  
本文描述了一种基于独立成份分析(ICA)的汉字信息隐密传输方法。该方法以彩色图像为寄主图像,对其进行ICA分解,求出其中的独立成分,再将汉字信息以编码形式,隐藏在对彩色图像质量影响最小的独立成分低位端,从而实现汉字信息的隐秘传输。该方法已经在PC机上进行了模拟,实验结果表明,该方法在保证图像质量条件下,有较高的嵌入率和较好的可靠性。  相似文献   

15.
分词是中文处理中的重要基础问题。为了克服Web文本分析中传统方法在适应繁杂的专业领域和多变的语言现象时存在的困难,本文以无督导分词方法为基本框架,使用EM算法建立n元multigram语言模型,提出了一种基于置信度的主动学习分词算法,使得系统在主要利用大量未标注数据的同时,还能够主动选择少量最有价值的数据提交人工标注。实验结果表明算法性能优于相关的几种无督导分词算法。  相似文献   

16.
关于“中文网页自动分类竞赛”结果的分析   总被引:5,自引:1,他引:5  
在最近召开的“全国搜索引擎与网上信息挖掘学术研讨会”上,举办了一场“中文网页自动分类竞赛”,共有来自全国各地的10个队参加。本文在介绍本次竞赛活动规则和过程的基础上,详细分析了竞赛的结果,从而使我们对于目前中文网页自动分类技术的现状有了一种具体的认识:目前已有分类器的性能没有呈现出明显的差距,中文网页的分类比普通文本的分类要困难的多。同时,本文还尝试推出一个标准的中文网页分类的实例样本集,希望通过不断完善,最终作为中文网页分类技术研究的基本语料。  相似文献   

17.
本文提出一种基于小波分析的大词汇汉语连续语音识别的方法,即采用一维小波变换将原始语音信号进行五层小波分解,然后对各层小波系数进行重构,得到五层语音信号,分别对各层语音信号进行训练,得到各层的声学模型,然后结合语言模型对各层声学模型的性能进行测试。通过对纯净语音和带噪语音的各层重构语音数据进行测试。结果表明对于含有高斯白噪声的带噪语音,该方法能使系统性能有所提高,但对于粉红噪声,该方法效果不明显。对于含有真实环境噪声的带噪语音,该方法能获得比基线系统更好的性能。  相似文献   

18.
基于可信度的中文完整词自动识别   总被引:1,自引:0,他引:1  
中文自动分词是中文信息检索中预处理工作的一部分,也是中文信息检索技术中的重要问题之一。针对在信息检索中完整词整体表达更有意义、更能体现用户查询目的的问题,结合完整词的成词特点,将互信息和完整词前后缀的计算,与组成完整词的可信度相关联,提出基于可信度的三种中文完整词自动识别方法,分别构成基于全信度、偏信度,以及前两者加权平均的混信度的完整词识别方法,设计及实现了基于可信度的三种完整词自动识别中文分词原型系统。最后给出了对第二届SIGHAN(2005)北京大学测试集语料的各项实验测试结果和分析,结果表明该原型系统的识别性能良好,且能同时满足多种性能的需求。  相似文献   

19.
随着以PDA和智能手机为代表的手持设备快速发展,汉字输入法选择余地小的缺点已经成为影响其普及的障碍之一。究其原因是手持设备中的操作系统和物理设备类型多,而开发的汉字输入法在不同手持设备中不通用,造成开发效率低。本文介绍了一个适用于手持设备的多层的通用汉字输入法模型,详细描述了模型中每一层的功能和特点,讲解了如何基于该模型实现一个输入法,并概要论述了本模型的优点。  相似文献   

20.
在当前自然语言处理的研究状况下,文学语言处理应当受到足够的重视。诗词艺术集中体现了文学语言的形象性、情感性、个性等特征,是文学语言处理研究很好的切入点。风格评价是文学语言处理的重要课题,极具挑战性。本文以诗词语言为具体研究对象,以基于词联接的自然语言处理技术为技术背景,着重介绍并验证基于词联接的诗词风格评价技术。提出了计算方法,设计了诗词风格评价问卷调查实验。结果表明,人的诗词风格评价共性大于个性,基于词联接的诗词风格评价技术能够有效地评价诗词风格。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号