首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 41 毫秒
1.
URL是用于完整描述Internet上网页和其他资源地址的一种标识方法,URL访问日志能记录用户的上网痕迹。针对该特点,提出一种基于访问日志的网页内容监控挖掘系统,实现网页内容抓取、监控、分析、报表生成等一系列过程的自动化。系统运行测试结果表明,该系统的准确率较高,能有效解决运营商和互联网监管部门的网络监管问题。  相似文献   

2.
互联网上很多资源蕴含人类群体智慧.分类网站目录人工地对网站按照主题进行组织.基于网站目录中具有主题标注的URL设计URL主题分类器,结合伪相关反馈技术以及搜索引擎查询日志,提出了自动、快速、有效的查询主题分类方法.具体地,方法为2种策略的结合.策略1通过计算搜索结果中URL的主题分布预测查询主题,策略2基于查询日志点击关系,利用具有主题标注的URL,对查询进行标注获取数据并训练统计分类器预测查询主题.实验表明,方法可获得比当前最好算法更好的准确率,更好的在线处理效率并且可基于查询日志自动获取训练数据,具有良好的可扩展性.  相似文献   

3.
文章分析了传统搜索引擎的缺点,提出了一种基于网页自动分类的分类查询搜索引擎新模型,重点阐述了利用粗糙集进行文本分类的方法,提出了一种基于特征矩阵的决策表约简算法,并以此实现了网页自动分类器。  相似文献   

4.
查询歧义作为查询分类的子问题在信息检索领域已经得到了很多的关注,现有的研究主要是对查询内容上的歧义进行分类,而忽略了用户查询需求形式上的歧义。该文针对查询需求歧义问题进行了研究,提出了相应的查询需求分类模型。该文利用网页目录构建用户需求形式分类体系及站点列表,在大规模商业搜索引擎日志上进行用户点击覆盖检测,从而得到对查询需求形式的描述。该文的贡献在于提供了一种实际可行的查询需求分类方法,搜索引擎可以根据用户需求的区别调整排序方式,从而改善搜索性能。  相似文献   

5.
智能电网的通信调度系统是智能电网正常运行的保证。为保证系统正确运行,值班员需要对电网信调系统 的运行状态、突发事件、事故故障以及相应的处理方案进行记录。为帮助管理者及时了解智能电网信息调度系统的工 作情况,发现潜在安全隐患,通常需要为这些日志数据标注其日志类型,以方便管理者查询和检索,因此,要求智能电 网信息调度系统能够自动对每天记录的各种日志根据管理需要进行分类。对大量根据值班员自己理解和习惯撰写的 日志进行自动分类,需要对由信息调度专家提供类型标注的大量日志数据进行学习。然而因人工阅读标注耗时、耗 力,故在实际应用中往往仅能提供少量的标注,从而影响自动分类的性能。针对这一问题,提出了基于主动半监督学 习的日志自动分类方法,该方法一方面利用主动学习找出对学习最有帮助的日志,获得其类型标注;另一方面,通过利 用大量缺乏类型标注的日志进一步提升学习性能。在国家电网的智能电网信息调度日志数据上的应用结果表明,基 于主动半监督学习,可获得比现有方法更优的日志自动分类性能。  相似文献   

6.
在网页分类的过程中,鉴于存储查询过程中的URL规范化需求,提出一种基于有限状态机的URL解析方法,并进行了详细的分析设计,解决了现存URL解析方法效率低、资源消耗大的缺点,提高了解析的效率和容错性能.  相似文献   

7.
针对海量网页数据挖掘问题,提出基于向量空间的网页内容相似计算算法和软件系统框架。利用搜索引擎从海量网页中提取中文编码的网页URL,在此基础上提取网页的中文字符并分析提取出中文实词,建立向量空间模型计算网页内容间的相似度。该系统缩小了需要进行相似度计算的网页文档范围,节约大量时间和空间资源,为网络信息的分类、查询、智能化等奠定了良好的基础。  相似文献   

8.
通过分析网页的特点及因特网用户感兴趣的查询信息,提出了一种基于机器学习的、独立于语种的文本分类模型.这一模型的算法主要利用字间的相关信息、词频、页面的标记信息以及对用户的查询信息的浅层语义分析,提取网页特征,并计算可调的词频加权参数和增加特征词的可分性信息,然后通过本类和非本类训练,建立预定义类的特征向量空间,进一步对文本进行分类.这种分类方法在对于相似文本分类中具有明显的优势.  相似文献   

9.
分类查询是网络信息检索的重要组成部分.文章介绍了一个中文网页分类查询系统的设计与实现方法.由于人工分类费时费力,而自动分类需要大量训练数据,因此在实现该系统时提出了一种基于用户推荐机制的解决方案.  相似文献   

10.
郭孝园  何臻 《工矿自动化》2012,38(8):100-104
为了解决煤矿企业网站用户查找信息难的问题,提出了一种基于Web日志的煤矿企业网站个性化推荐服务模型。该模型应用关联规则对新用户进行页面推荐,应用聚类算法对老用户进行页面推荐;并结合点击网页的次数、网页的浏览时间、雅可系数与最长公共路径系数来度量用户兴趣度的方法,可为用户准确地推荐其感兴趣的页面。测试结果表明,该模型能够有效地对网页资源进行分类并进行个性化推荐。  相似文献   

11.
一种基于向量空间模型的文本分类方法   总被引:21,自引:1,他引:21  
介绍的文本分类是指在给定分类体系下,根据文本的内容自动确定文本类别的过程。通过分析网页的特点及因特网用户感兴趣的查询信息,提出了一种基于机器学习的、独立于语种的文本分类模型。这一模型的关键算法主要利用字间的相关信息、词频、页面的标记信息以及对用户的查询信息的浅层语义分析,提取网页特征,并计算可调的词频加权参数和增加特征词的可分性信息,然后通过本类和非本类训练,建立预定义类的特征向量空间,进一步对文本进行分类。这种分类方法在相似文本分类中具有明显的优势。  相似文献   

12.
分类查询是网络信息检索的重要组成部分。文章介绍了一个中文网页分类查询系统的设计与实现方法。由于人工分类费时费力,而自动分类需要大量训练数据,因此在实现该系统时提出了一种基于用户推荐机制的解决方案。  相似文献   

13.
Oracle Text是一种创建文本搜索和文档分类应用的技术。本文提出了一种基于该技术实现中文网页自动分类系统的解决方案。实验结果表明该方案准确有效,具有较好的性能,满足中文网页自动分类的需求。  相似文献   

14.
王正也  李书芳 《软件》2014,(11):94-100
从2002年起,某金融机构积累了大量的银行卡支付日志数据。随着业务的不断增长,数据集高速增长,原生的Hive的查询性能已经不能令人满意。文章研究了大数据及存储的现状,提出了一种基于存储日志的分析的Hive存储格式优化方法,通过该优化方法从查询时间和存储空间利用率两方面使系统性能得到提升,提升了查询效率。论文对该金融机构原有Hive存储系统通过基于存储日志分析的Hive存储格式优化方法进行改进,通过实际数据,充分证明了该方法的可行性。  相似文献   

15.
在传统的Web网站中,网页的布局往往由网页制作人员安排并很少变化.为了更好的为网络用户提供服务,提出通过对Web日志的数据清洗,识别出每个用户在一个会话期内访问的页面,依据网页内客在逻辑上的关系和用户经常访问的页面,得到用户对网页内容的兴趣度矩阵及各子项目的兴趣度矩阵.对网络用户根据兴趣度短阵进行层次化的分类,得到每个...  相似文献   

16.
随着Internet技术的快速发展,Web数据库数目庞大而且仍在快速增长。为有效组织利用深藏于Web数据库上的信息,需对其按领域进行分类和集成。Web页面上的查询接口是网络用户访问Web数据库的唯一途径,对Deep Web数据源分类可通过对查询接口分类实现。为此,提出一种基于查询接口文本VSM(Vector Space Model)的分类方法。首先,使用查询接口文本信息构建向量空间模型,然后通过典型的数据挖掘分类算法训练分类器,从而实现对查询接口所属领域进行分类。实验结果表明给出的方法具有良好的分类性能。  相似文献   

17.
研究各种高效的分类算法是数据挖掘的重要问题之一[1]。蚁群算法作为一种新型的模拟进化算法,在求解复杂的组合优化问题中表现出了良好的性能[2]。文章介绍了蚁群算法在网页内容分类数据挖掘任务中的一种应用方案,阐述了算法的基本原理及特性,并使用少量类别的网页进行了分类实验,实验结果验证了该算法在应用中的有效性。  相似文献   

18.
李锋 《计算机工程》2007,33(21):50-51,5
通过对网页中无关信息分布特点和模式的分析,提出了一种新颖的网页内容精化算法——基于网站拓扑信息的网页无关内容识别与剔除算法。该算法在对网页内容进行分区后,认定与父节点网页具有相同内容的分区为该网页无关信息内容分区并将其删除。测试结果表明,该算法具有较高的识别率及精度。  相似文献   

19.
本文提出了一种基于树状SVM进行Web网页分类与信息安全过滤的有效方法。通过对中等规模的Web网页测试实验,表明基于树状SVM的Web网页分类方法是有效的。  相似文献   

20.
基于内容与链接特征的中文垃圾网页分类   总被引:2,自引:0,他引:2  
随着搜索引擎使用的日益普及,web作弊已成为搜索引擎面临的一个重大挑战。国内外研究人员从基于内容,基于链接等方面提出了许多反web作弊的技术,这些技术一定程度上能有效地检测垃圾网页。本文在前人研究基础上提出了一种结合网页内容和链接方面的特征,采用机器学习对中文垃圾网页进行分类检测的方法。实验结果表明,该方法能有效地对中文垃圾网页分类。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号