首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 187 毫秒
1.
基于近似网页聚类的智能搜索系统   总被引:1,自引:1,他引:1  
从Internet用户的兴趣度出发,设计了一种基于近似网页聚类的智能搜索系统。该系统在用户利用常用搜索引擎系统进行信息检索时,消除搜索引擎返回的重复页,对剩余页面进行聚类,返回给用户聚类后的网页簇,这样用户就可以选择浏览自己感兴趣的页面,从而大大提高了信息检索的查准率;实验证明该系统在保证查全率和查准率的基础上大大提高了搜索效率。  相似文献   

2.
提出了一种基于Rough集理论的Self集构造和演化算法。利用Rough集约简算法,对用户的安全访问行为的数据作规范化处理并进行约简,从中提取有效的最简规则,降低了安全数据的冗余,减轻了特征码构造的负担。使用Rough集上、下近似集原理,构造了上、下近似Self集,实现了Self的优化和扩展,有效地解决了Self集的自动演化问题。  相似文献   

3.
针对用户利用常用搜索引擎查询信息时,搜索引擎返回海量杂乱、无序的网页,用户难以从中快速、准确地获得真正关心的信息的现状,从Internet用户的兴趣度出发,设计了一种基于近似网页聚类算法的智能搜索系统。该系统在用户利用常用搜索引擎系统进行信息检索时,消除搜索引擎返回的重复页,对剩余页面进行聚类,返回给用户聚类后的网页簇,这样用户就可以选择浏览自己感兴趣的页面,从而大大提高了信息检索的查准率;实验证明该系统在保证查全率和查准率的基础上大大提高了搜索效率。  相似文献   

4.
符海东  李春香 《微机发展》2007,17(12):60-63
提出了一种基于Rough集理论的Self集构造和演化算法。利用Rough集约简算法,对用户的安全访问行为的数据作规范化处理并进行约简,从中提取有效的最简规则,降低了安全数据的冗余,减轻了特征码构造的负担。使用Rough集上、下近似集原理,构造了上、下近似Self集,实现了Self的优化和扩展,有效地解决了Self集的自动演化问题。  相似文献   

5.
基于用户浏览行为分析的用户兴趣度计算   总被引:2,自引:0,他引:2  
从用户的浏览行为可以反映用户的兴趣出发,分析了用户的浏览行为与兴趣之间的关系,通过分析把能反映用户兴趣的典型浏览行为归纳为保存页面、打印页面、将页面加入收藏夹、复制页面内容、访问同一页面的次数和在页面上浏览时间这些浏览行为.针对这些浏览行为下的用户兴趣度计算做出阐述,并且在分析基于网页驻留时间和浏览次数计算网页兴趣度的算法的基础上,考虑网页大小的影响因素,使用基于浏览速度计算网页兴趣度,同时利用BP神经网络进行用户兴趣度融合.  相似文献   

6.
Rough集理论作为一种新型的数学工具已广泛应用于各个领域。提出一种基于Rough集的牛顿迭代法求方程近似解算法,该算法将Rough理论中的下近似和上近似与牛顿迭代法有机地结合起来,寻找方程的近似解,其优点在于所求方程的根是一个精确的区间,该区间中任意实数都可作为所求方程的近似解,避免了一般方法求方程的近似解,把求得的近似数作为近似解,算法计算简单,易推广到其它的近似计算中,同时,有助于人们深刻理解Rough集理论本质。  相似文献   

7.
针对小文本的Web数据挖掘技术及其应用   总被引:4,自引:2,他引:4  
现有搜索引擎技术返回给用户的信息太多太杂,为此提出一种针对小文本的基于近似网页聚类算法的Web文本数据挖掘技术,该技术根据用户的兴趣程度形成词汇库,利用模糊聚类方法获得分词词典组,采用MD5算法去除重复页面,采用近似网页聚类算法对剩余页面聚类,并用马尔可夫Web序列挖掘算法对聚类结果排序,从而提供用户感兴趣的网页簇序列,使用户可以迅速找到感兴趣的页面。实验证明该算法在保证查全率和查准率的基础上大大提高了搜索效率。由于是针对小文本的数据挖掘,所研究的算法时间和空间复杂度都不高,因此有望成为一种实用、有效的信息检索技术。  相似文献   

8.
文章给出了数学中求方程近似解的两种方法的Rough集解释。该文利用Rough集的上、下近似理论来描述求方程近似解的过程,并把求方程近似解的问题归结为一个区间来进行讨论。  相似文献   

9.
王冲  纪仙慧 《计算机科学》2016,43(3):275-278, 312
针对传统的PageRank算法存在主题漂移、忽略用户兴趣等不足,提出一种基于用户兴趣与主题相关的Page-Rank改进算法——ITPR。为了更好地提高用户搜索质量,利用网页浏览时间与页面篇幅共同构建用户兴趣度因子,用线性拟合月点击量的方法预测用户兴趣度的升降,同时结合网页内容引入主题相关度因子,共同对网页PR值进行适当的修正,使其分配更为合理。仿真实验结果表明,在相同的实验环境下,改进的PageRank算法提升了网页排序质量、查准率以及用户搜索满意度。  相似文献   

10.
随着网络的高速发展,如何在海量信息中找到用户需求的高质量信息变得非常重要,技术难度较大.网页在搜索结果中排名是否靠前与巨大的商业利润相关联,这使得大量的垃圾网页出现在网络中.过滤Spam页面、给用户提供高质量的搜索结果成为当前Web搜索引擎的面临的一个巨大挑战.大量研究工作显示Spam页面之间存在着勾结的现象,分析Spam页面链接结构特性成为过滤Spam页面的重要方法.根据Spam网页链接结构存在的共性,提出了一种基于链接分析的Web Spam过滤方法.在标准检测数据集上进行实验,并与相关工作进行比较.实验结果表明,提出的方法能有效地对Spam网页进行过滤,提高搜索结果的质量.  相似文献   

11.

针对粗糙模糊聚类算法对初值敏感、易陷入局部最优和聚类性能依赖阈值选择等问题, 提出一种混合蛙跳与阴影集优化的粗糙模糊聚类算法(SFLA-SRFCM). 通过设置自适应调节因子, 以增加混合蛙跳算法的局部搜索能力; 利用类簇上、下近似集的模糊类内紧密度和模糊类间分离度构造新的适应度函数; 采用阴影集自适应获取类簇阈值. 实验结果表明, SFLA-SRFCM 算法是有效的, 并且具有更好的聚类精度和有效性指标.

  相似文献   

12.
基于DOM模型扩展的Web信息提取   总被引:5,自引:0,他引:5  
顾韵华  田伟 《计算机科学》2009,36(11):235-237
提出了一种基于DOM模型扩展的Web信息提取方法.将Web页面表示为DOM树结构,对DOM树结点进行语义扩展并计算其影响度因子,依据结点的影响度因子进行剪枝,进而提取Web页面信息内容.该方法不要求对网页的结构有预先认识,具有自动和通用的特点.提取结果除可以直接用于Web浏览外,还可用于互联网数据挖掘、基于主题的搜索引擎等应用中.  相似文献   

13.
基于致粗域和致粗相关域的基本概念,研究了致粗域和致粗相关域的数学结构,给出并证明了致粗域和致粗相关域所满足的一些重要性质和定理。同时,下精确集、上精确集、精确集等几种特殊的粗糙集被重新定义,这些新定义的粗糙集提供了致粗域和致粗相关域的结构信息。最后对粗糙集中具有较大边界域的粗糙问题进行了研究,当致粗域或致粗相关域相对小时,这类粗糙问题可近似为精确问题处理,并给出了近似处理方法。  相似文献   

14.
Time plays important roles in Web search, because most Web pages contain temporal information and a lot of Web queries are time-related. How to integrate temporal information in Web search engines has been a research focus in recent years. However, traditional search engines have little support in processing temporal-textual Web queries. Aiming at solving this problem, in this paper, we concentrate on the extraction of the focused time for Web pages, which refers to the most appropriate time associated with Web pages, and then we used focused time to improve the search efficiency for time-sensitive queries. In particular, three critical issues are deeply studied in this paper. The first issue is to extract implicit temporal expressions from Web pages. The second one is to determine the focused time among all the extracted temporal information, and the last issue is to integrate focused time into a search engine. For the first issue, we propose a new dynamic approach to resolve the implicit temporal expressions in Web pages. For the second issue, we present a score model to determine the focused time for Web pages. Our score model takes into account both the frequency of temporal information in Web pages and the containment relationship among temporal information. For the third issue, we combine the textual similarity and the temporal similarity between queries and documents in the ranking process. To evaluate the effectiveness and efficiency of the proposed approaches, we build a prototype system called Time-Aware Search Engine (TASE). TASE is able to extract both the explicit and implicit temporal expressions for Web pages, and calculate the relevant score between Web pages and each temporal expression, and re-rank search results based on the temporal-textual relevance between Web pages and queries. Finally, we conduct experiments on real data sets. The results show that our approach has high accuracy in resolving implicit temporal expressions and extracting focused time, and has better ranking effectiveness for time-sensitive Web queries than its competitor algorithms.  相似文献   

15.
相似度计算是文本挖掘的基础,也是信息提取过程的关键步骤.对于结构复杂的网页,当前基于传统树路径模型的相似度计算方法在准确性上尚不完善.传统树路径模型未考虑路径出现的先后顺序,并且比较路径相似度时用的是完全匹配,难以在不完全匹配时更精确地描述路径之间的相似度.因此,从网页结构相似度入手,提出了一种改进的树路径模型.该模型充分考虑了兄弟节点之间的关系、路径位置以及路径权重,弥补了传统树路径模型无法表达文档结构和层次信息的缺陷.实验结果表明,该模型提高了识别网页结构相似性的能力,既能对结构差别较大的网页进行良好的区分,又能较好地反映来自同一模板的网页之间的差异性,同时在网页聚类中具有更优的效果.  相似文献   

16.
基于改进决策树算法的网络关键资源页面判定   总被引:12,自引:0,他引:12  
刘奕群  张敏  马少平 《软件学报》2005,16(11):1958-1966
关键资源页面是网络信息环境中一种重要的高质量页面,是用户进行网络信息检索的主要目标.决策树算法是机器学习中应用最广的归纳推理算法之一,适用于关键资源页面的判定.然而由于Web数据均一采样的困难性,算法缺乏有足够代表性的反例进行训练.为了解决这个问题,提出一种利用训练样例的统计信息而非个体信息进行学习的改进决策树算法,并利用这种算法实现了独立用户查询的关键资源页面判定.在2003年文本信息检索会议(Text Retrieval Confefence,简称TREC)标准的评测条件下,基于此种改进决策树算法的大规模网络信息检索实验获得了超过基本算法40%的性能提高.这不仅提供了一种查找Web关键资源页面的有效方式,也给出了提高决策树算法性能的一个可行途径.  相似文献   

17.
The Web is a hypertext body of approximately 300 million pages that continues to grow at roughly a million pages per day. Page variation is more prodigious than the data's raw scale: taken as a whole, the set of Web pages lacks a unifying structure and shows far more authoring style and content variation than that seen in traditional text document collections. This level of complexity makes an “off-the-shelf” database management and information retrieval solution impossible. To date, index based search engines for the Web have been the primary tool by which users search for information. Such engines can build giant indices that let you quickly retrieve the set of all Web pages containing a given word or string. Experienced users can make effective use of such engines for tasks that can be solved by searching for tightly constrained key words and phrases. These search engines are, however, unsuited for a wide range of equally important tasks. In particular, a topic of any breadth will typically contain several thousand or million relevant Web pages. How then, from this sea of pages, should a search engine select the correct ones-those of most value to the user? Clever is a search engine that analyzes hyperlinks to uncover two types of pages: authorities, which provide the best source of information on a given topic; and hubs, which provide collections of links to authorities. We outline the thinking that went into Clever's design, report briefly on a study that compared Clever's performance to that of Yahoo and AltaVista, and examine how our system is being extended and updated  相似文献   

18.
郑婷婷  朱凌云 《计算机科学》2014,41(11):252-255
不确定性度量是粗糙集理论中的基础问题之一。粗糙模糊集的不确定性一方面来自上、下近似集间差异产生的粗糙性,另一方面来自概念外延不清晰产生的模糊性。目前对于粗糙模糊集的不确定性研究仍不够透彻。针对覆盖近似空间下的粗糙模糊集不确定性,提出更加严格的度量修正准则,并借助上、下近似集隶属度与原模糊集隶属度之间的差异,给出修正粗糙度的概念。算例分析表明该方法能够更加准确地刻画实际问题。  相似文献   

19.
首先将垃圾网页特征分为两个不同的视图, 即基于内容特征的视图和基于链接特征的视图, 利用典型相关分析及其相关改进方法进行特征提取, 生成两组新的特征; 再对新生成的两视图特征采用不同组合方式产生单视图数据, 并用这组数据作为训练数据构建分类算法。实验结果表明, 将垃圾网页看成两视图数据, 并应用多视图典型相关分析技术, 可有效提高垃圾网页的识别精度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号