首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 93 毫秒
1.
针对目前搜索引擎搜索结果中普遍存在大量重复网页的现象,提出了一种基于聚类算法DBSCAN的搜索结果优化算法.该算法选取源搜索结果中排名靠前的部分网页,对这部分网页根据网页相似度进行DBSCAN聚类,最大限度剔除冗余网页,实现搜索结果的优化.实验结果表明本算法可以提高搜索结果的全面性和准确性,提升用户使用搜索引擎的满意度.  相似文献   

2.
针对用户利用常用搜索引擎查询信息时,搜索引擎返回海量杂乱、无序的网页,用户难以从中快速、准确地获得真正关心的信息的现状,从Internet用户的兴趣度出发,设计了一种基于近似网页聚类算法的智能搜索系统。该系统在用户利用常用搜索引擎系统进行信息检索时,消除搜索引擎返回的重复页,对剩余页面进行聚类,返回给用户聚类后的网页簇,这样用户就可以选择浏览自己感兴趣的页面,从而大大提高了信息检索的查准率;实验证明该系统在保证查全率和查准率的基础上大大提高了搜索效率。  相似文献   

3.
在图像搜索的场景中,由于搜索请求的随机性,为了提高搜索速度,搜索算法运行时需要把整个数据集预先载入到运行内存.由于运行内存价格远高于同容量的硬盘价格,降低运行内存自然可以大大降低图像搜索服务的成本,但如果直接对数据进行压缩,往往会极大地损失搜索精度.在这种情况下,文中提出了一种基于图像内容特征的分块式图像搜索框架.先利...  相似文献   

4.
当前的搜索引擎中,存在大量的冗余搜索结果,且不能对搜索结果进行指导分类。本文提出一种基于密度的聚类算法,能够有效地对搜索结果进行聚类优化和分类。该算法选取搜索结果中权重高于一定值的网页,提取网页的特征值与候选关键字,标注特征范围,再进行网页相似度比较,最大限度地消除冗余网页,并根据网页的候选关键字提供分类,从而提高搜索结果的精准性和满意度,达到更智能的效果。  相似文献   

5.
针对现今较流行的动态Web网页数量巨大、数据价值高,并且网页结构高度模板化的特点,设计了一个基于网页聚类的Web信息自动抽取系统。在DOM抽取技术基础上利用网页聚类寻找高相似簇,并引入列相似度和全局自相似度计算方法,提高了聚类结果的准确性。抽取模板中应用了可选节点对模板的修正和调整,以提高内容节点的正确标识。实验结果表明,该方法能够自动寻找并抽取网页主要信息,达到了较高的准确率和查全率。  相似文献   

6.
本文介绍了移动搜索的特点、面向移动设备的网站优化规则和策略,从样式表、网页标签、页面结构、网页导航、屏幕分辨率优化等方面,阐述了移动端网页优化的具体方法。  相似文献   

7.
聚类分析的两个基本任务是分析数据集中簇的数量以及这些簇的位置。大多数的聚类方法通常只关注后一个问题。为了在聚类数不确定的情况下实现聚类分析,本文提出了一种新的结合人工免疫网络和Tabu搜索的动态聚类算法—DCBIT。新算法主要包含两个阶段:先使用人工免疫网络算法获得一个候选聚类中心集,然后使用Tabu搜索在候选聚类中心集上实现动态聚类。仿真实验结果表明与现有方法相比,新方法具有更好的收敛概率和收敛速度。  相似文献   

8.
因特网的飞速发展,网络资源呈爆炸式的增长。信息检索是人们上网的主要目的之一。目前的信息检索领域有许多检索方法与检索工具,为用户检索信息提供了许多途径。但如何利用搜索引擎实现更快更精确的搜索已经成为这一领域的研究热点。在研究现有的几种搜索引擎的基础上,提出了一种基于用户行为聚类的搜索引擎。通过分析不同的用户行为将搜索用户聚类成不同的用户组,为每组用户返回其喜欢的结果,优化查询结果。  相似文献   

9.
提出了一个基于聚类索引树的高维近似检索方法。详细描述了其建树算法和检索算法。由于传统索引对高维空间的k-近邻检索效率的提高非常有限,我们把近似检索和聚类索引树结合起来。从而用很小的精度损失换取很高的检索效率。实验表明,与精确检索相比,本方法的误差非常小,而检索速度大大优于其他方法,因此具有广泛的应用前景。  相似文献   

10.
数据挖掘中解决分类属性数据聚类的算法有很多种,但大多数基于划分的方法得到的聚类中心一般不是数据集中的实际数据对象,缺乏实际的物理意义,有时会导致某一聚类为空。该文研究了近似k-median的求解算法,用数据的近似中值来代替模式进行聚类,提出了分类属性数据的近似k-median聚类算法,克服了一般基于划分的可分类属性数据聚类中所遇到的问题,仿真实验证明该算法有效。  相似文献   

11.
夏斌  徐彬 《电脑开发与应用》2007,20(5):16-17,20
针对目前搜索引擎返回候选信息过多从而使用户不能准确查找与主题有关结果的问题,提出了基于超链接信息的搜索引擎检索结果聚类方法,通过对网页的超链接锚文档和网页文档内容挖掘,最终将网页聚成不同的子类别。这种方法在依据网页内容进行聚类的同时,充分利用了Web结构和超链接信息,比传统的结构挖掘方法更能体现网站文档的内容特点,从而提高了聚类的准确性。  相似文献   

12.
13.
在电子商务网络资讯管理系统中,为了将用户检索结果网页按照不同主题划分显示给用户,帮助用户快速定位所需信息,有效完善用户体验,针对电子商务领域网页文本聚类面临的问题,提出融合自定义领域词典、基于聚类特征词典的特征选择和基于类别领域词表的初始中心点构造等策略的解决方案。实验结果表明,该方案能有效提高电子商务领域的网页文本聚类质量。对于其它特定领域文本聚类研究具有一定的参考价值。   相似文献   

14.
讨论了自然语言理解应用于智能搜索和信息提取的若干问题,阐述了标注、完善基于词典的知识库的处理手段,特别是语料库语言学在这些环节的应用情况。同时,对中文信息提取涉及的技术难点和信息提取的实现过程也作了较为详尽的论述。  相似文献   

15.
针对PSO聚类算法需要预定聚类中心个数的问题,提出一种变维搜索解空间的量子粒子群优化聚类算法.该算法采用量子编码的方式实现双链并行搜索,加速寻优过程,避免了粒子在解空间边界过分聚集;设计了幅角相位旋转算子和变异算子,使幅角相位依变概率进行变异,提高了粒子群的多样性;在迭代过程中,动态更新了聚类中心的数量,使算法能够在不同维度的解空间中寻优.仿真实验表明,该算法的收敛速度和聚类精度得到一定的改善.  相似文献   

16.
基于聚类分析技术的数据清洗研究   总被引:3,自引:0,他引:3       下载免费PDF全文
数据清洗是建立数据仓库及进行数据挖掘的一个重要步骤。数据清洗的核心是检测近似重复记录,而聚类是将相似度高的数据对象聚集到一个类中的分析方法。本文描述的数 据清洗过程就基于聚类分析,它将基于密度的改进聚类算法ICAD应用到数据清洗过程中,该算法通过不断调节密度发现近似重复记录,快速完成大容量数据清洗任务。  相似文献   

17.
本文介绍了一种基于双TMS320VC5416处理器的实时图像搜索跟踪处理系统,详细阐述了该系统的硬件设计思想,并结合一种跟踪算法实例叙述了基于DSP的图像搜索与跟踪处理系统软件设计的一般流程。该系统是一种优良的图像处理平台,具备良好的通用性,可以用来实现多种图像处理算法。  相似文献   

18.
在Internet上自动收集与处理多媒体的主题信息是多媒体信息系统领域的一个新的研究热点。介绍了一个自行开发研制的互联网多媒体主题信息自动收集与处理系统的体系结构、关键技术及主要特点和应用。  相似文献   

19.
基于元数据数据库的网络课件搜索系统   总被引:3,自引:0,他引:3  
现在远程教育正在飞速发展,互联网上的网络课件越来越多。为了便于老师和学生在互联网上找到合适的课件,各种研究机构已经开发出一些搜索技术。但是这些搜索技术还有很多不足之处,搜索的结果会有很多不相关的信息,还有可能遗漏了重要的信息。该文提出了一种基于元数据(metadata)的网络课件搜索系统,从而使搜索结果正确,而且搜索也能够高效率进行。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号