首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 281 毫秒
1.
介绍网站与搜索引擎之间的关系,从而引入网站制作对搜索引擎的影响,深入地从网页的命名、标题、题头标签的作用等几个方面描述如何建设一个便于搜索引擎的好网站。当搜索引擎收录访问网站时,能够迅速地抓住网页的要领,完整地将网页的信息带走,让用户在搜索信息时可以得到更多与网站相关的内容。  相似文献   

2.
介绍网站与搜索引擎之间的关系,从而引入网站制作对搜索引擎的影响,深入地从网页的命名、标题、题头标签的作用等几个方面描述如何建设一个便于搜索引擎的好网站。当搜索引擎收录访问网站时,能够迅速地抓住网页的要领,完整地将网页的信息带走,让用户在搜索信息时可以得到更多与网站相关的内容。  相似文献   

3.
基于Nutch的XML网站全文搜索引擎实现   总被引:2,自引:0,他引:2       下载免费PDF全文
吴敏琦  丁岳伟 《计算机工程》2008,34(15):95-96,1
普通搜索引擎的网页抓取程序只能理解常见HTML标签,无法对XML网站的内容做有效解析。该文建立一个包含动态自定义标签的纯XML网站,提出借助XSL样式信息帮助网页抓取程序理解XML网页标签含义的方案,实现了基于Nutch的XML网站全文搜索引擎。  相似文献   

4.
由于不同的维吾尔文网站采用了不同的字符编码或不同的字库体系,使得单一的搜索引擎很难兼顾不同的维吾尔文网页信息.针对维吾尔文网页内容检索特点,提出了利用元搜索引擎完成网页信息采集,通过信息过滤技术从动态的信息流中抽取出符合用户个性化需求的信息条目,经去重后栽入采集数据库,通过与敏感信息库进行比对,发掘出发布特定信息的网页.  相似文献   

5.
基于关键词聚类和节点距离的网页信息抽取   总被引:2,自引:0,他引:2  
大部分网页信息抽取方法都针对特定的网站,例如基于网站抽取规则和基于训练网页样例的方法。这些方法在某一个网站上可以很好地应用。但当遇到新的网站时,必须人为地增加抽取规则或者提供新的训练网页集。而且,当网站的模版改变时,也要重新设计这些规则或重新输入训练网页集。这些方法难以维护,因此不能应用到从大量不同的网站上进行信息抽取。本文提出了一种新的网页信息抽取方法,该方法基于特定主题的关键词组和节点距离,能够不加区分地对不同的网站页面信息自动抽取。对大量网站的网页进行信息抽取的实验显示,该方法能够不依赖网页的来源而正确和自动地抽取相关信息,并且已经成功应用到电子商务智能搜索和挖掘系统中。  相似文献   

6.
《微型机与应用》2016,(19):74-77
由于人工抽取网页信息效率低、成本高,因此根据对大量网页结构的观察,提出基于网页文档对象模型DOM树节点路径相似度的正文抽取方法。依据同网站下的网页结构相同的特点去除网页噪声得到网页的主题内容,然后结合正文节点在DOM树中的路径的相似度抽取正文。通过对不同类型的中文新闻网站上的1 000个网页进行实验,结果表明该方法对于97.6%的网页都能够去除大部分噪声并保持正文内容的完整性,正文抽取结果有93.30%的准确率和95.59%的召回率。所提算法对不同类型的网页都有较好的适应性。  相似文献   

7.
夏斌  徐彬 《电脑开发与应用》2007,20(5):16-17,20
针对目前搜索引擎返回候选信息过多从而使用户不能准确查找与主题有关结果的问题,提出了基于超链接信息的搜索引擎检索结果聚类方法,通过对网页的超链接锚文档和网页文档内容挖掘,最终将网页聚成不同的子类别。这种方法在依据网页内容进行聚类的同时,充分利用了Web结构和超链接信息,比传统的结构挖掘方法更能体现网站文档的内容特点,从而提高了聚类的准确性。  相似文献   

8.
潘颖 《微计算机应用》2004,25(5):544-548,603
搜索引擎在网络营销中起着极为重要的作用,针对搜索引擎的特点进行网页优化及网站推广是十分必要的。该文系统介绍了搜索引擎概况、英文网页优化技术和网站国际推广技术等,有很强的实用价值和参考价值。  相似文献   

9.
随着问答社区信息的长期积累,越来越多的过时信息充斥在其中并被搜索引擎检索,给信息需求者带来不便。用户的网页浏览日志中隐性地包含用户的行为习惯,通过分析得到这些信息对判断网页信息时效性有着重要意义。文中提出针对网页浏览日志的查询过程划分方法,并在划分的基础之上对大量真实用户的浏览行为习惯做了统计分析。结果显示,用户查询一次信息平均浏览8.05个页面,用时6.28分钟,有将近1/3的查询在交替并发中进行,另外用户对于网站站内搜索的依赖较高。从浏览日志数据集中选取了一个社区网站的浏览记录来进行初步的网页信息时效性分析,结果表明造成用户不满意的原因主要是查询相关度不高,而过时信息只是其中一小部分。  相似文献   

10.
大型网站是网络信息的核心,其信息规模之大,更新速度之快是中小型网站不可比拟的,对大型网站网页搜索的好坏直接影响搜索引擎的整体性能。本文在分析分类网页更新策略的基础上,根据大型网站本身的特点提出了一种增量式信息更新方法。实验分析表明,这种增量式信息更新方法很大程度上提高了大型网站搜索引擎网页的更新效率。  相似文献   

11.
基于特征串的大规模中文网页快速去重算法研究   总被引:16,自引:1,他引:16  
网页检索结果中,用户经常会得到内容相同的冗余页面,其中大量是由于网站之间的转载造成。它们不但浪费了存储资源,并给用户的检索带来诸多不便。本文依据冗余网页的特点引入模糊匹配的思想,利用网页文本的内容、结构信息,提出了基于特征串的中文网页的快速去重算法,同时对算法进行了优化处理。实验结果表明该算法是有效的,大规模开放测试的重复网页召回率达97.3% ,去重正确率达99.5%。  相似文献   

12.
针对已有网页分割方法都基于文档对象模型实现且实现难度较高的问题,提出了一种采用字符串数据模型实现网页分割的新方法。该方法通过机器学习获取网页标题的特征,利用标题实现网页分割。首先,利用网页行块分布函数和网页标题标签学习得到网页标题特征;然后,基于标题将网页分割成内容块;最后,利用块深度对内容块进行合并,完成网页分割。理论分析与实验结果表明,该方法中的算法具有O(n)的时间复杂度和空间复杂度,该方法对于高校门户、博客日志和资源网站等类型的网页具有较好的分割效果,并且可以用于网页信息管理的多种应用中,具有良好的应用前景。  相似文献   

13.
Significant growth of multimedia content on the World Wide Web (or simply ??Web??) has made it an essential part of peoples lives. The web provides enormous amount of information, however, it is very important for the users to be able to gauge the trustworthiness of web information. Users normally access content from the first few links provided to them by search engines such as Google or Yahoo!. This is assuming that these search engines provide factual information, which may be popular due to criteria such as page rank but may not always be trustworthy from the factual aspects. This paper presents a mechanism to determine trust of websites based on the semantic similarity of their multimedia content with already established and trusted websites. The proposed method allows for dynamic computation of the trust level of websites of different domains and hence overcomes the dependency on traditional user feedback methods for determining trust. In fact, our method attempts to emulate the evolving process of trust that takes place in a user??s mind. The experimental results have been provided to demonstrate the utility and practicality of the proposed method.  相似文献   

14.
无机与分析化学网络课件的研制与开发   总被引:1,自引:0,他引:1  
采用多种开发工具,研制开发"无机与分析化学"网络课件。用Dreamweaver、ASP制作动态网页,用Flash及其编程技术制作动画课件及实验模拟演示,用Photoshop、Fireworks、3DMax等软件处理图形与图片,用ASP技术操作数据库。让网络课件内容丰富,信息量大,可视性强,交互性好,操作简便,便于教师使用和学生课后学习与交流。  相似文献   

15.
如何发现主题信息源是主题Web信息整合的前提。提出了一种主题信息源发现方法,将主题信息源发现转化为网站主题分类问题,并利用站外链接发现新的信息源。从网站中提取出能反映网站主题的内容特征词和结构特征词,建立描述网站主题的改进的向量空间模型。以该模型为基础,通过类中心向量法与SVM相结合对网站主题进行分类。提出一种能尽量少爬取网页的网络搜索策略,在发现站外链接的同时爬取最能代表网站主题的页面。将该主题信息源发现方法应用于林业商务信息源,通过实验验证了该方法的有效性。  相似文献   

16.
针对大多数网页除了正文信息外,还包括导航、广告和免责声明等噪声信息的问题。为了提高网页正文抽取的准确性,提出了一种基于文本块密度和标签路径覆盖率的抽取方法(CETD-TPC),结合网页文本块密度特征和标签路径特征的优点,设计了融合两种特征的新特征,利用新特征抽取网页中的最佳文本块,最后,抽取该文本块中的正文内容。该方法有效地解决了网页正文中噪声块信息过滤和短文本难以抽取的问题,且无需训练和人工处理。在CleanEval数据集和从知名网站上随机选取的新闻网页数据集上的实验结果表明,CETD-TPC方法在不同数据源上均具有很好的适用性,抽取性能优于CETR、CETD和CEPR等算法。  相似文献   

17.
随着信息技术的快速发展,特别是计算机技术的不断普及,使得“数据丰富而信息贫乏”这对矛盾显得日益突出.数据挖掘技术正是应了这一需求而结合了数理统计学、人工智能、神经网络和信息枝术等多学科而出现的一项新技术,且在广大应用领域产生了和正在产生着巨大的作用:因特网在目前为一个分布式的、全球的、巨大的信息服务中心,每时每刻有海量数据产生于此.这无疑对数据挖掘这门新兴的学科提出了巨大的挑战.Web不仅由页面组成,而且还包含了由一个页面指向另一个页面的链接结构和用户使用记录.而大量的这些Web内容、链接结构和用户使用记录隐含了人们使用web页面行为习惯、页面质量、用户类别等大量有趣信息.本文就Web挖掘技术的web内容挖掘、web结构挖掘、Web使用记录挖掘作了深入、详细的探讨.  相似文献   

18.
针对钓鱼攻击者常用的伪造HTTPS网站以及其他混淆技术,借鉴了目前主流基于机器学习以及规则匹配的检测钓鱼网站的方法RMLR和PhishDef,增加对网页文本关键字和网页子链接等信息进行特征提取的过程,提出了Nmap-RF分类方法。Nmap-RF是基于规则匹配和随机森林方法的集成钓鱼网站检测方法。根据网页协议对网站进行预过滤,若判定其为钓鱼网站则省略后续特征提取步骤。否则以文本关键字置信度,网页子链接置信度,钓鱼类词汇相似度以及网页PageRank作为关键特征,以常见URL、Whois、DNS信息和网页标签信息作为辅助特征,经过随机森林分类模型判断后给出最终的分类结果。实验证明,Nmap-RF集成方法可以在平均9~10 μs的时间内对钓鱼网页进行检测,且可以过滤掉98.4%的不合法页面,平均总精度可达99.6%。  相似文献   

19.
为有效解决Web信息抽取中的主题漂移问题,提出了一种能更准确地反映Web页面信息熵的计算方法--混合熵.该方法把需要计算信息熵的信息块放在多页面网站环境中进行讨论,通过考虑页面内信息对信息熵计算的影响,并同时考虑由模版生成的页面间相同的信息分布的影响,从而保证了信息熵的计算的准确度.用该方法解决信息抽取中信息块的信息熵计算问题,并将仿真结果与其它算法进行比较,结果表明了该方法计算的信息熵的准确度及主题相关信息块与主题无关信息块之间的区分度优于其它方法.  相似文献   

20.
A web user who falsely accesses a compromised website is usually redirected to an adversary’s website and is forced to download malware after being exploited. Additionally, the adversary steals the user’s credentials by using information-leaking malware. The adversary may also try to compromise public websites owned by individual users by impersonating the website administrator using the stolen credentials. These compromised websites then become landing sites for drive-by download malware infection. Identifying malicious websites using crawling techniques requires a large amount of resources and time. To monitor the web-based attack cycle for effective detection and prevention, we propose a monitoring system called HoneyCirculator based on a honeytoken, which actively leaks bait credentials and lures adversaries to our decoy server that behaves like a compromised web content management system. To recursively analyze attack phases on the web-based attack cycle, our proposed system involves collecting malware, distributing bait credentials, monitoring fraudulent access, and inspecting compromised web content. It can instantly discover unknown malicious entities without conducting large-scale web crawling because of the direct monitoring behind the compromised web content management system. Our proposed system enables continuous and stable monitoring for about one year. In addition, almost all the malicious websites we discovered had not been previously registered in public blacklists.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号