首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
Web页面包含了丰富的、动态的超链信息,挖掘超链及其周围的文档可以帮助用户找到感兴趣的、权威的内容。主要论述了基于超链的Web结构挖掘的方法,并对Web结构挖掘的一般方法HITS算法进行改进。采用这种改进算法,可以从任意页面集中计算出具有最大Authority权值和Hub权值的页面。从而把一个可信度的、权威的网站推荐给用户。  相似文献   

2.
基于Ajax与MVC模式的信息系统的研究与设计   总被引:11,自引:0,他引:11  
针对MVC模式的B/S架构信息系统Web页面表现出的实时性较差的问题,尝试将Ajax融入MVC模式系统的结构设计之中,利用Ajax技术的高交互性设计信息系统的Web页面,改进Web页面中的表单数据处理过程。通过文档对象模型DOM将各文档定义为树形结构的数据对象,同时处理HTML文档中的元素。最后用JavaScript编码处理页面中的对象,实现Ajax技术在MVC模式中的应用,提高信息系统Web页面的交互性。  相似文献   

3.
Microsoft力图使它所有的产品都以Web为中心,Office 2000也不例外,其中的各个应用程序均可以将文档存为Web页面的格式,并且原文档中使用的格式、公式以及宏在Web页面中仍然有效。这样一来,任何拥有Web浏览器的用户都可以看到Office 2000的文档。但是有一个问题值得注意,如果用户采用 HTML 文件格式来存储特别大或者特别复杂的Office文件后,该页面对许多非Microsoft的应用程序包括Netscape Navigator和Composer来说都是无法显示的。  相似文献   

4.
HTML文档重复模式挖掘是找到Web页面编码模版的关键,是Web数据自动抽取和Web内容挖掘的基础。传统的基于字符串匹配和树匹配的重复模式挖掘方法虽然具有较高的精确度,但是其性能对于处理海量的Web页面来说仍然是一个挑战。为了提高性能,提出了一种基于缩进轮廓的HTML文档重复模式挖掘方法。该方法首先定义了缩进轮廓模型,是一种由HTML文档每行代码的缩进值及行首的HTML标签构成的数据结构,它是HTML文档的一种简化抽象;该方法通过检测缩进轮廓中的串联重复波段,间接地挖掘HTML文档中的重复模式。实验表明,该方法不但具有较高的精确度,而且较明显地提升了性能。  相似文献   

5.
基于XML的Web考试系统的数据传输设计   总被引:2,自引:0,他引:2  
刘畅 《微型电脑应用》2004,20(10):32-34
分析了Web考试系统的特点,指出生成动态Web页面的复杂性。给出用Java Servlet和XML技术实现Web考试系统的数据传输方案,即利用元数据将试卷库的数据自动映射成XML文档,在JSP中用XSLT处理器按试卷样式表将XML文档自动转换成HTML页面,Java Servlet根据组卷参数自动获取考生答题页面上的表单域的值。  相似文献   

6.
框架把Web页面分成多个可滚动的区域,它提供了一种更灵活、便利、有用的形式来显示文档信息。在Web页面中经常要将公用信息如介绍性文字、目录、测览工具等收集起来放在一个框架内,其他与此相关的信息放入相邻框架。当用户访问新页时,公用信息保持不变,每~个新页显示在卷动框架内,这就是框架文档的功能。将内容目录放在一个框架内,另一个框架显示读者从内容目录里选择的信息内容,这种方式使读者不会在众多信息内容中丢失目标。这也就是框架文档的好处。Web页面实现框架功能,需要有2种HTML文档:框架结构文档(定义框架的文档)…  相似文献   

7.
从半结构化或者非结构化的Web文档中提取信息时通常要求指定记录集的边界符,如果不根据记录边界符将包含多记录的页面分成单个记录块,那么记录的提取就不能成功。介绍了一种根据启发式的规则发现Web文档中的记录分隔符的方法,能够很好地解决多记录页面记录分割的问题。  相似文献   

8.
正Q.mht的word文档如何以页面视图打开?A一般.mht的word文档打开时就以"Web版式视图"的默认形式打开,那如何才能以"页面视图"打开呢?在网上搜索发现这个问题困扰了很多程序员及网友,且至今未有一个合理而有效的解决办法。偶遇疑惑如获至宝,为了找到症结,特对不同视图的相同内容的.mht文档做了代码对比发现如下:在以  相似文献   

9.
网络钓鱼Web页面检测算法   总被引:4,自引:0,他引:4       下载免费PDF全文
网络钓鱼(Phishing)攻击在电子商务和电子金融中普遍存在。该文分析Phishing页面敏感特征,提出一种防御Phishing攻击的Web页面检测算法。该算法通过分析Web页面的文档对象模型来提取Phishing敏感特征,使用BP神经网络检测页面异常程度,利用线性分类器判断该页面是否为Phishing页面。该算法成功过滤了Phishing页面,有效地阻止了Phishing攻击。  相似文献   

10.
论述了一种基于关键字的Web页面摘要生成技术,该技术通过设定关键字来作为摘要生成的引导关键字,然后对页面源文件进行扫描分析,提取其中满足一定条件的页面内容,自动归纳整理出一篇以引导关键字为中心的该Web页面的摘要文档。  相似文献   

11.
快速相似性检索技术对于各种信息检索应用都具有很大的意义,其中基于语义哈希的快速相似性检索即是一个合理有效的检索方式,其检索模型能够在保证语义相关的基础上将高维空间中大量相关的文档数据,映射在低维空间中.虽然近年来许多关于语义哈希的研究都表现了不错的实验结果,但是都没有考虑到利用文档集合自身的信息来加强文档间的相关信息.为了有效利用文档自身信息,提出结合强化文档间邻接关系的马尔可夫迁移过程及使用保留局部信息的拉普拉斯映射方法的相似性检索方式.  相似文献   

12.
基于事件框架的事件相关文档的智能检索研究   总被引:7,自引:2,他引:7  
在事件相关文档的检索中,事件主题的迁移和分化与相似事件的干扰是影响系统性能的两个主要因素。本文提出了一种基于事件框架知识和事件主体信息的检索方法。该方法对事件相关评价函数进行了的改进:首先,从事件语料中提炼出事件的框架知识、从事件文档中挖掘出表达事件主体的信息,然后将这些知识和信息进行向量化,最后利用向量化的结果对相关度评价函数进行优化。实验结果表明该方法是有效的,明显提高了事件相关文档的检索性能。  相似文献   

13.
基于文档实例的中文信息检索   总被引:2,自引:0,他引:2  
传统的信息检索系统基于关键词建立索引并进行信息检索.这些系统存在查询返回文档集大、准确率低和普通用户不便于构造查询等不足.为此,该文提出基于文档实例的信息检索,即以已有文档作为样本,在文档库中检索与样本文档相似的所有文档.文中给出了基于文档实例的中文信息检索的解决方法和实现技术.初步实验结果表明该方法是行之有效的.  相似文献   

14.
隐含语义索引及其在中文文本处理中的应用研究   总被引:33,自引:0,他引:33  
信息检索本质上是语义检索,而传统信息检索系统都是基于独立词索引,因此检索效果并不理想,隐含语义索引是一种新型的信息检索模型,它通过奇异值分析,将词向量和文档向量投影到一个低维空间,消减了词和文档之间的语义模糊度,使得文档之间的语义关系更为明晰。实验和理论结果证实了隐含语义索引能够取得更好的检索效果。本文论述了隐含语义索引的理论基础,研究了隐含语义索引在中文文本处理中的应用,包括中文文本检索、中文文本分类和中文文本聚类等。  相似文献   

15.
基于模糊语言方法的信息检索系统的研究   总被引:4,自引:2,他引:2  
该文提出了一个基于模糊语言方法的信息检索系统模型。该系统分为查询界面子系统、数据库子系统和检索子系统三大部分。在查询界面子系统,用布尔表达式表示用户的查询请求,并对每个查询关键词赋予了两种不同语义的语言值权重,该权重表达了用户的模糊检索要求;在数据库子系统,用索引词一文档模糊矩阵表示待检索的文档,对每个索引词。根据其在文档中的出现频率大小。引入了数值权重;在检索子系统,运用模糊语言方法,对用户输入的布尔查询表达式与索引词一文档模糊矩阵进行自底向上的模糊匹配,最后返回满足用户要求的检索结果。相对于传统的基于查询关键词精确匹配的检索系统而言,该系统能较好地满足用户查询要求中的灵活性。  相似文献   

16.
Analyzing retrieval model performance using retrievability (maximizing findability of documents) has recently evolved as an important measurement for recall-oriented retrieval applications. Most of the work in this domain is either focused on analyzing retrieval model bias or proposing different retrieval strategies for increasing documents retrievability. However, little is known about the relationship between retrievability and other information retrieval effectiveness measures such as precision, recall, MAP and others. In this study, we analyze the relationship between retrievability and effectiveness measures. Our experiments on TREC chemical retrieval track dataset reveal that these two independent goals of information retrieval, maximizing retrievability of documents and maximizing effectiveness of retrieval models are quite related to each other. This correlation provides an attractive alternative for evaluating, ranking or optimizing retrieval models’ effectiveness on a given corpus without requiring any ground truth available (relevance judgments).  相似文献   

17.
基于文摘的信息检索模型   总被引:1,自引:0,他引:1  
李卫疆  赵铁军  臧文茂 《软件学报》2008,19(9):2329-2338
基于文摘的检索模型是基于一个假设。即出现在文摘中的词要比未出现在文摘中的词更能表达文章的主题,因此对检索贡献更大.提出了两个基于文摘的语言检索模型,一个是用文摘模型代替文档模型直接检索文件(SQL),另一个是用文摘模型平滑文档模型(SBDM).在TREC数据集上的实验表明,该模型能够提高检索的性能.其中,SBDM的性能一致接近或优于传统的标准文档查询相似模型.有两个方面的贡献,一方面提出了面向检索的文摘抽取方法并考察了这些文摘方法对检索性能的影响;另一方面提出了新的检索模型,即基于文摘的检索模型.  相似文献   

18.
查询扩展是信息检索中优化查询的一种有效方法。在分析几种基于互信息的查询扩展方法的基础上,将检索词在文档空间中的距离引入到互信息计算中,提出基于向量距离的改进互信息的查询扩展方法。实验结果表明,该方法能够有效提高信息检索中的查询效果。  相似文献   

19.
Most of the written materials are consisted of Multimedia (MM) information because beside text usually contain image information. The present information retrieval and filtering systems use only text parts of the documents or in best case images represented by keywords or image captions. Why do not use both, text and image features of the documents and in the retrieval or filtering process utilize more completely the document information content? Can such approach increase the effectiveness of retrieval and filtering processes? There is a very little difference between retrieval and filtering at an abstract level. In this paper, we will discuss some possible similarities and differences between them on the application level taking into account the experiments in retrieval and filtering of multimedia mineral information.  相似文献   

20.
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号