首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
李哲  陈鹏  李涛 《微计算机信息》2007,23(33):183-184,176
高质量、结构化的数据对很多应用来说其价值是无穷的。然而这些数据往往都隐藏在查询表单背后的深度Web数据库中。深度Web数据库中的内容不能够直接被爬虫通过超链接直接获取,只有通过主动对查询表单提交查询才能有效地获取这些数据。最近的研究主要针对以下两个方面:一是如何有效的理解和获取网络上的查询表单,二是如何不断的对查询表单进行查询并下载表单背后的资源。一个必要的但还没很好的解决的一个问题是:如何将一次查询所获得的所有结果页全部有效的获得?这个问题从本质上看就是如何获取结果页面中"下一页"超链接的问题。本文针对这一问题提出了一种通过分析"下一页"超链接的结构特征来识别"下一页"超链接的策略,并在多种情况下进行了试验,取得了良好的效果。  相似文献   

2.
在网页中超链接的方法有两种,即在本页面内部跳转和跳转到另外一个页面。这两种超链接带参数的方法都是在文件名后通过"?"加上参数值,然后使用request.querystring方法获取参数值。不过在本页面内部跳转时,需先设置锚点,然后在超链接地址中加上锚点。  相似文献   

3.
会话识别是Web日志预处理过程中的一个重要环节,针对传统会话识别的不足,提出一种改进的会话识别算法.在识别出具体的用户之后,过滤大量的框架网页;然后根据每个页面的内容及网站结构,构造出相对合理的页面访问时间阈值,并以此阈值来进行用户的会话识别.最后通过实验数据,与几种传统的会话识别方法进行了比较,表明该算法更为合理有效.  相似文献   

4.
如今的浏览器大多支持多标签页功能,大家可在同一窗口下打开不同标签页来浏览不同网站,虽然方便不少,但有时在输入操作时会遇到这样的麻烦。例如在某一标签页中将输入法切换到了一种中文拼音状态后录入汉字,当需要换一个标签页进行输入时,由于先前切换的那个输入法只在当前页面中有效,这时又需要重新来切换输入法,重复操作,有些繁琐。假如你常常使用的是搜狗浏览器的话,因为里面提供有所有页面输入法状态保持一致  相似文献   

5.
提出一种基于SVM和AdaBoost的Web实体信息抽取方法。首先提出一种基于SVM的Web页面主数据区域识别方法,基于Web实体实例在页面中的展示特征,有效地将Web页面进行数据区域分割,识别出Web实体实例所在的主数据区域;然后基于Web实体属性标签的特征,提出一种基于AdaBoost的集成学习方法,从页面的主数据区域自动地抽取Web实体信息。在两个真实数据集上进行实验,并与相关研究工作进行比较,实验结果说明该方法能够取得良好的抽取效果。  相似文献   

6.
基于隐马尔可夫模型的在线零售站点的自适应   总被引:6,自引:1,他引:5  
开展在线零售业务存在的问题是,群体用户必须浏览许多无关的页面,才能最终找到自己所需要的商品.解决该问题的一个思路是:建立一个隐马尔可夫模型,通过关联规则发现算法发现关联购买集合;然后通过Viterbi算法求出从首页到一个关联购买集合中心的具有最大被购买概率的一些路径;在这些路径上标注关联购买集合;当处理完所有的关联购买集合之后,通过竞争来决定出现在导航页面上的物品集,最终将导航页合理地变成导航购买页.即站点可以自动根据群体用户的访问购买情况进行自适应.此外,该方法也是一种很好的通过建立隐马尔可夫模型来分析  相似文献   

7.
基于Web页面链接和标签的聚类方法   总被引:1,自引:0,他引:1  
针对目前Web聚类效率和准确率不高的问题,提出一种基于Web页面链接结构和标签信息的聚类方法CWPBLT(clustering web pages based on their links and tags),它是通过分析Web页面中的链接结构和重要标签信息来比较页面之间的相似度,从而对Web站点中的Web页面进行聚类,聚类过程同时兼顾了Web页面结构和页面标签提供的内容信息.实验结果表明,该方法有效地提高了聚类的时间效率和准确性,是对以往仅基于页面主题内容或页面结构聚类方法的改进.  相似文献   

8.
基于页面标签的Web结构化数据抽取   总被引:2,自引:0,他引:2  
任仲晟  薛永生 《计算机科学》2007,34(10):133-136
本文研究了从dataintensive类型的web页面中提取结构化数据的问题,提出了基于页面标签的数据抽取算法。该算法先根据标签的显示位置及其大小判断不同标签元素之间的嵌套关系,并构造简化的HTML树Sim-HTree,有效地减少了识别数据记录的时间。在此基础上,提出子串匹配调整算法,对数据记录进行识别,标识数据项。实验表明,该算法是有效的。  相似文献   

9.
改进的Web访问日志会话识别算法   总被引:4,自引:2,他引:2  
针对Web日志挖掘中的会话识别问题,分别对Timeout方法、参引长度法进行改进,提出了一种改进的会话识别方法.该方法运用网站的拓扑结构信息,动态设定各页面的时间间隔阀值,使页面时间间隔阀值同页面的重要程度结合起来.同时通过灵活界定内容页,并针对内容页,提出了一些启发式规则,突破了"参引长度法"所固有的一个会话中只包含一个内容页的瓶颈.该方法提高了会话识别的准确度,实验结果表明是有效的.  相似文献   

10.
一种改进的Web日志会话识别方法   总被引:4,自引:0,他引:4  
会话识别是Web日志挖掘中的数据预处理中的一个重要步骤.文中提出了一种改进的会话识别方法.首先,在用户识别后,进行框架页面的过滤,从而大大地减少了实验产生的有效页面,然后为页面设置访问时间阈值,并根据页面内容及站点结构确定的页面重要程度对该阈值进行调整.通过实验证明,相对于传统的对所有页面使用单一的先验阈值进行会话识别的方法,该方法所得到的会话集更具有真实性.  相似文献   

11.
相信大家在工作中都是像笔者一样使用Word编辑办公文档,以下是笔者使用Word 2013对文档进行排版操作的几个实例,兹列示于下,与大家共享。一、强制分页,文档分页任你行当页面中填满文字或图形时,Word会插入一个"自动"分页符(也称软分页符),并另起新页。要在指定位置强制分页,可以插入"人工"分页符(也称硬分页符),方法如下:1.单击新页的起始位置。2.单击"插入"选项卡,然后在"页面"组,单击"分页"。在页面视图、打印预览以及在打印出的文档中,分页符后的文本出现在新页  相似文献   

12.
一种自动抽取Web信息方法的设计与实现   总被引:1,自引:1,他引:0  
针对目前Web信息抽取技术实现复杂、维护困难以及抽取速度慢的问题,本文根据Web页面的特点,提出一种新的Web抽取策略.此策略在处理Web页面时降低了处理Web页面的结构的复杂性,提高了Web信息抽取的速度.并根据策略建立了该Web信息自动抽取方法的模型,此模型首先分析页面的结构,根据结构快速生成抽取规则,构建规则库;并对页面抽取的内容进行分析,构建资源库.基于此模型的方法能自主学习,实现自动抽取.这在很大程度上减少了人工参与,并能获得比较好的抽取结果.  相似文献   

13.
提出一种基于层次关联边条件随机场(HCC-CRFs)模型的Web对象抽取方法.将数据块检测和属性标注合并为标签分配问题,避免误差传播现象.通过在数据块之间增加条件依赖关系,使HCC-CRFs模型能充分利用Web页面的内容层次结构.实验结果表明,该方法具有较好的抽取效果.  相似文献   

14.
分装器已经越来越多地应用到Web信息抽取中,但是当Web页面出现新的待抽取属性并且页面结构发生变化时,目前并没有一个完善的分装器能根据这种情况而做出相应调整从而抽取出新的属性信息.文中根据待抽取属性自身结构和内容的特点,通过定义一系列规则和证据,提出了一种基于可信度分析发现Web页面新属性的方法,并建立了该方法的模型.通过在实际网站中选取网页对本方法进行了实验分析,取得了较好的效果,具有现实可行性.  相似文献   

15.
专家证据文档识别是专家检索的关键步骤.融合专家候选文档独立页面特征以及页面之间的关联关系,提出了一个专家证据文档识别无向图模型.该方法首先分析各类专家证据文档中的词、URL 链接、专家元数据等独立页面特征以及候选专家证据文档间的链接和内容等关联关系;然后将独立页面特征以及页面之间的关联关系融入到无向图中构建专家证据文档识别无向图模型;最后利用梯度下降方法学习模型中特征的权重,并利用吉布斯采样方法进行专家证据文档识别.通过对比实验验证了该方法的有效性.实验结果表明,该方法有较好的效果.  相似文献   

16.
面向主题的网页采集系统的设计与研究   总被引:1,自引:0,他引:1  
对面向主题的信息采集技术进行了探索性研究.采用基于DOM的信息抽取技术,建立混合空间模型表示内容和结构特征信息,并通过定义网页间相似性来识别主题页面.较好的处理了Web信息抽取中主题页面识别的问题,实验结果证明了系统的可行性.  相似文献   

17.
随着现代信息量的快速增长,深网作为网络数据载体包含了大量数据,因此,对深网数据抽取的研究十分重要。提出一种全局模式下的数据抽取和挖掘的方法。该方法分析实际例子的属性,运用改进的贝叶斯信念网络算法,确定相应的标签,构建一个动态的全局模式,接着抽取并识别结果页面中的数据;根据基于密度的离群点来检测并剔除其中的无用信息;运用挖掘布尔关联规则频繁项集的算法进行关联挖掘,整合数据项。实验结果表明,该方法相对于其他几种数据抽取方法,能准确、快速、有效地抽取数据,并且通过数据挖掘后得到数据项间的关联性较大,无效信息更少。  相似文献   

18.
司法数据中的事件主要用于描述案件中犯罪主体和客体之间行为状态的改变,通过识别司法事件能有效地支撑智能化辅助办案研究。目前,现有事件抽取技术主要通过触发词识别事件,然后根据预定义的模板抽取对应参数。其主要缺点是只能抽取预定义的事件类型,并且抽取的事件不一定是句子语义表达的中心。针对上述问题,提出一种基于谓语中心词的司法事件定义方法,并搭建一个结合字词语义信息的神经网络模型。该模型采用字的Embedding获取字的语义信息,并通过CNN获得词特征信息。将词特征信息结合后,使用Cross-BiLSTM交叉学习字词交互信息在上下文的依赖表示,由CRF计算出每个字的最优标签路径。通过实验表明,该模型在司法数据集上的F1值达到84.41%,超出对比方法4.8%。  相似文献   

19.
技巧3防止被Ping有不少黑客喜欢在网上通过Ping来探测网上的主机,然后对其狠下毒手。在无线路由器中不让它响应黑客的Ping操作,可以大大减小被黑的可能性,同时还可以防范冲击波病毒:单击"工具"标签页,再单击下方的"其他项目"项,然后选择"忽略来自WAN端的Ping"为"激活"(如图1)。  相似文献   

20.
对于一个实体(产品或者商户),往往伴随着成千上万的用户评论。如何从这些冗杂的评论信息中抽取能够描述此实体的精华信息是研究的热点问题。该文提出了一种能够为每个实体抽取特征标签的方法,并且语义去重,保证标签在语义空间内相互独立。首先,对于每个实体的所有评论,进行中文分词、词性标注,并且做依存句法分析。然后,根据每个句子中的依存关系,抽取关键标签,构成此实体的标签库,并且对标签库进行显式语义去重。最后通过K-Means聚类以及Latent Dirichlet Allocation(LDA)主题模型将每个标签映射到语义独立的主题空间,再根据每个标签相对该主题的置信度进行排序。通过以上步骤,可以为每个实体抽取语义独立的关键标签描述,实验中,该文通过对返回标签列表的准确性以及语义多样性进行了统计分析,验证了标签抽取方法的可行性和有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号