首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 203 毫秒
1.
针对大多数网页除了正文信息外,还包括导航、广告和免责声明等噪声信息的问题。为了提高网页正文抽取的准确性,提出了一种基于文本块密度和标签路径覆盖率的抽取方法(CETD-TPC),结合网页文本块密度特征和标签路径特征的优点,设计了融合两种特征的新特征,利用新特征抽取网页中的最佳文本块,最后,抽取该文本块中的正文内容。该方法有效地解决了网页正文中噪声块信息过滤和短文本难以抽取的问题,且无需训练和人工处理。在CleanEval数据集和从知名网站上随机选取的新闻网页数据集上的实验结果表明,CETD-TPC方法在不同数据源上均具有很好的适用性,抽取性能优于CETR、CETD和CEPR等算法。  相似文献   

2.
网页的半结构化特点与新闻的自身特征为选择性抽取网页内容创造了条件。我们在前人的研究基础上,挖掘Web页面结构特征、充分利用Html标记与新闻特征,重点从Web页面编者对文本修饰角度出发,提出了基于网页内容分割的主题内容抽取方法。实验结果表明该方法能有效地抽取新闻各要素,测试的抽取准确率在96%以上。  相似文献   

3.
从海量Web新闻网页中抽取高纯度新闻,并以结构化的形式存储,是舆情监测、话题更新等研究的基础。本文提出一种基于噪音过滤包装器的方法抽取Web新闻,归纳包装器时,若2页面字符串对比失配,计算其字符串标签路径比,根据阈值α,标记不同符号区分新闻内容和噪音。同时提出了朴素贝叶斯Web新闻标题分类器和时间分类器抽取新闻题目和时间。实验结果表明,本文方法与其他抽取技术相比准确率和鲁棒性有显著的提高,具有重要的实际应用价值。  相似文献   

4.
目前主流的网页抽取方法存在两大问题:提取信息类型单一,难以获取多种类新闻信息;多依赖HTML标签,难以扩展至不同来源。为此提出一种基于多维度文本特征的新闻网页信息提取方法,利用新闻文本的写作特点划分出写作、语义和位置特征,通过多通道卷积神经网络融合为多维度文本特征,用于提取多种类新闻网页信息;仅需少量数据集训练,就可提取新来源的新闻网页信息。实验结果表明,该方法在性能上高于当前最优方法。  相似文献   

5.
目前有多种Web新闻正文抽取算法,其中,基于树编辑距离的算法需要假设整个网页有统一模板,基于包装器的算法需要大量训练集,面向感知的提取算法适应性强,但是效率相对较低.提出了基于统计的Web新闻正文自动抽取方法,能自动检测分割网页功能模块的HTML标签,然后基于该标签解析网页,找出正文.方法不需要大量训练集,不需要假设有统一的网页模板,有较高的抽取速度,能较好地满足大多数新闻搜索服务应用的需求.  相似文献   

6.
网页信息指网页的正文、标题、发布时间、媒体等,每个信息都存在于HTML文档特定的标签中,自动获取这些标签可以实现在相同模板下的网页信息自动提取,对于大规模抓取网页内容有很大帮助。由于在相同模板下不同网页之间结构一致,网页信息有一定统计特征,提出了一种基于结构对比和特征学习的网页信息标签自动提取算法。该算法包含三个步骤:网页对比、内容识别和标签提取。在51个模块下对1?620个网页进行测试,实验结果表明,通过提取标签获取网页信息不仅速度快,而且抓取的内容更加准确。  相似文献   

7.
为了解决网页信息的自动抽取,该文提出了一种基于视觉特征和领域本体的Web信息抽取算法.该算法以基于领域本体的信息抽取为基础,根据网页的视觉特征来准确划定信息抽取区域,然后结合DOM树技术和抽取路径的启发式学习,获得Web贞面中信息项的抽取路径.通过信息项的抽取路径自动生成信息项的领域本体,通过信息项的领域本体解析出信息项的抽取规则.使用本算法来进行Web信息的抽取,具有查全率与查准率高、时间复杂度低、用户负担较轻和自动化程度高的特点.  相似文献   

8.
为从大量无关信息中获取有用内容,正文抽取成为Web数据应用不可或缺的组成部分。文中提出一种基于文本密度模型的新闻网页正文抽取方法。主要通过融合网页结构和语言特征的统计模型,将网页文档按文本行转化成正、负密度序列,再根据邻近行的内容连续性,利用高斯平滑技术修正文本密度序列,最后采用改进的最大子序列分割序列抽取正文内容。该方法保持正文完整性并排除噪声干扰,且无需人工干预或反复训练。实验结果表明基于文本密度抽取正文对不同数据源具有广泛的适应性,且准确率和召回率优于现有统计模型。  相似文献   

9.
网页分类可对海量网页进行分门别类,可应用于许多方面。现存的网页自动分类方法较多,其中常用的基于网页内容的方法由于网页内容的不纯,导致其存在较大的性能提升空间。基于查询日志,提出了一种新型的网页分类方法NQPC。该方法提出一种低维特征向量抽取方法,从而避免"维度灾难";基于优质的查询日志进行网页分类,查询日志相对网页内容而言,具有内容较纯的优点;提出一种提升分类准确率的过滤方法。实验结果表明,提出的网页分类方法具有优异的性能表现,使其具有良好的应用前景。  相似文献   

10.
文章提出一种基于静态网页特征的文本信息抽取方法。该方法首先根据静态网页的URL特征判断其是否是静态网页,然后根据静态网页的结构特征和内容特征对标题和正文文本内容进行抽取.再按照统一规范将结果顺序存储便于再处理。实验结果表明,网页内容信息抽取的查全率和查准率分别为96.2%和95.9%,该方法计算量小、抽取速度快、正确率高,可实际应用于大规模的网页内容安全分析。  相似文献   

11.
Contents, layout styles, and parse structures of web news pages differ greatly from one page to another. In addition, the layout style and the parse structure of a web news page may change from time to time. For these reasons, how to design features with excellent extraction performances for massive and heterogeneous web news pages is a challenging issue. Our extensive case studies indicate that there is potential relevancy between web content layouts and their tag paths. Inspired by the observation, we design a series of tag path extraction features to extract web news. Because each feature has its own strength, we fuse all those features with the DS (Dempster-Shafer) evidence theory, and then design a content extraction method CEDS. Experimental results on both CleanEval datasets and web news pages selected randomly from well-known websites show that the F 1-score with CEDS is 8.08% and 3.08% higher than existing popular content extraction methods CETR and CEPR-TPR respectively.  相似文献   

12.
一种组合特征抽取的新方法   总被引:10,自引:0,他引:10  
该文提出了一种基于特征级融合的特征抽取新方法,首先,给出了一种合理的特征融合策略,即利用复向量给出组合特征的表示,将特征空间从实向量空间拓广到复向量空间,然后,发展了具有统计不相关性的鉴别分析的理论,并将其用于复向量空间内最优鉴别特征的抽取,最后,在Concordia大学的CENPARMI手写体阿拉伯数字数据库以及南京理工大学NUST603HW手写汉字库上的试验结果表明,所提出的组合特征抽取方法不仅具有很强的维数压缩能力,而且较大幅度地提高了识别率。  相似文献   

13.
社交媒体的兴起促进了新闻行业的发展,使虚假新闻的传播也变得更为便利,然而多样化的新闻表现形式带来了很多负面影响,比如新闻内容夸大事实、恶意篡改新闻文本或图像内容、构造虚假新闻事实引起社会舆论,这促使了虚假新闻检测工作成为新闻领域新的挑战。为了应对虚假新闻检测工作的研究,将新闻文本与图像信息结合起来,通过多模双线性池化方法,改变传统特征融合方法,构建出基于新特征融合方法的虚假新闻检测模型,并且采用虚假新闻检测领域标准数据集验证模型的性能,实验结果表明,文本与图像的融合特征表现在虚假新闻检测领域不可替代,且所提方法能够有效提升虚假新闻检测性能。  相似文献   

14.
首先将垃圾网页特征分为两个不同的视图, 即基于内容特征的视图和基于链接特征的视图, 利用典型相关分析及其相关改进方法进行特征提取, 生成两组新的特征; 再对新生成的两视图特征采用不同组合方式产生单视图数据, 并用这组数据作为训练数据构建分类算法。实验结果表明, 将垃圾网页看成两视图数据, 并应用多视图典型相关分析技术, 可有效提高垃圾网页的识别精度。  相似文献   

15.
恶意网页是一种新型的Web攻击手法,攻击者通常将一段恶意代码嵌入网页中,当用户访问该网页时,恶意代码会试图利用浏览器或其插件漏洞在后台隐秘地执行一系列恶意行为.针对恶意网页静态特征抽取问题,本文从已有的特征中选取了14个信息增益值较高的特征,并通过分析恶意网页的混淆手法提出了8个新的特征,共同组成了22维的静态特征体系.此外,针对已有特征抽取流程提出两点改进:对不同编码格式的原始网页进行预处理;回送JavaScript脚本动态生成的的HTML代码,用以进一步抽取HTML相关特征.实验表明,在不均衡数据集和均衡数据集上,本文的特征体系具有一定的有效性.  相似文献   

16.
面向话题的新闻评论的情感特征选取   总被引:2,自引:1,他引:1  
情感特征的提取是进行文本情感分析的一个非常重要的步骤,也是影响其结果好坏的主要因素。在该文中,作者提出一种新的特征提取方法来解决新闻评论的情感分析问题。在该方法中,首先根据评论和新闻的对比分析获得候选情感特征,然后经过相关的扩充和验证操作得到通用的情感特征,并将其用于新闻评论的情感分析。对新闻进行话题划分后进行更细粒度的情感分析:根据新闻话题信息,设计相应的话题相关的特征对比和验证过程,选取出面向话题的情感特征,最后用面向话题的情感特征对相应话题进行情感分析。实验证明,这种情感特征提取方法,对于新闻评论这种语句短、评论对象相对分散的评论,情感分析效果有较大的改进。  相似文献   

17.
Webshell是针对Web应用系统进行持久化控制的最常用恶意后门程序,对Web服务器安全运行造成巨大威胁。对于 Webshell 检测的方法大多通过对整个请求包数据进行训练,该方法对网页型 Webshell 识别效果较差,且模型训练效率较低。针对上述问题,提出了一种基于多特征融合的Webshell恶意流量检测方法,该方法以Webshell的数据包元信息、数据包载荷内容以及流量访问行为3个维度信息为特征,结合领域知识,从3个不同维度对数据流中的请求和响应包进行特征提取;并对提取特征进行信息融合,形成可以在不同攻击类型进行检测的判别模型。实验结果表明,与以往研究方法相比,所提方法在正常、恶意流量的二分类上精确率得到较大提升,可达99.25%;训练效率和检测效率也得到了显著提升,训练时间和检测时间分别下降95.73%和86.14%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号