首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 531 毫秒
1.
随着智能手机等移动终端的普及,越来越多的人喜欢用手机上网,这样可以跨越时间、地点的限制。为了给移动终端用户更好的使用体验,嘉兴日报报业传媒集团自主设计、开发了新闻系统移动客户端,自动分析、抓取嘉兴在线新闻网站中多个栏目下的新闻页面,保留新闻内容,下载新闻图片并自动生成小图、中图,去除广告等冗余信息,自动生成适合在移动终端查看的Web页面文件。苹果系统和安卓系统智能手机直接快速高效地浏览嘉兴在线网站的新闻资讯。  相似文献   

2.
李强 《软件》2023,(1):168-170
本文分析了基于Python的新闻聚合系统网络爬虫,指的是根据Python的网络爬虫构建新闻聚合系统,利用爬虫获取新闻聚合系统的新闻数据,不同网站的页面布局是不同的,因此需要创建开源爬虫,可以在不同页面布局中获取数据。在网络爬虫开发过程中需要利用Python语言,而网络爬虫Web提取工具为BeautifulSoup,Web应用程序框架为Laravel,选用的后端语言为PHP。网络爬虫可以根据用户配置文件提取不同页面布局的数据,并且可以向数据库系统中导入提取的数据。  相似文献   

3.
针对目前Web聚类准确率不高的问题,提出一种基于Web页面链接结构和页面中图片主色调特征的聚类算法。通过分析Web页面中的链接结构和Web页面中所显示图片的主色调来比较页面之间的相似度,对Web站点中的Web页面进行聚类。聚类过程兼顾Web页面结构和页面的主要色彩特征。系统实验结果表明,该算法能有效提高聚类的准确性。  相似文献   

4.
研究了从数据密集型Web页面中自动提取结构化数据并形成知识表示系统的问题。基于知识数据库实现动态页面获取,进行预处理后转换为XML文档,采用基于PAT-array的模式发现算法自动发现重复模式,结合基于本体的关键词库自动识别页面数据显示结构模型,利用XML的对象-关系映射技术将数据存入知识数据库,由此实现Web数据自动抽取。同时,利用知识数据库已有知识从互联网抽取新知识,达到知识数据库的自扩展。以交通信息自动抽取及混合交通出行方案生成与表示系统进行的实验表明该系统具有高抽取准确率和良好的适应性。  相似文献   

5.
王德生 《福建电脑》2013,(11):121-122
提出了一套基于HTML5与网络图形库WebGL的三维WebGIS构建方案,该方案采用JSON格式对数据进行组织,通过AJAx技术进行数据传输,利用HTML5、WebGL技术进行三维数据展现,并构建了演示系统进行实现。结果表明:该方案具有免插件、跨平台、开放性、基于硬件加速等优点,能够在Web页面中提供良好的可交互的三维体验。  相似文献   

6.
气象资料复杂多样,如何在气象信息网上快速显示气象资料图片,是气象开发工作者的重要工作之一。针对这种需求,提出在页面无刷新的情况下实现气象图片分类显示的效果。前台页面通过Ajax向后台的Servlet发出请求,后台Servlet处理用户请求后返回JSON格式的数据给请求页面,请求页面利用JQuery处理返回的JSON格式的数据,将结果呈献给用户。实验结果表明利用这种j Query Ajax异步处理JSON数据的方法很好地实现了页面对后台数据的数据无刷新访问,达到多种气象图片分类显示效果。  相似文献   

7.
针对为服务器减压和更好的用户体验,提出一种基于Ajax的无刷新分页方法,并成功地应用在高校实验申报系统上,在对数据进行分页显示的时候,借助Ajax与服务器进行异步通信,从服务器获取指定页的数据,并在只重写局部页面的情况下实现分页,减少了无用信息的传输,达到了更友好的页面实现。  相似文献   

8.
针对X光安检机人工审核图片存在的效率低、误检和漏检等问题,设计并实现了一套基于Mask R-CNN算法的X光图片智能审像系统.实现了X光图像采集、数据汇聚、分析处理、违禁物品自动检测、数据存储等功能.通过分析比较,选择ResNet101作为BackBone训练网络,选取6000张X光图片作为样本,对刀、枪、液体瓶、手机、充电宝等五类违禁品进行标注.对训练参数优化调整,训练出违禁品的Ma s k R-CNN模型.在测试集上使用COCO评估方法,检出违禁品的平均精准率mAP50达到了0.83,明显高于Faster R-CNN、YOLOv3、SSD513等算法,具有实际工程应用价值.  相似文献   

9.
轮播图作为一种观赏性很高的网页信息展示方式,在Web页面设计中得到广泛应用。基于此,详细介绍了利用超文本标记语言(Hyper Text Markup Language,HTML)、层叠样式表3级(Cascading Style Sheets Level 3,CSS3)和jQuery技术制作超宽视图无缝滚动轮播图的制作思路和实现方法。CSS3为图片的美观和布局提供了技术支持,jQuery技术使得图片交互效果得以实现,大大提升了网页的交互性。  相似文献   

10.
基于页面Block的Web档案采集和存储   总被引:1,自引:0,他引:1  
提出了基于页面Block对Web页面的采集和存储方式,并详细表述了该方法如何完成基于布局页面分区、Block主题的抽取、版本和差异的比较以及增量存储的方式.实现了一个Web归档原型系统,并对所提出的算法进行了详细的测试.理论和实验表明,所提出的基于页面Block的Web档案(Web archive)采集和存储方法能够很好地适应Web档案的管理方式,并对基于Web档案的查询、搜索、知识发现和数据挖掘等应用提供有利的数据资源.  相似文献   

11.
The problem of automatically extracting multiple news attributes from news pages is studied in this paper. Most previous work on web news article extraction focuses only on content. To meet a growing demand for web data integration applications, more useful news attributes, such as title, publication date, author, etc., need to be extracted from news pages and stored in a structured way for further processing. An automatic unified approach to extract such attributes based on their visual features, including independent and dependent visual features, is proposed. Unlike conventional methods, such as extracting attributes separately or generating template-dependent wrappers, the basic idea of this approach is twofold. First, candidates for each news attribute are extracted from the page based on their independent visual features. Second, the true value of each attribute is identified from the candidates based on dependent visual features such as the layout relationships among the attributes. Extensive experiments with a large number of news pages show that the proposed approach is highly effective and efficient.  相似文献   

12.
随着互联网的发展,网络论坛中蕴涵着数量巨大且质量较好的知识资源。因此对论坛信息进行有效地检索具有重要应用价值。该文研究适合于论坛数据的检索模型,以期能够充分利用论坛平台累积的海量数据来满足用户的信息需求。针对论坛页面和普通新闻页面的区别,该文提出关键帖抽取算法和论坛线索重构算法来选择论坛中信息含量丰富的帖子,并利用得到的帖子构建检索系统。实验表明该文提出的方法能够有效地提升论坛检索系统的效果。  相似文献   

13.
Deep Web contents are accessed by queries submitted to Web databases and the returned data records are enwrapped in dynamically generated Web pages (they will be called deep Web pages in this paper). Extracting structured data from deep Web pages is a challenging problem due to the underlying intricate structures of such pages. Until now, a large number of techniques have been proposed to address this problem, but all of them have inherent limitations because they are Web-page-programming-language-dependent. As the popular two-dimensional media, the contents on Web pages are always displayed regularly for users to browse. This motivates us to seek a different way for deep Web data extraction to overcome the limitations of previous works by utilizing some interesting common visual features on the deep Web pages. In this paper, a novel vision-based approach that is Web-page-programming-language-independent is proposed. This approach primarily utilizes the visual features on the deep Web pages to implement deep Web data extraction, including data record extraction and data item extraction. We also propose a new evaluation measure revision to capture the amount of human effort needed to produce perfect extraction. Our experiments on a large set of Web databases show that the proposed vision-based approach is highly effective for deep Web data extraction.  相似文献   

14.
基于双层决策的新闻网页正文精确抽取   总被引:7,自引:1,他引:7  
本文提出了基于双层决策的新闻网页正文的精确抽取算法,双层决策是指对新闻网页正文所在区域的全局范围决策和对正文范围内每段文字是否确是正文的局部内容决策。首先根据实际应用的需要给出了新闻网页正文的严格界定,然后分析了新闻网页及其正文的特性,提出了基于双层决策的正文抽取策略,基于特征向量提取和决策树学习算法对上述双层决策进行了建模,并在国内10个主要新闻网站的1687个新闻页面上开展了模型训练和测试实验。实验结果表明,上述基于双层决策的方法能够精确地抽取出新闻网页的正文,最终正文抽取与人工标注不完全一致的网页比例仅为18.14% ,比单纯局部正文内容决策的方法相对下降了29.85% ,同时抽取误差率大于10%的网页比例更是仅为7.11% ,满足了实际应用的需要。  相似文献   

15.
从海量Web新闻网页中抽取高纯度新闻,并以结构化的形式存储,是舆情监测、话题更新等研究的基础。本文提出一种基于噪音过滤包装器的方法抽取Web新闻,归纳包装器时,若2页面字符串对比失配,计算其字符串标签路径比,根据阈值α,标记不同符号区分新闻内容和噪音。同时提出了朴素贝叶斯Web新闻标题分类器和时间分类器抽取新闻题目和时间。实验结果表明,本文方法与其他抽取技术相比准确率和鲁棒性有显著的提高,具有重要的实际应用价值。  相似文献   

16.
精准地抽取新闻网页的内容,是提高Web新闻分析等应用系统工作质量的关键技术之一.由于缺少Web新闻出版的标准,存在大量不同的出版格式,并且Web本身是一种具有高度异构性的大数据载体,导致Web新闻内容抽取成为一个开放性问题.经大量实例分析发现,新闻网页内容与其上的标签路径存在潜在的关联性.因此,设计了标签路径特征系,以从不同视角区分网页内容和噪音.在特征相似性分析的基础上,提出了一种基于组合特征选择的特征融合策略,并设计了基于融合特征的Web新闻内容抽取方法CEPF.CEPF是一种快速的通用、无需训练的在线Web新闻内容抽取算法,可抽取多种来源、多种风格、多种语言的Web新闻网页.在CleanEval等测试数据集上的实验结果表明,CEPF方法优于CETR等抽取方法.  相似文献   

17.
目前主流的网页抽取方法存在两大问题:提取信息类型单一,难以获取多种类新闻信息;多依赖HTML标签,难以扩展至不同来源。为此提出一种基于多维度文本特征的新闻网页信息提取方法,利用新闻文本的写作特点划分出写作、语义和位置特征,通过多通道卷积神经网络融合为多维度文本特征,用于提取多种类新闻网页信息;仅需少量数据集训练,就可提取新来源的新闻网页信息。实验结果表明,该方法在性能上高于当前最优方法。  相似文献   

18.
重点研究事件检测模型中层次聚类算法的改进,提出利用在关键词抽取基础上利用新闻的各种要素信息计算新闻之间相似度的方式,搭建了一个在线新闻检索系统,在其上利用新华社的新闻语料进行实验。实验结果表明改进方法的效果明显,性能较之未使用前有显著的提升。  相似文献   

19.
随着CSS+DIV布局方式逐渐成为网页结构布局的主流,对此类网页进行高效的主题信息抽取已成为专业搜索引擎的迫切任务之一。提出一种基于DIV标签树的网页主题信息抽取方法,首先根据DIV标签把HTML文档解析成DIV森林,然后过滤掉DIV标签树中的噪声结点并且建立STU-DIV模型树,最后通过主题相关度分析和剪枝算法,剪掉与主题信息无关的DIV标签树。通过对多个新闻网站的网页进行分析处理,实验证明此方法能够有效地抽取新闻网页的主题信息。  相似文献   

20.
随着CSS+DIV布局方式逐渐成为网页结构布局的主流,对此类网页进行高效的主题信息抽取已成为专业搜索引擎的迫切任务之一。提出一种基于DIV标签树的网页主题信息抽取方法,首先根据DIV标签把HTML文档解析成DIV森林,然后过滤掉DIV标签树中的噪声结点并且建立STU-DIV模型树,最后通过主题相关度分析和剪枝算法,剪掉与主题信息无关的DIV标签树。通过对多个新闻网站的网页进行分析处理,实验证明此方法能够有效地抽取新闻网页的主题信息。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号