共查询到20条相似文献,搜索用时 531 毫秒
1.
周宬 《电脑编程技巧与维护》2014,(20):54-54
随着智能手机等移动终端的普及,越来越多的人喜欢用手机上网,这样可以跨越时间、地点的限制。为了给移动终端用户更好的使用体验,嘉兴日报报业传媒集团自主设计、开发了新闻系统移动客户端,自动分析、抓取嘉兴在线新闻网站中多个栏目下的新闻页面,保留新闻内容,下载新闻图片并自动生成小图、中图,去除广告等冗余信息,自动生成适合在移动终端查看的Web页面文件。苹果系统和安卓系统智能手机直接快速高效地浏览嘉兴在线网站的新闻资讯。 相似文献
2.
本文分析了基于Python的新闻聚合系统网络爬虫,指的是根据Python的网络爬虫构建新闻聚合系统,利用爬虫获取新闻聚合系统的新闻数据,不同网站的页面布局是不同的,因此需要创建开源爬虫,可以在不同页面布局中获取数据。在网络爬虫开发过程中需要利用Python语言,而网络爬虫Web提取工具为BeautifulSoup,Web应用程序框架为Laravel,选用的后端语言为PHP。网络爬虫可以根据用户配置文件提取不同页面布局的数据,并且可以向数据库系统中导入提取的数据。 相似文献
3.
4.
研究了从数据密集型Web页面中自动提取结构化数据并形成知识表示系统的问题。基于知识数据库实现动态页面获取,进行预处理后转换为XML文档,采用基于PAT-array的模式发现算法自动发现重复模式,结合基于本体的关键词库自动识别页面数据显示结构模型,利用XML的对象-关系映射技术将数据存入知识数据库,由此实现Web数据自动抽取。同时,利用知识数据库已有知识从互联网抽取新知识,达到知识数据库的自扩展。以交通信息自动抽取及混合交通出行方案生成与表示系统进行的实验表明该系统具有高抽取准确率和良好的适应性。 相似文献
5.
提出了一套基于HTML5与网络图形库WebGL的三维WebGIS构建方案,该方案采用JSON格式对数据进行组织,通过AJAx技术进行数据传输,利用HTML5、WebGL技术进行三维数据展现,并构建了演示系统进行实现。结果表明:该方案具有免插件、跨平台、开放性、基于硬件加速等优点,能够在Web页面中提供良好的可交互的三维体验。 相似文献
6.
《计算机应用与软件》2016,(6)
气象资料复杂多样,如何在气象信息网上快速显示气象资料图片,是气象开发工作者的重要工作之一。针对这种需求,提出在页面无刷新的情况下实现气象图片分类显示的效果。前台页面通过Ajax向后台的Servlet发出请求,后台Servlet处理用户请求后返回JSON格式的数据给请求页面,请求页面利用JQuery处理返回的JSON格式的数据,将结果呈献给用户。实验结果表明利用这种j Query Ajax异步处理JSON数据的方法很好地实现了页面对后台数据的数据无刷新访问,达到多种气象图片分类显示效果。 相似文献
7.
《数字社区&智能家居》2008,(Z2)
针对为服务器减压和更好的用户体验,提出一种基于Ajax的无刷新分页方法,并成功地应用在高校实验申报系统上,在对数据进行分页显示的时候,借助Ajax与服务器进行异步通信,从服务器获取指定页的数据,并在只重写局部页面的情况下实现分页,减少了无用信息的传输,达到了更友好的页面实现。 相似文献
8.
针对X光安检机人工审核图片存在的效率低、误检和漏检等问题,设计并实现了一套基于Mask R-CNN算法的X光图片智能审像系统.实现了X光图像采集、数据汇聚、分析处理、违禁物品自动检测、数据存储等功能.通过分析比较,选择ResNet101作为BackBone训练网络,选取6000张X光图片作为样本,对刀、枪、液体瓶、手机、充电宝等五类违禁品进行标注.对训练参数优化调整,训练出违禁品的Ma s k R-CNN模型.在测试集上使用COCO评估方法,检出违禁品的平均精准率mAP50达到了0.83,明显高于Faster R-CNN、YOLOv3、SSD513等算法,具有实际工程应用价值. 相似文献
9.
轮播图作为一种观赏性很高的网页信息展示方式,在Web页面设计中得到广泛应用。基于此,详细介绍了利用超文本标记语言(Hyper Text Markup Language,HTML)、层叠样式表3级(Cascading Style Sheets Level 3,CSS3)和jQuery技术制作超宽视图无缝滚动轮播图的制作思路和实现方法。CSS3为图片的美观和布局提供了技术支持,jQuery技术使得图片交互效果得以实现,大大提升了网页的交互性。 相似文献
10.
11.
The problem of automatically extracting multiple news attributes from news pages is studied in this paper. Most previous work
on web news article extraction focuses only on content. To meet a growing demand for web data integration applications, more useful news attributes, such as title, publication date, author, etc., need to be extracted from news pages and stored in a structured way for further processing. An automatic unified approach
to extract such attributes based on their visual features, including independent and dependent visual features, is proposed.
Unlike conventional methods, such as extracting attributes separately or generating template-dependent wrappers, the basic
idea of this approach is twofold. First, candidates for each news attribute are extracted from the page based on their independent
visual features. Second, the true value of each attribute is identified from the candidates based on dependent visual features
such as the layout relationships among the attributes. Extensive experiments with a large number of news pages show that the
proposed approach is highly effective and efficient. 相似文献
12.
13.
Liu Wei Meng Xiaofeng Meng Weiyi 《Knowledge and Data Engineering, IEEE Transactions on》2010,22(3):447-460
Deep Web contents are accessed by queries submitted to Web databases and the returned data records are enwrapped in dynamically generated Web pages (they will be called deep Web pages in this paper). Extracting structured data from deep Web pages is a challenging problem due to the underlying intricate structures of such pages. Until now, a large number of techniques have been proposed to address this problem, but all of them have inherent limitations because they are Web-page-programming-language-dependent. As the popular two-dimensional media, the contents on Web pages are always displayed regularly for users to browse. This motivates us to seek a different way for deep Web data extraction to overcome the limitations of previous works by utilizing some interesting common visual features on the deep Web pages. In this paper, a novel vision-based approach that is Web-page-programming-language-independent is proposed. This approach primarily utilizes the visual features on the deep Web pages to implement deep Web data extraction, including data record extraction and data item extraction. We also propose a new evaluation measure revision to capture the amount of human effort needed to produce perfect extraction. Our experiments on a large set of Web databases show that the proposed vision-based approach is highly effective for deep Web data extraction. 相似文献
14.
基于双层决策的新闻网页正文精确抽取 总被引:7,自引:1,他引:7
本文提出了基于双层决策的新闻网页正文的精确抽取算法,双层决策是指对新闻网页正文所在区域的全局范围决策和对正文范围内每段文字是否确是正文的局部内容决策。首先根据实际应用的需要给出了新闻网页正文的严格界定,然后分析了新闻网页及其正文的特性,提出了基于双层决策的正文抽取策略,基于特征向量提取和决策树学习算法对上述双层决策进行了建模,并在国内10个主要新闻网站的1687个新闻页面上开展了模型训练和测试实验。实验结果表明,上述基于双层决策的方法能够精确地抽取出新闻网页的正文,最终正文抽取与人工标注不完全一致的网页比例仅为18.14% ,比单纯局部正文内容决策的方法相对下降了29.85% ,同时抽取误差率大于10%的网页比例更是仅为7.11% ,满足了实际应用的需要。 相似文献
15.
从海量Web新闻网页中抽取高纯度新闻,并以结构化的形式存储,是舆情监测、话题更新等研究的基础。本文提出一种基于噪音过滤包装器的方法抽取Web新闻,归纳包装器时,若2页面字符串对比失配,计算其字符串标签路径比,根据阈值α,标记不同符号区分新闻内容和噪音。同时提出了朴素贝叶斯Web新闻标题分类器和时间分类器抽取新闻题目和时间。实验结果表明,本文方法与其他抽取技术相比准确率和鲁棒性有显著的提高,具有重要的实际应用价值。 相似文献
16.
精准地抽取新闻网页的内容,是提高Web新闻分析等应用系统工作质量的关键技术之一.由于缺少Web新闻出版的标准,存在大量不同的出版格式,并且Web本身是一种具有高度异构性的大数据载体,导致Web新闻内容抽取成为一个开放性问题.经大量实例分析发现,新闻网页内容与其上的标签路径存在潜在的关联性.因此,设计了标签路径特征系,以从不同视角区分网页内容和噪音.在特征相似性分析的基础上,提出了一种基于组合特征选择的特征融合策略,并设计了基于融合特征的Web新闻内容抽取方法CEPF.CEPF是一种快速的通用、无需训练的在线Web新闻内容抽取算法,可抽取多种来源、多种风格、多种语言的Web新闻网页.在CleanEval等测试数据集上的实验结果表明,CEPF方法优于CETR等抽取方法. 相似文献
17.
18.
19.