首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
在对Web应用挖掘的基本步骤作系统性研究的基础上,设计了一个Web应用挖掘可视化系统.该系统能够对用户访问Web时服务器方留下的访问记录进行挖掘,从中得出用户的访问模式和访问兴趣,并对所得出的结果进行可视化的处理.为了识别用户浏览模式利用Apriori算法对Web应用挖掘过程中预处理阶段所产生的用户会话文件进行了挖掘.采用Web图可视化了Web站点的拓扑结构以及各节点访问计数和登录计数信息.Web图的新颖之处在于两点:首先,为了将Web拓扑结构映射到Web图上,利用了站点拓扑结构数据和站点应用数据;其次,在绘制表示用户登录计数的信息层时允许通过使用动态布局的方法,以及为每一层的节点重新分配360度周长的方法来解决节点之间的冲突问题.文中较详细地阐述了该系统对Web应用数据挖掘可视化界面布局的具体措施.  相似文献   

2.
软件可视化是指利用印刷、图形、动画以及其它图形或摄影技术提高人们对软件的理解的技术.度量可视化是软件可视化研究的分支之一,它是把度量数据与可视化的图形结合来表示软件的结构.现有的度量可视化方法存在的不足是所能表示的度量指标等属性太少,表示出来的信息不够全面.为了表示更多的属性信息,提出了一种新的面向对象软件度量的3D可视化方法,利用组合图形表示软件实体(如类、方法等),使得所表示的属性数量加倍,从而更有利于对软件的理解和分析.开发出可视化工具M3DTool证明了该方法的有效性.  相似文献   

3.
在分析了网站拓扑结构与Web使用挖掘以及个性化推荐之间关系的基础上,提出了一种超链接结构的分类方法,通过对网站结构信息的分析和处理,得到网站的拓扑结构并进行存储,从而解决了单个网站中Web使用挖掘及推荐中的若干实际问题.  相似文献   

4.
基于形态图表示的三维物体识别的基本思路是:首先建立待识别物体的模型库,找出模型集中所有模型物体的形态图和特征视图,并提取以它们的拓扑结构信息和几何信息;其次对物体真实图像作轮廓提取和0边界跟踪,得到二维图像的线架图,同时提取出它的拓扑结构信息和几何信息;最后将物体图像的拓扑结构信息和几何信息与模型库中模型物体的拓扑结构信息和几何信息匹配,从而达到识别的目的。文中提出了在生成线图链码时提取其拓扑结构信息和几何信息的方法,由拓扑结构信息和几何信息构造特征矩阵的方法,以及识别过程中特征矩阵的匹配算法。  相似文献   

5.
在大数据时代,数据之间的紧密关联性是普遍存在的,图数据分析挖掘已经成为大数据技术的重要发展趋势。近几年,图神经网络作为一种新型的图表示学习工具引起了学术界和工业界的广泛关注。目前图神经网络已经在很多实际应用中取得了巨大的成功。最近人工智能的安全性和可信性成为了人们关注的重点,很多工作主要针对图像等规则数据的深度学习对抗攻击。文中主要聚焦于图数据这种典型非欧氏结构的黑盒对抗攻击问题,在图神经网络模型信息(结构、参数)未知的情况下,对图数据进行非随机微小扰动,从而实现对模型的对抗攻击,模型性能随之下降。基于节点选择的对抗攻击策略是一类重要的黑盒图对抗攻击方法,但现有方法在选择对抗攻击节点时主要依靠节点的拓扑结构信息(如度信息)而未充分考虑节点的特征信息,文中面向引文网络提出了一种基于特征拓扑融合的黑盒图对抗攻击方法。所提方法在选择重要性节点的过程中将图节点特征信息和拓扑结构信息进行融合,使得选出的节点在特征和拓扑两方面对于图数据都是重要的,攻击者对挑选出的重要节点施加不易察觉的扰动后对图数据产生了较大影响,进而实现对图神经网络模型的攻击。在3个基准数据集上进行实验,结果表明,所提出的攻击策...  相似文献   

6.
大数据学情分析系统开发主要涉及构建大数据平台、采集岗位信息、数据存储、数据处理、数据分析、数据可视化、上线部署等关键环节.其中,采集岗位信息环节需要借助Scrapy爬虫框架从招聘网站采集就业岗位数据,配置爬虫数据萃取表达式,对采集到的HTML内容提取出csv格式,数据内容包括岗位、公司、月薪、福利、职位描述、职位要求等.对采集数据进行简单的筛选,保留有价值的信息.在资源条件有限的前提下突破网站的反爬策略实现数据爬取是一个难题,以实现某网站爬虫为具体案例,简要介绍从需求分析、设计方案以及具体技术实现过程,并对爬取过程中页面结构不一致、边界、去重、突破反爬机制等问题进行总结.  相似文献   

7.
随着图规模的增大,传统的力导引布局算法会出现节点重叠、边交叉等视觉混乱问题,为此提出一种基于改进力导引布局的可扩展的可视化层级抽象方法.首先结合FR算法与LinLog算法的优点对力导引算法进行改进,生成一个具有明显聚类结构、能够体现图结构信息的初步布局;然后基于布局结果,采用自下而上的层次聚类方法生成图的层级结构,同时定义了体现抽象层级的参数来决定不同层级下的聚类显示,允许用户在多个层级观察数据结构特征;最后采用几何距离、拓扑结构和拓扑结构加中介中心性3种不同的度量进行视觉抽象,并对抽象结果进行比较分析.为了说明文中方法的有效性,分别对信息可视化文章间的文献引用数据、2004年美国总统竞选的政治博客数据,以及IEEE Visualization会议文章的作者合作数据这3个数据实例进行实验,结果表明,使用该方法并结合移动、缩放、选择等可视化交互技术,能有效地帮助用户分析、探索和理解数据隐藏的信息.  相似文献   

8.
汤颖  钟南江  孙康高  秦大康  周伟华 《计算机科学》2017,44(Z11):385-390, 427
随着社交网络的流行,从各种各样的社交网络数据中提取出有效信息并进行清晰直观的可视化分析,从而为用户提供有价值的潜在知识,显得尤为重要。聚类分析是数据挖掘中的重要分析手段,传统的面向社交网络数据的用户聚类分析大都仅考虑网络的拓扑链接结构,未考虑用户的兴趣相似度。文中基于贝叶斯概率模型来计算用户兴趣相似度并进行聚类,进一步设计交互可视化方式来展示上述聚类结果。具体地,针对社交网络中的用户评分数据 建立潜在语义模型来提取表示每个用户兴趣特点的特征向量;基于用户的特征向量对用户进行聚类,得到具有不同特征的人群,并通过实验和热度图选择合适的人群聚类数;最后提出了基于层次气泡图的可视化展现和分析方案,将用户、电影类型、电影等多维信息在图形中交互展示,支持用户从全局概览到局部细节的推进式探索,从多角度可视化人群特征。对豆瓣网用户和电影评分数据进行了实验和分析,结果验证了所提方法的有效性。  相似文献   

9.
对于一个网站的信息检索或者是拓扑结构研究,首要的问题就是提取整个网站内部的URL。本文给出了一种实用有效的提取网站内部URL的方法。  相似文献   

10.
航空发动机试车数据可视化软件的开发   总被引:1,自引:0,他引:1  
杨占才  张毅  王立清  朱永波 《测控技术》2005,24(1):47-48,52
为了更好地利用航空发动机试车数据,更好地分析发动机原理和故障原因,提取有用的信息,开发了一个与数据采集系统集成的试车数据可视化软件,它能够完成流场可视化、振动等参数可视化,以及试验对象、试验装置、控制设备的可视化.还论述了软件开发的方法和主要技术问题.  相似文献   

11.
A programmable agent for knowledge discovery on the Web   总被引:3,自引:0,他引:3  
  相似文献   

12.
表格信息抽取引擎的设计与实现   总被引:3,自引:0,他引:3  
王治和 《计算机科学》2006,33(10):126-127
讨论针对Web表格的信息抽取,分析并给出了表格信息抽取引擎的系统结构,以及实现该系统所涉及的关键技术和数据模型,为用户提供一种以Web表格为信息抽取对象的、支持抽取方式选择的Web表格信息抽取工具。  相似文献   

13.
为了从具有海量信息的Internet上自动抽取Web页面的信息,提出了一种基于树比较的Web页面主题信息抽取方法。通过目标页面与其相似页面所构建的树之间的比较,简化了目标页面,并在此基础上生成抽取规则,完成了页面主题信息的抽取。对国内主要的一些网站页面进行的抽取检测表明,该方法可以准确、有效地抽取Web页面的主题信息。  相似文献   

14.
Deep Web中蕴含着丰富的高质量的信息,通过Deep Web集成查询接口可以获取到包含这些信息的结果页面,因此,Deep Web查询结果页面的数据抽取成为Deep Web数据集成的关键。提出了将索引方法和编辑相似度相结合的方法,来完成Deep Web查询结果页面的数据抽取工作。大量实验结果表明:该方法是可行的,并且能够提高Deep Web数据实体抽取的准确性和召回率。  相似文献   

15.
Web信息抽取   总被引:14,自引:0,他引:14  
With the tremendous amount of information available on the Web,the ability to quickly obtain information has become a crucial problem.It is not enough for us to acquire information only with Web information retrieval technology.Therefore more and more people pay attention to Web information extraction technology.This paper first introduces some concepts of information extraction technology,then introduces and analyzes several typical Web information extraction methods based on the differences in extraction patterns.  相似文献   

16.
基于网页结构树的Web信息抽取方法   总被引:10,自引:1,他引:9  
陈琼  苏文健 《计算机工程》2005,31(20):54-55,140
提出了网页结构树提取算法及基于网页结构树的Web信息抽取方法。抽取信息时,在网页结构树中定位模式库中的待抽取信息,用模式库中的待抽取信息和网页结构树的叶结点对应的网页信息进行匹配。因而对网页信息的抽取,可以转化为对网页结构树的树叶结点信息的查找。实验证明,该方法具有较强的网页信息抽取能力。  相似文献   

17.
正则表达式与XML配置文件相结合的数据提取   总被引:1,自引:0,他引:1  
针对特定搜索引擎的实际需求,需要从网站中提取有效的数据作为它的数据源.本文通过对网页内部结构的分析,利用正则表达式与XML配置文件相结合的方法,建立了基于特定网页的框架和规则的数据内容提取方法,并加以实现.该方法成功运用到多个信息提取系统中,实现了高效、准确的数据提取.  相似文献   

18.
随着互联网的迅速发展,网络资源日益丰富,如何从Web尤其是Deep Web中获取信息成为人们关注的焦点,以Ajax为基础的新一代网页信息抓取问题也逐渐成为研究热点。通过分析支持Ajax的Deep Web爬虫关键技术,提出了支持Ajax的Deep Web爬虫的体系结构,阐述了一种自动爬行Ajax网站的算法,为该爬虫的总体框架设计奠定了基础。  相似文献   

19.
随着Web应用的功能日趋复杂,其安全问题不容乐观, Web应用安全性测试成为软件测试领域的研究重点之一.漏洞报告旨在记录Web应用安全问题,辅助Web应用测试,提升其安全性与质量.然而,如何自动识别漏洞报告中的关键信息,复现漏洞,仍是当前的研究难点.为此,本文提出一种自动化的漏洞报告理解和漏洞复现方法,首先,依据漏洞报告的特点,归纳其语法依存模式,并结合依存句法分析技术,解析漏洞描述,提取漏洞触发的关键信息.其次,不同于常规自然语言描述, Web漏洞的攻击负载通常是非法字符串,大多以代码片段的形式存在,为此,本文针对攻击负载,设计提取规则,完善漏洞报告中攻击负载的提取.在此基础上,考虑漏洞报告与Web应用文本描述不同但语义相近,提出基于语义相似度的漏洞复现脚本自动生成方法,实现Web应用漏洞的自动复现.为验证本文方法的有效性,从漏洞收集平台Exploit-db的300余个Web应用项目中收集了400份漏洞报告,归纳出其语法依存模式;并针对23个开源Web应用涉及的26份真实漏洞报告进行漏洞复现实验,结果表明本文方法可有效提取漏洞报告的关键信息,并据此生成可行测试脚本,复现漏洞,有效减少...  相似文献   

20.
本文提出了一种结合文法推断和HMM进行信息提取的方法。首先将待提取的原始文本转换为相应有意义的一个小的抽象符号集合,然后通过使用文法推断(GI)获取一个合适的HMM拓扑结构,最后利用所得的HMM拓扑结构,使用经典的Viterbi算法提取出用户感兴趣的信息。实验结果表明,针对半结构化文档,该方法在某些领域能够有效地提高提取的精确度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号