首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
通过分析面向传统新闻门户网站和面向移动新闻应用的新闻采集方法的异同,提出了一种面向移动新闻应用的自适应新闻采集方法。该方法先通过代理对移动新闻应用与新闻服务器通信的数据包进行解析,构造出移动新闻应用的站点地图;然后模拟用户行为采集新闻数据。为保证新闻采集的完整性并提高更新效率,提出了一种增量更新方法实现新闻数据的增量更新。以国内外20多家主流的移动新闻应用为实验对象开展验证,实验结果表明该方法的有效性和实时性。  相似文献   

2.
3.
通用网络信息采集系统效率低,数据冗余大,因此本文研究了一种高性能的定向信息采集系统。该系统针对目标网站,抓取主题及回复网页。获取网页时控制并发线程和链接收集策略,消除无关和重复信息,并将数据结构化。同时本文提出了主题重要性评估模型,分析主题对回复的吸附力,分配系统资源,指引新回复的抓取。系统连续运行8小时,获得的有效网页总数在通用爬虫的1.2倍以上。  相似文献   

4.
本文介绍了即时通信软件在一些环境下的隐患,对即时通信软件的网络架构进行了分析,接着又探讨了入侵检测技术中的误用检测技术和协议分析技术,并结合这两种技术提出了一种对即时通信软件进行检测的新技术。然后在WinPcap基础上讨论了即时通信软件对应用层数据进行检测技术的实现。这种检测技术能够分析出所有符合规则库的数据包,在不影响网络负载的情况下,能够有效地保护局域网网络的安全。  相似文献   

5.
Web新闻自动采集发布系统的设计与实现   总被引:1,自引:0,他引:1  
针对新闻网站通过人工方式采集发布来自其它网站的Web新闻费时费力、易重采与漏采这一同题,综合运用Web信息采集技术、网页去噪技术、文本文档消重技术以及文本自动分类技术设计并实现了一种基于网络爬虫的Web新闻自动采集发布系统.在给出系统总体结构的基础上,对其各个模块的功能、设计与实现方法进行了详细介绍.实验表明,该系统设计合理,具有采集效率高、消重准确、集成方便、运行费用低等优点,可作为新闻网站的采编工具加以推广使用.  相似文献   

6.
在网络不断渗入人们生活方方面面的今天,即时信息(IM,instant messaging)成为网络中不可缺少的重要部分,同时也需要解决自身所存在的一系列安全问题。本文通过对IM系统工作方式的分析,讨论了如何获取常用IM工具的交互信息的内容,以及在现有环境下如何保障即时信息的保密性的一些方法和建议。  相似文献   

7.
研究了网站网页新闻内容自动采集的实现方法,给出了编程实现的算法。  相似文献   

8.
李强 《软件》2023,(1):168-170
本文分析了基于Python的新闻聚合系统网络爬虫,指的是根据Python的网络爬虫构建新闻聚合系统,利用爬虫获取新闻聚合系统的新闻数据,不同网站的页面布局是不同的,因此需要创建开源爬虫,可以在不同页面布局中获取数据。在网络爬虫开发过程中需要利用Python语言,而网络爬虫Web提取工具为BeautifulSoup,Web应用程序框架为Laravel,选用的后端语言为PHP。网络爬虫可以根据用户配置文件提取不同页面布局的数据,并且可以向数据库系统中导入提取的数据。  相似文献   

9.
即时通信研究综述   总被引:3,自引:0,他引:3  
朱和平 《现代计算机》2006,28(12):55-58
对即时通信系统的网络服务模型、通信方式、防火墙和网络地址转换穿越及标准协议进行了深入分析.讨论了即时通信几种主要安全问题,并对即时通信的发展作了展望。  相似文献   

10.
匿名即时通信监控技术是近几年提出的一种网络监控技术,对于追查网络非法联络和犯罪取证具有重要的意义。首先提出了一种面向多代理技术的匿名即时通信监控模型;然后论述了匿名会话检测技术、匿名通信数据库的关联规则挖掘技术、匿名通信追踪技术等匿名即时通信监控关键技术;最后给出了实验结果,并对实验中发现的问题提出了解决方案。  相似文献   

11.
属性是一种用于描述概念和鉴别概念的特殊知识。属性名称是表示属性的专有名词。该文提出了一种基于前后缀迭代的方法,从Web网页中获取概念的属性名称。该方法的每一次迭代分为两个阶段: (1) 从现有种子属性集中选择合适的前后缀,构造词汇-句法模式,从Web网页中提取候选属性;(2) 采用基于相似性的验证模型对候选属性进行验证,以扩充现有属性集合。该文提出了一组验证模型对候选属性进行验证,比较各个模型的优缺点,并在地域类和商业主体类概念上分别得到了平均92.9%和90.7%的准确率,以及对原有种子属性集合近100倍的扩充率。  相似文献   

12.
GNU Octave是一款数值计算软件,具有免费、开源以及几乎完全兼容MATLAB语言的优点。然而,Octave内置的基于LLVM的实验性即时编译器仅支持对少部分代码进行即时编译,无法有效解决Octave效率低下的问题。基于Octave即时编译器探究对Octave的性能优化方案,从工作原理角度出发,对该即时编译器整体工作原理和其中的类型推断系统进行分析;从工作现状角度出发,评估该即时编译器对Octave代码的适用范围和性能提升效果;针对该即时编译器的内置函数调用、索引运算与算术逻辑运算进行特性修复和功能新增,使Octave获得性能提升。实验结果表明,基于即时编译器的优化方案有效扩展了即时编译器的适用范围,为Octave代码执行带来56~283倍不等的性能提升。此外,总结了该即时编译器中存在的16类缺陷,对进一步优化Octave性能具有参考意义。  相似文献   

13.
基于本体的医学知识获取   总被引:14,自引:3,他引:14  
In this paper, we introduce an ontology-mediated method for medical knowledge acquisition and analysis.Using the method we establish an ontological structure and ontologies for the Medical Knowledge Base (or NKIMed ). To check the consistency of the acquired knowledge, we use a set of medicine-specific axioms. These axioms are also used in knowledge inference, and interconnection between diiferent medical concepts. Finally, two applications of NKIMed, i.e. intelligent teachinu systems and speech diagnosis are illustrated.  相似文献   

14.
15.
Web网页的发表时间在Web搜索中起到重要的作用,因为用户获取的结果往往是与时间密切相关的.本文围绕Web新闻发表时间的提取,提出了一种高效的Web新闻发表时间提取方法.该方法考虑到了Web新闻网页URL地址隐含时间信息的特性,信息发表时间与新闻标题的距离约束.在主流的7个中文搜索引擎,使用了30个关键字,共获取3827篇Web新闻信息进行了提取时间的准确率及时间消耗的实验分析与比较,结果显示本文提出方法的准确率为95.5%,时间消耗为88秒.  相似文献   

16.
Chaisorn  Lekha  Chua  Tat-Seng  Lee  Chin-Hui 《World Wide Web》2003,6(2):187-208
This research proposes a two-level, multi-modal framework to perform the segmentation and classification of news video into single-story semantic units. The video is analyzed at the shot and story unit (or scene) levels using a variety of features and techniques. At the shot level, we employ Decision Trees technique to classify the shots into one of 13 predefined categories or mid-level features. At the scene/story level, we perform the HMM (Hidden Markov Models) analysis to locate story boundaries. Our initial results indicate that we could achieve a high accuracy of over 95% for shot classification, and over 89% in F 1 measure on scene/story boundary detection. Detailed analysis reveals that HMM is effective in identifying dominant features, which helps in locating story boundaries. Our eventual goal is to support the retrieval of news video at story unit level, together with associated texts retrieved from related news sites on the web.  相似文献   

17.
针对目前主题网络爬虫搜索策略难以在全局范围内找到最优解,通过对遗传算法的分析与研究,文中设计了一个基于遗传算法的主题爬虫方案。引入了结合文本内容的PageRank算法;采用向量空间模型算法计算网页主题相关度;采取网页链接结构与主题相关度来评判网页的重要性;依据网页重要性选择爬行中的遗传因子;设置适应度函数筛选与主题相关的网页。与普通的主题爬虫比较,该策略能够获取大量主题相关度高的网页信息,能够提高获取的网页的重要性,能够满足用户对所需主题网页的检索需求,并在一定程度上解决了上述问题。  相似文献   

18.
基于主题的Web信息采集系统的设计与实现   总被引:13,自引:0,他引:13  
基于主题的Web信息采集是信息检索领域内一个新兴且有实用价值的方向,也是信息处理技术中的一个研究热点。文章分析了主题Web信息采集的基本问题,提出了难点以及相关的解决方案,并在此基础上设计实现了“天达”主题Web信息采集系统。  相似文献   

19.
李伟  黄席樾  刘欣 《计算机仿真》2006,23(4):60-62,67
随着系统设备和功能的日益复杂化,各种故障现象成因越来越复杂,智能故障诊断系统作为人工智能技术在故障诊断领域的应用,在实践中取得了较好的成效,但诊断知识获取一直是系统建造中的瓶颈问题,机器学习是目前采用较多、也较为有效的一种方法。该文基于从已有的诊断经验事例中学习获取知识的思路,借鉴免疫理论的相关概念,设计了新的知识获取模型,利用免疫算法,按照预定的优化目标函数,生成最优的诊断知识,通过对一故障实例知识获取的应用,验证了该方法的可行性。  相似文献   

20.
刘伟  严华梁 《计算机工程》2012,38(11):167-169
提出一种统一的Web新闻对象自动抽取方法。通过抽取新闻页面中的分类、标题、发布时间、来源、作者、内容、相关评论链接和相关新闻链接作为分类属性,经页面解析、候选值抽取、真值识别3个步骤,实现新闻对象的自动抽取。实验结果表明,该方法在同时抽取新闻对象的多个属性方面具有较高的准确性,且抽取结果不依赖于特定的页面模板。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号