期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

胡建洪徐建董克源高鑫《计算机应用研究》2018,35(9)

通过分析面向传统新闻门户网站和面向移动新闻应用的新闻采集方法的异同,提出了一种面向移动新闻应用的自适应新闻采集方法。该方法先通过代理对移动新闻应用与新闻服务器通信的数据包进行解析,构造出移动新闻应用的站点地图;然后模拟用户行为采集新闻数据。为保证新闻采集的完整性并提高更新效率,提出了一种增量更新方法实现新闻数据的增量更新。以国内外20多家主流的移动新闻应用为实验对象开展验证,实验结果表明该方法的有效性和实时性。相似文献

2.

双模移动新闻采集手机

Neal. JD Jone. EV 《世界网络与多媒体》1999,7(4):14-14,16,18,70

相似文献

3.

定向网络信息采集系统的研究

熊菲刘云李勇《广东电脑与电讯》2008,(9):24-26

通用网络信息采集系统效率低,数据冗余大,因此本文研究了一种高性能的定向信息采集系统。该系统针对目标网站,抓取主题及回复网页。获取网页时控制并发线程和链接收集策略,消除无关和重复信息,并将数据结构化。同时本文提出了主题重要性评估模型,分析主题对回复的吸附力,分配系统资源,指引新回复的抓取。系统连续运行8小时,获得的有效网页总数在通用爬虫的1.2倍以上。相似文献

4.

即时通信软件检测技术的研究

李建敏魏明军刘玉芳《福建电脑》2009,(12):5-5,4

本文介绍了即时通信软件在一些环境下的隐患,对即时通信软件的网络架构进行了分析,接着又探讨了入侵检测技术中的误用检测技术和协议分析技术,并结合这两种技术提出了一种对即时通信软件进行检测的新技术。然后在WinPcap基础上讨论了即时通信软件对应用层数据进行检测技术的实现。这种检测技术能够分析出所有符合规则库的数据包,在不影响网络负载的情况下,能够有效地保护局域网网络的安全。相似文献

5.

Web新闻自动采集发布系统的设计与实现 总被引：1，自引：0，他引：1

张春元康耀红伍小芹《计算机技术与发展》2009,19(9):250-252,F0003

针对新闻网站通过人工方式采集发布来自其它网站的Web新闻费时费力、易重采与漏采这一同题,综合运用Web信息采集技术、网页去噪技术、文本文档消重技术以及文本自动分类技术设计并实现了一种基于网络爬虫的Web新闻自动采集发布系统.在给出系统总体结构的基础上,对其各个模块的功能、设计与实现方法进行了详细介绍.实验表明,该系统设计合理,具有采集效率高、消重准确、集成方便、运行费用低等优点,可作为新闻网站的采编工具加以推广使用. 相似文献

6.

即时信息的保密性研究

彭祚鹏李灿平施艳《福建电脑》2007,(11):49-50

在网络不断渗入人们生活方方面面的今天,即时信息(IM,instant messaging)成为网络中不可缺少的重要部分,同时也需要解决自身所存在的一系列安全问题。本文通过对IM系统工作方式的分析,讨论了如何获取常用IM工具的交互信息的内容,以及在现有环境下如何保障即时信息的保密性的一些方法和建议。相似文献

7.

网页新闻内容自动采集

吴文辉《电脑编程技巧与维护》2014,(14):82-82

研究了网站网页新闻内容自动采集的实现方法,给出了编程实现的算法。相似文献

8.

基于Python的新闻聚合系统网络爬虫研究

李强《软件》2023,(1):168-170

本文分析了基于Python的新闻聚合系统网络爬虫,指的是根据Python的网络爬虫构建新闻聚合系统,利用爬虫获取新闻聚合系统的新闻数据,不同网站的页面布局是不同的,因此需要创建开源爬虫,可以在不同页面布局中获取数据。在网络爬虫开发过程中需要利用Python语言,而网络爬虫Web提取工具为BeautifulSoup,Web应用程序框架为Laravel,选用的后端语言为PHP。网络爬虫可以根据用户配置文件提取不同页面布局的数据,并且可以向数据库系统中导入提取的数据。相似文献

9.

即时通信研究综述 总被引：3，自引：0，他引：3

朱和平《现代计算机》2006,28(12):55-58

对即时通信系统的网络服务模型、通信方式、防火墙和网络地址转换穿越及标准协议进行了深入分析．讨论了即时通信几种主要安全问题，并对即时通信的发展作了展望。相似文献

10.

匿名即时通信监控技术研究*

赵煜蔡皖东樊娜《计算机应用研究》2008,25(6):1842-1845

匿名即时通信监控技术是近几年提出的一种网络监控技术,对于追查网络非法联络和犯罪取证具有重要的意义。首先提出了一种面向多代理技术的匿名即时通信监控模型;然后论述了匿名会话检测技术、匿名通信数据库的关联规则挖掘技术、匿名通信追踪技术等匿名即时通信监控关键技术;最后给出了实验结果,并对实验中发现的问题提出了解决方案。相似文献

11.

一种迭代式的概念属性名称自动获取方法

汪平仄曹存根王石《中文信息学报》2014,28(4):58-67

属性是一种用于描述概念和鉴别概念的特殊知识。属性名称是表示属性的专有名词。该文提出了一种基于前后缀迭代的方法,从Web网页中获取概念的属性名称。该方法的每一次迭代分为两个阶段: (1) 从现有种子属性集中选择合适的前后缀,构造词汇-句法模式,从Web网页中提取候选属性;(2) 采用基于相似性的验证模型对候选属性进行验证,以扩充现有属性集合。该文提出了一组验证模型对候选属性进行验证,比较各个模型的优缺点,并在地域类和商业主体类概念上分别得到了平均92.9%和90.7%的准确率,以及对原有种子属性集合近100倍的扩充率。相似文献

12.

基于即时编译的GNU Octave性能优化

莫舒恒卢圣有黄聃卢宇彤《计算机工程与科学》2022,44(12):2091-2101

GNU Octave是一款数值计算软件,具有免费、开源以及几乎完全兼容MATLAB语言的优点。然而,Octave内置的基于LLVM的实验性即时编译器仅支持对少部分代码进行即时编译,无法有效解决Octave效率低下的问题。基于Octave即时编译器探究对Octave的性能优化方案,从工作原理角度出发,对该即时编译器整体工作原理和其中的类型推断系统进行分析;从工作现状角度出发,评估该即时编译器对Octave代码的适用范围和性能提升效果;针对该即时编译器的内置函数调用、索引运算与算术逻辑运算进行特性修复和功能新增,使Octave获得性能提升。实验结果表明,基于即时编译器的优化方案有效扩展了即时编译器的适用范围,为Octave代码执行带来56～283倍不等的性能提升。此外,总结了该即时编译器中存在的16类缺陷,对进一步优化Octave性能具有参考意义。相似文献

13.

基于本体的医学知识获取 总被引：14，自引：3，他引：14

周肖彬曹存根《计算机科学》2003,30(10):35-39

In this paper, we introduce an ontology-mediated method for medical knowledge acquisition and analysis.Using the method we establish an ontological structure and ontologies for the Medical Knowledge Base (or NKIMed ). To check the consistency of the acquired knowledge, we use a set of medicine-specific axioms. These axioms are also used in knowledge inference, and interconnection between diiferent medical concepts. Finally, two applications of NKIMed, i.e. intelligent teachinu systems and speech diagnosis are illustrated. 相似文献

14.

一种高效的动态脚本网站有效页面获取方法 总被引：1，自引：0，他引：1

夏冰高军王腾蛟杨冬青《软件学报》2009,20(Z1):176-183

随着Web2.0时代的到来,越来越多的网站采用了动态脚本的方式与用户进行交互.页面的转换不再仅仅通过点击“”标签进行,URL也不再是页面的唯一标识.传统网络爬虫无法应对含动态脚本的网页,如Google等搜索引擎即对这些网页采取回避的态度.对这些网页的抓取方法的研究仍处在起步阶段,提出了一种高效的动态脚本网站有效页面的获取方法,首先通过训练获得哪些页面元素触发的哪些事件将引向我们所需的页面,并总结出这些页面元素的XPath特征及触发的事件类型.在以后的抓取中,只触发这些页面元素上的特定事件,从而提升抓取效率.此外,通过实验证明了我们方法的效率和性能. 相似文献

15.

一种高效的Web新闻发表时间提取方法

仲兆满李存华乔磊张文艳管燕《小型微型计算机系统》2013,34(9)

Web网页的发表时间在Web搜索中起到重要的作用,因为用户获取的结果往往是与时间密切相关的.本文围绕Web新闻发表时间的提取,提出了一种高效的Web新闻发表时间提取方法.该方法考虑到了Web新闻网页URL地址隐含时间信息的特性,信息发表时间与新闻标题的距离约束.在主流的7个中文搜索引擎,使用了30个关键字,共获取3827篇Web新闻信息进行了提取时间的准确率及时间消耗的实验分析与比较,结果显示本文提出方法的准确率为95.5％,时间消耗为88秒. 相似文献

16.

A Multi-Modal Approach to Story Segmentation for News Video

Chaisorn Lekha Chua Tat-Seng Lee Chin-Hui 《World Wide Web》2003,6(2):187-208

This research proposes a two-level, multi-modal framework to perform the segmentation and classification of news video into single-story semantic units. The video is analyzed at the shot and story unit (or scene) levels using a variety of features and techniques. At the shot level, we employ Decision Trees technique to classify the shots into one of 13 predefined categories or mid-level features. At the scene/story level, we perform the HMM (Hidden Markov Models) analysis to locate story boundaries. Our initial results indicate that we could achieve a high accuracy of over 95% for shot classification, and over 89% in F ₁ measure on scene/story boundary detection. Detailed analysis reveals that HMM is effective in identifying dominant features, which helps in locating story boundaries. Our eventual goal is to support the retrieval of news video at story unit level, together with associated texts retrieved from related news sites on the web. 相似文献

17.

基于遗传算法的主题爬虫

张海亮袁道华《微机发展》2012,(8):48-52

针对目前主题网络爬虫搜索策略难以在全局范围内找到最优解,通过对遗传算法的分析与研究,文中设计了一个基于遗传算法的主题爬虫方案。引入了结合文本内容的PageRank算法;采用向量空间模型算法计算网页主题相关度;采取网页链接结构与主题相关度来评判网页的重要性;依据网页重要性选择爬行中的遗传因子;设置适应度函数筛选与主题相关的网页。与普通的主题爬虫比较,该策略能够获取大量主题相关度高的网页信息,能够提高获取的网页的重要性,能够满足用户对所需主题网页的检索需求,并在一定程度上解决了上述问题。相似文献

18.

基于主题的Web信息采集系统的设计与实现 总被引：13，自引：0，他引：13

李盛韬赵章界余智华《计算机工程》2003,29(17):102-104

基于主题的Web信息采集是信息检索领域内一个新兴且有实用价值的方向，也是信息处理技术中的一个研究热点。文章分析了主题Web信息采集的基本问题，提出了难点以及相关的解决方案，并在此基础上设计实现了“天达”主题Web信息采集系统。相似文献

19.

基于免疫算法的故障诊断知识获取方法

李伟黄席樾刘欣《计算机仿真》2006,23(4):60-62,67

随着系统设备和功能的日益复杂化,各种故障现象成因越来越复杂,智能故障诊断系统作为人工智能技术在故障诊断领域的应用,在实践中取得了较好的成效,但诊断知识获取一直是系统建造中的瓶颈问题,机器学习是目前采用较多、也较为有效的一种方法。该文基于从已有的诊断经验事例中学习获取知识的思路,借鉴免疫理论的相关概念,设计了新的知识获取模型,利用免疫算法,按照预定的优化目标函数,生成最优的诊断知识,通过对一故障实例知识获取的应用,验证了该方法的可行性。相似文献

20.

一种统一的Web新闻对象自动抽取方法

下载免费PDF全文

刘伟严华梁《计算机工程》2012,38(11):167-169

提出一种统一的Web新闻对象自动抽取方法。通过抽取新闻页面中的分类、标题、发布时间、来源、作者、内容、相关评论链接和相关新闻链接作为分类属性,经页面解析、候选值抽取、真值识别3个步骤,实现新闻对象的自动抽取。实验结果表明,该方法在同时抽取新闻对象的多个属性方面具有较高的准确性,且抽取结果不依赖于特定的页面模板。相似文献