首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
网页结构化信息抽取技术方法研究   总被引:2,自引:0,他引:2  
分析了两种当前主流的网页结构化信息抽取技术方法:基于模版的分装器方法和不依赖模版的基于视觉的网页信息抽取技术方法,并在此基础上实现了一种新的网页结构化信息抽取算法,一定程度上提高了抽取效率和精度。  相似文献   

2.
Web信息抽取技术一直是信息技术领域的研究热点。而且,近年来,DIV+CSS的网页布局方法开始普遍应用于网页设计中。基于此,提出了一种较为简单和实用的基于正文特征和网页结构的新闻网页正文抽取方法。首先识别和提取网页正文内容块,然后利用正则表达式滤除内容块中的HTML标记并提取网页正文。实验结果表明,该方法对正文抽取具有较高的通用性与准确率。  相似文献   

3.
该文提出了藏文问答系统中答案抽取的算法,即采用了基于相同词汇的句子相似度算法和基于关键词的相似度算法相结合的算法来抽取最佳的答案。  相似文献   

4.
网页分类器设计的核心是对原始分类数据集进行分类规则挖掘,提出了基于混沌粒子群算法的分类规则抽取方法.该算法采用实数编码,令特征类别作为粒子的恒定属性,适应度函数从支持度、置信度和覆盖度三个不同的侧面评价规则的优劣,利用混沌特性提高种群的多样性和粒子搜索的遍历性,兼顾全局寻优和局部寻优,改变了基本粒子群在分类初期做大量无效工作、算法效率比较低的状况,简化了知识系统的处理过程,实验表明网页分类的查全率和查准率整体得到了提高.  相似文献   

5.
Blog网页分类与识别技术研究   总被引:2,自引:0,他引:2  
郑德权  张迪  赵铁军  于浩 《通信学报》2007,28(12):156-160
为了找到一种自动将Blog网页区别于其他Web页面的方法,以便针对Blog语料进行内容抽取、对Blog社区进行规律性研究和发现等,针对Blog网页的特点与规律,提出一种根据网页结构和关键字计算相似度的方法识别Blog网页,初步的实验结果表明,达到了较高的识别正确率。  相似文献   

6.
《现代电子技术》2013,(4):69-72
在答案抽取过程中,需要对答案候选集按句子的相似度进行排序,抽取出相似度大于阈值的答案,为了提高答案抽取的各项指标并使之更均衡,提出了一种综合答案抽取和评价的方法。通过对句子的多个特征进行分析,在综合这些答案抽取算法的基础上,对答案的准确率和召回率的评价指标综合考量。实践证明遗传算法是一种简单有效的优化算法,应用遗传算法对句子相似度特征权重做优化,使权重的分配更加合理,从而计算结果达到最优。  相似文献   

7.
网页的内容信息对于提高聚类质量来说并不完全够用,针对网络社区网页之间存在的天然链接关系,本文提出了一种挖掘用户标签的增强型社区网页聚类算法.本文采用多种距离度量方法,并挖掘网页链接关系,然后将网页的内容信息相似度和链接关系结合起来进行聚类.实验表明,提出的算法是有效的.  相似文献   

8.
网页排序算法对根据用户查询词搜索到的大量页面进行排序,从而返回给用户,因此排序算法对搜索引擎的好坏起着关键作用。Nutch搜索引擎只实现了基本的综合排序模型,针对Nutch默认排序算法的不足,在Page Rank算法中加入时间因子、链接权重因子,并结合How Net来计算网页的语义相似度,将改进后的Page Rank算法和基于语义的主题相关度算法应用在Nutch排序算法中。实验结果表明:改进的排序算法使得Nutch的搜索结果排序准确率和首页命中率都有了明显提升。  相似文献   

9.
基于特征事务元素的用户事务聚类方法研究   总被引:4,自引:2,他引:2  
针对现有用户访问事务聚类算法复杂度较高的问题,文章提出了一种新的用户事务聚类算法。首先对用户事务中访问过的页面浏览次数和时间进行综合统计,并定义了函数,将其映射为页面访问时间属性值;其次通过抽取事务的特征事务元素集,建立新的聚类对象集事务,实现对原有事务的降维。最后给出计算事务相似度的方法.并得到一个模糊相似度矩阵以实现事务聚类。该算法具有较高的准确性,计算复杂度低,扩展性好,可以广泛地应用于电子商务领域。  相似文献   

10.
基于蚁群算法的神经网络规则抽取   总被引:1,自引:0,他引:1  
从神经网络的功能性观点出发,将蚁群算法用于神经网络的规则抽取,为每个隐单元和输出单元生成各自的规则,然后依照网络的传导方向聚合这些规则,从而为整个网络抽取出理解性好、简洁的符号规则.该方法不依赖于具体的网络结构和训练算法,可以方便地应用于各种分类器型神经网络.实验结果表明了该方法的实用性和可行性.  相似文献   

11.
To address the problem of extracting valuable information from massive Web pages in big data environments,a novel information extraction method based on node property and text content for massive Web pages was put forward.Web pages were converted into a document object model (DOM) tree,and a pruning and fusion algorithm was introduced to simplify the DOM tree.For each node in the DOM tree,both density property and vision property was defined and Web pages were pretreated based on these property values.A MapReduce framework was employed to realize parallel information extraction from massive Web pages.Simulation and experimental results demonstrate that the proposed extraction method can not only achieve better performance but also have higher scalability compared with other methods.  相似文献   

12.
为了有效、自适应地提取镜头中的关键帧,提出了一种基于吞噬聚类的关键帧提取新算法。该算法通过邻近吞噬体的互相吞噬,聚类相似的数据对象,最后所剩吞噬体的吞噬中心即为视频帧的聚类中心,距离聚类中心最近的特征向量所代表的视频帧就是所需要的镜头关键帧。对该算法利用MATLAB仿真并通过与传统算法对比,结果表明,相对于传统算法,该算法的查全率和查准率都有了一定程度的提高。  相似文献   

13.
Independent quality of service(QoS)registration center is difficult to monitor QoS with lots of requests in Internet environment with a large number of services and lots of service requests.It is able to reduce the load and decrease the failure rate by using multiple QoS registration centers to monitor QoS of some services with lots of requests.In addition,the heterogeneous QoS data close to user’s habitual expression and adapts to the environment with complexity and uncertainty.This paper introduces a novel Web service composition algorithm based on technique for order preference by similarity to an ideal solution(TOPSIS)(WSCA_TOPSIS)to solve the above difficulties for the first time.WSCA_TOPSIS can support multiple decision-makers and heterogeneous QoS data.It includes three main steps:normalizing decision matrix,evaluating alternatives synthetically and evaluating group alternatives synthetically.Other contributions of the paper include a novel algorithm of aggregating QoS and a set of experiments that demonstrate the benefits and effectiveness of our approach.Experimental results show that the proposed algorithm can better support Web service composition with heterogeneous QoS data and multiple decision-makers.  相似文献   

14.
综述了基于Web的数学信息表示的已有方法,并提出了基于SVG的数学信息描述模型解决Web数学信息表示问题.该模型采用面向对象的方法来描述,主要包括类结构、图元描述模型和文档解析模型.  相似文献   

15.
感兴趣区域(ROI)是最能体现图像内容的区域,基于ROI的图像特征提取技术有效提高了图像处理和分析的效率,在图像处理与分析领域有着重要的应用.首先简要介绍现有的车牌提取方法,针对目前复杂环境下的车牌ROI提取算法提取效果不明显、计算繁琐、漏检率高等缺点,提出一种采用颜色特征和模板匹配的车牌ROI提取算法,该算法避免大量运算,具有相对于图像平移、尺度变化的低敏感性,并且取得了较好的实验效果.  相似文献   

16.
随着我国信息化进程的推进,人们开始认识到互联网作为信息来源的重要性,如何更有效地从网络的海量信息中抽取所需要的内容并进行合理的组织和利用已经成为亟待解决的问题。本文通过对DSE算法和RoadRunner系统中的算法的探讨和改进,提出了一种新的自动生成模板的信息抽取方法,并且在确定同模板网页url的阈值时引入了生物信息学中的FDR方法,为阈值的确定提出了理论根据。实验结果表明,经过改进的抽取方法对抽取结果的准确率有着明显的改善作用。  相似文献   

17.
针对现有的大部分网络服务分类机制基本上靠人工分类的缺陷,以及半自动分类技术准确率和查全率的效率较低等问题,进行了基于后缀树聚类算法的网络服务自动分类技术研究,同时提出概念与例子层次树结构来表示部分存在上下位关系或者同义关系的聚类标签,在后缀树聚类基础上对这些标签进行二次聚类。通过引入文本预处理和WordNet语义相似度计算的基础上来实现服务自动分类。实验结果表明,该服务自动分类算法具有较好的准备率和查全率,另外根据WordNet提取出抽象的聚类标签,有利于对日益剧增的网络服务进行抽象层次的分类,提高了海量网络服务分类的效率。  相似文献   

18.
针对PDF文件的特点,应用pdfbox开源库对PDF文件进行解析,去除PDF文件的文件头、交叉引用表以及文件尾等额外的文档描述信息得到目标信息。在研究不确定性理论的基础上,确定初始证据各种特征的可信度计算方法,通过推理网络及证据理论的推理算法,得到各个证据的可信度,最后比较各个证据可信度,对论文元数据进行抽取。实验表明,各类元数据的查全率都在87%以上,查准率都在92%以上,与常用的正则表达式方法相比准确率提高了10%以上,大幅提高了工作效率。  相似文献   

19.
基于Web Service的数据抽取研究与设计   总被引:1,自引:0,他引:1  
Web Service是新兴的技术,将Web Service技术运用到数据抽取中,可以快速、准确地将数据抽取出来,并且能够在不同网络环境下进行数据处理。阐述Web Service的优点和结构,从Web Service的原理入手,以网格项目做背景,设计数据抽取的模型,讨论Web Service在数据抽取中的设计方法,并进行通过Web Service进行数据抽取的相关实验。  相似文献   

20.
Web服务组合是为Web用户提供高质量、个性化服务的主要手段,而Web服务选择是进行组合的前提和基础。阐述了蚁群算法的原理,分析了Web服务选择的模型,把蚁群算法引入Web服务选择领域,将基于QoS的Web服务选择问题转化为最优路径选择问题。给出了使用蚁群算法解决Web服务选择问题的实施步骤,对比分析了蚁群算法在不同参数下对服务选择正确率的影响,通过具体的场景测试了蚁群算法对于解决Web服务选择问题的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号