首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 31 毫秒
1.
基于多知识的Web网页信息抽取方法   总被引:10,自引:1,他引:9  
从Web网页中自动抽取所需要的信息内容,是互联网信息智能搜取的一个重要研究课题,为有效解决网页信息抽取所需的信息描述知识获取问题,这里提出了一个种基于多知识的Web网页信息抽取方法(简称MKIE方法)。该方法将网页信息抽取所需的知识分为二类,一类是描绘网页内容本身表示特点,以及识别各网信息对象的确定模式知识,另一类则描述网页信息记录块,以及各网页信息对象的非确定模式知识,MKIE方法根据前一类知识,动态分析获得后一类知识;并利用这两类知识,最终完全从信息内容类似担其表现形式各异的网页中,抽取出所需要的信息,美大学教员论文网页信息抽取实验结果表明,MKIE方法具有较强的网而信息自动识别与抽取能力。  相似文献   

2.
文章提出了一种基于DOM(文档结构模型)和网页模板的Web信息提取方法.参照DOM的定义,通过构造HTML解析树来描述网页结构.在抽取网页之前,先通过归纳网页模板来过滤网页中的噪音信息.然后,使用基于相对路径的抽取规则来进行信息抽取.最后,本文给出了归纳网页模板和抽取网页信息的实验结果.实验结果表明本文提出的归纳网页模板方法和信息抽取方法是正确的和高效的.  相似文献   

3.
信息抽取是从大量的数据中准确、快速地获取目标信息,提高信息的利用率。考虑网页数据的特点,提出一种适用于网页信息抽取改进的隐马尔科夫模型(HMM),即结合最大熵模型(ME)在特征知识表示方面的优势,在HMM模型中加入后向依赖,利用发射单元特征来调整模型参数。改进后的HMM状态转移概率和观察输出概率不仅依赖于模型的当前状态值,而且可以以模型的前向状态值和后向特征值加以修正。实验结果表明,使用改进后的HMM模型应用到网页信息抽取中,可以有效地提高网页信息抽取的质量。  相似文献   

4.
现有的多记录网页抽取方法通常是对文件对象模型( DOM)树进行整体纵向结构分析,计算的结构相似度普遍偏低,使其不能正确识别记录区域。文中提出基于DOM树层次特征的记录抽取方法,该方法利用DOM树不同层次节点的不同作用对其进行横向分析,将寻找相似子树的问题转换为寻找节点块的相似子块,最后采用双向拓展搜索非重叠重复子块进行记录分隔。实验表明该方法能抽取现有抽取器无法处理的页面,多个数据源的抽取结果验证其有效性。  相似文献   

5.
针对现今较流行的动态Web网页数量巨大、数据价值高,并且网页结构高度模板化的特点,设计了一个基于网页聚类的Web信息自动抽取系统。在DOM抽取技术基础上利用网页聚类寻找高相似簇,并引入列相似度和全局自相似度计算方法,提高了聚类结果的准确性。抽取模板中应用了可选节点对模板的修正和调整,以提高内容节点的正确标识。实验结果表明,该方法能够自动寻找并抽取网页主要信息,达到了较高的准确率和查全率。  相似文献   

6.
网络信息抽取是从半结构化的Web海量数据中,按用户要求抽取且形成相关的有效的结构数据处理过程。论文以隐马尔科夫模型(HMM)进行数据抽取中的若干关键问题进行研究,提出了基于数据挖掘聚类的模型合并方法生成隐马尔可夫模型,即可根据数据自动生成HMM,同时对一般的隐马尔可夫模型进行了扩展,为每个抽取域生成一个隐马尔可夫模型,用于获取更多的有用信息。  相似文献   

7.
目前网页标题的抽取方法大多结合HTML结构和标签特征进行抽取,但是这些方法并没有考虑标题与正文信息之间内容上的联系。该文提出一种基于相似度的网页标题抽取方法,该方法利用网页标题与正文信息之间的关系,通过计算语言“单位”之间的相似度和对应的权值,并引入HITS算法模型对权值进行调整,根据特定的选取方法抽取出真实标题。实验结果表明,该方法不仅对“非标准网页”的抽取达到满意的效果,而且对“标准网页”具有较高的泛化能力。  相似文献   

8.
基于网页结构特征的网页主要文本信息抽取策略   总被引:1,自引:0,他引:1  
根据网页文本信息的存储特点,提出一种网页文本信息抽取策略,有效地实现了对文本丰富型网页中主要文本信息的抽取工作.该抽取方法具有较强的空阃适应性和时间适应性.  相似文献   

9.
基于DOM的网页主题信息的抽取   总被引:1,自引:0,他引:1  
随着Internet的发展,Web页面信息量不断加大,信息密集程度不断加强。但Web页面的主题信息通常不太明确,抽取主题信息也比较困难。针对这一难题,提出一种算法:构建文档对象模型DOM(Document Object Model)树,然后针对HTML半结构特征的不足,为DOM添加显示、语义(链接数、非链接文字数、高度、宽度)等属性,并提出一种聚类规则来对其进行分块,最后对其进行剪枝,删除掉无用的信息,提取主题信息。实验表明,该方法能够准确抽取主题信息。  相似文献   

10.
当前的网页重复信息抽取方法缺少信息分类步骤,导致传统方法存在抽取全面率低、重复信息比例高以及整体性能差的问题。于是提出基于模式识别算法的网页重复信息抽取方法。利用类间平衡因子和词频获取网页信息的互信息特征。在关联规则的基础上根据网页置信度向量化互信息特征,完成网页信息特征的提取。利用模式识别中的支持向量机对网页信息分类,优化惩罚函数,建立软间隔支持向量机分类器。计算不同类别网页信息的结构相似度和语义相似度,结合上述计算结果获得网页信息相似性,完成网页重复信息的抽取。仿真结果表明,所提方法的抽取全面率高、重复信息比例低,且整体应用性能好,实验结果表明所提方法具有理想的应用效果。  相似文献   

11.
为了更彻底地清洗网页噪音,减少网页噪音对新闻内容抽取准确率的影响,提出基于模板页的相同噪音块清洗方法和基于class属性的同类噪音块和特殊噪音块清洗方法;在此基础上,利用新闻网页在内容布局结构上的特征,提出基于起始块和终止块的新闻内容抽取方法。实验结果表明,与已有的算法相比,提出的方法抽取准确率更高,能够同时适应正文内容存放在单块和多块的情形,并且有效地解决了正文内容较短时的抽取问题。  相似文献   

12.
正则表达式作为信息抽取领域中的一种常用方法已经被广泛应用多年。然而构建高质量并且复杂度较高的正则表达式通常需要耗费大量人工成本,为此,提出一种基于正则表达式状态转换的算法来学习复杂正则表达式的构建过程。该算法需要给定输入初始正则以及正反例样本,初始正则表达式在经过析取分离与合并交叉两大类正则表达式状态转换之后,得到候选正则表达式集合,利用F值评估候选项的信息抽取效果,通过贪心的启发式策略选择一个最优正则表达式作为输出。在多种数据集上对算法进行测评。实验表明,该算法性能与准确度均优于常规的机器学习方法。尤其在较小规模训练集和跨数据集上依然有较好的效果。  相似文献   

13.
数值信息是文本中的一种重要信息,含有主体、属性、属性值等元素。然而当前数值信息抽取方法对比较关系的表示比较单一,对于含有多个数值的句子,其数值信息抽取的效果不佳。根据文本中数量关系表述特征,提出一种数值信息表示方法和数值信息抽取框架。根据数值信息中各个元素的特点,利用BI-LSTM-CRF模型对数值信息元素进行识别;利用语言特征判断属性值和其他元素之间的语义关系。该方法对数值信息抽取的准确率、召回率和F值分别达到0.775、0.752和0.763,优于现有的抽取的方法。  相似文献   

14.
Automatic flower boundary extraction is an important part of flower image recognition and retrieval. Identifying a flower of interest or segmenting against the background is a difficult task. We proposed and developed a hybrid automatic flower boundary extraction method called IPSOAntK-means based on swarm intelligence techniques in this article. The method employs ant colony optimization, incremental particle swarm optimization (IPSO), and K-means algorithms and it is the first swarm-based technique in flower segmentation on color images. The parameters of the algorithm are tuned by iterated F-race and experiments are conducted over two different benchmark data sets: CAVIAR-Flower and Oxford 17 flowers data sets. In the CAVIAR-flower data set, IPSOAntK-means outperformed K-means with 96.4% accuracy on average over 600 colored flower images. Comparison results of the Oxford flower data set show that our method is one of the best flower segmentation methods in the literature.  相似文献   

15.
基于扩展DOM树的Web页面信息抽取   总被引:1,自引:0,他引:1  
随着Internet的发展,Web页面提供的信息量日益增长,信息的密集程度也不断增强.多数Web页面包含多个信息块,它们布局紧凑,在HTML语法上具有类似的模式.针对含有多信息块的Web页面,提出一种信息抽取的方法:首先创建扩展的DOM(Document Object Model)树,将页面抽取成离散的信息条;然后根据扩展DOM树的层次结构,并结合必要的视觉特性和语义信息对离散化的信息条重新整合;最后确定包含信息块的子树,深度遍历DOM树实现信息抽取.该算法能对多信息块的Web页面进行信息抽取.  相似文献   

16.
网络信息时代的到来使得网络中的信息量呈指数增长,由此研究如何从网页中高效地提取出有用信息成为网络信息检索领域中的重要课题。从网页的可视性和统一性两大基本特征出发,提出一种通过检测分隔条对网页进行分块的算法,并使用相对位置排版的概念解决在部分分块的高度未知的情况下如何表示各分块的相对位置的问题。分块过程中,通过已分块数、节点的信息长度、宽高等信息综合确定分块的终止条件,保证了算法的执行效率和有效性。实验结果说明,该算法具有较高的执行效率。  相似文献   

17.
星图识别是星敏感器研究中的关键技术之一。现有的算法都是对每一个观测星在未知任何信息的情况下进行识别,而没有利用已经识别的观测星信息。如果利用已经识别的观测星信息,则可以大量减小其余星识别的计算量。研究利用已识别的观测星信息进行其余星的识别。给出了导航星库的建立方法和数据结构,以及已知3颗以上观测星时其余星的识别过程。提出的识别算法的导航星库只需要星对角距信息,存储量小,经对模拟星图的识别,其余星的平均识别时间为3.34m s,小于现有的识别算法。  相似文献   

18.
无线识别技术由于实现成本较低且能够有效简化货物的识别过程而受到各行业的关注。无线识别技术需要从大量的标签中迅速、准确地获取标签信息。由于扫描时间成本和标签成本的限制,无法避免扫描过程中多个标签信息碰撞的发生。以基于树的查询系列算法为代表的确定性防碰撞算法因可靠性高而获得大量应用。但是,这些算法的标签识别时间较长同时识别的总通信量较大。提出一种分段抽取的防碰撞算法。理论分析与仿真表明,该算法与已有典型确定性算法相比,具有更低的标签识别时间和更少的总通信量。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号