首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
随着因特网技术的迅速发展,网上信息成几何级数增长,如何从这些海量联机非结构化文本中自动抽取出结构化信息成为目前重要的研究课题。研究了基于隐马尔可夫模型的Web信息抽取算法,着重探讨了隐马尔可夫模型在文本信息抽取中应该如何应用,数据应该如何标记,并对隐马尔可夫模型在文本信息抽取中的应用提出了几个改进的方法,建立了基于HMM的Web信息抽取模型,并对信息抽取后的数据进行了分析对比,验证了改进算法的有效性。  相似文献   

2.
基于条件随机域CRF模型的文本信息抽取   总被引:1,自引:0,他引:1  
为了抽取文本中的信息,在分析对比了4种统计建模原型后,选用条件随机域CRF建立抽取模型,提出了一种文本信息抽取的方法.该方法对文本分析后加标注,确定文本特征集,采用有限内存拟牛顿迭代方法L-BFGS算法估计CRF模型参数,根据训练学习得出的模型,实现科研论文数据集头部文本信息的抽取.实验结果表明,使用CRF模型的抽取准确率达到90%以上,远远高于使用HMM模型的抽取准确率.  相似文献   

3.
传统Web信息抽取的隐马尔可夫模型对初值十分敏感和在实际训练中极易得到局部最优模型参数。提出了一种使用遗传算法优化HMM模型参数的Web信息抽取混合算法。该算法使用实数矩阵编码表示染色体,似然概率值为适应度取值,将GA与Baum-Welch算法相结合对HMM模型参数进行全局优化,并且调整GA-HMM的Baum-Welch算法参数实现Web信息抽取。实验结果表明,新的算法在精确度和召回率指标上比传统HMM具有更好的性能。  相似文献   

4.
实体关系抽取是信息抽取研究领域中的重要研究课题之一.针对已有方法在处理复杂文本上的不足,提出了复杂中文文本的实体关系抽取方法.结合中文文本的语法特征,提出了7条抽取关系特征序列的启发式规则,并采用语义序列核和KNN机器学习算法结合的方法来分类和标注关系的类型.通过对ACE评测定义下的两个子类的实体关系抽取,关系抽取的平均F值迭到了76%,明显高于传统的基于特征向量和最短依存路径核的方法.  相似文献   

5.
作为自然语言处理的一个分支,文本信息抽取成为了提取大量文本信息中有用信息的重要手段.介绍了目前在信息抽取领域中应用广泛的两种技术方法:HMM和BP网络模型,分析了各自的优缺点,并在此基础上提出了一种基于两者的混合模型,该混合模型通过BP网络优秀的分类甄别能力来弥补HMM在分类方面的不足,而通过HMM强大的时域建模能力来弥补BP网络建模能力弱的问题,因此该模型具有强大的建模能力、分类性以及适应性强等特点.实验证明,相比传统的HMM以及BP网络模型,该混和模型在精确度和召回率上有了10%~15%的提高.  相似文献   

6.
基于改进HMM的文本信息抽取模型   总被引:1,自引:0,他引:1       下载免费PDF全文
梁吉光  田俊华  姜杰 《计算机工程》2011,37(20):178-179
提出一种基于改进隐马尔可夫模型(HMM)的文本信息抽取模型。给出一个新假设,使用绝对平滑算法对模型参数进行平滑,利用Viterbi算法对观察值序列进行正序和逆序解码,基于N-Gram模型对2次解码结果进行对比消歧,得到较准确的状态序列。实验结果表 明,该信息抽取模型能提高信息抽取的准确率。  相似文献   

7.
为进一步提高Web信息抽取的准确率,针对隐马尔可夫模型HMM(Hidden Markov Model)及混合法在参数寻优上的不足,提出一种改进遗传退火HMM的Web抽取算法。构建一个后向依赖假设的HMM;用改进遗传退火优化HMM参数,将遗传算子和模拟退火SA(simulated annealing)参数改进后,据GA(genetic algorithm)的自适应交叉、变异概率给子群体分类,实现多种群并行搜索和信息交换,以避免早熟,加速收敛;并将SA作为GA算子,加强局部寻优能力;最后,用双序Viterbi解码,与现有HMM优化法相比,实验的综合Fβ=1平均提高了6%,表明改进算法能有效提高抽取准确率和寻优性能。  相似文献   

8.
评价搭配抽取是情感分析的基础任务之一。目前大部分抽取方法都是以依存句法分析为基础,但依存分析对中文评论文本的分析结果不稳定。针对此问题,提出了融合核心句抽取与依存关系的评价搭配抽取方法。该方法利用核心句抽取规则简化评论句结构,在此基础上进行依存句法分析,根据人工构建的依存关系模板进行评价搭配的抽取,并引入潜在评价搭配抽取规则抽取文本中省略评价对象的评价搭配。在中文酒店评论语料中进行试验,与基于依存分析的方法相比,该方法的F值提高约7%,证明了该方法的有效性。  相似文献   

9.
传统的文本信息抽取算法通常基于词典、规则或其他模型实现,但由于词典建立困难、规则设定模糊或模型结构单一等原因,信息抽取的准确性通常较低。针对传统的文本信息抽取算法存在的多种不足,提出一种基于混合模型的文本信息抽取算法。该算法融合了多种信息抽取方法,引入支持向量机对信息进行分类,利用S型函数拟合调整模型参数,并采用数据平滑技术优化模型概率空间。实验结果表明,与传统的文本信息抽取算法相比,该算法信息抽取的精确度和召回率明显提高,具有较好的可行性。  相似文献   

10.
本文分析了目前Web数据抽取主流技术,针对领域网站上文本信息采用MDR算法进行抽取,阐述了网页抽取的工作流程,并通过引入文本分类算法提高了网页抽取的查准率.  相似文献   

11.
12.
针对目前已有的文本分类方法未考虑文本内部词之间的语义依存信息而需要大量训练数据的问题,提出基于语义依存分析的图网络文本分类模型TextSGN。首先对文本进行语义依存分析,对语义依存关系图中的节点(单个词)和边(依存关系)进行词嵌入和one-hot编码;在此基础上,为了对语义依存关系进行快速挖掘,提出一个SGN网络块,通过从结构层面定义信息传递的方式来对图中的节点和边进行更新,从而快速地挖掘语义依存信息,使得网络更快地收敛。在多组公开数据集上训练分类模型并进行分类测试,结果表明,TextSGN模型在短文本分类上的准确率达到95.2%,较次优分类法效果提升了3.6%。  相似文献   

13.
特征提取是文本抄袭检测的重要环节,文本特征的数量和质量严重影响文本抄袭检测的准确率。针对现有方法的不足,提出一种基于依存句法的文本抄袭检测算法。该算法在依存句法分析的基础上,通过分析句子中词语间的关系以及合并短小词语建立句法框架,进而提取文本特征。其中,短小词语的合并能够使无意义词语合并成为有意义实体来表示文本特征,使文本特征更全面。实验结果表明,该文本特征提取算法能够准确选择文本的特征集,解决了文本特征数量多的问题,检测的准确率也有所提高。  相似文献   

14.
张万山  肖瑶  梁俊杰  余敦辉 《计算机应用》2014,34(11):3144-3146
针对传统Web文本聚类算法没有考虑Web文本主题信息导致对多主题Web文本聚类结果准确率不高的问题,提出基于主题的Web文本聚类方法。该方法通过主题提取、特征抽取、文本聚类三个步骤实现对多主题Web文本的聚类。相对于传统的Web文本聚类算法,所提方法充分考虑了Web文本的主题信息。实验结果表明,对多主题Web文本聚类,所提方法的准确率比基于K-means的文本聚类方法和基于《知网》的文本聚类方法要好。  相似文献   

15.
基于多模板隐马尔可夫模型的文本信息抽取算法   总被引:1,自引:0,他引:1  
由于训练数据来源的多样化,难以通过学习得到最优的模型参数,因此提出了一种基于多模板隐马尔可夫模型的文本信息抽取算法。该算法首先利用文本排版格式和分隔符等信息,对文本进行分块;然后在分块的基础上,对训练数据进行聚类以形成多个形式的模板(多模板),并对多模板数据训练得到隐马尔可夫初始概率及转移概率参数;最后,用被训练的数据统一训练释放概率参数,结合初始概率、转移概率以及释放概率参数对文本信息进行抽取。实验结果表明,该算法在精确度和召回率指标上比简单隐马尔可夫模型具有更好的性能。  相似文献   

16.
Rekha  D.  Sangeetha  J.  Ramaswamy  V. 《The Journal of supercomputing》2022,78(2):2580-2596

The selection of text features is a fundamental task and plays an important role in digital document analysis. Conventional methods in text feature extraction necessitate indigenous features. Obtaining an efficient feature is an extensive process, but a new and real-time representation of features in text data is a challenging task. Deep learning is making inroads in digital document mining. A significant distinction between deep learning and traditional methods is that deep learning learns features in a digital document in an automatic manner. In this paper, logistic regression and deep dependency parsing (LR-DDP) methods are proposed. The logistic regression token generation model generates robust tokens by means of Napierian grammar. With the robust generated tokens, a deep transition-based dependency parsing using duplex long short-term memory is designed. Experimental results demonstrate that our dependency parser achieves comparable performance in terms of digital document parsing accuracy, parsing time and overhead when compared to existing methods. Hence, these methods are found to be computationally efficient and accurate.

  相似文献   

17.
句法分析是自然语言处理的基础技术,主流的由数据驱动的神经网络句法分析模型需要大规模的标注数据,但是通过人工标注扩展树库成本很高,因此如何利用现有标注树库进行数据增强成为研究焦点。在汉语句法分析的数据增强任务中,对于给定的标注树库,要求数据增强所生成的句子满足如下条件: 第一,要求生成句具有多样化且完整的句法树结构;第二,要求生成句具有合理的语义。对此,我们首次提出基于词汇化树邻接语法的数据增强方法。针对第一个需求,该文设计实现基于词汇化树邻接语法的词汇化树抽取算法与句法树合成算法,基于该语法可以在句法树之间进行“接插”和“替换”的操作,从而推导生成新的句法树,并且用语言学的知识保证生成句符合语法规则且具有完整的句法树结构。针对第二个需求,该文利用语言模型对生成句进行语义合理性评估,选取语义合理的句子作为最终的增强数据,从而获取高质量的标注树库。我们以汉语为例开展研究,在汉语树库CTB5上进行句法分析的数据增强评测实验。实验结果显示,在小样本(CTB5的20%)实验中,通过该方法得到的增强数据使依存句法分析和成分句法分析的精度分别提高1.39%和2.14%。在鲁棒性实验中,该文通过构建扩展测试集进行评测实验,在扩展测试集上,通过该方法得到的增强数据使依存句法分析和成分句法分析的精度分别提高1.43%和0.44%,表现出更好的鲁棒性。  相似文献   

18.
一种基于反向文本频率互信息的文本挖掘算法研究   总被引:1,自引:0,他引:1  
针对传统的文本分类算法存在着各特征词对分类结果的影响相同,分类准确率较低,同时造成了算法时间复杂度的增加,在分析了文本分类系统的一般模型,以及在应用了互信息量的特征提取方法提取特征项的基础上,提出一种基于反向文本频率互信息熵文本分类算法。该算法首先采用基于向量空间模型(vector spacemodel,VSM)对文本样本向量进行特征提取;然后对文本信息提取关键词集,筛选文本中的关键词,采用互信息来表示并计算词汇与文档分类相关度;最后计算关键词在文档中的权重。实验结果表明了提出的改进算法与传统的分类算法相比,具有较高的运算速度和较强的非线性映射能力,在收敛速度和准确程度上也有更好的分类效果。  相似文献   

19.
为减少软件静态分析中信息冗余度并提高信息提取的准确率和效率,提出了一种基于关系存储模式的关系语法树模型,以终结符之间的依存关系建模,有效地减少了信息冗余度,并以可扩展标记语言(extensible markup language,XML)标准格式存储.利用了成熟的XML解析技术,设计了一种基于XML中间模型的静态检测方法,并将该方法应用于编程规范检测申.实验结果表明,该方法有效地提高了检测效率和精度.  相似文献   

20.
隐式方面提取对于提升细粒度情感分析的准确性具有重要意义,然而现有隐式方面提取技术在处理大规模数据时泛化能力不强。为此,提出结合依存句法分析与交互注意力机制的隐式方面提取模型。首先利用预训练语言模型BERT生成文本的初始表征,然后传递给依存句法引导的自注意力层再次处理,再将两次处理的结果经交互注意力机制进一步提取特征,最终用分类器判断句子所属的隐式方面类别。与基线BERT及其他深度神经网络模型对比,所提模型在增强的SemEval隐式方面数据集上取得了更高的F1与AUC值,证明了模型的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号