首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
基于编码器-解码器(encoder-decoder)框架的生成式方法在关键词抽取任务上得到了广泛应用并取得了较好的性能,然而该方法面临的主要挑战为建模有效的文档向量表示,及生成覆盖整个文档主题的关键词集合,这些挑战都会直接影响关键词抽取的结果.该文提出了结合邻域知识的文档级关键词抽取模型以应对这些挑战.具体来说,通过给...  相似文献   

2.
为提高关键词自动抽取的准确率,提出了基于字同现频率的关键词自动抽取算法。根据词的位置和文本长度改进TF/IDF算法,由字同现频率计算词的信息量,运用特征加权计算词的权重,选取权重大的词作为关键词。给出了关键词自动抽取的过程,设计了关键词抽取的对比实验,验证该算法的有效性。实验结果表明该算法在准确率和召回率上具有优势。  相似文献   

3.
基于HL7的电子病历关键信息抽取技术研究   总被引:2,自引:0,他引:2  
结合HL7(Health Level Seven)标准的数据存储特点对目前电子病历的内容和结构进行了深入分析,提出了医疗信息五元组模式,以及更为细化的二元组和语义类描述,并在此基础上提出了模式泛化、模式获取、医疗信息自动抽取等一系列算法.通过实际312份住院病历数据下的实验表明,系统在查准率与查全率方面,获得了较好的结...  相似文献   

4.
提出了一种基于信息墒和词语活跃度的领域词抽取方法,通过对语料进行预处理,提取出候选领域词,计算所有候选领域词的正规化类间分布(NCD)和正规化类内分布(NDD),设置阈值对候选领域词过滤,最后分析了双字候选领域词中包含的常见噪音词语,使用词语活跃度对候选领域词中的双字词语进行过滤,该方法综合考虑了领域词在类别中的概率分布和领域词的内部特征。实验结果表明,该方法在领域词的识别上具有较好的准确率和召回率。  相似文献   

5.
6.
针对现有网络论坛信息抽取的不足,提出了一种基于重复模式发现算法的论坛信息抽取方法.该方法首先利用SgmlReader解析器将HTML文档转换为格式规范的XHTML文档,然后通过计算XHTML文档结构中DOM子树相似度,自动发现论坛页面结构的重复模式.该方法通过自动定位重复模式进行论坛信息抽取,较好地解决了在论坛信息抽取过程中需要人工查找、定位重复模式或者通过人工分析论坛页面代码定制抽取规则的问题.试验结果表明,该方法具有较好的准确性、通用性和实用性.  相似文献   

7.
事件抽取技术的回顾与展望   总被引:1,自引:0,他引:1  
事件抽取技术是信息抽取领域一个重要的研究方向。近年来,在自动内容抽取等评测会议的推动下,事件抽取的研究得出了一系列理论和算法,并推出一些实用的系统。详细介绍了事件抽取的主要研究任务,重点论述和分析了事件抽取的主要方法、研究现状及关键技术,最后总结事件抽取的发展历程、事件抽取技术当前面临的挑战以及未来需要努力的方向。  相似文献   

8.
为对网络在线评论进行高效率的文本分析与提取,本文提出一种基于HtmlParser的文本抽取解析算法.首先通过语言与格式规则进行标签筛选,实现基于HtmlParser的网页文本数据抽取算法,然后采用Regex模式对抽取文本进行清洗去噪.最后通过实验,结合正确率与召回率等指标验证了算法的有效性.  相似文献   

9.
基于目前互联网的信息与日俱增而用户评论信息利用度很低的现状,提出了一种基于最大熵分类器进行评论信息抽取的方法,并结合自然语言处理技术,利用同义词林以及反义词林定位产品评论属性值的语义极性。最后,通过试验验证了评论信息抽取方法的可行性。  相似文献   

10.
互联网的快速发展以及Web数据的日益庞大,使用户从Web中获取有用信息变得日益困难,如何快速有效地从Web中准确抽取信息已经成为亟待解决的问题,Web信息抽取技术应运而生.提出了一种新的基于XML的WEB信息自动抽取方法,采用数据转换算法将HTML文档标准化,通过学习样本实例的XPATH表达式,形成抽取规则库,并利用规则库对其它同类页面实现信息的自动抽取.实验结果表明,该方法具有较高的查全率和查准率,且抽取结果具有自描述性,方便于建立各个领域的数据抽取系统.  相似文献   

11.
关键词提取是中文信息处理的一个关键环节。提出一种关键词自动提取的有效方法,首先对普通词典进行了扩充,在普通词典的基础上结合大量的训练样本对词典进行训练得到一个带有TFxIDF值和互信息的优化词典。然后在此词典上按段落进行切词,对切词结果集根据词频、权重、同现关系和互信息排序后筛选出候选关键词。最后根据候选词的上位词和下位词进行词汇合并,设定一个阀值,取出其中的n个词作为文章的关键词。通过小数据测试样本集的抽取实验结果表明,文中方法在一定程度上能够提高关键词提取的正确率,得到了较为满意的效果.  相似文献   

12.
针对典型的循环神经网络方法在抽取主题词时因缺少上下文相关的句子级信息而导致识别准确率较低的问题,提出了一种基于双向长短期记忆网络条件随机场(BiLSTM-CRF)模型联合TextRank的主题词抽取方法。首先,利用TextRank对新闻文本进行主题句抽取,再使用双向长短期记忆(BiLSTM)模型获取文本的前后特征,最后使用条件随机场(CRF)完成句子级序列标注,得到主题词。在多组体育类新闻数据集上进行实验,该方法较对照组BiLSTM方法F1值提高约0.8%~5.1%,且用时更短。因此,改进的BiLSTM-CRF方法可显著提升主题词的抽取准确率和效率。  相似文献   

13.
歧义字段处理一直是中文信息处理领域中最关键也是最困难的问题之一,至今该问题仍没有得到完全而有效的解决,使得以此为基础的多个应用领域都难以取得突破性进展。传统的消歧方法--规则消歧和统计消歧都有不可避免的缺点:规则消歧存在规则的完备性与合理性问题,统计消歧则只取大概率事件而忽视小概率事件。在研究了知网表达汉语知识的基础上,改进了基于知网语义相关度的计算模型,并应用于汉语的歧义字段处理中。经大量例句作实验,以句子为单位的切分正确率可达到97.1%,验证了该消歧方法的有效性。  相似文献   

14.
通过一个简单的程序,把计算机中的英、汉字符集按内码编排为一个总字表.并可以计算出某一指定的档案中出现的英、汉字元的字频.这些信息的取得,对计算机信息处理都有重要的帮助.  相似文献   

15.
为了从海量文本中高效提取知识,提出了一种基于上下文关系和TextRank算法的中文文本关键词提取方法.首先使用传统方法提取出初始关键词,然后利用互信息筛选出在上下文中对关键词依赖程度大的词,将其作为候选关键词,最后利用TextRank算法计算出最能表达文本主题思想的特征关键词.实验结果表明,与传统方法相比,所提算法在查准率、查全率等相关指标上均有提高.  相似文献   

16.
提出了一种针对小训练集环境的文本自动分类方法。在传统自动训练过程中通过训练集为每个类别建立初步类别特征向量,由于初步类别特征向量是在小训练集基础上建立的,含有的类别特征信息不够充分。在初步类别特征向量基础上,标定了一定数量的一级和二级类别核心特征词,在文本/类别相似度计算中,利用自动训练过程得到的核心特征词权重因子对核心特征词权重加权,以提高类别特征向量中类别特征信息的含量。实验结果显示,这种分类方法自动分类重合率达到94.12%以上,与不进行权重加权方法的52.94%相比,有很大提高。  相似文献   

17.
通过应用MDL准则在信号检测中的特性,引入检测统计量和设定最佳判决门限,得到了一种新的UW检测方法,它与常用的检测方法不同之处在于可在调制数据上进行。通过对该检测方法的分析和计算机仿真,表明该检测方法能适应大频偏条件,并具有较好的检测性能。  相似文献   

18.
本文提出一种基于词频统计的关键词抽取方法。利用了TextTiling方法、遗传算法和"成对比较法"进行了算法优化。  相似文献   

19.
无监督的动态分词方法   总被引:2,自引:0,他引:2  
介绍了一种变长汉语语料自动分词方法,这种方法以信息理论中极限熵的概念为基础,运用汉字字串间最大似然度的概念,对汉语语料进行自动分词。讨论了这些方法的局限性,并列出了一些试验结果。  相似文献   

20.
本文提出一种建立在改进的倒排文件结构基础上的主题词处理方法,用于微型计算机情报检索系统中,它是以若干相关数据库及其互访指针形成的体系结构为核心,并辅以一系列词串预处理、查找、插入、删除法来实现主题词处理的,该方法能有效地节省存贮空间,动态生成主题词典,并有较快的主题检索速度,且提供用户的主题词操作界面友好方便,合符习惯。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号