共查询到20条相似文献,搜索用时 15 毫秒
1.
《沈阳航空航天大学学报》2010,(3)
专利主题词是用以表述发明或实用新型名称的技术关键词,专利主题词的抽取是专利技术方案信息抽取的第一步,是填充信息抽取结果模板的有效依据和填充子之一。将信息抽取技术应用于中文专利摘要文本,在充分分析了专利摘要文本和专利标题特点的基础上,采用无指导的方法构建信息抽取模板,进而完成专利主题词的抽取。实验表明,该方法获得了较好的抽取效果。 相似文献
2.
为对网络在线评论进行高效率的文本分析与提取,本文提出一种基于HtmlParser的文本抽取解析算法.首先通过语言与格式规则进行标签筛选,实现基于HtmlParser的网页文本数据抽取算法,然后采用Regex模式对抽取文本进行清洗去噪.最后通过实验,结合正确率与召回率等指标验证了算法的有效性. 相似文献
3.
4.
《沈阳航空航天大学学报》2010,(4)
科技术语是专利文献的重要组成部分,集中承载着特定领域的核心知识,对于科技信息的传播与交流有着重要的作用,也是专利文献内容深层次理解的基础。本文深入分析了术语的特点,围绕术语获取、术语翻译和术语分析等术语自动处理领域的关键技术,对当前的主流方法以及其中存在的难点问题进行了讨论。提出了一套术语自动处理方法,取得了较好的效果。 相似文献
5.
借助文本预处理工具Gate和通用本体Word Net,采用统计、频繁项挖掘、模式匹配、启发式学习和主动学习等技术,学习本体基元——概念(含实例)、概念间的分类关系、概念间的语义关系和概念属性,其中概念属性学习为本文首次提出。实验结果表明,本文方法改善了概念语义排歧效果,丰富了短语概念学习与语义关系学习,提高了本体自动构建的准确度,降低了本体学习的代价。 相似文献
6.
针对中医领域,提出了一种基于条件随机场的术语抽取方法,该方法将中医领域术语抽取看作一个序列标注问题,将中医领域术语分布的特征量化作为训练的特征,利用CRF工具包训练出一个领域术语模型,然后利用该模型进行术语抽取.选择<名医类案>作为中医领域文本进行术语抽取实验,取得了较好的效果,准确率为83.11%,召回率为81.04... 相似文献
7.
从文本大数据中快速准确地抽取文本的实体关系信息是构建知识图谱的关键.针对目前主流的远程监督关系抽取方法常常忽略实体对的类型信息和句子语法信息的问题,该文提出了一种基于深度强化学习的文本实体关系抽取方法.首先,利用结合实体周围词注意力机制的双向长短期记忆网络作为句子编码的第一个模块;然后,在此基础上加入实体类型嵌入模块,... 相似文献
8.
以突发事件领域为例,针对本体构建中领域概念间关系自动抽取的问题,提出了一种混合的领域概念间关系自动抽取方法,将领域概念间的关系分成关系类型未知和已知2种情况,并分别基于扩展关联规则和关系抽取规则进行抽取,同时提出了构造和自动扩展关系抽取规则的方法.实验结果表明,所提出的方法是可行和有效的,不仅能获得特定领域中存在的丰富的语义关系,而且能获得较好的性能. 相似文献
9.
在程序修复模板挖掘的过程中,由于历史修复信息中存在噪声干扰,导致挖掘出的修复模板可用性不强,程序修复效果不佳.再者,利用修复模板对程序缺陷进行修复是程序自动修复的关键.从修复模板挖掘和程序自动修复两方面出发,提出了一种改进的程序自动修复方法APRMT(automatic program repair method ba... 相似文献
10.
为全面分析专利提取有效信息,以TRIZ理论为基础,结合TRIZ中的不同分析工具进行专利分析.根据产品不同特点进行产品分类,主要对已有产品相关专利进行分析,制定以TRIZ为基础的面向已有产品专利布局策略的专利信息提取方法,得到更为全面、深层次的专利分析结果,对企业专利布局方向给予指导作用.通过分析清分扎把一体机相关专利,发现目前清分扎把一体机清分模块、扎把模块功能重复、占地面积大等问题,将这些问题作为产品未来发展及专利布局的方向,从而促进产品发展并对专利战略有指导意义. 相似文献
11.
互联网的快速发展以及Web数据的日益庞大,使用户从Web中获取有用信息变得日益困难,如何快速有效地从Web中准确抽取信息已经成为亟待解决的问题,Web信息抽取技术应运而生.提出了一种新的基于XML的WEB信息自动抽取方法,采用数据转换算法将HTML文档标准化,通过学习样本实例的XPATH表达式,形成抽取规则库,并利用规则库对其它同类页面实现信息的自动抽取.实验结果表明,该方法具有较高的查全率和查准率,且抽取结果具有自描述性,方便于建立各个领域的数据抽取系统. 相似文献
12.
王晴 《安徽电子信息职业技术学院学报》2021,20(4):6-12
随着互联网的普及,网络数据的增长速度也呈现出井喷的态势。通过搜索引擎获取网络信息,已成为人们获取信息的主要途径,因此,搜索引擎的搜索精度,就成了亟待研究的问题。本文首先研究了文本摘要领域国内外的研究现状,分析了目前该领域的研究成果,对各种算法进行了综合分析,然后针对科研网站这类多文本内容的网站,提出了一种基于统计的网站文本信息的抽取算法。该算法利用宽度优先搜索策略爬虫,获取网站的HTML源码,对源码的结构进行分析,将其解析成DOM树,最后再利用基于统计的方法将网站的文本信息抽取出来。通过验证,该算法可以较好地实现用于网站摘要的综合文本的抽取。 相似文献
13.
在分析了传统特征选择方法构造的4项基本信息元素的基础上提出一种强类别信息的度量标准,并在此基础上,提出一种适用于不平衡文本的特征选择方法.该方法综合考虑了类别信息因子、词频因子,分别用于提高少数类和多数类类别分类精度,该方法在reuter-21578数据集上进行了实验,实验结果表明,该特征选择方法比IG、CHI方法都更好,不但微平均指标有一定程度的提高,而且宏平均指标也有一定程度的提高. 相似文献
14.
研究了概念设计知识空间层次结构体系,分析了专利知识空间与已有设计知识空间之间的关系,说明了专利知识挖掘具有扩展设计知识空间、避免重复设计和促进产品创新的作用.提出了一种面向概念设计的专利知识挖掘方法,建立了统一的专利技术特征表示模型,利用词法分析、句法分析、语义分析等自然语言理解技术,抽取专利技术特征信息,通过不同层次的知识挖掘形成专利知识空间.以钻夹头产品设计为例,采用该方法挖掘相同设计领域的产品专利需求知识和功能知识,辅助产品的需求分析和功能结构变异,设计结果表明,该方法充分利用了专利资源,为概念设计提供丰富的设计知识,有效地提高了产品创新能力. 相似文献
15.
针对现有场景重建算法具有计算复杂度高且鲁棒性差的缺点,本文采用一种基于映射变换的黑箱标定方法,根据图像坐标与世界坐标的线性映射模型,利用矩阵方程获取摄像机参数。与传统方法相比,该方法仅需一幅模板图像,降低了特征点与模板个数,简化了计算。实验过程中,利用图像降噪、改进的Harris算子角点提取等预处理过程快速提取特征点,实现摄像机参数标定的映射变换;建立了误差评价函数评价本文方法与Tsai标定算法。实验结果表明,该方法具有稳定性强、计算精度高、算法简捷的特点。 相似文献
16.
一种基于多重词典的中文文本情感特征抽取方法 总被引:1,自引:1,他引:0
情感特征抽取是文本情感分类的重要步骤,正确的选择情感特征并赋予合理的情感权重是保障分类精度的前提。利用基础情感词词典、连词词典及词语距离,提出了一种基于多重词典的中文文本情感特征抽取算法,实验证明该方法优于HM,SO-PMI和词语语义距离等经典的特征抽取算法。 相似文献
17.
实体关系的自动抽取研究 总被引:6,自引:0,他引:6
针对实体关系的自动获取难题,将极大熵算法和Bootstrapping算法相结合,利用Bootstrapping算法和标量聚类的思想,通过设置种子模板和种子词获取了极大熵算法中所需的特征词.结合极大熵算法,从语言的形态学、语法、语义等方面系统地设计了9个特征,尽可能全方位地描述文实体的真实情况.搭建了实验所需的系统框架,实现了实体关系的自动抽取.实验结果表明:该方法能够有效地解决实体关系的自动生成问题. 相似文献
18.
为了给北京市知识产权预警能力研究提供基础数据,通过检索美国专利商标局(USPTO)网络专利数据库可以得到动态网页形式的专利信息.基于XML相关技术,提出了将这些网页形式的专利数据抽取到关系数据库的技术和方法.使用正则表达式匹配的方法进行页面过滤,将网页解析为文档对象模型(DOM)进行清洗,通过可扩散样式表转换语言(XSLT)模板抽取专利信息,并通过对象映射的方法将专利信息存入关系数据库,实现了专利信息抽取原型系统.实验结果表明,该原型系统具有较高的召回率和准确率. 相似文献
19.
为了能够充分利用领域知识来提升技能词的抽取性能,提出了一种基于深度学习与语料特征相结合的技能词抽取方法.将技能词抽取转化为序列标注问题,以序列标注的基本模型Bi-LSTM-CRF为基础,在输入层中加入语料特征,并将输入层的输出与Bi-LSTM输出连接在一起作为CRF层的输入.实验结果表明,提出的技能词抽取方法效果提升明... 相似文献
20.
图像中的文本区域为判别图像垃圾邮件提供了重要依据。为了获得图像中的文本区域信息,提出了基于Hough变换提取图像中倾斜文本区域的算法和降低图像背景干扰的八邻域细小边缘去除算法,实现了一种不受图像中文本颜色、字体、大小、位置、方向限制的文本区域的自动提取方法。在包含100幅垃圾图像的数据集上进行提取图像文本区域的实验。实验结果显示,新方法具有良好的文本区域提取性能。 相似文献