首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 984 毫秒
1.
目前,大部分术语边界的确定方法是通过选取合适的统计量,设置合适的阈值计算字符串之间的紧密程度,但该类方法在抽取长术语时不能得到很好的效果。为了解决在术语抽取过程中长术语抽取召回率低的问题,在研究了大量专利文献的基础上,提出了一种基于专利术语边界标记集的术语抽取方法。方法中提出了边界标记集的概念,并结合专利文献中术语边界的特点构建专利术语边界标记集;提出了一种种子术语权重计算方法抽取种子术语;使用人民日报语料作为对比语料抽取专利文献术语部件词库,提高候选术语的术语度;最后采用左右边界熵的方法对识别出的术语进行过滤。实验表明,所提出的方法具有较好的实验结果,正确率81.67%,召回率71.92%,F值0.765,较对比实验有较大提高。  相似文献   

2.
专利领域中术语抽取结果的好坏决定了本体构建的质量。提出一种自动生成过滤词典并结合词汇密集度等影响因子的术语抽取方法。首先在分词和词性标注的基础上,对文献匹配词性规则算法生成的模板得到候选长术语和单词型短术语集合,然后利用文档一致度生成的过滤词典过滤部分候选长术语集,最后针对长术语的构成特点,将词汇密集度、文档差比、文档一致度三个术语因子加权平均作为整个长术语的术语权重值,并按值高低排序。在8000篇专利摘要文献的基准语料上进行实验,随机选取五组实验数据,平均准确率达到86%。结果表明该方法在领域术语抽取方面是行之有效的。  相似文献   

3.
专利术语自动抽取是知识抽取与文本挖掘的关键环节。在构建专利文献停用词表以及提取特定规则的基础上,抽取候选专利术语;通过分析专利术语与其所在句子的关联关系、相邻专利术语之间的影响以及常识性词语对专利术语抽取的干扰,分别提出基于PageRank思想的STRank权重计算方法、专利术语区别度计算方法以及知网义原信息降权方法,并融合上述方法对专利术语进行抽取。采用传感器领域的专利文献进行实验,在top-1400、top-1600级别上正确率为80.5%、79.7%,相对比CS+CC+CD方法分别提高了11.4%、9.5%。实验结果证明该多策略融合方法的有效性。  相似文献   

4.
中文专利文献中含有大量领域术语,对这些术语进行自动识别是信息抽取、文本挖掘等领域的重要任务。该文提出了基于专利文献标题的术语词性规则自动生成方法以及针对候选术语排序的TermRank算法。该方法首先从大量的中文专利文献标题中自动生成词性规则;然后利用生成的词性规则对中文专利文献正文部分进行规则匹配获得候选术语表;再利用提出的TermRank排序算法对候选术语表排序,最终得到术语列表。通过在9 725篇中文专利文献数据上实验,证实了该方法的有效性。
  相似文献   

5.
刘胜奇  朱东华 《软件学报》2015,26(7):1650-1661
跨语系术语对齐质量不高,原因在于其依赖于低质量的术语抽取与对齐.提出的多策略融合Giza++ (AGiza)的术语对齐法,为提高术语抽取质量,用首尾词性规则提高召回率,用独立过滤、停用过滤提高准确率,再识别共句术语对.为提高术语对齐的对准率:基于独立度、停用度,提出独立相关度、停用相关度;由种子对相关度和单词关联度概率加组合成语义相关度;根据首尾对齐情况,提出首尾相关度,并去除值为0者;基于词性组成特征,构造词性相似度;由GIZA++计算得到g值;经过属性的相关系数分析后,乘法组合各属性构造术语对齐度a;最后,过滤a超过术语对齐阈值(由召回率设定)的术语对.实验结果表明,AGiza术语对齐,可有效地处理跨语系术语对齐,质量高于GIZA++,Dice, F2,LLR,K-VEC及DKVEC.  相似文献   

6.
中文领域本体学习中术语的自动抽取*   总被引:3,自引:0,他引:3  
提出一种领域术语自动抽取的混合策略,首先进行多字词候选术语抽取和分词,然后合并其结果,最后通过领域相关度和领域主题一致度抽取出最终领域术语。在多字词抽取和最终领域术语抽取阶段分别对现有方法进行了改进,降低了字符串分解的时间复杂度并提高了领域术语抽取的准确率和召回率。实验表明,术语抽取准确率为90.64%,优于现有的抽取方法。  相似文献   

7.
多词领域术语抽取是自然语言处理技术中的一个重点和难点问题, 结合维吾尔语语言特征,该文提出了一种基于规则和统计相结合的维吾尔语多词领域术语的自动抽取方法。该方法分为四个阶段: ①语料预处理, 包括停用词过滤和词性标注; ② 对字串取N元子串, 利用改进的互信息算法和对数似然比率计算子串内部的联合强度, 结合词性构成规则, 构建候选维吾尔语多词领域术语集; ③ 利用相对词频差值, 得到尽可能多的维吾尔语多词领域术语; ④ 结合C_value值获取最终领域术语并作后处理。实验结果准确率为85.08%, 召回率为 73.19%, 验证了该文提出的方法在维吾尔语多词领域术语抽取上的有效性。  相似文献   

8.
利用从专利名称和摘要文本中抽取的技术术语,采用第三代共词分析技术进行技术研发主题分析。根据技术术语的共现频率采用对等(equivalence)指标计算术语之间的连接强度,按照一定规则将术语聚类为技术主题簇,引入密度(density)指标和中央(centrality)指标并绘制战略图以反映技术主题的研究地位。以燃料电池专利中抽取的技术术语为例,证实了此方法能够较好地反映技术主题研发状况。  相似文献   

9.
针对专利搜索日志中同义词出现的特点,改进了词共现相似度算法,提出了一种基于专利搜索日志的同义词挖掘方法.利用专利搜索日志中同义词出现的规律挖掘同义词集的结构模板,根据这些模板抽取出候选同义词集,利用改进的词共现方法计算词汇相似度.对称共现的词对正确率达到85.66%,召回率达到78.98%,F值0.82.该方法可用于专利搜索引擎中提高专利检索的效率.  相似文献   

10.
中文领域术语自动抽取是中文信息处理中的一项基础性课题,并在自然语言生成、信息检索、文本摘要等领域中有广泛的应用。针对领域术语抽取问题,采用基于规则和多种统计策略相融合的方法,从词语度和领域度两个角度出发,提出一种领域术语的抽取算法并构建出相应的抽取系统。系统流程包括基于左右信息熵扩展的候选领域术语获取、基于词性搭配规则与边界信息出现概率知识库相结合的词语度筛选策略以及基于词频-逆文档频率(TF?IDF)的领域度筛选策略。运用此算法不但能抽取出领域的常见用词,还可以挖掘出领域新词。实验结果显示,基于如上方法构建的领域术语抽取系统的准确率为84.33%,所提方法能够有效支持中文领域术语的自动抽取。  相似文献   

11.
基于笔划组合的手写数字切分   总被引:2,自引:0,他引:2       下载免费PDF全文
主曲线是一种新的基于非线性变换的特征抽取方法,它是一种通过数据分布“中间”并满足“自相合”的光滑曲线来进行特征提取的方法。为了提高手写数字串切分的正确率,提出了一种基于笔划组合的手写数字串切分方法。该方法首先使用主曲线完成字符模板的笔划抽取,然后以字符识别器提供的置信度为依据来组合笔划,以实现手写数字串的切分过程。另外,在字符识别器设计方面,则是使用基于数字轮廓分段特征与规范化模板特征这两个单特征分类器组合。实验表明,分别基于这两个特征的分类器具有较强的互补性。由于字符识别器的置信度难以真实反映识别结果,为此需使用类条件置信变换法,通过估计分类器的后验概率来对识别器的置信度进行修正。实验结果表明,该方法对于手写数字的分割是有效的。  相似文献   

12.
We consider the problem of finding the repetitive structures of a given stringx. The periodu of the stringx grasps the repetitiveness ofx, sincex is a prefix of a string constructed by concatenations ofu. We generalize the concept of repetitiveness as follows: A stringw covers a stringx if there is a superstring ofx which is constructed by concatenations and superpositions ofw. A substringw ofx is called aseed ofx ifw coversx. We present anO(n logn)-time algorithm for finding all the seeds of a given string of lengthn.Partially supported by SERC Grants GR/F 00898 and GR/J 17844, NATO Grant CRG 900293, ESPRIT BRA Grant 7131 for ALCOMII, and MRC Grant G 9115730.Partially supported by MRC Grant G 9115730 and S.N.U. Posco Research Fund 94-15-1112.  相似文献   

13.
In this paper, we develop a new method to separate single-touching handwritten numeral strings with two numerals using structural features. A binary image of a single-touching handwritten numeral string is preprocessed with an efficient algorithm for smoothing, linearization and detection of structural points of image contours. The touching region of a single-touching handwritten numeral string is determined based on distribution of the structural points in the handwritten numeral string. A candidate touching point is preselected based on the geometrical information of a special structural point in the touching region. In some cases, the left or right lateral numeral of a single-touching handwritten numeral string can be recognized. The recognition information can be utilized to correct the position of the candidate touching point. We have tested our method on image samples taken from the U.S. National Institute of Science and Technology (NIST) database. We used 500 sample images for training and obtained a correct separation rate of 99.1%. For 3287 test samples not used for training the correct separation rate was 97.2%.  相似文献   

14.
杨健  钱晨 《软件》2013,(9):54-56,80
大学生科技创新训练计划(STITP)项目孵化各阶段中,指导方对各评估属性存有心理期望。本文提出的STITP孵化满意度及其组合赋权分析,即利用心理期望与实测数据取得属性满意度,并参照此满意度过滤指导决策方案;研究属性值信息相容关系。同时对属性值间的相容度进行赋权,排序择优匹配指导方期望的决策方案,仿真算例显示本文研究思路有效可行。  相似文献   

15.
经典的串匹配算法设计和分析中假设“字符互相独立并且等概率出现”,这与实际应用环境差异很大,导致出现很多问题.考虑了字符的概率分布和上下文的关联,同时兼顾应用的方便,提出了命中密度的概念.在给出基本定义和扩展定义后,通过对4种类型的代表性算法的理论和实验分析,给出了命中密度与算法性能之间的关系.同时,在对命中密度的分析中得出一些极具价值的结论.对命中密度概念的多角度理解以及对它与算法性能关系的深入剖析都说明,命中密度作为一个特征量,可以从一个侧面刻画模式串和文本之间的相关性,它对算法的设计和分析以及串匹配领域研究工作的扩展都具有指导意义.  相似文献   

16.
一个基于互信息的规则量化方法   总被引:4,自引:0,他引:4  
规则量化问题是基于规则与统计相结合的计算语言模型的关键性问题,首先描述了一个基于规则与统计相结合的计算语言模型,从而引出了规则结合度的概念,并提出一种基于互信息的规则量化方法,该方法既给出了一条规则的实用性的定量评价,又为基于规则与统计相结合的计算语言模型提供了一个重要的规则参量,通过实验指出该方法对系统规则集的筛选与计算语言模型中规则与统计结合机制的优化的重要指导意义。  相似文献   

17.
串的最大匹配算法   总被引:3,自引:0,他引:3  
本文给出了一个找出二串间最大匹配的算法,该算法可用于比较两个串的相似程度,它与串的模式匹配有别。  相似文献   

18.
串匹配算法中模式串与文本之间关系的研究   总被引:2,自引:0,他引:2  
刘萍  刘萍  刘燕兵  郭莉  方滨兴 《软件学报》2010,21(7):1503-1514
经典的串匹配算法设计和分析中假设“字符互相独立并且等概率出现”,这与实际应用环境差异很大,导致出现很多问题.考虑了字符的概率分布和上下文的关联,同时兼顾应用的方便,提出了命中密度的概念.在给出基本定义和扩展定义后,通过对4种类型的代表性算法的理论和实验分析,给出了命中密度与算法性能之间的关系.同时,在对命中密度的分析中得出一些极具价值的结论.对命中密度概念的多角度理解以及对它与算法性能关系的深入剖析都说明,命中密度作为一个特征量,可以从一个侧面刻画模式串和文本之间的相关性,它对算法的设计和分析以及串匹配领域研究工作的扩展都具有指导意义.  相似文献   

19.
改进IOWHA算子组合预测模型   总被引:1,自引:0,他引:1  
针对现有单项预测模型提供信息有限,预测误差大的问题,引用最优加权组合建模理论,将灰色关联度与IOWHA算子相结合,提出一种新的组合预测模型权重确定方法,并应用该权重确定方法构建了一种基于RBF神经网络预测模型和GM预测模型的最优组合预测模型。该模型能够克服传统组合预测方法的两个缺陷:加权平均系数不变和以单一误差指标为准则。利用该组合模型对全国物流需求进行组合预测,并与RBF神经网络模型、GM模型的预测结果进行了对比分析。结果表明,相对于单项预测模型,该组合预测模型的预测精度更高,是一种有效的物流需求预测模型。  相似文献   

20.
On the Use of Wavelet Decomposition for String Classification   总被引:1,自引:0,他引:1  
In recent years, the technological advances in mapping genes have made it increasingly easy to store and use a wide variety of biological data. Such data are usually in the form of very long strings for which it is difficult to determine the most relevant features for a classification task. For example, a typical DNA string may be millions of characters long, and there may be thousands of such strings in a database. In many cases, the classification behavior of the data may be hidden in the compositional behavior of certain segments of the string which cannot be easily determined apriori. Another problem which complicates the classification task is that in some cases the classification behavior is reflected in global be havior of the string, whereas in others it is reflected in local patterns. Given the enormous variation in the behavior of the strings over different data sets, it is useful to develop an approach which is sensitive to both the global and local behavior of the strings for the purpose of classification. For this purpose, we will exploit the multi-resolution property of wavelet decomposition in order to create a scheme which can mine classification characteristics at different levels of granularity. The resulting scheme turns out to be very effective in practice on a wide range of problems.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号