首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 109 毫秒
1.
针对中医针灸领域术语的构成特点,该文建立了一种基于规则的领域术语抽取算法模型,该模型首先对中医针灸领域术语种子集进行有限次的迭代,生成中医针灸领域术语构件集;然后,以术语构件集为领域词典,采用最大向前匹配算法对中文针灸医学文献中的句子进行切分,并抽取候选术语;最后,利用语言规则对候选术语进行过滤处理,筛选出中医针灸领域专业术语。分别以关键字集和中医词典为种子集进行实验,开式测试的F值分别达到76.96%和35.59%。
  相似文献   

2.
中文领域本体学习中术语的自动抽取*   总被引:3,自引:0,他引:3  
提出一种领域术语自动抽取的混合策略,首先进行多字词候选术语抽取和分词,然后合并其结果,最后通过领域相关度和领域主题一致度抽取出最终领域术语。在多字词抽取和最终领域术语抽取阶段分别对现有方法进行了改进,降低了字符串分解的时间复杂度并提高了领域术语抽取的准确率和召回率。实验表明,术语抽取准确率为90.64%,优于现有的抽取方法。  相似文献   

3.
凌祺  樊孝忠 《微机发展》2005,15(8):148-150
领域知识获取一直是文本处理中的关键技术。文中提出了一种基于大规模语料通过机器学习自动获取领域词汇的方法。这种方法独立于特定的领域,具有较好的移植性。文中扼要介绍了相关背景,详细阐述了该方法的实现,选取了两个领域的语料进行了实验,并对实验的结果进行了分析。  相似文献   

4.
领域知识获取一直是文本处理中的关键技术.文中提出了一种基于大规模语料通过机器学习自动获取领域词汇的方法.这种方法独立于特定的领域,具有较好的移植性.文中扼要介绍了相关背景,详细阐述了该方法的实现,选取了两个领域的语料进行了实验,并对实验的结果进行了分析.  相似文献   

5.
多词领域术语抽取是自然语言处理技术中的一个重点和难点问题, 结合维吾尔语语言特征,该文提出了一种基于规则和统计相结合的维吾尔语多词领域术语的自动抽取方法。该方法分为四个阶段: ①语料预处理, 包括停用词过滤和词性标注; ② 对字串取N元子串, 利用改进的互信息算法和对数似然比率计算子串内部的联合强度, 结合词性构成规则, 构建候选维吾尔语多词领域术语集; ③ 利用相对词频差值, 得到尽可能多的维吾尔语多词领域术语; ④ 结合C_value值获取最终领域术语并作后处理。实验结果准确率为85.08%, 召回率为 73.19%, 验证了该文提出的方法在维吾尔语多词领域术语抽取上的有效性。  相似文献   

6.
本文提出了一种规则与统计相结合的方法,针对计算机领域术语综合其领域术语特征和统计特征。算法在语料词性标注基础上,在原有词串扩展算法上糅合领域术语部件和领域术语特征获取候选术语。综合统计特征G-MI实现候选术语过滤。实验证明,算法能有效提高术语抽取的正确率和抽取效率。  相似文献   

7.
针对领域概念术语提取过程中特征项来源于人工获取领域文本集以及特征项抽取的准确性不高的问题,提出一种特征项自动抽取方法。首先利用第三方接口从文献资源库中获取大量领域文本集,并对其进行段落分析,在文本预处理阶段提出一种改进的无词典分词方法进行二次分词,结合TFIDF,开方检验,信息增益及词汇位置权重方法进行特征项抽取。实验结果表明,该方法能实现特征项自动化抽取,且准确性较高  相似文献   

8.
互联网存在海量的文献和科技信息,隐含着大量高价值情报。识别国防科技领域中的技术和术语可以为构建国防科技知识图谱奠定基础。该文基于此领域的海量军事文本,以维基百科中军事领域的新技术为基点采集语料,涵盖了新闻、文献和维基百科三种体裁。在分析军事技术文本特点的基础上制定了一系列标注规范,开展了大规模语料的标注工作,构建了一个面向国防科技领域的技术和术语语料库。该语料库共标注了479篇文章,包含24 487个句子和33 756个技术和术语。同时,该文探讨了模型预标注策略的可行性,并对技术和术语类别在不同体裁上的分布以及语料标注的一致性进行了统计分析。基于该语料库的实验表明,技术和术语识别性能F1值达到70.40%,为进一步的技术和术语识别研究提供了基础。  相似文献   

9.
一种基于领域本体的新术语扩充方法   总被引:1,自引:0,他引:1       下载免费PDF全文
提出一种基于领域本体的新术语扩充方法。结合传统基于统计和基于规则的方法,计算词语在文档中的影响程度,使用领域本体体现领域知识,通过在文档中识别出本体中概念计算文档及词语的领域相关度,获得术语候选项的推荐排序,对术语候选项结果进行优化。实验结果证明了该方法的有效性和可行性。  相似文献   

10.
三维计算机视觉距离的获取   总被引:1,自引:0,他引:1  
金声  李允明 《机器人》1989,3(1):57-64,52
  相似文献   

11.
针对用户兴趣模型中本体构建和模型更新的难点和不足,提出一种基于本体论的用户兴趣模型构建方法,该方法通过领域本体、用户个性本体、校正本体和本体更新实现模型的构建。对于领域本体的构建,摒弃了训练、学习和聚类的方法,直接从开放目录专案获取类目。对于用户兴趣的更新,采用按照校正本体增加、淘汰和传递原理调整相结合的方式。实验结果表明,该模型较易生成,用户兴趣的准确度和更新的及时性都有所提高。  相似文献   

12.
自动术语抽取研究综述   总被引:1,自引:0,他引:1  
张雪  孙宏宇  辛东兴  李翠平  陈红 《软件学报》2020,31(7):2062-2094
自动术语抽取是从文本集合中自动抽取领域相关的词或短语,是本体构建、文本摘要、知识图谱等领域的关键基础问题和研究热点.特别是,随着近年来对非结构化文本大数据研究的兴起,使得自动术语抽取技术进一步得到学者的广泛关注,取得了较为丰富的研究成果.以术语排序算法为主线,对自动术语抽取方法的理论、技术、现状及优缺点进行研究综述:首先概述了自动术语抽取问题的形式化定义和解决框架.然后围绕"浅层语言分析"中基础语言信息和关系结构信息两个层面的特征对近年来国内外的研究成果进行分类,系统总结了现有自动术语抽取方法的研究进展和面临的挑战.最后对术语抽取使用的数据资源及实验评价进行分析,并对自动术语抽取未来可能的研究趋势进行了探讨与展望.  相似文献   

13.
傅谦  张申生  胡涛 《计算机工程与应用》2002,38(17):110-112,142
在电子商务迅猛发展,B2B的电子商务成为企业间协作的主流,工作流管理系统作为强大的使能工具在企业业务流程经营过程中起着举足轻重作用的时候,工作流管理系统的安全已成为人们关注的焦点。多层面的综合集成与综合管理和控制,是解决系统复杂性问题的基本思路。该文将这一思想应用于工作流安全研究,在简单介绍相关工作的基础上,提出了安全域层次结构,并就管理层、应用层和数据层、以及网络层涉及的安全问题进行了讨论。这对工作流安全的研究是一种有意的探索。  相似文献   

14.
平行语料库中双语术语词典的自动抽取   总被引:7,自引:5,他引:2  
本文提出了一种从英汉平行语料库中自动抽取术语词典的算法。首先采用基于字符长度的改进的统计方法对平行语料进行句子级的对齐,并对英文语料和中文语料分别进行词性标注和切分与词性标注。统计已对齐和标注的双语语料中的名词和名词短语生成候选术语集。然后对每个英文候选术语计算与其相关的中文翻译之间的翻译概率。最后通过设定随词频变化的阈值来选取中文翻译。在对真实语料的术语抽取实验中取得了较好的结果。  相似文献   

15.
本体领域内的产品种类数量繁多,如何有效地进行归类、查询是一个难以实施的问题。本文在使用层次结构表示领域内产品后,设计算法来计算领域内各产品间的相似度,为产品的归类、查询、用户产品推荐,甚至用户浏览行为的分析等提供依据。  相似文献   

16.
王金甲  陈春 《自动化学报》2016,42(8):1215-1226
有效的特征提取方法能提高脑机接口(Brain-computer interface,BCI)系统对脑电(Electroencephalogram,EEG)信号的识别率.因脑电信号都是多通道的,本文将分层向量自回归(Hierarchical vector autoregression,HVAR)模型用于脑电信号的特征提取,并结合传统的线性支持向量机(Support vector machine,SVM)用于脑电信号识别.该模型不仅克服了自回归(Autoregression,AR)模型只能用来提取单通道特征的局限性,而且不再采用传统VAR(Vector autoregression)模型所有通道共用一个时滞的处理方法.创新之处在于在传统的VAR模型基础上添加正则化思想,有效地压缩参数空间,实现合理的分层结构.本文首次将HVAR模型用于由Keirn等采集并整理的脑电数据中.实验结果证明HVAR模型在阶数较小的情况下(2阶)与阶数较大(6阶)的AR模型效果相当,可见低阶的HVAR能很好地刻画脑电信号的时空关联关系,这说明HVAR可能是刻画EEG信号的一种新颖的方法,这对其他多通道时间序列分析都有借鉴意义.  相似文献   

17.
郑诚  刘福君  李清 《计算机工程》2012,38(16):170-173
传统自动文摘方法生成的文摘结果指代关系模糊,且对于某些段落结构有规律的文章,没有分析文章结构与主题思想之间的关系。为此,提出一种基于指代消解和篇章结构分析的自动摘录算法。采用有限知识的思路完成指代消解,利用指代消解解决文摘语义不连贯问题,以提高句子权重计算的准确性,对文章做主题划分时进行篇章结构识别,按照段落标题信息划分段落结构。实验结果表明,该算法在受限金融领域文本自动摘录中,具有较高的准确率和召回率。  相似文献   

18.
随着计算机和互联网技术的发展和普及,计算机病毒所带来的安全威胁日趋严重。基于特征码扫描的病毒检测技术是目前检测已知病毒最为简单、有效的方法,但病毒特征码需要经验丰富的计算机病毒分析师手动从病毒中提取出来,其效率并不高。提出了一种基于N-Gram的病毒特征码自动提取方法,将N-Gram统计语言模型应用到病毒特征码提取中。通过实验证明了该算法能有效提取病毒特征码。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号