共查询到18条相似文献,搜索用时 109 毫秒
1.
2.
3.
领域知识获取一直是文本处理中的关键技术。文中提出了一种基于大规模语料通过机器学习自动获取领域词汇的方法。这种方法独立于特定的领域,具有较好的移植性。文中扼要介绍了相关背景,详细阐述了该方法的实现,选取了两个领域的语料进行了实验,并对实验的结果进行了分析。 相似文献
4.
领域知识获取一直是文本处理中的关键技术.文中提出了一种基于大规模语料通过机器学习自动获取领域词汇的方法.这种方法独立于特定的领域,具有较好的移植性.文中扼要介绍了相关背景,详细阐述了该方法的实现,选取了两个领域的语料进行了实验,并对实验的结果进行了分析. 相似文献
5.
多词领域术语抽取是自然语言处理技术中的一个重点和难点问题, 结合维吾尔语语言特征,该文提出了一种基于规则和统计相结合的维吾尔语多词领域术语的自动抽取方法。该方法分为四个阶段: ①语料预处理, 包括停用词过滤和词性标注; ② 对字串取N元子串, 利用改进的互信息算法和对数似然比率计算子串内部的联合强度, 结合词性构成规则, 构建候选维吾尔语多词领域术语集; ③ 利用相对词频差值, 得到尽可能多的维吾尔语多词领域术语; ④ 结合C_value值获取最终领域术语并作后处理。实验结果准确率为85.08%, 召回率为 73.19%, 验证了该文提出的方法在维吾尔语多词领域术语抽取上的有效性。 相似文献
6.
本文提出了一种规则与统计相结合的方法,针对计算机领域术语综合其领域术语特征和统计特征。算法在语料词性标注基础上,在原有词串扩展算法上糅合领域术语部件和领域术语特征获取候选术语。综合统计特征G-MI实现候选术语过滤。实验证明,算法能有效提高术语抽取的正确率和抽取效率。 相似文献
7.
针对领域概念术语提取过程中特征项来源于人工获取领域文本集以及特征项抽取的准确性不高的问题,提出一种特征项自动抽取方法。首先利用第三方接口从文献资源库中获取大量领域文本集,并对其进行段落分析,在文本预处理阶段提出一种改进的无词典分词方法进行二次分词,结合TFIDF,开方检验,信息增益及词汇位置权重方法进行特征项抽取。实验结果表明,该方法能实现特征项自动化抽取,且准确性较高 相似文献
8.
互联网存在海量的文献和科技信息,隐含着大量高价值情报。识别国防科技领域中的技术和术语可以为构建国防科技知识图谱奠定基础。该文基于此领域的海量军事文本,以维基百科中军事领域的新技术为基点采集语料,涵盖了新闻、文献和维基百科三种体裁。在分析军事技术文本特点的基础上制定了一系列标注规范,开展了大规模语料的标注工作,构建了一个面向国防科技领域的技术和术语语料库。该语料库共标注了479篇文章,包含24 487个句子和33 756个技术和术语。同时,该文探讨了模型预标注策略的可行性,并对技术和术语类别在不同体裁上的分布以及语料标注的一致性进行了统计分析。基于该语料库的实验表明,技术和术语识别性能F1值达到70.40%,为进一步的技术和术语识别研究提供了基础。 相似文献
9.
10.
11.
12.
自动术语抽取研究综述 总被引:1,自引:0,他引:1
自动术语抽取是从文本集合中自动抽取领域相关的词或短语,是本体构建、文本摘要、知识图谱等领域的关键基础问题和研究热点.特别是,随着近年来对非结构化文本大数据研究的兴起,使得自动术语抽取技术进一步得到学者的广泛关注,取得了较为丰富的研究成果.以术语排序算法为主线,对自动术语抽取方法的理论、技术、现状及优缺点进行研究综述:首先概述了自动术语抽取问题的形式化定义和解决框架.然后围绕"浅层语言分析"中基础语言信息和关系结构信息两个层面的特征对近年来国内外的研究成果进行分类,系统总结了现有自动术语抽取方法的研究进展和面临的挑战.最后对术语抽取使用的数据资源及实验评价进行分析,并对自动术语抽取未来可能的研究趋势进行了探讨与展望. 相似文献
13.
在电子商务迅猛发展,B2B的电子商务成为企业间协作的主流,工作流管理系统作为强大的使能工具在企业业务流程经营过程中起着举足轻重作用的时候,工作流管理系统的安全已成为人们关注的焦点。多层面的综合集成与综合管理和控制,是解决系统复杂性问题的基本思路。该文将这一思想应用于工作流安全研究,在简单介绍相关工作的基础上,提出了安全域层次结构,并就管理层、应用层和数据层、以及网络层涉及的安全问题进行了讨论。这对工作流安全的研究是一种有意的探索。 相似文献
14.
15.
16.
有效的特征提取方法能提高脑机接口(Brain-computer interface,BCI)系统对脑电(Electroencephalogram,EEG)信号的识别率.因脑电信号都是多通道的,本文将分层向量自回归(Hierarchical vector autoregression,HVAR)模型用于脑电信号的特征提取,并结合传统的线性支持向量机(Support vector machine,SVM)用于脑电信号识别.该模型不仅克服了自回归(Autoregression,AR)模型只能用来提取单通道特征的局限性,而且不再采用传统VAR(Vector autoregression)模型所有通道共用一个时滞的处理方法.创新之处在于在传统的VAR模型基础上添加正则化思想,有效地压缩参数空间,实现合理的分层结构.本文首次将HVAR模型用于由Keirn等采集并整理的脑电数据中.实验结果证明HVAR模型在阶数较小的情况下(2阶)与阶数较大(6阶)的AR模型效果相当,可见低阶的HVAR能很好地刻画脑电信号的时空关联关系,这说明HVAR可能是刻画EEG信号的一种新颖的方法,这对其他多通道时间序列分析都有借鉴意义. 相似文献
17.
18.
随着计算机和互联网技术的发展和普及,计算机病毒所带来的安全威胁日趋严重。基于特征码扫描的病毒检测技术是目前检测已知病毒最为简单、有效的方法,但病毒特征码需要经验丰富的计算机病毒分析师手动从病毒中提取出来,其效率并不高。提出了一种基于N-Gram的病毒特征码自动提取方法,将N-Gram统计语言模型应用到病毒特征码提取中。通过实验证明了该算法能有效提取病毒特征码。 相似文献