首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 93 毫秒
1.
级联中文组块识别   总被引:1,自引:0,他引:1  
基于统计方法的中文组块研究大多借鉴CoNLL2000英文组块的思想,建立了组块表示的BIO模型,并将组块识别任务作为一种为词序列标注的多分类问题.为降低分类复杂度,采取了一种分解识别法,即先识别组块的边界,再进行组块类别判定.基于条件随机场(CRF)构建了级联组块识别器,实验数据集采用宾州大学中文树库(CTB5.1).在特征选择上,借鉴了中文分词特征选择的方法.5倍交叉验证的实验结果为:组块边界识别的F1值为95.05%;类型识别的准确率为99.43%;整体F1值为93.58%.该方法提高了系统性能,缩短了学习器的训练时间.  相似文献   

2.
基于组块分析技术的中文机构名称识别   总被引:1,自引:0,他引:1  
针对中文机构名称自动识别提出了简化的一体化N最佳层叠模型,该模型实现了从汉语切分、词性标注、组块分析一直到机构名称的自动识别.N最佳层叠方法既能够在一定程度上抑制前一个阶段的错误在后面的传播,又大大地缩小了搜索空间.在实验过程中依次加入启发信息和机构名称缩写处理,使得实验结果有显著提高.在IEER99测试集上,中文机构名称识别的最终准确率和召回率分别为92.31%和81.01%.  相似文献   

3.
提出了一种新的基于膜粒子群优化的特征选择方法.该方法利用了膜系统的分层结构和消息传递机制,将粒子群优化算法作为区域子算法部署到各个区域中.不同于传统粒子群优化算法,该方法将粒子群优化的搜索速率分解为局部搜索速率和全局搜索速率.膜系统的所有外层区域采用局部搜索速率,搜索局部最优解;最内层区域采用全局搜索速率,搜索全局最优解.所有外部区域将最优解传递给相邻内部区域,内部区域将最差解传递给相邻外部区域,最内区域向相邻外部区域传递最差解.当各个区域之间的解传递在一段时间内停止时,或者算法迭代次数达到限定次数时,算法收敛,取最内层区域的最优解为最终解.以条件随机域模型的最大似然估计函数为目标函数,利用膜粒子群优化计算各个特征权重系数,最后剔除那些权重系数小于阈值的特征.实验结果表明,在进行生物文本的基因名称识别时,利用该方法对条件随机域的特征进行选择后,可以消除冗余特征的干扰,能获得更高的准确度.  相似文献   

4.
针对中文酒店评论自身特点设计语料特征,将评论高频词赋予权重并扩展基础情感词典;结合扩展基础情感词典和语义规则,计算情感加权值,实现对酒店频率褒贬倾向分析;选取Boson和大连理工情感词典作为基础情感词典进行了试验。试验结果表明,利用本方法进行中文酒店评论情感分析的精准率可达到90%以上,相比基础情感词典,可提高10%,且加入前50个高频词扩展基础情感词典,对精准率有较大提升,之后精准率的提升速度趋于平缓。  相似文献   

5.
《南昌水专学报》2016,(1):56-60
提出一种歧义字段与其所在句子语义联系为依据的中文分词交叉歧义处理方法。该方法模拟人浏览句子按照语义和词语相关度寻找消歧证据的经验,通过比较计算歧义字段与整个句子的语义相似度和语义相关度,提出基于语义扩展度的中文分词交叉歧义处理算法,进而提高分词准确率,与经典的ICTCLAS分词系统相比,切分准确率和召回率均有很大提高。  相似文献   

6.
视频语义概念检测是跨越"语义鸿沟",实现基于语义的视频检索的前提。其中,视觉词典法是一种有代表性的方法。针对视觉词典法的两个开放性问题,文章提出了一种基于LSI和软加权的视频语义概念检测方法。首先为了解决视觉单词间的潜在语义关联问题,利用LSI对大规模视觉词典进行降维,得到紧致的语义视觉词典;然后为了克服视觉单词的同义性和多义性问题,采取软加权机制,构造出视觉词汇分布直方图,作为特征向量来代表每幅输入关键帧;最后利用支持向量机建立高层语义的分类模型,完成视频语义概念检测。实验结果表明,新方法较大地提高了视频语义概念检测的精度。  相似文献   

7.
针对统一建模语言序列图,提出了一种利用Z语言对其进行语义分析的方法.该方法在序列图Z规范的基础上,用属性集表示对象状态,并将序列图的上下文表示为Z形式约束,通过捡查上下文约束与对象状态间的一致性对序列图进行语义分析.通过一个应用实例说明了该方法的有效性.  相似文献   

8.
针对基于词典的传统分类器无法对不在词典中的情感词的极性和强度进行有效计算和细分的问题,基于最大期望模型,提出构建完善情感词典的EM-SO算法,在此基础上设计基于语义倾向计算模型的否定式和强(弱)化处理组件,以获取评价词及其修饰词的组合效应。实验结果表明,所提算法及所设计组件在评论集上对情感词极性和强度的计算性能优于SO-CAL模型,可应用到主观性分类等实际任务中。  相似文献   

9.
通过风格迁移的数字化手段可以辅助艺术作品的创作,但由于织锦类手工艺品具有颗粒感线条、块状色彩、前后景纹理区别较大等特点,使用现有风格迁移算法得到的输出图像在视觉上难以达到令人满意的效果.针对上述问题,提出了一种基于语义分割的织锦类自适应感知域风格迁移算法,将语义分割任务和基于自适应感受域的风格迁移算法相结合,并提出新的内容损失和风格损失.此外,为了解决生成结果图像后景中纹理不均匀的问题,在内容图像上增加高斯噪声用于平滑训练过程中生成图像的后景纹理.实验结果表明,所提算法在织锦作品风格迁移任务中的表现优于现有算法.  相似文献   

10.
研究了一类不确定非线性随机系统的有限时间环域稳定性与镇定问题.首先,给出了不确定非线性随机系统有限时间环域稳定性的定义.其次,根据多层反馈神经网络对非线性项进行逼近,并得到了该系统为有限时间环域稳定的一个充分条件.再次,设计了状态反馈有限时间环域控制器,得到了一个由矩阵不等式所表示的充分条件,并给出了相应的求解算法.最...  相似文献   

11.
A fast method for phrase structure grammar analysis is proposed based on conditional random fields (CRF). The method trains several CRF classifiers for recognizing the phrase nodes at different levels, and uses the bottom-up to connect the recognized phrase nodes to construct the syntactic tree. On the basis of Beijing forest studio Chinese tagged corpus, two experiments are designed to select the training parameters and verify the validity of the method. The result shows that the method costs 78.98.ms and 4.63.ms to train and test a Chinese sentence of 17.9 words. The method is a new way to parse the phrase structure grammar for Chinese, and has good generalization ability and fast speed.  相似文献   

12.
A new method is proposed for constructing the Chinese sentential semantic structure in this paper.The method adopts the features including predicates,relations between predicates and basic arguments,relations between words,and case types to train the models of CRF + + and dependency parser. On the basis of the data set in Beijing Forest Studio-Chinese Tagged Corpus( BFS-CTC),the proposed method obtains precision value of 73. 63% in open test. This result shows that the formalized computer processing can construct the sentential semantic structure absolutely. The features of predicates,topic and comment extracted with the method can be applied in Chinese information processing directly for promoting the development of Chinese semantic analysis.The method makes the analysis of sentential semantic analysis based on large scale of data possible. It is a tool for expanding the corpus and has certain theoretical research and practical application value.  相似文献   

13.
14.
近年来基于字的词位标注方法极大地提高了汉语分词的性能,该方法将汉语分词转化为字的词位标注问题,借助于优秀的序列标注模型,基于字的词位标注汉语分词方法逐渐成为汉语分词的主要技术路线。该方法中特征模板选择至关重要,采用四词位标注集,使用条件随机场模型进一步研究基于字的词位标注汉语分词技术,在第三届和第四届国际汉语分词评测Bakeoff语料上进行封闭测试,并对比了不同特征模板集对分词性能的影响。实验表明采用的特征模板集:TMPT-10′较传统的特征模板集分词性能更好。  相似文献   

15.
基于改进K -均值聚类的汉语语块识别   总被引:1,自引:0,他引:1  
为了既避免数据稀疏又充分考虑相邻词性的关系和每种短语的内部组成规律,提出了改进K-均值聚类方法.此方法把每个短语看成是以中心词为核心的聚簇,充分考虑每种短语的内部组成规律;依据语料库中的数据来确定每个类的初始中心,使有指导的统计方法和无指导的聚类方法有机结合,既提高了聚类的准确率,又避免了因汉语语块库规模较小而导致的数据稀疏现象.应用改进K-均值聚类方法对7种汉语语块进行识别,F值达到了92.94%,因此,该方法对汉语语块识别是有效的.  相似文献   

16.
Markov random fields(MRF) have potential for predicting and simulating petroleum reservoir facies more accurately from sample data such as logging, core data and seismic data because they can incorporate interclass relationships. While, many relative studies were based on Markov chain, not MRF, and using Markov chain model for 3D reservoir stochastic simulation has always been the difficulty in reservoir stochastic simulation. MRF was proposed to simulate type variables(for example lithofacies) in this work. Firstly, a Gibbs distribution was proposed to characterize reservoir heterogeneity for building 3-D(three-dimensional) MRF. Secondly, maximum likelihood approaches of model parameters on well data and training image were considered. Compared with the simulation results of MC(Markov chain), the MRF can better reflect the spatial distribution characteristics of sand body.  相似文献   

17.
基于CRFs的多策略生物医学命名实体识别   总被引:1,自引:0,他引:1  
生物医学命名实体识别是生物医学文本挖掘的基本任务。机器学习方法是生物医学命名实体研究的主流方法,选取有效的机器学习算法和采取有效的识别策略是提高生物医学命名实体识别性能的关键,鉴于条件随机域算法在自然语言处理领域的优势,本文采用该算法并结合多种识别策略对生物医学命名实体识别进行研究。实验取得了良好的效果,F测度达到了70.52%,与其它相关系统比较,识别性能有了明显提高。  相似文献   

18.
基于随机场理论,考虑了岩石材料属性的空间变异性对岩石边坡稳定性的影响,将边坡主滑面上的摩擦系数和粘聚力视为高斯随机变量,确定了主滑面上的摩擦系数和粘聚力的均值、方差和协方差,获得了两个随机量之间的相关系数和互相关长度。在此基础上,对岩石边坡进行了三维稳定性分析,确定了岩石边坡的稳定系数和失效概率。数值计算结果表明,摩擦系数和粘聚力的空间变异性对边坡稳定性有重要影响。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号