首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 187 毫秒
1.
石翠  王杨 《软件》2014,(4):68-70
本文利用中文专利语料库,对中文专利文献中的并列结构进行了分析,主要分析了中文专利文献中并列结构的依存特征。根据中文专利文献中并列结构的依存特征,总结出并列结构依存处理规则,并根据并列结构依存处理规则对中文专利文献的依存分析结果进行了规则后处理,规则处理后提高了识别的准确率。  相似文献   

2.
石翠 《软件》2014,(2):75-78
结合条件随机场与伯克利句法分析器对中文专利文献中的单层并列结构进行识别。在经过分词和词性标注的中文专利语料的基础上,分别运用条件随机场和伯克利句法分析器对专利语料中的单层并列结构进行识别,提取两种机器模型相同的和识别结果中满足相应规则的并列结构识别结果。实验结果表明,该方法有效的识别了专利文献中的单层并列结构,取得了73.09%的F值。  相似文献   

3.
石翠 《软件》2014,(3):68-71
结合条件随机场与伯克利句法分析器对中文专利文献中的单层并列结构进行识别。在经过分词和词性标注的中文专利语料的基础上,分别运用条件随机场和伯克利句法分析器对专利语料中的单层并列结构进行识别,提取两种机器模型相同的和识别结果中满足相应规则的并列结构识别结果。实验结果表明,该方法有效的识别了专利文献中的单层并列结构,取得了73.09%的F值。  相似文献   

4.
基于图的篇章内外特征相融合的评价句极性识别   总被引:1,自引:1,他引:0  
赵妍妍  秦兵  刘挺 《自动化学报》2010,36(10):1417-1425
评价句的极性识别是情感分析领域一个重要的研究任务. 它旨在将评价句的极性分为褒义、贬义或是中性三种类别. 一般而言, 评价句的极性识别可以看作一个文本分类任务. 然而, 判断一个评价句的极性不仅需要关注句子内部的特征, 而且还需要一些句子外部特征相配合, 尤其对于一些内部特征极性模糊的评价句而言. 因此, 在本文中, 我们提出了两种句子外部特征: 篇章内部特征和篇章外部特征, 并使用了基于图的算法来融合这两种特征. 在数码相机领域语料上的实验结果表明, 本文提出的方法不仅优于仅使用评价句内部特征的方法, 而且还优于前人有代表性的工作.  相似文献   

5.
中文专利文献中含有大量领域术语,对这些术语进行自动识别是信息抽取、文本挖掘等领域的重要任务。该文提出了基于专利文献标题的术语词性规则自动生成方法以及针对候选术语排序的TermRank算法。该方法首先从大量的中文专利文献标题中自动生成词性规则;然后利用生成的词性规则对中文专利文献正文部分进行规则匹配获得候选术语表;再利用提出的TermRank排序算法对候选术语表排序,最终得到术语列表。通过在9 725篇中文专利文献数据上实验,证实了该方法的有效性。
  相似文献   

6.
针对BERT在中文电子病历实体识别过程中缺少词信息,实体边界信息被浪费和模型鲁棒性较差等问题,提出一种基于BERT并引入外部词典进行特征增强和对抗训练的实体识别模型LEBERT-BCF。该模型通过外部词典自动为电子病历进行词汇匹配构建字符-词语对,在BERT内部将字符-词语对中对应字向量与词向量经过Lexicon Adapter模块进行特征融合并使用FGM提升模型的鲁棒性。在CCKS 2019数据集上的实验结果表明,该模型的F1值比BERTBiLSTM-CRF提高了3.45%。  相似文献   

7.
提出了一种基于后向传播神经网络的专利自动分类方法.通过中文分词从专利文件集中提取特征项,并根据特征项在专利文件中出现的频率赋予其权重,从而将每篇专利文件表示为一个特征项向量.为取得较好的BP神经网络(BPN)训练效果,使用X2统计方法进行特征向量降维,并使用BPN专利分类器进行专利文件分类.用国际分类号为H02下的专利文件作为测试数据,取得了较好的分类效果.  相似文献   

8.
事件检测主要研究从非结构化文本中自动识别事件触发词,实现所属事件类型的正确分类。与英文相比,中文需要经过分词才能利用词汇信息,还存在“分词-触发词”不匹配问题。针对中文语言特性与事件检测任务的特点,本文提出一种基于多词汇特征增强的中文事件检测模型,通过外部词典为字级别模型引入包含多词汇信息的词汇集,以利用多种分词结果的词汇信息。同时采用静态文本词频统计与自动分词工具协同决策词汇集中词汇的权重,获取更加精确的词汇语义。在ACE2005中文数据集上与现有模型进行实验对比分析,结果表明本文方法取得了最好的性能,验证了该方法在中文事件检测上的有效性。  相似文献   

9.
反语识别已成为当前研究的热点,但当前对于中文反语识别研究报道较少。针对于此,主要研究面向社交网络的中文反语识别。在借鉴外文相关工作的基础上,结合中文语言和社交网络的特性,构建了六种特征,通过信息增益对比了各种特征有效性,并检测了不同分类器在该特征体系中的稳定性。实验结果表明,本文构建的特征在识别反语的任务中有显著的效果。  相似文献   

10.
特征选择作为多标记学习任务中关键预处理步骤,能够有效地解决高维多标记数据存在的维度灾难问题。在现有大部分的多标记学习中,标记是以逻辑分布的形式刻画,即示例中相关标记的重要性相同;然而,在许多现实生活中,每个示例的标记重要程度呈现差异性。本文提出了一种基于模糊相似性的标记增强算法,通过衡量示例中标记的模糊相关性,将传统的多标记数据转换为标记分布数据;分析了标记分布数据中在标记上的标记差异性和在特征上的模糊相对辨识关系,给出了在标记空间和特征空间上的模糊辨识度,并构造了衡量特征辨识能力的特征重要度;在此基础上,构建面向标记分布数据的特征选择算法,能获得按特征重要度降序的特征选择结果。最后通过在多个多标记数据集上实验对比和分析,进一步验证了算法的有效性和可行性。  相似文献   

11.
This study investigates the effects of external and internal communication features on consumers' digital magazine attitude, and the processes (i.e., perceived interactivity and social presence) underlying these effects. Both feature types enable communication between two or more people. Though, in the case of external communication features, the interactions take place outside the digital magazine (e.g., on Facebook), whereas in the case of internal communication features, the communication takes place inside the digital environment of the magazine. In a two-wave experiment with a 2 (external communication features: present/absent) × 2 (internal communication features: present/absent) between-subjects design, 192 participants were exposed to a digital tablet magazine in which the presence of interactive features was manipulated. The results show that digital magazines with either external or internal communication features are perceived as more interactive, which has a positive influence on consumers' digital magazine attitude. The findings also reveal that – in contrast to external – internal communication features have the ability to enhance feelings of social presence, another process through which digital magazine attitude is positively affected. So, internal communication features improve consumers' digital magazine attitude through two pathways (i.e., perceived interactivity and social presence), and external communication features only via one (i.e., perceived interactivity).  相似文献   

12.
中国传统文化博大精深、内容丰富、涉及范围广阔,在经历了几千年的文化发展后形成了一系列具有中国特色风格的元素,并在电子技术发展的今天影响着电子游戏风格的发展。文章总结了从1985年到当前中国风格元素在电子游戏中发展,将其分为了三种元素、四个时期并分析了不同阶段的作品及特点。  相似文献   

13.
基于最大熵模型的汉语词义消歧与标注方法   总被引:3,自引:0,他引:3       下载免费PDF全文
张仰森 《计算机工程》2009,35(18):15-18
分析最大熵模型开源代码的原理和各参数的意义,采用频次和平均互信息相结合特征筛选和过滤方法,用Delphi语者编程实现汉语词义消歧的最大熵模型,运用GIS(Generalized Iterative Scaling)算法计算模型的参数。结合一些语占知识规则解决训练语料的数据稀疏问题,所实现的汉语词义消歧与标注系统,对800多个多义词进行词义标注,取得了较好的标注正确率。  相似文献   

14.
研究了单词语义相似性计算方法,其中基于知识的方法和基于语料的方法是两种主要方法。这两种方法及其融合方法都把单词看成一个整体,主要利用单词外部信息进行语义相似性计算。近些年,出现了一些利用单词内部信息进行单词语义相似性计算的工作,它们使用汉字、部首、词根、词缀等来计算单词语义相似性。利用单词的内部结构解析,解决从细粒度到粗粒度的语义相似性推导,最终计算出单词间的语义相似性是单词语义相似性计算的必然阶段。当从外部信息转向内部信息时,可以改善已有单词语义相似性计算的性能,尤其是为低频词或未登录词的准确语义相似性计算提供了可能性。  相似文献   

15.
湘绣是中国"四大名绣"之一,是中华民族悠久刺绣文化的重要组成。文章通过对湘绣艺术特色的陈述,展示其独特的艺术文化价值,分析当前发展中的主要问题和制约因素,探讨当下传承的途径。  相似文献   

16.
Abstract.  Because of the influence of globalization and updated information technologies (IT), firms in China face an urgent need to adopt e-procurement systems (EP) to deal with their daily procurement activities. However, implementing EP in China encounters various uncertainties from internal and external business environments. To address this issue, this research aims to examine the fit between business and the IT environment and to study its impact on system performance. The literature review allows the proposal of two internal business environmental uncertainties and two external business environmental uncertainties covering the perspectives of process, knowledge, partnership and environment. Based on a multiple-case study performed in four Chinese firms that supply various personal computer components to a Taiwanese original equipment manufacturer via an EP, it was found that the firms' external and internal uncertainty factors affected the performance of EP. In addition, an EP with a low level of integration – the EP type used most frequently in China – can only achieve great performance when the adopting firms faced a low uncertainty of environment, partnership and process, and had low levels of IT knowledge. It was also observed that lack of fit between the business environment and EP produced extra burdens and costs in the buyer–supplier relationship. This significantly reduced the system performance of the Chinese firms. Hence, the contribution of this research can be twofold. First, practitioners in China can use this framework to diagnose their environmental conditions and then choose the appropriate type of EP to implement. Second, researchers can build upon this model to further examine the impact of fit on EP performance and generalize the results.  相似文献   

17.
方言研究领域中的语音研究、词汇研究及语法研究是方言研究的三个重要组成部分,如何识别方言词汇,是方言词汇研究首要的环节。目前,汉语方言词汇研究的语料收集与整理主要通过专家人工整理的形式进行,耗时耗力。 随着信息技术的发展,人们的交流广泛通过网络进行,而输入法数据包含海量的语料资源以及地域信息,可以帮助进行方言词汇语料的自动发现。然而,目前尚没有文献研究如何利用拼音输入法数据对方言词汇进行系统化分析,因此在本文中,我们探讨借助中文输入法的用户行为来自动发现各地域方言词汇的方法。特别的,我们归纳得到输入法数据中表征方言词汇的两类特征,并基于对特征的不同组合识别方言词汇。最后我们通过实验评价了两类特征的不同组合方法对方言词汇识别效果的影响。  相似文献   

18.
含有语义特征的网页新闻自动抽取   总被引:1,自引:0,他引:1       下载免费PDF全文
施洋  张奇  黄萱菁 《计算机工程》2010,36(7):173-175
通过分析新闻网页的语义特征以及网页之间存在的通用性质,提出一种含有语义特征的网页新闻自动抽取方法,包括利用语义分类器识别新闻网页中的种子信息以及页面中的局部信息来完成抽取。在分类器中加入语义特征可以使F1值达到94.2%。在语义分类器与局部特征结合的情况下,F1值可以达到96.9%。实验结果证明,该方法能有效提高网页信息抽取算法的精度,降低机器学习所需要的标注成本。  相似文献   

19.
田岚  陆小珊 《控制与决策》2003,18(6):656-660
针对汉语发音特点,基于对大量自然汉语语句基频轮廓数据的统计和分析,提出一种用于数据驱动生成汉语韵律特征的数学模型。该模型以基频参数为主,辅以时长和增益参数,能表现汉语的语气、短语节奏、韵律词声调及轻重音多层韵律信忠,各层参数可按语言知识分类训练和标注。给出了模型的各种归一化“调素”函数和变调规则。仿真实验表明了该模型的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号