共查询到20条相似文献,搜索用时 62 毫秒
1.
2.
3.
4.
5.
词干提取是形态丰富语言信息处理中的基础任务,对其他自然语言处理任务有着重要的影响。该文将词干提取任务看作序列标注问题,以字符为切分粒度来表征维吾尔语单词的构成机制,结合条件随机场模型,实现基于字符序列标注的维吾尔语词干提取方法。首先使用词典查询方法进行词干提取,然后结合字符的弱化发音特征、音类特征以及语音特征,针对受限数据和非受限数据采用条件随机场训练模型及预测结果。实验结果表明,该方法在非受限数据集上效果较佳,且能广泛应用到其他语言。 相似文献
6.
基于文本理解的自动文摘系统研究与实现 总被引:8,自引:0,他引:8
本系统模拟人的理解、知识获取认知过程,利用全信息词典有效地组织语言学知识。背景知识和领域知识,利用部分分析器算法,实现语法语义语用分析一体化,从文本中提取重要信息,将任一篇文章转换为计算机内的一个信息提取框架实体.根据填充情况,由文摘生成器产生合适的文摘.目前已实现计算机病毒领域文章的自动文摘,验证了文摘模型的可行性和有效性.文摘系统模型与领域无关. 相似文献
7.
8.
提出了结合情感词典的改进信息增益特征选择方法。首先,针对现有的信息增益特征选择存在注重特征词的文档频率而忽视语料均衡等问题,提出了改进方法。其次,考虑情感词对文本分类的影响,提出了基于情感词典的特征选择(information gain combining sentiment classification,IGSC)算法进行文本分类。该算法通过对文本情感词进行匹配并结合情感词赋权重,实现了特征降维并解决了文本数据稀疏影响分类性能的问题;最后,针对旅游评论数据集对所提出的特征选择方法进行了实验验证及分析。实验结果表明,本文提出的改进文本情感分类特征选择方法在分类准确率、召回率和F值方面均得到了提升,并且具有较好的分类稳定性。 相似文献
9.
评价对象抽取的研究难点在于如何精确地表示大范围的上下文信息.本文针对微博观点句,采用了基于双向循环神经网络(BRNN)的方法来抽取评价对象并对评价对象的情感倾向进行判定.BRNN的隐藏层对上下文进行了抽象,如果经过良好地训练,就能在循环处理句子时有效地表示远距离的有序上下文信息,而无需对上下文窗口长度进行限定.本文选择了词、词性、依存句法树以及产品词典等特征构建了BRNN模型.通过实验发现,上述4种特征组合获得了最优实验结果,通过与CRF模型的对比,本文提出的方法在相互覆盖模式下F值比CRF模型高出0.61%,验证了本文方法的有效性.本文方法在COAE2015任务3的资源受限评测任务中,获得了最好结果. 相似文献
10.
命名实体识别在自然语言处理实践中具有高度重要的作用,而且也是信息提取等各种自然语言方式的基础工具.本文采用条件随机场模型(Conditional Random Fields,CRF)对维吾尔语音乐实体识别进行初步的探讨.首先维吾尔语网站上收集数据,进行一系列预处理后得到纯文本,然后制定语料标注规则对实体进行人工标注,再利用上下文、关键字、词典等一系列特征进行训练,制定一个适合的模板来进行音乐实体的识别.实验结果证明,此方法在维吾尔语音乐领域不仅可行、而且有效. 相似文献
11.
针对在线文本情感摘要生成问题,本文提出了一种基于Opinosis图和马尔科夫随机游走模型的情感摘要框架.首先,该框架将原始文本转化为Opinosis图,并利用其挖掘出文本中的特征词,这些特征词可以用来对原始文本的句子进行分类;其次本文在基于聚类的条件马尔科夫随机游走模型的基础上增加了情感层,改进后的模型可以判断同一聚类中各句子的情感倾向是否具有代表性并结合情感和聚类信息对句子进行排序.实验结果表明,本文提出的方法与基准算法相比在ROUGE(Recall-Oriented Understudy for Gisting Evaluation)值上具有明显提高. 相似文献
12.
13.
对文本情感分析的研究现状与进展进行总结。从情感分析的任务情感分类、情感检索、情感抽取3个方面详细介绍了相关研究和技术方法,重点阐述了基于语义的情感词典分类方法和基于机器学习的情感分类方法,并介绍了文本情感分析的评测,提出了未来的研究方向。 相似文献
14.
15.
本文提出了一种有监督主题模型的SLDA-TC(Supervised LDA-Text Categorization)文本分类方法,引入主题-类别概率分布参数,识别主题-类别的语义信息;提出SLDA-TC-Gibbs主题采样新方法,对每个词的隐含主题采样,只从该词所在文档的同类其它文档中采样,并给出了理论推导;另外,其主题数只需略大于类别数.实验表明,对比LDA-TC(LDA-Text Categorization)和SVM算法,本方法能提高分类精度和时间性能. 相似文献
16.
17.
该文通过对文摘句的选择问题进行分析,提出了一种文摘句优选方法,相对于传统的逐个添加句子生成文摘的方法,该文提出的方法是在一定范围内逐个删除句子生成文摘。该方法分两阶段进行句子选择,第1阶段获取候选文摘句子集合,采用了直接获取算法和基于冗余信息处理的获取算法。第2阶段逐步删除句子,分别以不同特征项作为衡量句子对候选文摘句子集合的贡献,提出了文摘句优选算法。以DUC2004为实验语料,通过经句子选择后生成文摘的ROUGE得分,验证了句子选择在文摘生成过程中的必要性,与基于冗余信息处理的句子选择方法比较,验证了该文提出算法的有效性。 相似文献
18.
隐藏狄利克雷分配(Latent Dirichlet Allocation ,LDA )模型被广泛应用于文本分析、图像识别等领域。但由于LDA及其扩展模型多为无监督学习模型,无法将其应用于分类任务中。本文通过研究文档标记与LDA模型中主题的映射关系,提出一种新的Labeled LDA模型(Shared Background Topics Labeled LDA ,SBTL-LDA )。在SBTL-LDA模型中每个标记除了存在若干个独享的局部主题外,还存在若干个共享的背景(Background )主题,这样可以有效分析不同标记所含主题之间的依赖关系,而文档标记被映射为局部主题和共享主题的组合,因此SBTL-LDA模型可以有效提升文档标记判别的准确性。同时SBTL-LDA模型还可以看成是一种半监督聚类模型,在对文档进行聚类分析的过程中模型可以有效的利用文档的标记信息提升文档聚类效果。实验证明SBTL-LDA模型能够有效解决PLDA模型中主题之间的相似性和依赖关系,具有良好的多标记判别能力,并且具有优于LDA、PLDA模型的文档聚类效果。 相似文献
19.
大多数基于有指导机器学习方法的情感分类采用N元(n-gram)词袋(bag-of-words)模型,使用二值(binary)作为特征项的权重。本文系统地分析了信息检索中常用的特征权重计算方法,并从项频、倒文档率、归一化因子等角度加以借鉴和改进,研究其在商家评论上的应用。最主要的改进在于考虑了特征项在不同类别中分布情况的差异以及对倒文档率的平滑。在餐饮评论语料上的实验结果表明,经典的tf.idf若干变形,尤其是倒文档率类差异(delta idf)及平滑因子(smoothing factor)的引入,能有效提高分类准确率。在酒店、电脑、书籍等领域的在线评论公开数据集上也取得了较好的性能,证明了方法的普遍适用性。这一方法目前已经在中国电信号码百事通业务中用于餐饮商家及优惠券推荐,效果良好。 相似文献
20.
神经网络在处理中文文本情感分类任务时,文本显著特征提取能力较弱,学习速率也相对缓慢.针对这一问题,文中提出一种基于注意力机制的混合网络模型.首先对文本语料进行预处理,利用传统的卷积神经网络对样本向量的局部信息进行特征提取,并将其输入耦合输入和遗忘门网络模型,用以学习前后词句之间的联系.随后,再加入注意力机制层,对深层次... 相似文献