期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

Assessment of text coherence using an ontology-based relatedness measurement method

Görkem Giray Murat Osman Ünalır 《Expert Systems》2020,37(3):e12505

This paper proposes a novel method for assessing text coherence. Central to this approach is an ontology-based representation of text, which captures the level of relatedness between consecutive sentences via ontologies. Our method encompasses annotating text using ontological concepts and assessing text coherence based on relatedness measurement among these concepts. The ontology-based relatedness measurement method used in this study considers various types of relationships in ontologies and derived relationships via an inference engine for computing relatedness. We hypothesized that rich variety of relationships and inferred facts in ontologies would improve the success of text coherence assessment. Our results demonstrate that the use of ontologies yields to coherence values that have a higher correlation with human ratings. 相似文献

2.

应用搜索引擎计算语义相关度的实现

下载免费PDF全文

陈肖雨郭雷方俊《计算机工程与应用》2010,46(30):128-130

具备模仿人类判断能力的语义相关度在很多方面尤其是自然语言处理领域中处于非常重要的地位。已有的算法或依赖于WordNet层级结构或由于自身局限性无法满足精确计算的要求,由此提出了一种基于搜索引擎的语义相关度算法,根据对两关键词网络搜索时系统返回的搜索页数来计算二者的语义相关度值。通过与其他算法进行对比实验可看出该算法与专家值重合度要远高于其他算法,而且对于计算对象无词性、语法以及语言等方面的限制,优越性较为明显。相似文献

3.

基于自注意力机制的方面情感分类

王拂林《计算机应用研究》2020,37(11):3227-3231,3245

基于方面的情感分类方法判断句子中给定实体或属性的情感极性。针对使用全局注意力机制计算属性词和句子其他词的注意力分数时,会导致模型关注到与属性词不相关的词,并且对于长距离的依赖词、否定词关注不足,不能检测到并列关系和短语的问题,提出了基于自注意力机制的语义加强模型（SRSAM）。该模型首先使用双向长短时记忆神经网络模型（bidirectional long short-term memory,BiLSTM）获取文本编码,其次用自注意力机制计算文本编码的多个语义编码,最后将属性词和语义编码交互后判断属性词在句中的情感极性。使用SemEval 2014数据集的实验表明,由于模型能发现长距离依赖和否定词,对并列关系和短语有一定检测效果,相比基础模型在分类精度上有0.6%~1.5%的提升。相似文献

4.

基于中文维基百科的词语语义相关度计算

万富强吴云芳《中文信息学报》2013,27(6):31-38

语义相关度计算在信息检索、词义消歧、自动文摘、拼写校正等自然语言处理中均扮演着重要的角色。该文采用基于维基百科的显性语义分析方法计算汉语词语之间的语义相关度。基于中文维基百科,将词表示为带权重的概念向量,进而将词之间相关度的计算转化为相应的概念向量的比较。进一步,引入页面的先验概率,利用维基百科页面之间的链接信息对概念向量各分量的值进行修正。实验结果表明,使用该方法计算汉语语义相关度,与人工标注标准的斯皮尔曼等级相关系数可以达到0.52,显著改善了相关度计算的结果。相似文献

5.

基于中文维基百科链接结构与分类体系的语义相关度计算

汪祥贾焰周斌丁兆云梁政《小型微型计算机系统》2011,32(11)

自然语言词汇的语义相关度的计算需要获取大量的背景知识,而维基百科是当前规模最大的百科全书,其不仅是一个规模巨大的语料库,而且还是一个包含了大量人类背景知识和语义关系的知识库,研究表明,其是进行语义计算的理想资源,本文提出了一种将维基百科的链接结构和分类体系相结合计算中文词汇语义相关度的算法,算法只利用了维基百科的链接结构和分类体系,无需进行复杂的文本处理,计算所需的开销较小.在多个人工评测的数据集上的实验结果显示,获得了比单独使用链接结构或分类体系的算法更好的效果,在最好的情况下,Spearman相关系数提高了30.96％. 相似文献

6.

基于短语注意机制的文本分类

江伟金忠《中文信息学报》2018,32(2):102

基于词注意机制的双向循环神经网络在解决文本分类问题时,存在如下问题:直接对词加权生成文本表示会损失大量信息,从而难以在小规模数据集上训练网络。此外,词必须结合上下文构成短语才具有明确语义,且文本语义常常是由其中几个关键短语决定,所以通过学习短语的权重来合成的文本语义表示要比通过学习词的权重来合成的更准确。为此,该文提出一种基于短语注意机制的神经网络框架NN-PA。其架构是在词嵌入层后加入卷积层提取N-gram短语的表示,再用带注意机制的双向循环神经网络学习文本表示。该文还尝试了五种注意机制。实验表明: 基于不同注意机制的NN-PA系列模型不仅在大、小规模数据集上都能明显提高分类正确率,而且收敛更快。其中,模型NN-PA1和NN-PA2明显优于主流的深度学习模型,且NN-PA2在斯坦福情感树库数据集的五分类任务上达到目前最高的正确率53.35%。相似文献

7.

利用N-gram和语义分析的维吾尔语文本相似性检测方法

张莹亚森·艾则孜吴顺祥《计算机应用研究》2019,36(9)

为了实现维吾尔语文本的相似性检测,提出一种基于N-gram和语义分析的相似性检测方法。根据维吾尔语单词特征,采用了N-gram统计模型来获得词语,并根据词语在文本中的出现频率来构建词语—文本关系矩阵,并作为文本模型。采用了潜在语义分析（LSA）来获得词语及其文本之间的隐藏关联,以此解决维吾尔语词义模糊的问题,并获得准确的相似度。在包含重组和同义词替换的剽窃文本集上进行实验,结果表明该方法能够准确有效地检测出相似性。相似文献

8.

基于GVSM的文本相似度算法研究

郑小波郑诚尹莉莉《微型机与应用》2011,30(3)

提出了一种基于WordNet和GVSM的文本相似度算法,通过语义的路径长度和路径深度计算两个词的语义相似度,结合改进的GVSM模型计算文本相似度,并对基于TFIDF-VSM模型和本文方法进行了比较.实验结果表明,该算法取得了更好的准确率和效率. 相似文献

9.

基于虚词变换的自然语言信息隐藏算法研究 总被引：1，自引：1，他引：1

赵敏之孙星明向华政《计算机工程与应用》2006,42(3):158-160

简要分析了一般文本信息隐藏的方法,提出了一种利用汉语中的高频虚词来进行信息隐藏的思想。以助词“的”为例,总结出了若干可以在不影响文本语义的前提下修改“的”字结构的语法规则。以这些规则为基础给出了一个具体的基于虚词变换的文本信息隐藏算法,并对该算法的隐蔽性和隐藏容量、鲁棒性等进行了分析。相似文献

10.

Finding words in alphabet soup: Inference on freeform character recognition for historical scripts

Nicholas R. Howe Shaolei Feng R. ManmathaAuthor vitae 《Pattern recognition》2009,42(12):3338-3347

This paper develops word recognition methods for historical handwritten cursive and printed documents. It employs a powerful segmentation-free letter detection method based upon joint boosting with histograms of gradients as features. Efficient inference on an ensemble of hidden Markov models can select the most probable sequence of candidate character detections to recognize complete words in ambiguous handwritten text, drawing on character n-gram and physical separation models. Experiments with two corpora of handwritten historic documents show that this approach recognizes known words more accurately than previous efforts, and can also recognize out-of-vocabulary words. 相似文献

11.

基于语言网络和语义信息的文本相似度计算

詹志建杨小平《计算机工程与应用》2014,50(5):33-38

通过分析已有的基于统计和基于语义分析的文本相似性度量方法的不足,提出了一种新的基于语言网络和词项语义信息的文本相似度计算方法。对文本建立语言网络,计算网络节点综合特征值,选取TOP比例特征词表征文本,有效降低文本表示维度。计算TOP比例特征词间的相似度,以及这些词的综合特征值所占百分比以计算文本之间的相似度。利用提出的相似度计算方法在数据集上进行聚类实验,实验结果表明,提出的文本相似度计算方法,在F-度量值标准上优于传统的TF-IDF方法以及另一种基于词项语义信息的相似度量方法。相似文献

12.

Unsupervised statistical text simplification using pre-trained language modeling for initialization

Jipeng QIANG Feng ZHANG Yun LI Yunhao YUAN Yi ZHU Xindong WU 《Frontiers of Computer Science》2023,17(1):171303

Unsupervised text simplification has attracted much attention due to the scarcity of high-quality parallel text simplification corpora. Recent an unsupervised statistical text simplification based on phrase-based machine translation system (UnsupPBMT) achieved good performance, which initializes the phrase tables using the similar words obtained by word embedding modeling. Since word embedding modeling only considers the relevance between words, the phrase table in UnsupPBMT contains a lot of dissimilar words. In this paper, we propose an unsupervised statistical text simplification using pre-trained language modeling BERT for initialization. Specifically, we use BERT as a general linguistic knowledge base for predicting similar words. Experimental results show that our method outperforms the state-of-the-art unsupervised text simplification methods on three benchmarks, even outperforms some supervised baselines. 相似文献

13.

结合关键词微变和LD算法的文本相似性研究

程玉胜梁辉王一宾任勇《计算机工程与应用》2016,52(8):70-73

为了解决基于传统向量空间模型的文本相似性算法没有考虑向量高维及关键词的微变,而导致文本相似性计算结果不够精确的问题,提出了关键词微变情况下基于聚类和LD算法的文本相似性算法TSABCLDA（Text Similarity Algorithm Based on Clustering and LD Algorithm）。对文本进行移除数字、标点符号和停用词等预处理;采用聚类的方法约简文本中的低频词,利用LD算法计算特征词间的相似度,建立文本相似度矩阵;用特征词相似度及其权重构建的空间向量计算文本间的相似度,这样不仅考虑了关键词微变的情况,而且有效地解决了文本向量的高维问题,将其应用于文本挖掘中,能够提高相似文本的挖掘效率。实验结果表明,由于考虑了关键词微变情况,在一定的阈值范围内,该算法文本相似性的准确率得到了明显的提高。相似文献

14.

基于语义特征抽取的文本聚类研究

殷硕王卫亚柳有权《计算机技术与发展》2020,(3):46-50

基于向量空间模型(VSM)的文本聚类会出现向量维度过高以及缺乏语义信息的问题,导致聚类效果出现偏差。为解决以上问题,引入《知网》作为语义词典,并改进词语相似度算法的不足。利用改进的词语语义相似度算法对文本特征进行语义压缩,使所有特征词都是主题相关的,利用调整后的TF-IDF算法对特征项进行加权,完成文本特征抽取,降低文本表示模型的维度。在聚类中,将同一类的文本划分为同一个簇,利用簇中所有文本的特征词完成簇的语义特征抽取,簇的表示模型和文本的表示模型有着相同的形式。通过计算簇之间的语义相似度,将相似度大于阈值的簇合并,更新簇的特征,直到算法结束。通过实验验证,与基于K-Means和VSM的聚类算法相比,文中算法大幅降低了向量维度,聚类效果也有明显提升。相似文献

15.

Revisiting dictionary‐based compression

Przemys&#x;aw Skibi&#x;ski Szymon Grabowski Sebastian Deorowicz 《Software》2005,35(15):1455-1476

An attractive way to increase text compression is to replace words with references to a text dictionary given in advance. Although there exist a few works in this area, they do not fully exploit the compression possibilities or consider alternative preprocessing variants for various compressors in the latter phase. In this paper, we discuss several aspects of dictionary‐based compression, including compact dictionary representation, and present a PPM/BWCA‐oriented scheme, word replacing transformation, achieving compression ratios higher by 2–6% than the state‐of‐the‐art StarNT (2003) text preprocessor, working at a greater speed. We also present an alternative scheme designed for LZ77 compressors, with the advantage over StarNT of reaching up to 14% in combination with gzip. Copyright © 2005 John Wiley & Sons, Ltd. 相似文献

16.

一种基于语义与句法结构的短文本相似度计算方法

赵谦荆琪李爱萍段利国《计算机工程与科学》2018,40(7):1287-1294

为了提高短文本语义相似度计算的准确率,提出一种新的计算方法:将文本分割为句子单元,对句子进行句法依存分析,句子之间相似度计算建立在词语间相似度计算的基础上,在计算词语语义相似度时考虑词语的新特征——情感特征,并提出一种综合方法对词语进行词义消歧,综合词的词性与词语所处的语境,再依据Hownet语义词典计算词语语义相似度;将句子中词语之间的语义相似度根据句子结构加权平均得到句子的语义相似度,最后通过一种新的方法——二元集合法——计算短文本的语义相似度。词语相似度与短文本相似度的准确率分别达到了87.63%和93.77%。实验结果表明,本文方法确实提高了短文本语义相似度的准确率。相似文献

17.

一种基于《知网》的文本语义相似度的计算方法

孙滨刘林《计算机与数字工程》2014,(2):187-189,209

论文提出一个基于语义的文本间的相似度算法,以文本的特征词相似度为基础,来计算文本间的相似度,利用聚类算法对文本簇进行聚类.实验结果证明基于知网的文本语义相似度方法在对文本相似度计算以及文本聚类方面,能有效提高聚类的效果. 相似文献

18.

基于词汇语义信息的文本相似度计算

谷重阳徐浩煜《计算机应用研究》2018,35(2)

传统的文本相似度计算大多基于词匹配的方法,忽略了词汇语义信息,计算结果很大程度上取决于文本的词汇重复率。虽然分布式词向量可以有效表达词汇语义关系,但目前基于词向量的文本处理方法大都通过词汇串联等形式表示文本,无法体现词汇在语料库中的分布情况。针对以上问题,本文提出了一种新的计算方法, 该方法认为基于统计的文本向量各元素之间存在相关性,且该相关性可通过词汇语义相似度表示。因此, 本文利用词汇相似度改进了基于余弦公式的文本相似度计算方法。实验表明该方法在 F1 值和准确度评价标准上优于其他方法。相似文献

19.

基于用法的现代汉语连词结构短语识别研究

昝红英周丽娟张坤丽《中文信息学报》2012,26(6):72-79

连词能够连接词语、短语、小句、句子乃至句群,连词结构短语是连词所连接对象的一种,不同的连词形成不同长度、不同关系的连词结构短语。该文根据虚词用法知识库中的连词用法,构建了连词结构短语识别规则,实现了基于规则的连词结构短语识别,并将连词用法作为特征采用条件随机场模型实现了基于统计的连词结构短语识别。实验结果表明,统计的识别效果高于规则的识别效果,连词用法能够较好地用于连词结构短语的识别中。相似文献

20.

A <word,part of speech> embedding model for text classification

Wenfeng Liu Peiyu Liu Yuzhen Yang Jing Yi Zhenfang Zhu 《Expert Systems》2019,36(6)

Existing word embeddings learning algorithms only employ the contexts of words, but different text documents use words and their relevant parts of speech very differently. Based on the preceding assumption, in order to obtain appropriate word embeddings and further improve the effect of text classification, this paper studies in depth a representation of words combined with their parts of speech. First, using the parts of speech and context of words, a more expressive word embeddings can be obtained. Further, to improve the efficiency of look‐up tables, we construct a two‐dimensional table that is in the <word, part of speech> format to represent words in text documents. Finally, the two‐dimensional table and a Bayesian theorem are used for text classification. Experimental results show that our model has achieved more desirable results on standard data sets. And it has more preferable versatility and portability than alternative models. 相似文献