共查询到10条相似文献,搜索用时 546 毫秒
1.
传统的基于统计的自动文摘方法以词语作为文本信息的基本单位,没有考虑到词语在不同语言环境下的具体语义,导致文摘精度不高.为了克服传统方法的缺点,提出了一种基于文本组块的自动文摘方法.系统利用中科院的ICTCLAS软件对文档进行分词和词性标注,并根据一系列的规则,将相关的词语构造成组块.由句子中出现的组块作为衡量句子重要性的标准选出文摘句.文中给出了自动文摘的评价方法和实验结果,跟传统的基于词语的文摘相比较,实验结果表明基于文本组块的自动文摘系统生成的文摘句精度更高,更能全面反映原文的主要内容. 相似文献
2.
3.
基于概念统计和语义层次分析的英文自动文摘研究 总被引:5,自引:1,他引:5
传统的自动文摘方法基于词语统计抽取文摘句,未进行文本的语义分析,导致文摘精度不高。为了克服传统方法的缺点,本文提出了一种基于主题概念的自动文摘方法,以概念统计和层次分析为基础设计并实现了一个英文自动文摘系统。系统利用WordNet以概念统计代替传统的词频统计,基于主题概念构建向量空间模型,计算句子重要度。并且根据主题概念在概念层次树上的分布进行文本结构分析划分意义块,以意义块为单元抽取文摘,初步解决了多主题文章的文摘结构不平衡问题。本文主要介绍了概念层次树的构造,主题概念的抽取步骤,基于主题概念的句子重要度的计算和意义块的划分算法。测试表明,通过概念统计和语义层次分析的方法,我们设计了更理想的向量空间模型,系统生成的文摘精度较高,并更全面地反映了原文的主要内容。 相似文献
4.
网络图像语义自动标注是实现对互联网中海量图像管理和检索的有效途径,而自动有效地挖掘图像语义是实现自动语义标注的关键。网络图像的语义蕴含于图像自身,但更多的在于对图像语义起不同作用的各种描述文本,而且随着图像和描述知识的变化,描述文本所描述的图像语义也随之变化。提出了一种基于领域本体和不同描述文本语义权重的自适应学习的语义自动标注方法,该方法从图像的文本特征出发考查它们对图像语义的影响,先通过本体进行有效的语义快速发现与语义扩展,再利用一种加权回归模型对图像语义在其不同类型描述文本上的分布进行自适应的建模,进而实现对网络图像的语义标注。在真实的Wcb数据环境中进行的实验中,该方法的有效性得到了验证。 相似文献
5.
6.
针对网络大数据时代文本流的主题演化研究大多基于经典概率主题模型,以词袋假设为前提导致主题的语义缺失问题和批处理问题,提出一种在线增量的基于特征本体的主题演化算法。首先,基于词共现和通用本体库WordNet构建特征本体,用特征本体对文本流主题进行建模;其次,提出一种文本流主题矩阵构建算法,实现在线增量主题演化分析;最后,依据该矩阵提出文本流主题本体演化图构建算法,利用特征本体的子图相似度计算主题相似度,从而获得文本流中主题随时间的演化模式。在科技文献上的实验上,满意度同传统在线潜在狄利克雷分配模型(LDA)不相上下,但时间复杂度降低到O(nK+N)。所提出的方法引入了本体,加入了语义关系标注,可图形化展现主题的语义特征,并在此基础上在线增量地实现了主题演化图的构建,在语义解释性和主题可视化方面更具有优势。 相似文献
7.
基于HowNet的句子褒贬倾向性研究 总被引:4,自引:2,他引:2
文本倾向性识别在信息过滤、自动文摘、文本分类等领域有广泛的应用前景。句子倾向性研究是文本倾向性识别的基础,结合句法分析结果和词语语义倾向性可以衡量句子褒贬倾向性。以HowNet的词汇语义相似度计算为基础,提出了基于的语义距离和语法距离的句子褒贬倾向性计算方法。大量语句实验表明,该方法的计算结果与人工判别结果更接近。 相似文献
8.
9.
在文本信息数量迅速增长的环境下,为提升阅读效率,提出一种基于深度学习的多文档自动文本摘要模型。在传统文摘模型的基础上将Siamese LSTM深度学习网络应用到文本相似度计算中,计算曼哈顿距离来表征文本相似度,并采用去除停用词的方法改进该网络模型以提升计算效率。实验结果表明,使用Siamese LSTM与传统余弦相似度等方法相比,生成的文摘在语义方面更贴近主题,质量更高,整个文摘系统的工作效率也显著提升。 相似文献
10.
姜华 《计算机工程与应用》2008,44(36):143-145
概念的语义相似度研究,是知识表示以及信息检索领域中的一个重要内容。通过分析两种传统的语义相似度计算方法,对它们存在的问题进行改进,提出了一种综合的基于本体的概念语义相似度计算方法。该方法结合本体的DAG网状结构特征和语义距离计算中的多种语义影响因素,充分利用本体中概念的语义来计算概念间的语义相似度。实验结果比较合理,验证了该方法的有效性。 相似文献