共查询到10条相似文献,搜索用时 15 毫秒
1.
一种新的句子相似度度量及其在文本自动摘要中的应用 总被引:7,自引:0,他引:7
本文提出了一种新的句子相似度度量的方法并应用于文本自动摘要中。其创新处在于相似度计算不仅考虑句子中的unigram ,还考虑了bi-gram 和tri-gram ,通过回归方法将这几种相似度结果综合起来。实验证明这种相似度计算方法是有效的。同时本文还提出了一种新的,利用句子间相似度以及句子的权重的抽句
式文摘算法,在抽取出句子的同时也去掉了冗余。DUC2003、DUC2004 (Document Understanding Conference 2003 ,2004) 的评测结果征明了方法的有效性。我们的系统在DUC2004 的评测中列第二位。 相似文献
2.
基于基本要素的文摘内容连贯性评测模型 总被引:1,自引:0,他引:1
文摘的自动化面临诸多因难,一个重要的原因是对文摘的内容缺乏有效的自动评测方法.文中提出了基于基本要素(BE)关系网格的文摘内容连贯性评测模型.模型以BE为内容单元,以BE中的"关系"为内容单元的语法角色,通过BE关系在BE关系网格中的转移概率来表达文摘内容的连贯性.在DUC2005数据集上的评测结果显示,模型评测结果与人工评测结果的Pearson相关系数为0.408,比Lapata2005年提出的实体网格模型得到的结果提高了约66%. 相似文献
3.
提出一种基于文本分割技术的多文档自动文摘方法。该方法使用HowNet作为概念获取工具,通过建立句子概念向量空间模型和利用改进的DotPlotting模型来进行文本分割。利用建立的句子概念向量空间模型计算句子重要度,并根据句子重要度、文本分割结果和文摘句相似度等因素产生文本摘要。使用ROUGE-N评测方法和F_Score作为评测指标对系统产生的文摘进行评测,结果显示使用文本分割技术进行多文档摘要是有效的。 相似文献
4.
自动文摘是计算机语言学领域的一个研究重点,其研究和应用受到了计算机科学、语言学、情报信息学等相关学科的广泛关注。首先介绍了基于LexRank算法的自动文摘方法。针对该方法的不足,从句子相似度计算方法、句子权重计算方法以及冗余处理等方面对它进行了改进,从而可以根据输入文本内容动态地调整相关影响因子。实现的文摘系统,可以对中文和英文的单文本或多文本进行自动文摘。在哈工大和DUC的测评语料上进行了实验,结果表明该系统在一定程度上改进了文摘的质量,在多文本文摘中的抗噪声方面也有一定的优越性。最后讨论了自动摘要研究存在的问题,并指出了自动文摘的研究趋势。 相似文献
5.
6.
主题模型LDA的多文档自动文摘 总被引:3,自引:0,他引:3
近年来使用概率主题模型表示多文档文摘问题受到研究者的关注.LDA (latent dirichlet allocation)是主题模型中具有代表性的概率生成性模型之一.提出了一种基于LDA的文摘方法,该方法以混乱度确定LDA模型的主题数目,以Gibbs抽样获得模型中句子的主题概率分布和主题的词汇概率分布,以句子中主题权重的加和确定各个主题的重要程度,并根据LDA模型中主题的概率分布和句子的概率分布提出了2种不同的句子权重计算模型.实验中使用ROUGE评测标准,与代表最新水平的SumBasic方法和其他2种基于LDA的多文档自动文摘方法在通用型多文档摘要测试集DUC2002上的评测数据进行比较,结果表明提出的基于LDA的多文档自动文摘方法在ROUGE的各个评测标准上均优于SumBasic方法,与其他基于LDA模型的文摘相比也具有优势. 相似文献
7.
自动文摘是自然语言处理领域的一个重要研究话题,基于机器学习的自动文摘方法则是该项研究中的一个热点。然而,自动文摘问题中的数据分布有一个重要现象,即文摘句子与非文摘句子的数量相差非常悬殊,该现象将给传统机器学习算法的应用效果带来负面影响。为此,本文针对自动文摘中句子类别分布严重不平衡这一现象,以支持向量机算法为基础,设计了两种有效的处理非平衡自动文摘数据的分类方法。在第一种方法中,将传统支持向量机中正负类平衡的分类间隔转换为不平衡的分类间隔;在第二种方法中,通过将数据集进行切分,设计了一种支持向量机集成学习算法。通过在DUC2001数据集上的实验证明,本文设计的两种基于非平衡数据分类的单文档自动文摘方法显著优于基于传统分类算法的自动文摘方法。 相似文献
8.
文本自动综述系统的研究与实现 总被引:6,自引:0,他引:6
文本自动综述是自动文摘在多文档上的推广.提出了一种基于统计的文本自动综述方法,并描述了它的实现过程.该方法利用文档内和文档之间段落的语义相关性,实现多文档的自动综述.首先对文本进行分段实现信息分割;再对文本段进行聚类实现信息凝聚;最后抽取代表段产生综述结果实现信息压缩.实验结果表明,该方法是有效的,具有一定的实用价值. 相似文献
9.
自动文摘技术的目标是致力于将冗长的文档内容压缩成较为简短的几段话,将信息全面、简洁地呈现给用户,提高用户获取信息的效率和准确率。所提出的方法在LDA(LatentDirichletAllocation)的基础上,使用Gibbs抽样估计主题在单词上的概率分布和句子在主题上的概率分布,结合LDA参数和谱聚类算法提取多文档。该方法使用线性公式来整合句子权重,提取出字数为400字的多文档。使用ROUGE自动评测工具包对DUC2002数据集评测质量,结果表明,该方法能有效地提高的质量。 相似文献