共查询到20条相似文献,搜索用时 265 毫秒
1.
基于概念统计和语义层次分析的英文自动文摘研究 总被引:5,自引:1,他引:5
传统的自动文摘方法基于词语统计抽取文摘句,未进行文本的语义分析,导致文摘精度不高。为了克服传统方法的缺点,本文提出了一种基于主题概念的自动文摘方法,以概念统计和层次分析为基础设计并实现了一个英文自动文摘系统。系统利用WordNet以概念统计代替传统的词频统计,基于主题概念构建向量空间模型,计算句子重要度。并且根据主题概念在概念层次树上的分布进行文本结构分析划分意义块,以意义块为单元抽取文摘,初步解决了多主题文章的文摘结构不平衡问题。本文主要介绍了概念层次树的构造,主题概念的抽取步骤,基于主题概念的句子重要度的计算和意义块的划分算法。测试表明,通过概念统计和语义层次分析的方法,我们设计了更理想的向量空间模型,系统生成的文摘精度较高,并更全面地反映了原文的主要内容。 相似文献
2.
3.
4.
提出了一种基于主题与子事件抽取的多文档自动文摘方法。该方法突破传统词频统计方法,除考虑词语频率、位置信息外,还将词语是否为描述文本集合的主题和子事件作为因素,提取出了8个基本特征,利用逻辑回归模型预测基本特征对词语权重的影响,计算词语权重。通过建立句子向量空间模型给句子打分,结合句子分数和冗余度产生文摘。对N-gram同现频率、主题词覆盖率和高频词覆盖率3种不同参数,分别在Coverage Baseline、Centroid-Based Summary和Word Mining based Summary(WMS)3种不同文摘系统下所产生的文摘质量,进行了对比实验,结果表明WMS系统在多方面具有优越的性能。 相似文献
5.
提出一种基于文本分割技术的多文档自动文摘方法。该方法使用HowNet作为概念获取工具,通过建立句子概念向量空间模型和利用改进的DotPlotting模型来进行文本分割。利用建立的句子概念向量空间模型计算句子重要度,并根据句子重要度、文本分割结果和文摘句相似度等因素产生文本摘要。使用ROUGE-N评测方法和F_Score作为评测指标对系统产生的文摘进行评测,结果显示使用文本分割技术进行多文档摘要是有效的。 相似文献
6.
自动摘要是解决网络信息过载问题的关键技术之一.在对文本中旬子的特征和句子之间的语义距离分析的基础上,提出了一种基于句子特征和语义距离的自动文本摘要算法.首先计算文档中句子的各个特征权重,在此基础上决定句子的权重;然后,通过句子之间的语义距离计算,修改句子的权重,据此进行排序,权重大的作为文本的主题句;最后,对文摘句进行平滑处理,生成文字流畅的文本摘要.实验表明,该算法在不同的压缩率下生成的摘要接近于人工摘要,具有较好的性能. 相似文献
7.
提高文摘自动生成的准确性,能够帮助人们快速有效地获取有价值的信息。本文根据政府公文结构性强的特点,提出一种基于句子权重和篇章结构的政府公文自动文摘算法,首先通过基于游标的截取字符分句算法,对文档中句子和词语信息进行精确统计,获得对文章内容和篇章结构的基本了解;在此基础上,提出基于篇章结构的词语权重和句子权重计算方法,并根据权重计算结果对句子进行权重排序;然后,根据生成摘要的规模,筛选出一定数量的候选文摘句子;最后,对候选文摘句子进行一定的后处理,输出文摘句。实验结果表明,与同类型自动文摘算法以及Word 2003提供的自动文摘工具相比,本文提出的自动文摘算法在准确率和召回率上都有较大提高。 相似文献
8.
9.
多文档文摘中基于时间信息的句子排序策略研究 总被引:1,自引:0,他引:1
文摘句排序是多文档自动文摘中的一个关键技术,直接影响到文摘的流畅程度和可读性。文本时间信息处理是影响排序算法质量的瓶颈技术,由于无法获得准确的时间信息,传统的句子排序策略均回避了这一问题,而且均无法获得稳定的高质量的排序效果。对此该文从文本时间信息处理入手,首先提出了中文文本时间信息抽取、语义计算以及时序推理算法,并在此算法基础上,借鉴传统的主成分排列的思想和句子相关度计算方法,提出了基于时间信息的句子排序算法。实验表明该算法的质量要明显好于传统的主成分排列算法和时序排列算法。 相似文献
10.
基于HowNet的句子褒贬倾向性研究 总被引:4,自引:2,他引:2
文本倾向性识别在信息过滤、自动文摘、文本分类等领域有广泛的应用前景。句子倾向性研究是文本倾向性识别的基础,结合句法分析结果和词语语义倾向性可以衡量句子褒贬倾向性。以HowNet的词汇语义相似度计算为基础,提出了基于的语义距离和语法距离的句子褒贬倾向性计算方法。大量语句实验表明,该方法的计算结果与人工判别结果更接近。 相似文献
11.
基于JSP分页技术的研究 总被引:1,自引:0,他引:1
电子商务应用中的数据量往往非常大,甚至会达到几十万到几千万条记录的规模,将如此大量的数据显示在一个页面里困难大、效率低。在这种情况下就需要采用分页显示技术将数据库中符合条件的数据逐页显示给用户。对JSP分页技术进行比较,在分析JSP分页技术特点的基础上,提出一种有效的分页解决方案,同时对分页技术的优化进行阐述。 相似文献
12.
13.
14.
研究《伤寒论》中命名实体的识别方法,助力张仲景《伤寒论》不同版本文本的深度挖掘,有助于传承中医文化.该文尝试构建ALBERT-BiLSTM-CRF模型,提取《伤寒论》中疾病、证候、症状、处方、药物等实体,并与BiLSTM-CRF模型和BERT-BiLSTM-CRF模型进行对比.五次实验ALBERT-BiLSTM-CRF模型三个评价指标准确率(P),召回率(R)和F1-测度值(F1-score)的平均值分别为85.37%,86.84%和86.02%,相较于BiLSTM-CRF模型和BERT-BiLSTM-CRF模型F1-score分别提升了6%和3%.实验表明相比BiLSTM-CRF和BERT-BiLSTM-CRF模型,ALBERT-BiLSTM-CRF模型在基于《伤寒论》的实体识别任务中效果最好,更适用于中文古籍的知识挖掘. 相似文献
15.
空间信息的存储和处理问题是地理信息系统(GIS)的核心问题.对空间数据和属性数据的统一存储管理已成为必然趋势.本文通过对GIS中海量数据的存储方式进行研究,指出对象-关系型的数据库存储方式是空间数据库的发展方向.在此基础上讨论了Hibernate技术与GIS数据库的结合,使用Hibernate技术将关系数据库中空间数据和属性数据进行封装,屏蔽了数据库底层操作,使得程序员可以用面向对象的思想随意操纵数据库,在利用了关系数据库的快速检索、查询能力的同时也增强了数据的一致性和可移植性. 相似文献
16.
17.
E1astos是具有中国自主知识产权的面向服务的新型嵌入式网络操作系统。目前主要用嵌入式设备,多款基于Elastos的3G手机已经面世.一款基于Elastos的电子书也即将进入量产。本文提出了基于Elastos的Content Provider,这是一种易于使用和扩展的应用程序数据访问模式.解决了在需求多变的市场背景下,手机应用程序如何方便的访问数据的问题。 相似文献
18.
Elastos是具有中国自主知识产权的面向服务的新型嵌入式网络操作系统。目前主要用嵌入式设备,多款基于Elastos的3G手机已经面世,一款基于Elastos的电子书也即将进入量产。本文提出了基于Elastos的ContentProvider,这是一种易于使用和扩展的应用程序数据访问模式,解决了在需求多变的市场背景下,手机应用程序如何方便的访问数据的问题。 相似文献
19.
20.
随着Internet和电子商务的发展,信息安全越来越得到业界的重视,其中网络操作系统的安全更是系统安全的基础.本文从计算机安全性的角度出发,着重讨论了Windows针对不同的使用环境所提供的用户身份验证的机制. 相似文献