首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
基于概念的中文文本可视化表示机制   总被引:1,自引:0,他引:1  
为了浏览因特网上日益增多的在线中文文本,本文给出了基于概念的中文文本可视化表示机制,以直观的方式组织和表示文本及文本集,其基本思想是:首先在概念扩充的基础上,进行文本分类,然后,利用本文提出的提出的文本特征抽取方法和摘要方法,获取广西类别、广西、广西正文的标记的信息,通过类别,文本、有选择地浏览文本。  相似文献   

2.
文本层次分析与文本浏览   总被引:7,自引:2,他引:5  
本文简要描述了文本的物理结构和逻辑结构以及相应的向量空间模型。研制了具有导航机制的文本浏览系统。提出了文本结构分析中的层次分析方法,它采用有序划分层次的方法。并在此基础上,给出了文本结构中各单元的标记信息,由此形成了文本的可视化表示。利用文本、层次、段落的超文本连接,根据浏览的需要,逐级展现文本细节,帮助用户有目的、有选择地浏览文本。最后给出评价的结果。  相似文献   

3.
文本特征区域与文本过滤的匹配机制   总被引:3,自引:0,他引:3  
为了根据用户的信息需求,在因特网上搜索相关文本,该文提出了一种文本过滤的匹配机制,其基本思想是:利用基于词典的概念扩张方法,改进用户模板。计算扩张的用户模板与文本的全局相似度,获取初步的过滤结果;在文本特征区域,进行标题、摘要段、首段和尾段等片断的局部相似度计算,以综合评价文本与用户模板的匹配情况。该方法可操作性强,效果明显。  相似文献   

4.
对话摘要是从复杂的对话中提取关键信息以转化成简短的文本,供用户快速浏览对话内容。相比传统文本摘要,对话摘要数据具有篇幅较长、结构复杂等特点。传统的摘要模型难以充分地利用数据的长文本信息,并且无法考虑对话的结构信息。为此,结合抽取和生成模型,提出一种基于场景与对话结构的摘要生成方法,以对话中的场景、角色和对话内容为主要信息生成对话摘要。通过对话解析构建以角色、动作说明和会话为要素的对话结构图,并使用序列标注任务微调BERT预训练模型,生成以对话句子为单位的向量表示,利用图神经网络建模对话结构,筛选出包含关键信息的句子。在此基础上,将得到的抽取结果作为生成模型的输入,利用双向自回归变压器(BART)预训练模型作为基础框架,在编码端额外引入角色和场景信息,丰富生成模型的语义特征,使用加入多头注意力机制的解码器生成摘要。实验结果表明,相比BART、MV_BART、HMNet等方法,该方法在ROUGE-1指标上最高可提升5.3个百分点。  相似文献   

5.
文本结构分析与基于示例的文本过滤   总被引:13,自引:0,他引:13  
本文简要介绍了文本过滤的背景和发展,提出了基于示例的中文文本过滤模型.其基本思想是首先对于用户提出的示例文本进行文本结构分析,采用本文提出的文本层次分析方法,提取文本特征,形成主题词表示的用户模版(user profile),然后进行了文本过滤,同时引进段落匹配机制,提高过滤效率.通过用户反馈,改进用户模版.  相似文献   

6.
微风 《电脑》2005,(5):25-25
在日常使用中.我们需要显示器具备不同的亮度以满足不同显示环境的需要。例如.在试玩CS这类对亮度非常敏感的游戏时.我们需要显示器能亮一些.这样才不至于在黑暗角落被敌人轻易“爆头”;若是浏览文本时.则需要适当调低亮度,这样看起来才不觉刺眼。正是由于这种原因.部分显示器厂商为自己的产品装备了显亮模式调整快捷键.例如Philips的LightFrame、BenQ的SmartEye技术.使用户可以快速切换文本、Internet、游戏的等显亮模式,操作更方便。  相似文献   

7.
随着互联网信息的快速剧增,文本过滤技术成为互联网内容处理的关键技术,对海量信息处理具有很重要的意义.目前研究热点是基于语义的过滤方法,但是这些方法一般都需要大量规则和领域知识的支持,可用性不是很好.为了使机器更好地理解用户需求和文本内容,使过滤结果更能反映用户的真正需求,提高文本过滤的准确率和召回率,提出了基于用户本体模型UOM的文本信息过滤方法.该方法主要包括UOM构建、文本结构分析、文本概念提取和语义相关度计算等.基于UOM(User Ontology Model)的过滤方法,不仅可以表示复杂的用户需求,而且还避免了领域本体的构建,因而其有效性和实用性得到了很大的提高.通过在网络教学资源的智能按需服务系统中的实际运用,表明此方法能更有效地为用户提供过滤服务.  相似文献   

8.
提出一种基于文本分割技术的多文档自动文摘方法。该方法使用HowNet作为概念获取工具,通过建立句子概念向量空间模型和利用改进的DotPlotting模型来进行文本分割。利用建立的句子概念向量空间模型计算句子重要度,并根据句子重要度、文本分割结果和文摘句相似度等因素产生文本摘要。使用ROUGE-N评测方法和F_Score作为评测指标对系统产生的文摘进行评测,结果显示使用文本分割技术进行多文档摘要是有效的。  相似文献   

9.
周博  刘奕群  张敏  金奕江  马少平 《软件学报》2011,22(8):1714-1724
锚文本对网络信息检索性能的提升作用已经得到验证,并被广泛地应用于商用网络搜索引擎.然而,锚文本制作的不可控性导致其中蕴含大量与目标网页不相关或具有作弊倾向的无用信息.另外,对于需要衡量检索结果服务质量的事务类查询,原始锚文本推荐的目标网页也往往与真实的用户体验不一致.为了解决上述问题,基于大规模真实用户的互联网浏览行为日志展开研究.首先提出了锚文本检索有效性的评估框架,然后分析了用户网络浏览点击行为与锚文本检索有效性之间的联系,挖掘了用户网络浏览点击行为中有助于筛选高质量锚文本的特征.基于这些特征,提出了两种超链接文档生成方法.实验结果表明,基于用户网络浏览点击行为特征筛选出的锚文本,与原始锚文本相比,能够明显地提升网络检索的性能.  相似文献   

10.
随着互联网上信息的爆炸式增长,如何有效提高知识获取效率变得尤为重要。文本自动摘要技术通过对信息的压缩和精炼,为知识的快速获取提供了很好的辅助手段。现有的文本自动摘要方法在处理长文本的过程中,存在准确率低的问题,无法达到令用户满意的性能效果。为此,该文提出一种新的两阶段的长文本自动摘要方法TP-AS,首先利用基于图模型的混合文本相似度计算方法进行关键句抽取,然后结合指针机制和注意力机制构建一种基于循环神经网络的编码器—解码器模型进行摘要生成。通过基于真实大规模金融领域长文本数据上的实验,验证了TP-AS方法的有效性,其自动摘要的准确性在ROUGE-1的指标下分别达到了36.6%(词)和33.9%(字符),明显优于现有其他方法。  相似文献   

11.
基于潜在语义索引的文本浏览机制   总被引:26,自引:1,他引:25  
文本浏览是伴随着因特网上日益增多的在线文本而出现的辅助阅读机制,本文给出了基于潜在语义索引的文本浏览机制。它吸取了潜在语义索引和概念标注的优点,利用潜在语义索引,减少词汇间的“斜交”现象,在语义空间上进行项与项、文本与文本、项与文本之间的相似度计算。利用概念词典将文本特征项按语义分类,给予层次分类以确定的含义。最后,实现以分层概念为基础的信息导航。  相似文献   

12.
基于信息论的潜在概念获取与文本聚类   总被引:7,自引:3,他引:4  
李晓光  于戈  王大玲  鲍玉斌 《软件学报》2008,19(9):2276-2284
针对词、潜在概念、文本和主题之间的模糊关系,提出一种基于信息论的潜在概念获取与文本聚类方法.方法引入了潜在概念变量和主题变量。根据信息论中熵压缩编码理论,定义了一个全局目标函数,给出一种类似于确定性退火算法的求解算法,用以获得概念层次树以及在不同层次概念上的文本聚类结果,是一种双向软聚类方法.方法通过基于最短描述长度原则的概念选择方法,最终确定概念个数和对应的文本聚类结果.实验结果表明,所提出的方法优于基于词空间的文本聚类方法以及双向硬聚类方法.  相似文献   

13.
为了解决基于传统关键词的文本聚类算法没有考虑特征关键词之间的相关性,而导致文本向量概念表达不够准确,提出基于概念向量的文本聚类算法TCBCV(Text Clustering Based on Concept Vector),采用HowNet的概念属性,并利用语义场密度和义原在概念树的权值选取合适的义原作为关键词的概念,实现关键词到概念的映射,不仅增加了文本之间的语义关系,而且降低了向量维度,将其应用于文本聚类,能够提高文本聚类效果。实验结果表明,该算法在文本聚类的准确率和召回率上都得到了较大的提高。  相似文献   

14.
教材文本相对于普通文本有其独特性。通过分析教材目录的特征,获取领域词汇的种子概念。通过分析教材正文中知识点的特征,提取出知识点的特征值,然后利用决策树C4.5算法对知识点类型进行识别,实现了教材文本的本体学习。  相似文献   

15.
面向文本检索的语义计算   总被引:14,自引:1,他引:14  
赵军  金千里  徐波 《计算机学报》2005,28(12):2068-2078
随着信息社会尤其是互联网的发展,人们对文本检索的要求越来越高.作为对传统关键词匹配技术的改进,智能检索研究已经成为热点,并将是支撑下一代互联网的核心技术之一.将语义计算技术应用于文本检索,是智能检索的重要方向.文中在文本检索的两个关键技术(“标引”和“相似度计算”)中引入语义计算技术,用浅层语义来指导检索过程,提高检索准确率.针对“标引”技术,提出了语义树模型;针对“相似度计算”,基于语义张量的概念,结合自然语言处理的一些技术,提出三个可计算的窗口模型来近似语义张量的核心思想.以上工作在一定程度上实现了语义计算的功能.利用TREC数据集进行的评测表明,采用了语义计算技术后,文本检索的准确率可以提高10%左右.  相似文献   

16.
A map of text documents arranged using the Self-Organizing Map (SOM) algorithm (1) is organized in a meaningful manner so that items with similar content appear at nearby locations of the 2-dimensional map display, and (2) clusters the data, resulting in an approximate model of the data distribution in the high-dimensional document space. This article describes how a document map that is automatically organized for browsing and visualization can be successfully utilized also in speeding up document retrieval. Furthermore, experiments on the well-known CISI collection [3] show significantly improved performance compared to Salton's vector space model, measured by average precision (AP) when retrieving a small, fixed number of best documents. Regarding comparison with Latent Semantic Indexing the results are inconclusive. This revised version was published online in August 2006 with corrections to the Cover Date.  相似文献   

17.
基于概念空间的文本检索系统   总被引:10,自引:3,他引:10  
当前信息检索存在着信息过载和词汇不匹配的问题。文章提出了一种新的检索方式缓解这两个问题。这种检索方法在文本聚类的基础上,基于概念空间并与传统的关键词检索相结合能够帮助用户快速、准确地定位所需要查找的信息。文章将对这种检索方式进行介绍,并且着重介绍利用共现分析以及Hopfield网络生成概念空间。  相似文献   

18.
基于BBS热点主题发现的文本聚类方法   总被引:1,自引:0,他引:1       下载免费PDF全文
针对电子公告板(BBS)帖子浏览机制不完善和主题发现效率不高的问题,提出一种基于BBS热点主题发现的文本聚类方法。将含有关键词的文档向量相加,经权重处理后计算其两两距离,合并最小的2类,并逐次进行,使最终类的大小比较均匀,以分等级的菜单方式组织帖子便于逐层浏览。实验结果表明,该方法比常规方法更适用于BBS主题浏览。  相似文献   

19.
基于Web的文本挖掘技术研究   总被引:2,自引:0,他引:2  
Internet上大多数信息的表现形式为文本,如何在浩瀚的文本信息中挖掘到潜在的知识是一个有待解决的问题。文本挖掘的目的是从不同格式的文本中发现有用的知识,这是一个分析文本并从中抽取特定信息的过程。系统地介绍了文本挖掘的含义,并对文本挖掘过程的各个方面进行了进一步的探讨,包括文本特征的建立、特征的提取技术、文本的分类、文本的聚类等相关技术。同时提出了一种基于Web的文本信息挖掘的模型,将以高校BBS论坛为信息源,利用高级语言开发技术来构建一个自动的文本分类器。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号