首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 140 毫秒
1.
中文文本过滤的信息分流机制   总被引:17,自引:2,他引:15  
在文本过滤中信息分流是提高过滤效率的有力的手段,为此,提出了一种新的中文文本过滤的信息分流机制.其基本思路是在概念扩充基础上,将不同用户的信息需求组织为树状结构,使其共同的部分成为共享分支,依据提出的侧面相似度和侧面匹配率来实现文本与模板的定量匹配,减弱传统的布尔模型对文本与模板匹配的严格限制,也弥补向量空间模型单纯数量化的不足,更加全面地反映用户的信息需求,试验表明该机制能够明显地提高过滤效率。  相似文献   

2.
基于语义空间的支持向量机的文本过滤   总被引:2,自引:0,他引:2  
传统的基于支持向量机的文本过滤,用向量空间模型来表示文本和用户模板,向量空间模型假设特征项之间是线性无关的,该假设引入了许多因具体用词变化不定而带来的词汇噪音信息,影响了基于支持向量机的文本过滤的过滤性能。提出基于语义空间的支持向量机的文本过滤,用语义来表示文本和用户模板。该方法主要通过奇异值分解提取文本的潜在语义空间,在语义空间上训练支持向量机得到用户模板和过滤阈值,文本流上的文本映射到语义空间上,在语义空间上计算用户模板和新文本的相似度。实验表明:该方法的过滤性能可以达到 98. 67%。  相似文献   

3.
基于混合模式的文本过滤模型   总被引:16,自引:1,他引:15  
文本过滤旨在帮助用户处理自己感兴趣的文本,提出了基于混合模式的文本过滤模式,其基本思想是将基于内容的过滤方法和合作过滤方法结合起来,给出了用户评沪的权威性和一致性度是,以便更好地运用用户的评注信息,在此基础上,结合用户的个人兴趣,给出了文硒特征抽取机制、文本推荐机制、文本与信息需求模型的匹配机制,该方法不依赖于具体的领域知识库,大大降低“噪音”影响,并可以适用于多媒体类型文件的过滤和信息服务。  相似文献   

4.
为了解决传统文本过滤以联,提出了一种基于概念格的文本过滤模型.在以传统的向量空问模型对文本进行表示的基础上,将文本与文本特征之间的关系以概念格的形式加以表示.设计了基于领域本体的概念相似度的计算方法,以概念相似度对概念之间的关联进行衡量.利用了概念格中的层次关系,设计了一个基于概念格的匹配过滤算法.实验结果表明,该模型...  相似文献   

5.
基于子树匹配的文本相似度算法   总被引:1,自引:0,他引:1  
为降低文本向量维度,提高文本间语义相似度度量性能,综合利用统计方法与语义词典的优势,提出一种文本相似度算法.基于文本生成元数据特征向量,减少向量空间维度,设计基于子树匹配的文本相似度算法,借助子树加速对文本相似度的计算,并通过将文本元数据特征向量与子树进行相似度语义匹配,提高文本相似度计算时语义相似度度量的准确性.该算法考虑到对元数据中同义词的语义理解,加强文本之间相似度度量时的语义覆盖能力.实验结果表明文中所提出的方法是可行和有效的.  相似文献   

6.
基于语境框架的文本相似度计算   总被引:12,自引:0,他引:12  
介绍了一种新的文本形式化的语义模型———语境框架。语境框架是一个三维的语义描述,它把文本内容抽象成领域(静态范畴)、情景(动态描述)、背景(褒贬、参照等)三个侧面。在语境框架的基础上,设计实现了文本相似度计算算法。算法从概念层面入手,充分考虑了文本的领域和对象的语义角色对相似度的影响,重点针对文本中的歧义、多义、概念组合现象,以及语言中的褒贬倾向,实现了文本间语义相似程度的量化。算法已经应用到文本过滤系统中,用以比较用户过滤要求和待过滤文本之间的相似度。实际应用中取得了比较满意的效果。  相似文献   

7.
基于文本过滤的数字图书馆个性化服务技术   总被引:3,自引:0,他引:3  
在数字图书馆的应用中,个性化服务可以为用户提供符合其兴趣的检索结果。提供了一种针对数字图书馆个性化服务策略的文本过滤技术,通过在向量空间内建立用户兴趣模型和文本内容特征模型,计算它们的相似度后,将用户不感兴趣的文本过滤掉。详细描述了具体的建模过程和个性化文本过滤算法,最后给出了在实际的数字图书馆工程中的验证结果。  相似文献   

8.
文本结构分析与基于示例的文本过滤   总被引:13,自引:0,他引:13  
本文简要介绍了文本过滤的背景和发展,提出了基于示例的中文文本过滤模型.其基本思想是首先对于用户提出的示例文本进行文本结构分析,采用本文提出的文本层次分析方法,提取文本特征,形成主题词表示的用户模版(user profile),然后进行了文本过滤,同时引进段落匹配机制,提高过滤效率.通过用户反馈,改进用户模版.  相似文献   

9.
基于词汇链的文本过滤模型   总被引:5,自引:0,他引:5  
在介绍文本过滤的背景及传统基于关键词的向量空间方法不足之处的同时,引入了词汇链的概念,提出了基于词汇链表示文本的文本过滤模型,该模型首先对文本进行分析,把文本表示成词汇链的形式,在形成用户初始模板之后,以此模板来进行文本过滤。在用户反馈的基础上,自适应地修改该模板,以适应用户变化的需求及改善系统过滤性能,实验表明,这样的确可以提高系统精度。  相似文献   

10.
基于概念扩充的文本过滤模型   总被引:7,自引:1,他引:7  
该文在介绍文本过滤的背景及向量空间模型的同时,提出了基于语义词典对用户模板进行扩充的文本过滤模型,该模型首先对文本进行分析,把文本表示成向量空间中的向量形式,在形成用户初始模板之后,对用户模板进行同义词扩充,形成扩充后的用户模板,以此模板来进行文本过滤。在用户反馈的基础上,自适应地修改该模板,以适应用户变化的需求及改善系统过滤性能。实验表明,这样的确可以提高系统覆盖面,提高系统效率。  相似文献   

11.
中英文双语交叉过滤的逻辑模型   总被引:7,自引:1,他引:6  
文章简要地描述了文本过滤的背景,提出了基于潜在语义索引的中英文双语交叉过滤的逻辑模型。其基本思想是改进双语交叉过滤中基于词汇对译的方法,而是利用双语文本中潜在的语义结构,作为用户模板与文本匹配的基础。将出现的双语词汇和文本映射为语义空间的向量,不必翻译对译词,甚至不需要出现相应的对译词,也能匹配成功,极大地改善了交叉过滤的精度,效果良好。  相似文献   

12.
文本过滤是指从大量的文本中寻找满足用户需求的文本的过程。以互联网上下载的突发事件新闻文本为研究背景,提出了基于新闻标题的文本过滤模型,根据示例文本构建标题过滤模板,采用基于关键字的过滤方法对突发事件新闻文本进行过滤。其特点是实现简单,过滤速度快,有一定的实际作用。  相似文献   

13.
基于文本分类的文档相似度计算   总被引:1,自引:0,他引:1  
如何从成千上万篇文档中找出与指定文档相似的所有文档,首先要做的第一件事就是判断其类别,也就是分类;在判定类别后,再进一步计算,找出同类中所有与指定文档内容相似的文档。由于文档相似度的计算和文本分类过程很相似,所以可以借助指定文档的分类结果,即类别和文档特征向量值,通过进一步计算与同类中其他文档的相似度值,找出超过阂值的文档,即找出与指定目标内容相似的文档。  相似文献   

14.
Drawing on theories in evolutionary biology, research on hypertext navigation has posited two profiles to capture how students navigate information sources: the satisficing and sampling approaches of text access. While students engaged in sampling work to identify an optimal source to exploit for information, students who adopt a satisficing approach to text use spend time on accessing the first text they visit that meets some threshold of acceptability. This study examines the manifestation of these profiles when students navigate multiple, non-hyperlinked texts, without time limitations. Evidence was found for a satisficing, but not a sampling, approach to multiple text navigation. Four sub-profiles of satisficing approaches were identified. Students in the limited navigation profile devoted little time to text access. Students in the primary profile devoted the bulk of access time to a single text. Those in the distributed profile visited the texts they accessed for fairly uniform periods of time. Students in the discriminating profile visited certain texts for substantial periods of time, while accessing other texts to a more limited extent. These four navigation profiles were found to be differentially associated with other metrics of text access (e.g., whether texts were revisited), ratings of text usefulness, and task performance.  相似文献   

15.
Text detection is important in the retrieval of texts from digital pictures, video databases and webpages. However, it can be very challenging since the text is often embedded in a complex background. In this paper, we propose a classification-based algorithm for text detection using a sparse representation with discriminative dictionaries. First, the edges are detected by the wavelet transform and scanned into patches by a sliding window. Then, candidate text areas are obtained by applying a simple classification procedure using two learned discriminative dictionaries. Finally, the adaptive run-length smoothing algorithm and projection profile analysis are used to further refine the candidate text areas. The proposed method is evaluated on the Microsoft common test set, the ICDAR 2003 text locating set, and an image set collected from the web. Extensive experiments show that the proposed method can effectively detect texts of various sizes, fonts and colors from images and videos.  相似文献   

16.
基于向量空间模型的文本过滤系统   总被引:64,自引:0,他引:64       下载免费PDF全文
文本过滤是指从大量的文本数据流中寻找满足特定用户需求的文本的过程.首先从任务、测试主题、语料库和评测指标等方面介绍了文本检索领域最权威的国际评测会议--文本检索会议(TREC)及其中的文本过滤项目,然后详细地描述了基于向量空间模型的文本过滤系统.该系统由训练和自适应过滤两个阶段组成.在训练阶段,通过特征抽取和伪反馈建立初始的过滤模板,并设置初始阈值;在过滤阶段,则根据用户的反馈信息自适应地调整模板和阈值.该系统参加了2000年举行的第9次文本检索会议的评测,取得了很好的成绩,在来自多个国家的15个系统中名列前茅,其中自适应过滤和批过滤的平均准确率分别为26.5%和31.7%.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号