首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 156 毫秒
1.
文本特征区域与文本过滤的匹配机制   总被引:3,自引:0,他引:3  
为了根据用户的信息需求,在因特网上搜索相关文本,该文提出了一种文本过滤的匹配机制,其基本思想是:利用基于词典的概念扩张方法,改进用户模板。计算扩张的用户模板与文本的全局相似度,获取初步的过滤结果;在文本特征区域,进行标题、摘要段、首段和尾段等片断的局部相似度计算,以综合评价文本与用户模板的匹配情况。该方法可操作性强,效果明显。  相似文献   

2.
基于Web的信息过滤机制   总被引:12,自引:0,他引:12  
信息过滤目的在于依据用户兴趣进行动态信息搜索以满足用户的需求。文章给出了基于Web的信息过滤机制。它根据用户信息需求,建立公共模板,利用搜索引擎获取信息源;然后利用文档与用户模板的匹配机制,将相关文档推送给用户。在文档结构分析和相关反馈的基础上,提出了特征抽取和权重分配算法;将布尔模型和向量空间模型相结合,提出了文档与用户模板匹配算法。  相似文献   

3.
基于概念扩充的文本过滤模型   总被引:8,自引:1,他引:7  
该文在介绍文本过滤的背景及向量空间模型的同时,提出了基于语义词典对用户模板进行扩充的文本过滤模型,该模型首先对文本进行分析,把文本表示成向量空间中的向量形式,在形成用户初始模板之后,对用户模板进行同义词扩充,形成扩充后的用户模板,以此模板来进行文本过滤。在用户反馈的基础上,自适应地修改该模板,以适应用户变化的需求及改善系统过滤性能。实验表明,这样的确可以提高系统覆盖面,提高系统效率。  相似文献   

4.
基于混合模式的文本过滤模型   总被引:16,自引:1,他引:15  
文本过滤旨在帮助用户处理自己感兴趣的文本,提出了基于混合模式的文本过滤模式,其基本思想是将基于内容的过滤方法和合作过滤方法结合起来,给出了用户评沪的权威性和一致性度是,以便更好地运用用户的评注信息,在此基础上,结合用户的个人兴趣,给出了文硒特征抽取机制、文本推荐机制、文本与信息需求模型的匹配机制,该方法不依赖于具体的领域知识库,大大降低“噪音”影响,并可以适用于多媒体类型文件的过滤和信息服务。  相似文献   

5.
文本结构分析与基于示例的文本过滤   总被引:13,自引:0,他引:13  
本文简要介绍了文本过滤的背景和发展,提出了基于示例的中文文本过滤模型.其基本思想是首先对于用户提出的示例文本进行文本结构分析,采用本文提出的文本层次分析方法,提取文本特征,形成主题词表示的用户模版(user profile),然后进行了文本过滤,同时引进段落匹配机制,提高过滤效率.通过用户反馈,改进用户模版.  相似文献   

6.
基于词汇链的文本过滤模型   总被引:5,自引:0,他引:5  
在介绍文本过滤的背景及传统基于关键词的向量空间方法不足之处的同时,引入了词汇链的概念,提出了基于词汇链表示文本的文本过滤模型,该模型首先对文本进行分析,把文本表示成词汇链的形式,在形成用户初始模板之后,以此模板来进行文本过滤。在用户反馈的基础上,自适应地修改该模板,以适应用户变化的需求及改善系统过滤性能,实验表明,这样的确可以提高系统精度。  相似文献   

7.
基于内容的文本过滤关键在于建立有效的过滤模板。一种高效的过滤模板可以降低整个文本过滤系统对机器学习机制的要求,提高系统的过滤效率。提出了一种基于概念学习的过滤模板获取方法。该方法结合处理文本特征项的需要改进了概念学习方法中的寻找极大特殊假设算法,并应用新的算法从给定的少量训练文本中提取用户过滤模板。实验结果表明,与直接使用主题描述作为过滤模板的方法相比,较大地提高了过滤精度,可以达到比较令人满意的过滤效果。  相似文献   

8.
基于内容的文本过滤关键在于建立有效的过滤模板。一种高效的过滤模板可以降低整个文本过滤系统对机器学习机制的要求,提高系统的过滤效率。提出了一种基于概念学习的过滤模板获取方法。该方法结合处理文本特征项的需要改进了概念学习方法中的寻找极大特殊假设算法,并应用新的算法从给定的少量训练文本中提取用户过滤模板。实验结果表明,与直接使用主题描述作为过滤模板的方法相比,较大地提高了过滤精度,可以达到比较令人满意的过滤效果。  相似文献   

9.
中英文双语交叉过滤的逻辑模型   总被引:7,自引:1,他引:6  
文章简要地描述了文本过滤的背景,提出了基于潜在语义索引的中英文双语交叉过滤的逻辑模型。其基本思想是改进双语交叉过滤中基于词汇对译的方法,而是利用双语文本中潜在的语义结构,作为用户模板与文本匹配的基础。将出现的双语词汇和文本映射为语义空间的向量,不必翻译对译词,甚至不需要出现相应的对译词,也能匹配成功,极大地改善了交叉过滤的精度,效果良好。  相似文献   

10.
中文文本的信息自动抽取和相似检索机制   总被引:1,自引:0,他引:1  
目前信息抽取成为提供高质量信息服务的重要手段,提出面向中文文本信息的自动抽取和相似检索机制,其基本思想是将用户兴趣表示为语义模板,对关键字进行概念扩充,通过搜索引擎获得初步的候选文本集合,在概念触发机制和部分分析技术基础上,利用语义关系到模板槽的映射机制,填充文本语义模板,形成结构化文本数据库.基于文本数据表述的模糊性,给出用户查询与文本语义模板的相似关系,实现了相似检索,可以更加全面地满足用户的信息需求.  相似文献   

11.
基于概念扩充的中文文本过滤模型   总被引:8,自引:0,他引:8  
1 前言今天,以因特网为主体的信息高速公路仍在不断普及和发展,因特网上蕴涵的海量信息远远超过人们的想象,面对这样的信息汪洋大海,人们往往感到束手无策,无所适从,出现所谓的“信息过载”问题。如何帮助人们有效地选择和利用所感兴趣的信息,同时保证人们在信息选择方面的个人隐私权利?这已成为学术界和企业界所十分关注的焦点。因此,信息过滤技术应  相似文献   

12.
针对微博用户兴趣建模问题,提出一种在微博短文本数据集上建立用户兴趣模型的方法。为缓解短文本造成的数据稀疏性问题,在分析微博短文本结构和内容的基础上,给出微博短文本重构概念,根据微博相关的其他微博短文本和文本中包含的3种特殊符号,进行文本内容的扩展,从而扩充原始微博的特征信息。利用HowNet2000概念词典将重构后文本的特征词集映射到概念集。以抽象到概念层的文本向量为基础进行聚类,划分用户的兴趣集合,并给出用户兴趣模型的表示机制。实验结果表明,短文本重构和概念映射提高了聚类效果,与基于协同过滤的微博用户兴趣建模方法相比,平衡均值提高29.1%,表明构建的微博用户兴趣模型具有较好的性能。  相似文献   

13.
刘超  朱波 《计算机应用研究》2023,40(4):1037-1043
针对当前基于图神经网络的推荐系统受数据稀疏影响推荐效率不高的问题,提出融合画像和文本信息的轻量级关系图注意推荐模型(LightRGAN)。首先,利用用户画像和项目画像初始化用户和项目的嵌入表示。其次,引入评论、项目描述和项目类型作为辅助信息,并通过基于多头注意力机制的文本嵌入网络挖掘同一用户评论集和描述集中文本之间的潜在联系。然后,通过融合注意力机制的轻量级关系图卷积网络学习用户和项目的嵌入表示。最后,对各层嵌入表示加权求和并通过预测网络计算匹配分数。在三个公开数据集上的实验结果表明LightRGAN的效果优于多个现有的基线模型,评估指标HR@20、NDCG@20较最优基线模型最少提升了2.58%、2.37%。  相似文献   

14.
用户兴趣模型的表示和更新机制   总被引:29,自引:0,他引:29  
面对因特网的海量信息,为了实现基于用户兴趣的个性化信息服务,提出了用户兴趣模型的表示和更新机制.它根据用户提供的各类示例文档,将文本的段落作为识别用户兴趣的基本要素.在聚类分析基础上,考察特征项、段落和类别的表达能力,建立用户兴趣模型,通过计算与文本的匹配程度,将满足约定条件的文本推荐给用户.利用相关反馈,追踪和更新用户兴趣模型,提高个性化信息服务的效率。  相似文献   

15.
基于向量空间模型的文本过滤系统   总被引:64,自引:0,他引:64       下载免费PDF全文
文本过滤是指从大量的文本数据流中寻找满足特定用户需求的文本的过程.首先从任务、测试主题、语料库和评测指标等方面介绍了文本检索领域最权威的国际评测会议--文本检索会议(TREC)及其中的文本过滤项目,然后详细地描述了基于向量空间模型的文本过滤系统.该系统由训练和自适应过滤两个阶段组成.在训练阶段,通过特征抽取和伪反馈建立初始的过滤模板,并设置初始阈值;在过滤阶段,则根据用户的反馈信息自适应地调整模板和阈值.该系统参加了2000年举行的第9次文本检索会议的评测,取得了很好的成绩,在来自多个国家的15个系统中名列前茅,其中自适应过滤和批过滤的平均准确率分别为26.5%和31.7%.  相似文献   

16.
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号