首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
文本特征区域与文本过滤的匹配机制   总被引:3,自引:0,他引:3  
为了根据用户的信息需求,在因特网上搜索相关文本,该文提出了一种文本过滤的匹配机制,其基本思想是:利用基于词典的概念扩张方法,改进用户模板。计算扩张的用户模板与文本的全局相似度,获取初步的过滤结果;在文本特征区域,进行标题、摘要段、首段和尾段等片断的局部相似度计算,以综合评价文本与用户模板的匹配情况。该方法可操作性强,效果明显。  相似文献   

2.
中文文本过滤的信息分流机制   总被引:17,自引:2,他引:15  
在文本过滤中信息分流是提高过滤效率的有力的手段,为此,提出了一种新的中文文本过滤的信息分流机制.其基本思路是在概念扩充基础上,将不同用户的信息需求组织为树状结构,使其共同的部分成为共享分支,依据提出的侧面相似度和侧面匹配率来实现文本与模板的定量匹配,减弱传统的布尔模型对文本与模板匹配的严格限制,也弥补向量空间模型单纯数量化的不足,更加全面地反映用户的信息需求,试验表明该机制能够明显地提高过滤效率。  相似文献   

3.
论文提出了一种基于向量空间模型的用户个性化需求建模方法。对关键词权重算法作出改进,将网页分为四类逻辑段,通过计算关键词在各类逻辑段中的权重而加权得到综合权重。采用基于内容的构建原则和反馈原则,将用户模型构建分为训练阶段和自适应学习阶段。在训练阶段由用户给出的样本文档与关键词采用类重心分类算法训练得到初始用户模型;在自适应学习阶段,提出了基于 Rocchio 算法的周期性自适应学习机制,根据用户对过滤结果的评价,调整用户模型,以提高对用户个性化需求的动态追踪能力。开发了个性化信息过滤原型系统。以中国服装网为实验数据源,对比百度搜索引擎,测试系统的信息过滤性能。实验结果表明,系统索引更新及时,响应速度快,返回的信息更精确,更合理,更加符合用户的实际需求。  相似文献   

4.
王金宝 《计算机应用》2006,26(5):1099-1101
为了适应实时在线的网络信息过滤需求,提出了一种新的自适应过滤模型。在系统的初始化阶段,运用增量学习方法对附加的少量伪相关文档进行学习,采用改进的文档词频方法来抽取特征词,以此扩展需求模板,提高模板准确度。在系统测试阶段,以系统效能指标最优为目标,提出了将概率模型和文档正例分布统计方法相结合来实现阈值优化的新算法。  相似文献   

5.
针对信息过滤中存在的失配和过载问题,结合粗糙集和模式挖掘理论,提出了一种基于两级模型的信息过滤系统.第一级采用基于粗糙集的主题过滤方法,利用粗糙集的关联规则理论对用户需求进行建模,滤除与用户需求不相符的信息;第二级采用SPMining算法对用户需求模型的词序列进行剪枝,并采用PTM2算法重新计算剪枝后词的支持度,最后采用加权排序的方法对文档进行排序.  相似文献   

6.
信息过滤已成为当今信息技术研究的热点。主要介绍布尔模型、向量空间模型和概率模型,并分析它们各自的优点及存在的不足之处。在此基础上,提出一种新的信息过滤模型——基于本体论的信息过滤模型,阐述用户兴趣模板的构建步骤、用户相关反馈和更新算法,为基于本体的信息过滤技术提供了理论基础。  相似文献   

7.
个性化网络信息过滤Agent的反馈评价机制   总被引:3,自引:1,他引:3  
文章描述了信息过滤的作用,并介绍了一个基于Agent的万维网文档信息过滤系统。文中提出了个性化网络信息过滤Agent的结构及其实现方案,并讨论了用相关反馈评价机制更新用户兴趣模型的问题,建议用决策树从用户分类的文档集中学习用户的信息兴趣。  相似文献   

8.
用户兴趣模型的表示和更新机制   总被引:29,自引:0,他引:29  
面对因特网的海量信息,为了实现基于用户兴趣的个性化信息服务,提出了用户兴趣模型的表示和更新机制.它根据用户提供的各类示例文档,将文本的段落作为识别用户兴趣的基本要素.在聚类分析基础上,考察特征项、段落和类别的表达能力,建立用户兴趣模型,通过计算与文本的匹配程度,将满足约定条件的文本推荐给用户.利用相关反馈,追踪和更新用户兴趣模型,提高个性化信息服务的效率。  相似文献   

9.
为了提高文本信息检索的查准率和缩短检索时间,提出了一种基于多策略的文档过滤算法.该算法根据潜在词性特征初步生成候选词,采用基于标题的特征词发现扩充候选词,使用改进的TFIDF对候选词的特征进行加权合成,去除不符合条件词,求出用户需求向量和待过滤文档向量的相似度,将相似度大于一定阈值的文档提供给用户.从实验参数确定、策略对结果的影响两方面论证了文档信息过滤算法的可行性.实验结果表明,基于多策略的文档信息过滤算法能够提高信息检索的查准率,改善信息检索的质量.  相似文献   

10.
以本体构造中文信息过滤中的需求模型   总被引:3,自引:0,他引:3  
在信息过滤系统中,用户模板是机器可理解的用户需求表示形式,是否能准确地反映出用户的真实需求将直接影响着过滤系统的性能。在向量空间模型中,用户的模板表现为一组带权重的特征词集,但由于在这样的用户模板中缺少必要的语义信息,很难准确地反映出用户的需求。本文提出了以本体构造需求模板的方法,以本体的形式定义需求中概念间的语义关联关系,将向量空间模型中的特征向量定义为本体中的实例,通过实例间的关联路径计算特征项间的语义关联,并通过特征项间的语义关联计算出文档与模板的语义关联度。  相似文献   

11.
一种基于向量空间模型的多层次文本分类方法   总被引:37,自引:2,他引:37  
本文研究和改进了经典的向量空间模型(VSM)的词语权重计算方法,并在此基础上提出了一种基于向量空间模型的多层次文本分类方法。也就是把各类按照一定的层次关系组织成树状结构,并将一个类中的所有训练文档合并为一个类文档,在提取各类模型时只在同层同一结点下的类文档之间进行比较;而对文档进行自动分类时,首先从根结点开始找到对应的大类,然后递归往下直到找到对应的叶子子类。实验和实际系统表明,该方法具有较高的正确率和召回率。  相似文献   

12.
We tackle the problem of new users or documents in collaborative filtering. Generalization over users by grouping them into user groups is beneficial when a rating is to be predicted for a relatively new document having only few observed ratings. Analogously, generalization over documents improves predictions in the case of new users. We show that if either users and documents or both are new, two-way generalization becomes necessary. We demonstrate the benefits of grouping of users, grouping of documents, and two-way grouping, with artificial data and in two case studies with real data. We have introduced a probabilistic latent grouping model for predicting the relevance of a document to a user. The model assumes a latent group structure for both users and items. We compare the model against a state-of-the-art method, the User Rating Profile model, where only the users have a latent group structure. We compute the posterior of both models by Gibbs sampling. The Two-Way Model predicts relevance more accurately when the target consists of both new documents and new users. The reason is that generalization over documents becomes beneficial for new documents and at the same time generalization over users is needed for new users.  相似文献   

13.
隐含语义索引模型的分析与研究   总被引:4,自引:0,他引:4  
王春红  张敏 《计算机应用》2007,27(5):1283-1285
在深入分析向量空间模型基础上,对其进行扩展,设计了一种隐含语义索引模型——LSI。LSI通过奇异值分解,将词向量和文档向量投影到一个低维空间,消减了词和文档之间的语义模糊度。理论分析证明,隐含语义索引模型具有更准确的文档语义内容的表达能力,能够取得更好的检索效果。  相似文献   

14.
Kwong  Linus W.  Ng  Yiu-Kai 《World Wide Web》2003,6(3):281-303
To retrieve Web documents of interest, most of the Web users rely on Web search engines. All existing search engines provide query facility for users to search for the desired documents using search-engine keywords. However, when a search engine retrieves a long list of Web documents, the user might need to browse through each retrieved document in order to determine which document is of interest. We observe that there are two kinds of problems involved in the retrieval of Web documents: (1) an inappropriate selection of keywords specified by the user; and (2) poor precision in the retrieved Web documents. In solving these problems, we propose an automatic binary-categorization method that is applicable for recognizing multiple-record Web documents of interest, which appear often in advertisement Web pages. Our categorization method uses application ontologies and is based on two information retrieval models, the Vector Space Model (VSM) and the Clustering Model (CM). We analyze and cull Web documents to just those applicable to a particular application ontology. The culling analysis (i) uses CM to find a virtual centroid for the records in a Web document, (ii) computes a vector in a multi-dimensional space for this centroid, and (iii) compares the vector with the predefined ontology vector of the same multi-dimensional space using VSM, which we consider the magnitudes of the vectors, as well as the angle between them. Our experimental results show that we have achieved an average of 90% recall and 97% precision in recognizing Web documents belonged to the same category (i.e., domain of interest). Thus our categorization discards very few documents it should have kept and keeps very few it should have discarded.  相似文献   

15.
向量空间模型是信息检索中的重要模型,传统的向量空间模型考虑了特征项在目标文档中的出现频率和文档频率,但并未考虑特征项出现在文本中的位置这一重要信息。针对这一问题,文章在将文档以文档对象模型表示的基础上,根据特征项出现的位置不同,对特征项的权重额外附加一个不同的系数,以反映不同位置上的特征项在表达文档主旨上的能力差异,以期改善返回文档的排序质量,改进用户的检索工作。通过模拟实验,验证了该方法相比于传统VSM在改进检索效果上的优势。  相似文献   

16.
电力调度工作中需要管理大量的文档,这些文档层次分类结构变动频繁,以往所采用分类结构固定的文档信息管理系统越来越不能适应电力调度工作的需要.在研究嵌套集合模型基本结构和性质的基础上,将嵌套集合模型用于数据库中的文档层次分类结构的存储及管理,并提出了各类型文档在数据库的存储及管理方法.以此为基础的文档管理数据库作为服务器端的核心数据源,开发的基于C/S(客户端/服务器端)模式的电力文档管理系统已用于华东某地区电力调度中心,提高了管理工作的效率及水平.  相似文献   

17.
互联网用户使用网络获取信息过程中,搜索引擎已成为必不可少的工具。传统的WWW搜索引擎是“提问——搜索”方式.对于所有用户给出同样的关键宇得到的检索结果都是一样的。本文基于传统搜索引擎Google的基础上,实现了个性化的搜索。论文重点阐述了基于向量空间模型的个性化搜索系统的设计和实现过程。系统返回结果能够根据不同用户的兴趣爱好给出用户满意度较好的结果。  相似文献   

18.
大坝施工仿真计算模型参数敏感性区间分析   总被引:1,自引:0,他引:1  
钟登华  练继亮 《计算机仿真》2003,20(12):48-50,44
模型参数是仿真计算的数据基础,而且不同的模型参数往往会导致不同的仿真结果。在考虑模型参数并非确定性的情况下。进行模型参数对仿真结果敏感性分析。以及在不影响仿真结果可行性或合理性的情况下确定模型参数的可行域,这无论对于仿真研究,还是指导决策活动都是十分重要的。  相似文献   

19.
在基于G-O模型的软件可靠性增长模型中引入以时间为变量故障察觉率,并以此模型建立了一种新的软件费用模型。该费用模型考虑了软件发布后使用者对软件系统剩余故障的发现概率,并不是所有的剩余故障全部被发现这种情况,使模型更符合实际。以软件开发费用最小为最优化条件,讨论发布时间与费用的关系,并在文章最后用示例说明了发布时间随参数变化。  相似文献   

20.
This paper presents an innovative solution to model distributed adaptive systems in biomedical environments. We present an original TCBR-HMM (Text Case Based Reasoning-Hidden Markov Model) for biomedical text classification based on document content. The main goal is to propose a more effective classifier than current methods in this environment where the model needs to be adapted to new documents in an iterative learning frame. To demonstrate its achievement, we include a set of experiments, which have been performed on OSHUMED corpus. Our classifier is compared with Naive Bayes and SVM techniques, commonly used in text classification tasks. The results suggest that the TCBR-HMM Model is indeed more suitable for document classification. The model is empirically and statistically comparable to the SVM classifier and outperforms it in terms of time efficiency.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号