首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 62 毫秒
1.
中英文双语交叉过滤的逻辑模型   总被引:7,自引:1,他引:6  
文章简要地描述了文本过滤的背景,提出了基于潜在语义索引的中英文双语交叉过滤的逻辑模型。其基本思想是改进双语交叉过滤中基于词汇对译的方法,而是利用双语文本中潜在的语义结构,作为用户模板与文本匹配的基础。将出现的双语词汇和文本映射为语义空间的向量,不必翻译对译词,甚至不需要出现相应的对译词,也能匹配成功,极大地改善了交叉过滤的精度,效果良好。  相似文献   

2.
本文针对当前传统潜在语义索引(LSI——latent semantic indexing)技术在提供信息过滤服务时已经不能满足用户个性化需求这一实际情况,提出利用隐式反馈技术来解决如何提供给不同用户以不同信息结果这一问题。在传统的LSI技术上提出了一种基于隐式反馈的LSI个性化信息过滤方法,该方法通过引入隐式反馈技术,将其应用于信息过滤中,从而可以为不同用户提供更多更有针对性的信息结果。本文给出了该方法的公式和具体算法,为其应用的实现提供了理论基础。  相似文献   

3.
信息过滤技术是当前研究的热点。该文简单地介绍了信息过滤中常用的三种模型:向量空间模型、布尔逻辑模型和概率推理模型;给出了一种基于模糊集合的过滤模型,通过筛选出关键词,为相关领域建立模糊集合;并阐述了如何确定该模糊集合中的隶属函数。  相似文献   

4.
分析了潜在语义模型,研究了潜在语义空间中文本的表示方法,提出了一种大容量文本集的检索策略。检索过程由粗粒度非相关剔除和相关文本的精确检索两个步骤组成。使用潜在语义空间模型对文本集进行初步的筛选,剔除非相关文本;使用大规模文本检索方法对相关文本在段落一级进行精确检索,其中为了提高检索的执行效率,在检索算法中引入了遗传算法;输出这些候选的段落序号。实验结果证明了这种方法的有效性和高效性。  相似文献   

5.
基于语义空间的支持向量机的文本过滤   总被引:2,自引:0,他引:2  
传统的基于支持向量机的文本过滤,用向量空间模型来表示文本和用户模板,向量空间模型假设特征项之间是线性无关的,该假设引入了许多因具体用词变化不定而带来的词汇噪音信息,影响了基于支持向量机的文本过滤的过滤性能。提出基于语义空间的支持向量机的文本过滤,用语义来表示文本和用户模板。该方法主要通过奇异值分解提取文本的潜在语义空间,在语义空间上训练支持向量机得到用户模板和过滤阈值,文本流上的文本映射到语义空间上,在语义空间上计算用户模板和新文本的相似度。实验表明:该方法的过滤性能可以达到 98. 67%。  相似文献   

6.
潜在语义索此方法在信息过滤中的应用   总被引:1,自引:0,他引:1  
信息过滤是一种WEB信息服务的新技术,旨在实现网络服务器向客户端主动的信息推送,其核心技术之一是用户兴趣主题模型的表示,文章利用潜在语义索引方法构建用户兴趣主题模型,并对网上大量的中文科技文献信息进行过滤,初步实验的结果表明,该方法与信传统的向量空间方法相比,效率有明显提高。  相似文献   

7.
基于向量空间的信息检索模型的改进   总被引:1,自引:0,他引:1  
向量空间模型是有代表性的信息检索模型之一,针对该模型存在的问题进行了研究和探讨.在仅用统计词频表-示文档向量方面,引入知网作为语义知识库,提出基于概念的特征选择模型;在因词语的同义和多义,不能满足文档向量相互独立方面,提出潜在语义索引模型.实验验证了改进后的检索模型更能体现文本的内容,降低文本向量的维数,提高检索的准确率.  相似文献   

8.
潜在语义索引方法在信息过滤中的应用   总被引:9,自引:2,他引:9  
信息过滤是一种WEB信息服务的新技术,旨在实现网络服务器向客户端主动的信息推迟,其核心技术之一是用户兴趣主题模型的表示。文章利用潜在语义索引方法构建用户兴趣主题模型,并对网上大量的中文科技文献信息进行过滤。初步实验的结果表明,该方法与传统的向量空间方法相比,效率有明显提高。  相似文献   

9.
基于Web的信息过滤机制   总被引:12,自引:0,他引:12  
信息过滤目的在于依据用户兴趣进行动态信息搜索以满足用户的需求。文章给出了基于Web的信息过滤机制。它根据用户信息需求,建立公共模板,利用搜索引擎获取信息源;然后利用文档与用户模板的匹配机制,将相关文档推送给用户。在文档结构分析和相关反馈的基础上,提出了特征抽取和权重分配算法;将布尔模型和向量空间模型相结合,提出了文档与用户模板匹配算法。  相似文献   

10.
信息过滤的模糊聚类模型   总被引:6,自引:2,他引:6  
针对Internet信息过滤问题,运用模糊聚类方法建立了一个用于信息过滤的聚类模型。该模型不仅考虑了文档间的语义联系,而且,又对文档集进行了进一步的分类,增强了类内的耦和性,减少了类间的关联性。最后,给出了一个模糊聚类算法。  相似文献   

11.
对矩阵奇异值分解的特征进行分析,并将矩阵的奇异值分解应用于向量空间模型,对其进行改进,实现基于语义的信息检索模型,该模型能消除同义词和多义词的影响,提高了文本表示的准确性,从而使信息检索的准确率有显著提高,具有重要的实用价值。  相似文献   

12.
潜在语义分析在中文信息处理中的应用   总被引:11,自引:2,他引:11  
潜在语义分析是一种关于自然语言信息提取和再现的理论方法,它通过代数的方法提取语义空间中潜在结构。论文叙述了潜在语义分析的基本理论方法,概述了这种方法所建立的潜在语义空间的数学意义;然后通过一个简单示例说明LSA在中文信息处理中的分析方法,并通过分析结果中文本间、词汇间关联度的变化来说明LSA在中文信息处理中的重要意义。  相似文献   

13.
李旻松  段琢华 《计算机应用》2011,31(9):2429-2431
隐含语意索引(LSI)是一个能有效捕获文档中词的隐含语意特征的方法。然而,用该方法选择的特征空间对文本分类来说可能不是最适合的,因为这种方法按照词的变化排序特征,而没有考虑到分类能力。支持向量机(SVM)高度的泛化能力使它特别适用于高维数据例如文档的分类。为此提出基于支持向量机的特征提取方法用于选择适于分类的LSI特征。该方法利用SVM高度泛化的分类能力, 通过使用在每一个规则下训练的分类器的参数对第k个特征对反向平方分解面的贡献w2k的值进行估计。实验表明当需要比LSI更少的训练和测试时间时,该方法能够以更为紧凑的表示方式提高分类性能。  相似文献   

14.
通过对信息过滤一般过程的分析,提出了一种基于内容的网络异常信息过滤方法。在源信息采集方面,建立了网络信息捕获构架,基于协议分析实现网络数据的提取;在信息内容处理方面,采用设立切分标志进行文本信息的预处理,在此基础上,基于向量空间模型实现文档的结构化表示;在信息匹配算法方面,通过计算文档向量之间的相似度,实现网络信息的有效过滤。  相似文献   

15.
基于潜在语义索引的文本分析方法   总被引:1,自引:0,他引:1  
本文分析是文本处理领域中的重要内容,它可以有效地改进文本检索、文本过滤以及文本摘要的精度.本文简要描述了文本的物理结构和逻辑结构以及文本分析的背景,将潜在语义索引引入文本分析中,提出了基于潜在语义索引的层次分析方法.该方法保证了层次划分的有序性和聚合性,可操作性强,便于解释,并给出了在文本检索、文本过滤和文本摘要中的应用.  相似文献   

16.
在协同过滤中结合奇异值分解与最近邻方法   总被引:4,自引:1,他引:3  
协同过滤是一种减小信息过载的常用方法,但是它有三方面的限制,即准确性、数据稀疏性和可扩展性。提出一种新的协同过滤算法来解决数据稀疏性的问题,利用奇异值分解法的结果来进行邻居选择,然后采用最近邻方法来得到未打分项目的预测值。在EachMovie 数据库集上的试验结果表明该算法在数据稀疏时算法的准确性超过普通的Pearson算法和奇异值分解算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号