首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 93 毫秒
1.
基于概念扩充的中文文本过滤模型   总被引:8,自引:0,他引:8  
1 前言今天,以因特网为主体的信息高速公路仍在不断普及和发展,因特网上蕴涵的海量信息远远超过人们的想象,面对这样的信息汪洋大海,人们往往感到束手无策,无所适从,出现所谓的“信息过载”问题。如何帮助人们有效地选择和利用所感兴趣的信息,同时保证人们在信息选择方面的个人隐私权利?这已成为学术界和企业界所十分关注的焦点。因此,信息过滤技术应  相似文献   

2.
文本特征区域与文本过滤的匹配机制   总被引:3,自引:0,他引:3  
为了根据用户的信息需求,在因特网上搜索相关文本,该文提出了一种文本过滤的匹配机制,其基本思想是:利用基于词典的概念扩张方法,改进用户模板。计算扩张的用户模板与文本的全局相似度,获取初步的过滤结果;在文本特征区域,进行标题、摘要段、首段和尾段等片断的局部相似度计算,以综合评价文本与用户模板的匹配情况。该方法可操作性强,效果明显。  相似文献   

3.
基于概念的中文文本可视化表示机制   总被引:1,自引:0,他引:1  
为了浏览因特网上日益增多的在线中文文本,本文给出了基于概念的中文文本可视化表示机制,以直观的方式组织和表示文本及文本集,其基本思想是:首先在概念扩充的基础上,进行文本分类,然后,利用本文提出的提出的文本特征抽取方法和摘要方法,获取广西类别、广西、广西正文的标记的信息,通过类别,文本、有选择地浏览文本。  相似文献   

4.
中文文本的信息自动抽取和相似检索机制   总被引:1,自引:0,他引:1  
目前信息抽取成为提供高质量信息服务的重要手段,提出面向中文文本信息的自动抽取和相似检索机制,其基本思想是将用户兴趣表示为语义模板,对关键字进行概念扩充,通过搜索引擎获得初步的候选文本集合,在概念触发机制和部分分析技术基础上,利用语义关系到模板槽的映射机制,填充文本语义模板,形成结构化文本数据库.基于文本数据表述的模糊性,给出用户查询与文本语义模板的相似关系,实现了相似检索,可以更加全面地满足用户的信息需求.  相似文献   

5.
文本结构分析与基于示例的文本过滤   总被引:13,自引:0,他引:13  
本文简要介绍了文本过滤的背景和发展,提出了基于示例的中文文本过滤模型.其基本思想是首先对于用户提出的示例文本进行文本结构分析,采用本文提出的文本层次分析方法,提取文本特征,形成主题词表示的用户模版(user profile),然后进行了文本过滤,同时引进段落匹配机制,提高过滤效率.通过用户反馈,改进用户模版.  相似文献   

6.
基于混合模式的文本过滤模型   总被引:16,自引:1,他引:15  
文本过滤旨在帮助用户处理自己感兴趣的文本,提出了基于混合模式的文本过滤模式,其基本思想是将基于内容的过滤方法和合作过滤方法结合起来,给出了用户评沪的权威性和一致性度是,以便更好地运用用户的评注信息,在此基础上,结合用户的个人兴趣,给出了文硒特征抽取机制、文本推荐机制、文本与信息需求模型的匹配机制,该方法不依赖于具体的领域知识库,大大降低“噪音”影响,并可以适用于多媒体类型文件的过滤和信息服务。  相似文献   

7.
随着互联网的高速发展,各种各样的信息资源呈指数级增长,随之出现许多负面影响,需要构建一个安全健康的网络环境。为此,提出针对网页文本内容的敏感信息过滤算法(SWDT-IFA)。该算法不依赖词典与分词,通过构建敏感词决策树,将网页文本内容以数据流形式检索决策树,记录敏感词词频、区域信息以及敏感词级别,计算文本整体敏感度,过滤敏感文本。实验结果表明,SWDT-IFA算法具有较高的查准率和查全率,且执行时间能够满足当前网络环境的实时性要求。  相似文献   

8.
文本分类是处理电子可读文本的重要手段,本文提出了基于标题的文本分类机制.其基本思想是:鉴于文本标题的重要性和简洁性,利用汉语语义分类树寻求概念上的扩充,利用语料库的关联矩阵,进行关联扩充,以丰富标题的语义内涵,从而获取较高精度的文本分类结果.该方法不依赖于汉语分析器和相应的领域知识库,速度较快。应用面较广.  相似文献   

9.
该文按照基于内容理解的中文文本网页的主题探测和过滤设计网页信息过滤系统。首先对智能网页过滤系统工作流程进行了研究,然后给出了智能网页信息过滤系统的系统设并对各个模块进行分析,最后对网络数据处理、文本数据处理和自适应处理三个模块进行详细研究。  相似文献   

10.
进化式信息过滤方法研究   总被引:18,自引:0,他引:18  
进化式信息过滤方法从多个角度描述用户的信息需求,通过类似自然选择的过程,达到系统整体过滤性能的优化.同时还从面向对象程序设计语言的设计思想中获得启发,引入了继承、类树的概念,增加了过滤系统的易用性.这种方法可以缩短训练时间,提高过滤质量,同时减小过滤结果与训练次序的相关性.  相似文献   

11.
面对实时网络信息过滤的新挑战,自适应信息过滤能够解决问题。针对现有自适应系统的不足,提出了提高模板准确性的学习和过滤阈值优化的新方法。采用增量迭代学习算法来逼近真实的过滤模板,结合非法网页的分布函数自适应调整阈值,不断提高过滤精度,并运行于一个校园网关之上,取得了较好的效果。  相似文献   

12.
个性化网上信息过滤智能体的实现   总被引:13,自引:0,他引:13  
论述了一个Internet网上个性化信息过滤智能体的实现。它采用向量空间模型[3] 作为文档表示的基础 ,通过抽取用户浏览网页的特征 ,使用BP神经网络来学习和跟踪用户的兴趣 ,从而动态了解用户的浏览行为 ,并在用户查询时能有效地过滤出用户感兴趣的信息。  相似文献   

13.
基于贝叶斯网络的信息过滤模型研究   总被引:8,自引:0,他引:8  
传统信息过滤模型很难描述对信息过滤结果产生影响的各种因素,如质量、内容、用户偏好之间复杂的关系,也无合适的方法让用户将知识加入到信息过滤系统中,因此,提出了基于贝叶斯网络的信息过滤模型BMIF(Bayesian model of information filtering),BMIF是贝叶斯网络的简化,它描述了信息过滤的基本结构,提供了6种节点用于描述影响信息过滤的事件之间的关系,在此基础上,提供了BMIF的各种使用方法,包括将传统方法使用BMIF描述,将词法知识用BMIF表示,以及将自动学习与手动交互结合,将合作过滤与内容过滤结合等。  相似文献   

14.
基于概念的文本结构分析方法   总被引:25,自引:1,他引:25  
本结构分析是本处理领域中的重要内容,它可以有效地改进本要、本检索以及本过滤的精度、中简要描述了本的物理结构和逻辑结构以及本分析的背景,提出了本结构分析中的层次分析方法。该方法保证了层次是分的有序性,可操作性强,便于解释,不依融于具体领域。其基本思想是对于输入本,首先识别出本的物理结构,然后在概念映射、要领密度和概念消歧的基础上,将本依据主题划分为若干层次;最终获得本的逻  相似文献   

15.
Most of text categorization techniques are based on word and/or phrase analysis of the text. Statistical analysis of a term frequency captures the importance of the term within a document only. However, two terms can have the same frequency in there documents, but one term contributes more to the meaning of its sentences than the other term. Thus, the underlying model should identify terms that capture the semantics of text. In this case, the model can capture terms that present the concepts of the sentence, which leads to discovering the topic of the document. A new concept‐based model that analyzes terms on the sentence, document, and corpus levels rather than the traditional analysis of document only is introduced. The concept‐based model can effectively discriminate between nonimportant terms with respect to sentence semantics and terms which hold the concepts that represent the sentence meaning. A set of experiments using the proposed concept‐based model on different datasets in text categorization is conducted in comparison with the traditional models. The results demonstrate the substantial enhancement of the categorization quality using the sentence‐based, document‐based and corpus‐based concept analysis.  相似文献   

16.
概念推理网及其在文本分类中的应用   总被引:38,自引:1,他引:37  
在分析了当前文本分类中学常用方法的基础上,提出了一种新的分类模型,该模型是对人的分类过程的一种模拟,在已的有英语语义词典及大量训练集的基础上,应用机器学习、数据挖掘等技术进行知识获取并最终形成若干个概念推理网,对待分类的文档可以激活相应的网络,网时传播推理以决定其类别的归属,试验表明:该方法具有较高的分类正确率与召回率。  相似文献   

17.
本文针对信封地址的识别,设计了一种手写汉字文本切分的协动计算方法。由于考虑了汉字及其左右部件搭配的语义信息,从而取得了较高的正确切分率。在1000份样本信封文本中,无连字时为100%,有连字时也有95%。  相似文献   

18.
为帮助数据持有者规避法律风险,有必要对数据集中的个人信息做检测和统计.然而当前尚缺有效工具支持检测中文数据集中的个人信息.为应对上述问题,根据法律文献整理出需要检测的个人信息类别,提出综合了模式匹配与自然语言处理技术的个人信息自动化检测框架,对中文文本中的个人信息进行检测.同时,提出一种识别家庭住址的方法,解决地址格式...  相似文献   

19.
随着文本表现形式越来越丰富,文本分类研究的对象正从平文本逐渐转变为富文本,传统的平文本分类方法不能满足实际需要.分析了富文本中的结构化信息和文本内容信息,把它们作为两个重要的因素,综合考虑了其在分类中的作用,提出并实现了标签组件法、结构组件法和综合法三种富文本分类的方法.实验表明,所提出的方法有较好的分类表现,能解决OpenDocument的分类问题.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号