共查询到20条相似文献,搜索用时 78 毫秒
1.
为了适应实时在线的网络信息过滤需求,提出了一种新的自适应过滤模型。在系统的初始化阶段,运用增量学习方法对附加的少量伪相关文档进行学习,采用改进的文档词频方法来抽取特征词,以此扩展需求模板,提高模板准确度。在系统测试阶段,以系统效能指标最优为目标,提出了将概率模型和文档正例分布统计方法相结合来实现阈值优化的新算法。 相似文献
2.
自适应信息过滤中一个大的挑战在于其数据稀疏问题.因此,在对输入的文本流进行过滤的同时学习最优阈值非常重要.提出了一种新颖的阈值优化算法.该算法可以通过少量的正例进行快速的学习,所需数据的获得具有增量性,故而其计算量及所需的存储空间很小.此外,该算法还具有高效、健壮、实用性强等优点.在第10届国际文本检索会议(TREC10)上,复旦大学的自适应信息过滤系统使用了该阈值优化算法,并取得了第3名的成绩.其T10U和T10F分别达到了0.215和0.414. 相似文献
3.
4.
5.
6.
阈值调整是自适应文本过滤中非常重要的步骤自适应文本过滤中训练正例少以及过滤过程中数据稀疏等问题,使得自适应文本过滤的阈值调整尤为困难.本文提出了一种阈值调整算法.该算法充分利用过滤过程中的精确率、平均相似度等观测信息调整阈值;具有使用正例少、调整速度快、系统性能高等优点. 相似文献
7.
8.
9.
随着Internet普及和应用,电子商务已经成为一种发展趋势。网络的安全日益引起人们的关注。提供一定的手段,实时对网络中的信息进行监测具有十分重要的意义。本文利用向量空间模型、TC3分类算法、Rocchio反馈模型等构造了一个具有反馈机制的网络信息过滤系统(NIFS),并且从信息过滤系统结构、网络信息捕获、用户兴趣文件(Profile)的形成与重构等方面对网络信息过滤系统(NIFS)基本理论和实现方法进行了详细的讨论。 相似文献
10.
基于Web的信息过滤机制 总被引:12,自引:0,他引:12
林鸿飞 《计算机工程与应用》2002,38(2):190-192
信息过滤目的在于依据用户兴趣进行动态信息搜索以满足用户的需求。文章给出了基于Web的信息过滤机制。它根据用户信息需求,建立公共模板,利用搜索引擎获取信息源;然后利用文档与用户模板的匹配机制,将相关文档推送给用户。在文档结构分析和相关反馈的基础上,提出了特征抽取和权重分配算法;将布尔模型和向量空间模型相结合,提出了文档与用户模板匹配算法。 相似文献
11.
邮件过滤是指从大量的邮件中过滤掉含有无用信息的垃圾邮件,以帮助用户得到所需的有用邮件。本文将介绍一个基于向量空间模型的OUTLOOK邮件过滤器的设计与实现,它包含了邮件过滤和训练两个子系统,其过滤方法还对传统的向量空间模型法做了改进,使之更适合于垃圾邮件过滤。 相似文献
12.
基于语义分析的网络不良信息过滤系统研究 总被引:1,自引:0,他引:1
设计一种基于语义分析的信息过滤模型。该模型针对不良信息的特点,以自然语句为处理单元,采用主题词和语义分析的两级过滤工作模式,可以同时获得较高的处理效率和精度。样本实验表明,该过滤模型能够更好地满足不良信息过滤的实时性和准确性要求。 相似文献
13.
一个基于语义分析的倾向性文档过滤系统 总被引:3,自引:0,他引:3
目前的过滤系统大都是基于关键词的,这类系统适用于主题性过滤,而对倾向性过滤效果不好。本文提出一种适用于倾向性文档过滤的系统,通过语义分析,有效地识别和过滤倾向性文本信息。 相似文献
14.
中文文本过滤的信息分流机制 总被引:15,自引:2,他引:15
在文本过滤中信息分流是提高过滤效率的有力的手段,为此,提出了一种新的中文文本过滤的信息分流机制.其基本思路是在概念扩充基础上,将不同用户的信息需求组织为树状结构,使其共同的部分成为共享分支,依据提出的侧面相似度和侧面匹配率来实现文本与模板的定量匹配,减弱传统的布尔模型对文本与模板匹配的严格限制,也弥补向量空间模型单纯数量化的不足,更加全面地反映用户的信息需求,试验表明该机制能够明显地提高过滤效率。 相似文献
15.
基于贝叶斯网络的信息过滤模型研究 总被引:8,自引:0,他引:8
传统信息过滤模型很难描述对信息过滤结果产生影响的各种因素,如质量、内容、用户偏好之间复杂的关系,也无合适的方法让用户将知识加入到信息过滤系统中,因此,提出了基于贝叶斯网络的信息过滤模型BMIF(Bayesian model of information filtering),BMIF是贝叶斯网络的简化,它描述了信息过滤的基本结构,提供了6种节点用于描述影响信息过滤的事件之间的关系,在此基础上,提供了BMIF的各种使用方法,包括将传统方法使用BMIF描述,将词法知识用BMIF表示,以及将自动学习与手动交互结合,将合作过滤与内容过滤结合等。 相似文献
16.
在对垃圾邮件及其防范技术进行全面分析与比较的基础上,针对传统过滤技术的防范和能力不足问题,提出了基于速率控制的空间向量邮件过滤系统设计。该系统改善了传统的单IP和单门限的简单设置,采用多方位多层次的空间过滤系统,再结合客户端的邮件过滤系统,形成了更为有效的垃圾邮件防范能力。 相似文献
17.
《计算机应用与软件》2017,(4)
基于统计机器学习的信息抽取方法正日益成为研究的热点,在研究与应用方面虽然也产生了一些实用的基于机器学习的文本信息抽取框架与系统,但大多面临着交互性弱、可扩展性低、语言移植能力差等缺陷。为此,研究并提出一种通用可行的支持多语言的信息抽取框架,并基于该框架实现了一个原型系统。原型系统集成了最大熵、支持向量机两种机器学习算法,使用这两种算法对中英文文本的实验验证了系统的实用性。 相似文献
18.
基于边缘信息的图像自适应插值算法 总被引:4,自引:0,他引:4
通过将图像分为非边缘部分和边缘部分,得出了一种基于图像边缘信息的图像插值算法.根据边缘部分映射点邻域图像的复杂程度,自适应地调节插值权值的图像插值方法.应用该算法插值后的边界清晰、自然, 忠实地反映了原始图像的面貌,与传统的插值算法相比,其边界处理效果好且易于实现,实验也验证了该方法的有效性. 相似文献
19.
基于类别特征选择与反馈学习随机森林算法的邮件过滤系统研究 总被引:1,自引:0,他引:1
针对邮件过滤系统中普遍存在的维数灾难、类别主题差异和反馈信息缺失问题,提出一种基于类别特征选择与反馈学习随机森林算法的邮件过滤模型。该方法将隐含的Dirichlet模型引入到邮件的特征选择环节,在不同类型的邮件集中建立各自的生成模型,分别搜寻构成各个主题的特征信息,有效降低冗余信息和噪声数据对分类性能的影响。反馈学习随机森林算法发挥了决策树集成与反馈学习的优势,实现邮件过滤系统的自我调节,及时捕捉垃圾邮件的变化趋势。在公开的语料库CCERT和Trec06上进行测试,并与典型算法进行比较,实验结果表明所提算法的可行性和有效性。 相似文献
20.
随着Web信息容量迅速膨胀,对Web文本分类已经是目前研究的热点.传统的Web文本分类对网页的预处理基本上没有考虑网页中的大量噪音,因此对分类结果有一定的影响;另一方面,文本的向量空间模型维数过高,对分类效果也存在很大的影响.提出一种基于粗糙集理论的Web文本分类方法,首先对网页进行去噪,然后对向量空间模型进行属性约简,之后构造分类器,实验表明,此方法不仅降低了维数,还提高了分类结果. 相似文献