首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
贝叶斯算法在垃圾邮件过滤中应用广泛,但在中文垃圾邮件过滤中性能较低。本文通过聚类的思想,提出一种基于后缀数组聚类(SAC)的中文邮件特征项抽取方法,并给出了不同特征项抽取方法下贝叶斯算法的中文垃圾邮件过滤实验数据对比。实验表明,该方法显著提高了中文垃圾邮件的过滤性能。  相似文献   

2.
赵华  邓攀  张建伟 《计算机科学》2010,37(6):237-239270
报道关系检测是判断随机选取的两个新闻报道是否讨论同一话题的技术.提出了一种基于关联词对动态抽取的报道关系检测方法.关联词对是指在同一篇报道中出现的满足一定关系约束的两个单词,而关系约束是指一组特征的集合.该方法认为两篇报道中出现的相同的关联词对越多,两篇报道的相似度越大.实验证明基于关联词对动态抽取的报道关系检测方法取得了非常好的效果,从而证实了所提方法的有效性.同时,实验还表明,关系约束对该方法的成功实施起着非常重要的作用.  相似文献   

3.
基于内容的文本过滤关键在于建立有效的过滤模板。一种高效的过滤模板可以降低整个文本过滤系统对机器学习机制的要求,提高系统的过滤效率。提出了一种基于概念学习的过滤模板获取方法。该方法结合处理文本特征项的需要改进了概念学习方法中的寻找极大特殊假设算法,并应用新的算法从给定的少量训练文本中提取用户过滤模板。实验结果表明,与直接使用主题描述作为过滤模板的方法相比,较大地提高了过滤精度,可以达到比较令人满意的过滤效果。  相似文献   

4.
基于内容的文本过滤关键在于建立有效的过滤模板。一种高效的过滤模板可以降低整个文本过滤系统对机器学习机制的要求,提高系统的过滤效率。提出了一种基于概念学习的过滤模板获取方法。该方法结合处理文本特征项的需要改进了概念学习方法中的寻找极大特殊假设算法,并应用新的算法从给定的少量训练文本中提取用户过滤模板。实验结果表明,与直接使用主题描述作为过滤模板的方法相比,较大地提高了过滤精度,可以达到比较令人满意的过滤效果。  相似文献   

5.
专利领域中术语抽取结果的好坏决定了本体构建的质量。提出一种自动生成过滤词典并结合词汇密集度等影响因子的术语抽取方法。首先在分词和词性标注的基础上,对文献匹配词性规则算法生成的模板得到候选长术语和单词型短术语集合,然后利用文档一致度生成的过滤词典过滤部分候选长术语集,最后针对长术语的构成特点,将词汇密集度、文档差比、文档一致度三个术语因子加权平均作为整个长术语的术语权重值,并按值高低排序。在8000篇专利摘要文献的基准语料上进行实验,随机选取五组实验数据,平均准确率达到86%。结果表明该方法在领域术语抽取方面是行之有效的。  相似文献   

6.
非法网页过滤的研究与实现   总被引:8,自引:0,他引:8  
周威成  马素霞 《计算机应用》2003,23(10):108-110
文中介绍了文本分类中常用的KNN(K Nearest Neighbor)算法,将KNN算法应用到了非法网页过滤中,提出了一种非法网页过滤解决方案。基于Linux操作系统实现了此方案,并采用国际通用的相关评估方法对本方案的应用进行了测定和评估。评估结果显示,文中提出的方案在非法网页过滤中可以取得很好的过滤效果。  相似文献   

7.
在数据抽取中,网页中噪音数据的处理是关键的第一步。针对噪音数据类型以及它们在网页中的位置,采取利用启发式规则和基于文本内容方法两种策略分步对噪音数据区域过滤,使用kNN文本分类算法进一步对列表页中的非用户关注栏目过滤。  相似文献   

8.
基于匹配区域特征的相似字符串匹配过滤算法孙德才   总被引:1,自引:0,他引:1  
相似字符串匹配过滤算法因其适合大库查找而被广泛应用,为通过提高过滤算法的过滤效率加快匹配速度,提出一种基于匹配区域特征的过滤算法.该算法将模式串和文本串分割成固定长度为kq+1的逻辑块,并从各块中提取了2个新的匹配区域特征:q-gram命中的均匀性和q-gram有效命中的区域性.新算法利用这些新特征优化了传统过滤标准,提高了算法的过滤效率;并改进了QUASAR中基于分块策略的过滤区确定方案.实验结果表明,新算法与改进前相比有效地加快了匹配速度,尤其在误差率较小时改进效果更佳.  相似文献   

9.
正则表达式(regular expression,RE)是一种能够提供复杂查询能力的技术,其通过特定的语法结构来描述一类文本的共同特征。正则表达式强大的表达能力和简洁的语法,使得其在各个领域都被广泛地应用。为了提高正则表达式的匹配效率,提出了一种利用关键因子进行过滤的匹配技术,关键因子指的是在文本中具有最小出现频率的有效过滤因子。由于实际文本中字符并不是均匀分布的,子串在文本中出现频率的差异将影响过滤因子的过滤能力。通过考虑有效过滤因子在文本中出现的频率,关键因子能获得更好的过滤能力。提出了利用正则表达式的划分来求取关键因子的算法,进而通过关键因子来过滤候选位置。通过在真实的蛋白序列和英文文本上进行实验,说明了基于关键因子过滤的匹配方法可以有效地提升正则表达式的匹配性能。  相似文献   

10.
首先在分析微博文本特点的基础上设计了一种垃圾微博的过滤算法;针对微博数据稀疏性这一问题,利用社区内部联系紧密的特性,提出了微博评论树的概念和一种话题热度评价模型.最后基于以上两点提出了一种微博社区热门话题检测方法.真实数据集上的实验表明了过滤的必要性和所提出的微博社区热门话题检测方法的有效性.  相似文献   

11.
洪立印  徐蔚然 《软件》2013,(12):148-151
WAF(词激活力)是一种基于统计的描述词与词关系的算法,WAF不单纯是考虑的词之间的关联,还考虑了词前后顺序,词与词之间的距离,包含了概率和语言规则两种信息量。本文提出一种实体结构化数据的关系特征抽取算法,并基于该特征实现实体聚类。首先提取出实体结构化数据的语义和语境特征,以此来文本建模,然后对每个属性基于WAF值进行相似度计算,最后进行实体聚类。  相似文献   

12.
Numerous paper-based newspapers have been transformed into a digital format and published on the Internet. Digital newspapers are gradually becoming a popular electronic media for conveying information immediately. Google developed a powerful news service, Google news alert, based on the Google news aggregator for tracking user-interested new events utilizing a keywords matching approach. However, this service only monitors and tracks news events using the keyword-matching scheme; consequently, the Google news alert retrieves many irrelevant news events and sends them to users. In other words, the current service cannot monitor news events via a specific news topic; although recall rate is high, the precision rate is low when tracking user-interested news events. Thus, this study presents a novel personalized e-news monitoring agent system that employs the topic-tracking-based approach, improving the flaw of the keyword-based approach, for tracking user-interested news events on Google News site. The proposed scheme simultaneously considers both similarities and the semantic relationships among news topics to track news events. Additionally, to further support the promotion of the accuracy rate in tracking user-interested Chinese news events, the Chinese word segmentation system ECScanner (An Extension Chinese Lexicon Scanner) with new word extension is proposed for the Chinese word segmentation process. Experimental results demonstrated that the proposed scheme, based on topic-based approach, is superior to the keyword-based approach used by Google news alert in terms of precision rate, and retains a high recall rate when tracking user-interested news events. Compared with the conventional Chinese word segmentation system CKIP (Chinese Knowledge Information Processing), experimental results also confirmed that using the proposed ECScanner with novel extension mechanism for new words improves the accuracy rate in tracking user-interested news events.  相似文献   

13.
基于三维文档向量的自适应话题追踪器模型   总被引:1,自引:0,他引:1  
话题追踪(TT)是研究自动追踪事件动态发展过程的一种信息智能获取技术,是话题检测与追踪(TDT)技术的一个子任务,其目标在于自动发现新闻报道信息流中与某一已知话题有关的新报道。该文通过分析传统文档向量空间模型的不足,结合新闻报道的特征,提出了一种三维文档向量模型,在此基础上建立了一种符合新闻报道特征的话题模型。该话题模型在追踪过程中能够根据事件的动态发展进行自我学习和自我修正。结合话题模型,该文还设计了一种自适应的KNN新闻话题追踪器,从而形成了一种完整的中文话题追踪器模型。实验数据表明该方法在描述新闻话题、避免话题漂移方面具有一定优势,在中文话题追踪领域取得了较好效果。  相似文献   

14.
主题分割技术是快速并有效地对新闻故事节目进行检索和管理的基础。传统的基于隐马尔可夫模型(HiddenMarkov Model,HMM)的主题分割技术仅使用主题和主题之间的转移寻找主题边界进行新闻分割,并未考虑各主题中词与词之间存在的潜在语义关系。本文提出一种基于隐马尔科夫模型的改进算法。该算法使用潜在语义分析(Latent Se-mantic Analysis,LSA)对词频向量进行特征提取和降维,考虑了词与词之间的上下文关系,通过聚类得到文档类别信息,以LSA特征和主题类别作为HMM的观测和隐状态,这样同时考虑了主题之间的关系,最终实现对文本主题分割。数据实验表明,该算法具有较好的分割性能。  相似文献   

15.
话题跟踪旨在实现对新闻媒体信息流中已知话题的动态跟踪。在现有的向量空间模型分类算法的基础上,提出一种基于话题更新的话题跟踪算法,通过实验对其进行评价。  相似文献   

16.
传统话题模型用词项概率分布表示话题,在可解释性上存在很大的不足。该文在Latent Dirichlet Allocation(LDA)的结果上提出了一种基于种子词汇的话题标签抽取方法。首先根据提出的权重计算公式抽取每个话题的种子词,然后,采用bootstrapping思想,迭代产生包含种子词汇的关键短语集合,最后根据短语的完整性和泛化度选择话题标签。该文对两会报告话题和新闻事件话题进行实验,通过结果展示和人工评测,该方法抽取的话题标签能够较准确地表达话题的语义信息。  相似文献   

17.
随着对LDA模型的研究越来越深入,文本表示和挖掘能力进一步提高。话题是LDA模型中一个非常重要的概念,是特征集合的一个多项式概率分布。话题追踪是根据少数已知相关信息在未知报道流中追踪一个话题,找出与该话题相关的所有报道。把LDA模型用于话题追踪,目的有两个:(一)检验LDA话题对追踪话题的表示能力;(二)检验LDA模型在挖掘训练数据中的追踪话题时,LDA话题和追踪话题之间的关系。实验表明:相对于经典的向量空间模型和一元语言模型,以及专门针对追踪话题提出的事件模型,基于LDA模型的追踪性能更好,但由于粒度不同,LDA模型中的话题和追踪话题并没有直接的一一对应的关系,实现可定制话题的LDA模型是下一步工作的目标。  相似文献   

18.
广义空间实体关系特征词能够正确表示两实体之间的关系及其语义信息。为了准确地提取关系特征词,基于关系候选词的位置、词性和词频等特征,定义综合支持度,用于评价该词成为关系特征词的可能性。基于综合支持度,提出关系特征词提取模型。最后对搜狐网页新闻中的组织机构与人物(ORG-PER)和地名与人物(LOC-PER)两类数据进行测试,实验表明,该模型提取关系特征词的准确率达到90%左右。  相似文献   

19.
话题关联检测是话题检测与跟踪的一项子任务,是判断随机抽取的两篇新闻报道是否讨论同一个话题的技术。受词语共现模型的启发,结合话题关联检测的特点,提出了词语间的动态同现关系,实现了基于动态共现关系的报道相似度计算方法;探讨了相似度计算方法在中文话题关联检测中的应用。通过实验可知,动态共现关系可以在一定程度上反映报道的语义信息,相似度计算方法很好地改善了中文话题关联检测系统的性能,取得了不错的效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号