首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 46 毫秒
1.
文本分类是文本数据挖掘中一个非常重要的技术,已经被广泛地应用于信息管理、搜索引擎、推荐系统等多个领域.现有的文本分类方法很难适用于大规模的文本数据集.为此,提出了一种基于改进遗传算法的文本挖掘系统.提出的改进遗传算法极大地提高了文本挖掘系统的分类效率.实验结果表明,该方法适用于大规模文本数据集;该方法提取规则的分类正确率较高,分类速度较快.  相似文献   

2.
基于Lucene的Oracle数据库全文检索   总被引:1,自引:0,他引:1  
全文检索是信息时代必不可少的技术,应用越来越广泛.文中对开源的搜索引擎工具包Lucene进行研究,并将其应用到全文检索系统中,详细介绍了如何使用Lucene来创建索引和检索数据,然后给出了一个针对Oracle数据库全文检索的实现方法.  相似文献   

3.
随着互联网逐渐成为当今社会最重要的舆情载体,网络舆情监控正受到政府、企业及个人的密切关注。通过网络舆情监控,能够了解舆论动向,引导舆论发展,从而制定正确的应对策略,并及时采取措施。在丰富的Web资源中,高效率的搜索并获得所需要的舆情信息是一件困难的工作。为了解决这样的问题,在基于Lucene灵活的API函数接口和可以定制的数据存储结构的基础上,设计了一个高效率、合理的、实用的网络舆情系统,实现对网络舆情的快速监控。  相似文献   

4.
张瑛  张娅婷 《电视技术》2011,35(11):84-87
对海量的短文数据进行自动分析和挖掘,从中获取有价值的隐含知识已经成为一项迫切的需求。动态文本会话抽取是针对MSN,QQ等动态数据,将属于同一会话但相互交错的不同消息文本组织在一起,属于在线话题发现追踪的新兴领域,在信息检索,文本挖掘和话题检测追踪等方面有着重要应用。首先介绍了文本会话抽取的必要性和重要性,介绍其主要研究内容和结果评测方法;然后对其中多个研究内容提出一个统一研究框架,并对该框架中的关键技术进行了详细分析;最后指出该领域中的关键问题及难点,并对未来研究做出展望。  相似文献   

5.
重点论述了文本信息中的知识发现及潜在关联分析技术。采用本体建模技术、信息抽取技术以及知识库上的语义推理技术等来完成并实现文本信息的关联关系发现和分析,最后给出了语义关联分析技术在文本信息处理系统中的应用,并简要描述了系统的处理流程。在信息处理领域的大数据环境下,该技术有利于信息分析人员快速获取关联线索,辅助完成信息挖掘,为指挥决策提供更全面的信息支持。  相似文献   

6.
基于Lucene站内全文检索系统的设计与实现   总被引:1,自引:0,他引:1  
为满足企业员工快速检索网站内部资料的需求,基于Lucene API研究并实现了一个面向海量文本数据的全文检索系统,该系统能实现对企业内部网站中各种格式文本资源的全文检索。系统测试结果说明,系统具有良好的检索性能,有较高的查全率和查准率,能够满足站内用户快速检索的需求。通过扩展,系统可以适应c/s和B/S这两种应用的需求,有广阔的应用前景。  相似文献   

7.
王欣欣  赖惠成 《通信技术》2011,44(12):156-158
分析了文本分类系统的一般模型及现有技术,在应用了核主成分分析的特征降维方法进行处理后,提出了一种基于样本中心的径向基( RBF)神经网络文本分类算法,并且引入了聚类算法的核心思想,来改进误差反向传播(BP)神经网络分类算法收敛速度较慢的缺点.实验结果表明, RBF网络与BP网络相比,具有较高的运算速度和较强的非线性映射能力,在收敛速度和准确程度上也有更好的分类效果.  相似文献   

8.
宋立华 《电子设计工程》2022,30(3):31-34,39
由于电网中存在大量的缺陷文本,传统方法无法精准区分缺陷类型,导致文本挖掘精准度较低,为此提出了基于信息抽取的电网缺陷文本挖掘系统设计.使用数据存储模块直接访问系统内存,通过负载均衡服务器执行请求响应.设计多进程浏览器架构,负责浏览多进程应用程序.构建文本挖掘模型,将大量信息元素整理成电网缺陷术语表形式,输入电网缺陷文本...  相似文献   

9.
改进的KNN文本分类算法   总被引:1,自引:0,他引:1  
而文本自动分类,作为一种有效的提高文本检索速度和准确率的方法,在电子文本信息管理中起着非常重要的作用。KNN算法作为一种非常简单,但是有效的文本分类算法,被广泛运用。针对传统KNN算法中对特征项的非监督权重分配的不足之处做了改进,采取x2统计量方法和信息增益这两种监督权重分配方法,有效地利用了训练集标签信息,提高了KNN算法的精确度。  相似文献   

10.
基于最大熵的隐马尔可夫模型文本信息抽取   总被引:26,自引:3,他引:26       下载免费PDF全文
文本信息抽取是处理海量文本的重要手段之一.最大熵模型提供了一种自然语言处理的方法.提出了一种基于最大熵的隐马尔可夫模型文本信息抽取算法.该算法结合最大熵模型在处理规则知识上的优势,以及隐马尔可夫模型在序列处理和统计学习上的技术基础,将每个观察文本单元所有特征的加权之和用来调整隐马尔可夫模型中的转移概率参数,实现文本信息抽取.实验结果表明,新的算法在精确度和召回率指标上比简单隐马尔可夫模型具有更好的性能.  相似文献   

11.
针对目前文本检索系统出现的信息重复,冗余等问题,提出了一种将布鲁姆过滤器算法与MD5有效结合的方案。对检索关键字进行MD5预处理操作,充分利用MD5的可靠性。并发挥鲁姆过滤器降低检索算法的时间复杂度和空间复杂度的特点,大大提高了检索的快速性,相关性和完备性。  相似文献   

12.
对等网络在可扩展性、数据更新和隐私保护等方面的特点,使其成为下一代网络发展的重要方向.在对等网络环境下实现文本的检索,已经成为对等技术应用研究的一个重要领域.文中关注对等网络环境下文本检索领域的研究现状,讨论了对等网络中文本检索的研究热点和未来几年的发展趋势并指出了进一步的研究方向.  相似文献   

13.
Text information hiding is an important technology to protect the security and integrity of text content.The research progress of Chinese text information hiding was reviewed.According to the clue of Chinese text information hiding,the existing algorithms were divided into three categories,algorithms based on text images,algorithms based on text format and algorithms based on text content.The implementation process of each type of algorithm was elaborated and the advantages and disadvantages of the algorithm were analyzed.At the same time,their principles,embedded capacity and anti-attack capability was compared and analyzed.In addition,the problems existing in Chinese text information hiding technology was summarized,and the research trends were discussed in the future.It is expected to provide reference for research in this field.  相似文献   

14.
针对文本图像拍摄质量低下,而导致OCR系统识别率不稳定的问题,本文提出了一种基于文字笔画结构的文本图像校正算法,主要是在图像的预处理中对待处理像素点进行基于文字笔画结构的特征分析,实现目标和背景像素的校正,再结合局部二值化算法进行处理,分析其噪音分布特点采用邻域去噪进一步优化处理结果。实验表明,本文算法能够很好的适用于处理质量低下的文本图像,处理效果从视觉图像和识别率上都能满足应用需求。  相似文献   

15.
Urdu is a widely spoken language in the Indian subcontinent with over 300 million speakers worldwide. However, linguistic advancements in Urdu are rare compared to those in other European and Asian languages. Therefore, by following Text Retrieval Conference standards, we attempted to construct an extensive text collection of 85 304 documents from diverse categories covering over 52 topics with relevance judgment sets at 100 pool depth. We also present several applications to demonstrate the effectiveness of our collection. Although this collection is primarily intended for text retrieval, it can also be used for named entity recognition, text summarization, and other linguistic applications with suitable modifications. Ours is the most extensive existing collection for the Urdu language, and it will be freely available for future research and academic education.  相似文献   

16.
针对多方向排列的文本因其尺度变化大、复杂背景干扰而导致检测效果仍不甚理想的问题,本文提出了一种基于注意力机制的多方向文本检测方法。首先,考虑到自然场景下干扰信息多,构建文本特征提取网络(text feature information ResNet50,TF-ResNet),对图像中的文本特征信息进行提取;其次,在特征融合模型中加入文本注意模块(text attention module, TAM),抑制无关信息的同时突出显示文本信息,以增强文本特征之间的潜在联系;最后,采用渐进扩展模块,逐步融合扩展前部分得到的多个不同尺度的分割结果,以获得精确检测结果。本文方法在数据集CTW1500、ICDAR2015上进行实验验证和分析,其F值分别达到80.4%和83.0%,比次优方法分别提升了2.0%和2.4%,表明该方法在多方向文本检测上与其他方法相比具备一定的竞争力。  相似文献   

17.
陈翔  蒋外文 《信息技术》2007,31(11):76-78
目前数字水印的嵌入技术可以应用于包括文档、声音、图像以及视频在内的各种多媒体数据中,但是针对文本的数字水印嵌入技术研究相对较少。主要介绍当前常用的文本数字水印嵌入的基本模型和方法以及研究状况。首先介绍了文本数字水印的嵌入与检测模型。然后分析了当前文本数字水印的嵌入技术研究出现的问题。  相似文献   

18.
王秀红  鞠时光 《通信学报》2012,33(12):43-48
为了提高文本相似检测的综合表现,在文本文档相似特征的基础上构造了新的核函数S_Wang核函数。结合文本相似计算过程中的实际情况,将待比对的文本表示成向量,考虑通过2个向量间的乘积和欧氏距离来描述向量之间的相似程度,从而构造了适合文本相似度计算的新核函数。并根据Mercer定理证明了所构造函数可以作为核函数。实验验证了新构造的核函数在文本文档相似度计算中的表现,实验结果表明S_Wang核其相似度计算精度和综合指标均分别优于Cauchy核,潜在语义核(LSK)以及CLA复合核。S_Wang核适用于文本相似度计算。  相似文献   

19.
在大数据背景下为了提高全文检索效率,提出了一种基于No SQL技术的全文检索系统设计方案。该系统在架构时采用了分层的设计思想,上层应用层利用Mem Cache的快速处理优势来提高用户的响应速度,中间服务层利用异步通讯机制和规则库来对事件进行处理,底部的数据持久化层则使用将索引文件分开存放的方式来提高I/O速度。通过实验表明,该系统比仅采用Lucene的全文检索系统具有较快的响应速度,能够在一定程度上优化检索系统。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号