首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
许高建 《微机发展》2007,17(6):187-190
Internet上大多数信息的表现形式为文本,如何在浩瀚的文本信息中挖掘到潜在的知识是一个有待解决的问题。文本挖掘的目的是从不同格式的文本中发现有用的知识,这是一个分析文本并从中抽取特定信息的过程。系统地介绍了文本挖掘的含义,并对文本挖掘过程的各个方面进行了进一步的探讨,包括文本特征的建立、特征的提取技术、文本的分类、文本的聚类等相关技术。同时提出了一种基于Web的文本信息挖掘的模型,将以高校BBS论坛为信息源,利用高级语言开发技术来构建一个自动的文本分类器。  相似文献   

2.
The effects of a segmented presentation applied to a visually structured text were examined in the context of the explosion of small-screen devices. Empirical research investigating the influence of text signaling on text processing suggests that the text visual structure may influence comprehension by facilitating the construction of a coherent text representation. Undergraduate students were asked to read a text under different segmented conditions varying on the type of information provided about the text visual structure and on the segmentation unit. When the segmented presentation did not supply any information or when it only offered local information about the text visual structure, text comprehension depended on the segmentation unit. When the segmentation unit did not fit the text visual structure, an erroneous text representation was constructed, whereas the compatible segmentation unit led to a correct text comprehension. When the segmented presentation rendered the global text visual structure, the segmentation unit had no effect on comprehension and more readers constructed a correct and close text representation. Thus, the text visual structure seems to play a role in text comprehension and this role has to be taken into account for text segmented presentation.  相似文献   

3.
基于Web的文本挖掘技术研究   总被引:2,自引:0,他引:2  
Internet上大多数信息的表现形式为文本,如何在浩瀚的文本信息中挖掘到潜在的知识是一个有待解决的问题。文本挖掘的目的是从不同格式的文本中发现有用的知识,这是一个分析文本并从中抽取特定信息的过程。系统地介绍了文本挖掘的含义,并对文本挖掘过程的各个方面进行了进一步的探讨,包括文本特征的建立、特征的提取技术、文本的分类、文本的聚类等相关技术。同时提出了一种基于Web的文本信息挖掘的模型,将以高校BBS论坛为信息源,利用高级语言开发技术来构建一个自动的文本分类器。  相似文献   

4.
Video text often contains highly useful semantic information that can contribute significantly to video retrieval and understanding. Video text can be classified into scene text and superimposed text. Most of the previous methods detect superimposed or scene text separately due to different text alignments. Moreover, because different language characters have different edge and texture features, it is very difficult to detect the multilingual text. In this paper, we first perform a detailed analysis of motion patterns of video text, and show that the superimposed and scene text exhibit different motion patterns on consecutive frames, which is insensitive to multiple language characters and multiple text alignments. Based on our analysis, we define Motion Perception Field (MPF) to represent the text motion patterns. Finally, we propose a text detection algorithms using MPF for both superimposed and scene text with multiple languages and multiple alignments. Experimental results on diverse videos demonstrate that our algorithms are robust, and outperform previous methods for detecting both superimposed and scene texts with multiple languages and multiple alignments.  相似文献   

5.
文本挖掘之前首先要对文本集进行有效的特征选择,传统的特征选择算法在维数约减及文本表征方面效果有限,并且因需要用到文本的类别信息而不适用于无监督的文本聚类任务。针对这种情况,设计一种适用于文本聚类任务的特征选择算法,提出词条属性的概念,首先基于词频、文档频、词位置及词间关联性构建词条特征模型,重点研究了词位置属性及词间关联性属性的权值计算方法,改进了Apriori算法用于词间关联性属性权值计算,然后通过改进的k-means聚类算法对词条特征模型进行多次聚类完成文本特征选择。实验结果表明,与传统特征选择算法相比,该算法获得较好维数约减率的同时提高了所选特征词的文本表征能力,能有效适用于文本聚类任务。  相似文献   

6.
张万山  肖瑶  梁俊杰  余敦辉 《计算机应用》2014,34(11):3144-3146
针对传统Web文本聚类算法没有考虑Web文本主题信息导致对多主题Web文本聚类结果准确率不高的问题,提出基于主题的Web文本聚类方法。该方法通过主题提取、特征抽取、文本聚类三个步骤实现对多主题Web文本的聚类。相对于传统的Web文本聚类算法,所提方法充分考虑了Web文本的主题信息。实验结果表明,对多主题Web文本聚类,所提方法的准确率比基于K-means的文本聚类方法和基于《知网》的文本聚类方法要好。  相似文献   

7.
本文在研究文本数据挖掘技术发展基础上,对文本数据挖掘系统设计进行深入分析,在此基础上,论文设计实现文本数据挖掘系统原型方案,该方案将文本分析、数据库和文本数据挖掘技术有机地结合起来,实现了文本特征值提取、特征值清理入库和关联规则挖掘等功能。  相似文献   

8.
政策体系是一个庞大的系统,R政策碎片化日益严重导致政策不一致性。本文通过挖掘政策血缘关系对政策系统进行建模,将数量庞大的政策形式化为政策血缘网络。在此基础上构建PCL模型,通过机器学习确定模型中节点的容量定义,实现政策网络中脆性点挖掘。该方法通过挖掘政策间的相关概念,将政策体系形式化为政策谱系树模型,再由政策谱系树的节点对之间发生“树影相吸”,最终形成基于政策血缘关系的政策血缘网络。通过政策血缘网络的传播演化机理,构建了PCRL模型,通过机器学习对容量参数进行参数训练,挖掘传播演化机理。最后选取政策实例进行仿真实验,验证了方法的有效性。  相似文献   

9.
因中文短文本特征词词频低、存在大量变形词和新词的特点,使得中文短文本相似度发生漂移,难以直接使用现有的面向长文本的聚类算法。针对短文本相似度漂移问题,提出了一种基于《知网》扩充相关词集构建动态文本向量的方法,利用动态向量计算中文短文本的内容相似度,进而发现短文本之间的内在关联,从而缓解特征词词频过低和存在变形词以及新词对聚类的影响,获得较好的聚类结果。实验结果表明,该算法的聚类质量高于传统算法。  相似文献   

10.
流派分类和基于主题的文本分类最大的区别之处就在于文本的特征。流派分类需要能够描述文档风格的、表达更强语义信息的特征,基于特征情感色彩的分类方法是将情感色彩这种语义信息附加到特征上。首先介绍了文档流派分类的概念及其应用,然后分析了流派分类的文本特征和词汇的情感倾向权值的几种计算方法,论述了基于特征情感色彩的文档流派分类过程,最后对几种分类方法进行了实验结果分析和比较。  相似文献   

11.
针对CTPN算法不能检测倾斜文本和小尺度文本检测效果差的问题,提出一种基于旋转变量的改进文本检测算法(CTPN-R)。通过增加旋转角度预测层,将文本行拆分成一系列带旋转角度的anchor用于网络训练解决文本倾斜问题,加入特征融合层构建特征图金字塔以检测多尺度文本,改进边缘细化层的输出变量和回归方法,优化文本连接。CTPN-R在倾斜文本数据集MSRA-TD500上的检测综合性能指标F-measure达到了77.5%,比CTPN提高了38%。仿真结果表明,CTPN-R对实际场景中的文本图像检测精度高、实时性好,可以检测任意大小、任意方向文本。  相似文献   

12.
医学文本相似性问题是医学文本挖掘中的重要内容,如何能够快速计算出大数据量下的医学文本的相似性情况是医学文本相似性计算的重点.针对基于传统余弦公式医学文本相似性分析算法在性能上的缺陷,提出了一种基于全文索引技术与余弦公式医学文本相似性分析算法,对医学文本相似性进行分析.采用全文索引技术对医学文本数据相关关键词进行索引,并根据若干关键词在索引中检索出部分数据,从而减少计算复杂度,提高效率.实验表明,该方法比基于传统余弦公式医学文本相似性分析算法具有更优的性能.  相似文献   

13.
一种基于《知网》的中文文本聚类算法的研究   总被引:3,自引:0,他引:3  
针对基于关键词集的中文文本聚类算法中存在的问题,将《知网》引入到中文文本的特征表示中,并在此基础上提出了一种基于《知网》的中文文本聚类算法。该算法在中文文本表示中加入了基于《知网》的概念特征,实验结果表明该算法能够更好地将语义相关的中文文档聚集在一起,与传统的基于关键词集的中文文本聚类算法相比,聚类质量得到了较大提高。  相似文献   

14.
一种基于语义和统计特征的中文文本特征表示方法   总被引:5,自引:1,他引:5  
基于关键词集的中文文本特征表示方法难以准确表示文本语义信息,从而导致聚类质量较差.为了解决这个问题,本文将本体论和词共现模型的思想引入到中文文本的特征表示中,并在此基础上提出了一种基于语义和统计特征的中文文本特征表示方法.本方法在统计特征的基础上加入了基于知网和特征项共现的语义特征,实验结果表明该方法更加准确地表示了中文文本的语义信息,使得中文文本自动聚类的质量提高了近18%.  相似文献   

15.
梁正友  欧杰  俞闽敏 《计算机工程》2011,37(23):276-278
在现有的网页抽取技术中,正文定位方法仅考虑网页文本信息,当正文图片信息较多、文本信息偏少时,容易出现偏差,且定位准确率较低。针对该问题,从信息论角度出发,结合网页中的文本信息图片信息,设计一种对网页中图片信息量和有效信息量的估算方法,在此基础上,提出一种基于图文信息量的网页正文定位算法。实验结果表明,该算法在不同正文文本量的情况下,均具有较高的定位准 确率。  相似文献   

16.
基于SVM的维吾尔文文本分类研究   总被引:1,自引:0,他引:1       下载免费PDF全文
文本自动分类技术在提高文本信息利用的有效性和准确性上具有重要的现实意义和广阔的应用前景。随着Internet上维吾尔文信息的迅速发展,维吾尔文文本分类成为处理和组织这些大量文本数据的关键技术。研究维吾尔文文本分类相关技术和方法,针对维吾尔文文本在向量空间模型表示下的高维性,本文采用词干提取和χ2统计量相结合的方法对表示空间进行降维。采用SVM算法构造了维吾尔文文本分类器。针对维吾尔文文本分类语料进行的实验结果表明,SVM分类器的MacroF1值达到了84.6%,明显好于kNN方法。  相似文献   

17.
本文研究了文本冗余变换以及伪装传输。其技术路线是首先通过一个文本生成器产生一段有意义的参考文本来掩饰将要传输的机密文本,然后将不具有冗余度的文本文件通过冗余变换使之具有冗余度,再对具有冗余度的参考文本和机密文本进行一次性码本的编码,最后两者异或运算形成隐藏密码嵌入图像或声音中,实现机密文本的伪装传输。  相似文献   

18.
Internet上文本的自动摘要技术   总被引:8,自引:1,他引:7  
主要研究了Internet上的文本自动摘要,介绍了自动摘要的主流技术;讨论Internet上文本摘要的新需求以及网页上与自动摘要相关的信息,介绍了摘要处理过程和当前自动摘要的主要评估方法;对Internet上文本的自动摘要作出了总结和展望。  相似文献   

19.
特征提取是文本抄袭检测的重要环节,文本特征的数量和质量严重影响文本抄袭检测的准确率。针对现有方法的不足,提出一种基于依存句法的文本抄袭检测算法。该算法在依存句法分析的基础上,通过分析句子中词语间的关系以及合并短小词语建立句法框架,进而提取文本特征。其中,短小词语的合并能够使无意义词语合并成为有意义实体来表示文本特征,使文本特征更全面。实验结果表明,该文本特征提取算法能够准确选择文本的特征集,解决了文本特征数量多的问题,检测的准确率也有所提高。  相似文献   

20.
文字识别是深度学习网络的重要应用领域,主流算法基于光学信息预测自然场景文字。然而在一些特定领域的文本对象上,额外的关键特征将会进一步提高文字识别算法的准确性。在安防监控领域,画面中的时间戳文本拥有格式规范、限定数值范围等特点,根据这一特点,对时间戳文本识别网络进行了研究,提出一种时间戳信息约束机制,融合文本语义约束信息和光学特征达到识别规范文本的效果,增强输出时间戳文本的格式规范性和数值合理性。在全匹配率、编辑距离等标准上全面超过基于光学特征的经典文字识别算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号