首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
姜传贤  程小辉 《计算机工程》2012,38(19):126-128,146
提出一种可逆文本水印算法.该算法对文本特征进行分析,以确定待嵌入文本句子集,根据文本句子的奇偶性,利用同义词替换评价模型将水印不可感知地嵌入到原始文本中,通过调整算法参数,满足不同的鲁棒性和不可见性需求.仿真实验结果表明,该算法具有较好的不可见性,并能在提取水印后无损地恢复原始文本载体数据.  相似文献   

2.
基于汉语拼音的鲁棒性文本水印算法   总被引:1,自引:0,他引:1  
针对文本水印算法存在的信息量少和鲁棒性不强的特点,提出了一种新的文本水印嵌入方法.该方法提取出整个文档的汉字拼音,利用拼音的特点将文档进行分层,在各个层中通过字符水平缩放来嵌入水印.在嵌入过程中提出了一种安全的嵌入方法,将有意义的水印信息放在文本之外.实验结果表明该算法的有效载荷以及鲁棒性都得以提高.  相似文献   

3.
为了避免在水印嵌入后造成文本内容的永久性改变,该文借鉴图像中可恢复水印的思想,将预测误差扩展应用于文本文档,提出了一种基于预测误差扩展的可逆中文文本水印算法。该算法以句子为单位,通过上下文搭配度大小选择可替换的词语,最后利用预测误差扩展和混沌序列,实现水印的嵌入。研究结果表明该算法不仅具有较高的安全性,而且能有效地提取水印和无损地恢复出原始文本。  相似文献   

4.
一种提高自然语言文本水印容量的算法   总被引:1,自引:0,他引:1  
自然语言文本水印算法通过对文本句子的语法结构或语义结构进行转换来嵌入水印信息.对句子的语法和TMR(Text Meaning Representation)语义结构进行分析,利用句子语法结构的转换不会改变句子TMR语义结构这一性质将语法水印技术和语义水印技术有效结合起来,提出了一种提高自然语言文本水印嵌入容量的算法.该算法的优点是将控制信息和水印信息分离,并根据每个句子本身的特性动态嵌入相应数量的水印信息.实验表明该算法和原有的语法或语义水印算法相比,水印嵌入容量有一定程度的提高.  相似文献   

5.
基于不完整语义理解的文本数字水印算法研究   总被引:5,自引:0,他引:5  
提出了一种基于不完整语义理解的文本数字水印算法,该算法实现了将水印信息嵌入到文本的内容之中而不需要完整的理解文本的语义。实验证明,基于该算法的水印嵌入和提取具有容易实现、鲁棒性较好的特点。  相似文献   

6.
针对同义词替换信息隐藏的检测方法研究   总被引:1,自引:0,他引:1  
基于同义词替换的文本信息隐藏方法,可以通过对载体中的同义词进行有选择的替换来嵌入隐藏信息.通过分析,发现这种方法嵌入隐藏信息后会导致载体文本中同义词结对概率的明显增加.基于此,提出了一种通过分析文本中同义词结对值来进行隐藏信息检测的算法.实验表明,该检测算法漏警率约为4%,虚警率约为9.8%,证明该检测算法可以有效地检测基于同义词替换的文本信息隐藏方法隐藏的信息.  相似文献   

7.
解决文本聚类集成问题的两个谱算法   总被引:8,自引:0,他引:8  
徐森  卢志茂  顾国昌 《自动化学报》2009,35(7):997-1002
聚类集成中的关键问题是如何根据不同的聚类器组合为最终的更好的聚类结果. 本文引入谱聚类思想解决文本聚类集成问题, 然而谱聚类算法需要计算大规模矩阵的特征值分解问题来获得文本的低维嵌入, 并用于后续聚类. 本文首先提出了一个集成算法, 该算法使用代数变换将大规模矩阵的特征值分解问题转化为等价的奇异值分解问题, 并继续转化为规模更小的特征值分解问题; 然后进一步研究了谱聚类算法的特性, 提出了另一个集成算法, 该算法通过求解超边的低维嵌入, 间接得到文本的低维嵌入. 在TREC和Reuters文本数据集上的实验结果表明, 本文提出的两个谱聚类算法比其他基于图划分的集成算法鲁棒, 是解决文本聚类集成问题行之有效的方法.  相似文献   

8.
近年来,深度学习被广泛应用于文本情感分析。其中文本卷积神经网络(TextCNN)最具代表性,但是TxetCNN的语义特征提取存在词嵌入维度语义特征丢失、最大池化算法特征提取不足和文本长期依赖关系丢失的问题。针对以上问题,提出多特征混合模型(BiLSTM-MFCNN)的文本情感分析方法。该方法使用双向长短记忆网络(BiLSTM)学习文本的长期依赖关系;改进TextCNN的卷积层和池化层提出多特征卷积神经网络(MFCNN),卷积层利用五种不同的卷积算法,分别从句子维度、整个词嵌入维度、单个词嵌入维度、相邻词向量维度和单个词向量维度提取文本的语义特征,池化层利用最大池化算法和平均池化算法,获取文本的情感特征。在中文NLPCC Emotion Classification Challenge和COAE2014数据集、英文Twitter数据集进行对比实验,实验结果表明该混合模型在文本情感分析任务中能够取得更好的效果。  相似文献   

9.
一种半监督局部线性嵌入算法的文本分类方法*   总被引:3,自引:0,他引:3  
针对局部线性嵌入算法(LLE)应用于非监督机器学习中的缺陷,将该算法与半监督思想相结合,提出了一种基于半监督局部线性嵌入算法的文本分类方法。通过使用文本数据的流形结构和少量的标签样本,将LLE中的距离矩阵采用分段形式进行调整;使用调整后的矩阵进行线性重建从而实现数据降维;针对半监督LLE中使用欧氏距离的缺点,采用高斯核函数将欧氏距离进行变换,并用新的核距离取代欧氏距离,提出了基于核的半监督局部线性嵌入算法;最后通过仿真实验验证了改进算法的有效性。  相似文献   

10.
一种基于汉字特征和语义的文本数字水印算法   总被引:4,自引:0,他引:4  
辛友强  刘东苏 《计算机应用》2007,27(Z2):134-135
提出了一种基于汉字特征和语义的文本数字水印算法,主要针对语言内容本身,不受文字格式变换的影响.该算法通过计算汉语句子的特征值,进行最小程度的语义及特征变换,嵌入水印.实验证明该算法具有嵌入水印容易,隐蔽性好,实现方便等优点.  相似文献   

11.
This paper presents a morphology-based text line extraction algorithm for extracting text regions from cluttered images. First of all, the method defines a novel set of morphological operations for extracting important contrast regions as possible text line candidates. The contrast feature is robust to lighting changes and invariant against different image transformations like image scaling, translation, and skewing. In order to detect skewed text lines, a moment-based method is then used for estimating their orientations. According to the orientation, an x-projection technique can be applied to extract various text geometries from the text-analogue segments for text verification. However, due to noise, a text line region is often fragmented to different pieces of segments. Therefore, after the projection, a novel recovery algorithm is then proposed for recovering a complete text line from its pieces of segments. After that, a verification scheme is then proposed for verifying all extracted potential text lines according to their text geometries. Experimental results show that the proposed method improves the state-of-the-art work in terms of effectiveness and robustness for text line detection.  相似文献   

12.
余晓山  吴扬扬 《计算机应用》2014,34(6):1595-1599
针对传统的层次聚类算法在处理大规模文本时可扩展性不足的问题,提出基于MapReduce编程模型的并行化文本层次聚类算法。将基于文本向量分量组特征统计的垂直数据划分算法应用于MapReduce的数据分发,将MapReduce的排序特性应用于合并点的选择,使得算法更加高效,同时有利于提高聚类精度。实验结果表明了利用该算法进行大规模文本聚类的有效性及良好的可扩展性。  相似文献   

13.
提出了一种基于混沌的确定性随机全排列生成方法,利用该方法设计了一种高强度的通用置换加密算法。该加密算法可以作为一个通用模块加入到其他密码系统中,以提高密码系统的强度和安全性,并应用到图像和文本数据加密中。实验和测试显示,该算法的置乱效果显著,加解密速度快,是一种良好的通用置乱方法。  相似文献   

14.
在文本分类研究中,向量空间模型具有表示形式简单的特点,但只能表示特征词的词频信息而忽视了特征词间的结构信息和语义语序信息,所以可能导致不同文档被表示为相同向量。针对这种问题,本文采用图结构模型表示文本,把文本表示成一个有向图(简称文本图),可有效解决结构化信息缺失的问题。本文将图核技术应用于文本分类,提出适用于文本图之间的相似度计算的图核算法--间隔通路核,然后利用支持向量机对文本进行分类。在文本集上的实验结果表明:与向量空间模型相比,间隔通路核相比于其他核函数的分类准确率更高,所以间隔通路核是一种很好的图结构相似性计算算法,能广泛应用于文本分类中。  相似文献   

15.
Self-organizing maps (SOM) have been applied on numerous data clustering and visualization tasks and received much attention on their success. One major shortage of classical SOM learning algorithm is the necessity of predefined map topology. Furthermore, hierarchical relationships among data are also difficult to be found. Several approaches have been devised to conquer these deficiencies. In this work, we propose a novel SOM learning algorithm which incorporates several text mining techniques in expanding the map both laterally and hierarchically. On training a set of text documents, the proposed algorithm will first cluster them using classical SOM algorithm. We then identify the topics of each cluster. These topics are then used to evaluate the criteria on expanding the map. The major characteristic of the proposed approach is to combine the learning process with text mining process and makes it suitable for automatic organization of text documents. We applied the algorithm on the Reuters-21578 dataset in text clustering and categorization tasks. Our method outperforms two comparing models in hierarchy quality according to users’ evaluation. It also receives better F1-scores than two other models in text categorization task.  相似文献   

16.
在大数据环境下,从海量的互联网数据中获取热点话题是研究当前互联网中民意民情的基础,其中文本聚类是得到热点话题最常用的方法之一,可以分为文本向量化表示和聚类2个步骤。然而在文本向量化表示任务中,传统的文本表示模型无法准确表示新闻、帖文等文本的上下文语境信息。在聚类任务中,最常使用的是K-Means算法和DBSCAN算法,但是它们对数据的聚类方式与实际中话题数据的分布不符,这使得现有的文本聚类算法在实际的互联网环境中应用效果很差。本文根据互联网中话题的数据分布情况,提出一种基于RoBERTa-WWM和HDBSCAN的文本聚类算法。首先利用预训练语言模型RoBERTa-WWM得到每一篇文本的文本向量,其次利用t-SNE算法对高维文本向量进行降维,最后利用基于层次的密度聚类算法的HDBSCAN算法对低维的文本向量进行聚类。实验结果表明提出的算法相较于现有的文本聚类算法,在含有噪声数据且分布不均衡的数据集上,聚类效果有很大的提升。  相似文献   

17.
针对深层次分类中分类准确率低、处理速度慢等问题,提出一种待分类文本的候选类别搜索算法。首先,引入搜索、分类两阶段的处理思想,结合类别层次树的结构特点和类别间的相关联系等隐含的领域知识,进行了类别层次权重分析和特征项的动态更新,为类树层次结构的各个节点构建更具分类判断力的特征项集合;进而,采用深度优先搜索算法并结合设定阈值的剪枝策略缩小搜索范围,搜索得到待分类文本的最优候选类别;最后,在候选类别的基础上应用经典的K最近邻(KNN)分类算法和支持向量机(SVM)分类算法进行分类测试和对比分析。实验结果显示,所提算法的总体分类性能优于传统的分类算法,而且使平均F1值较基于贪心策略的启发式搜索算法提高了6%左右。该算法显著提高了深层次文本分类的分类准确度。  相似文献   

18.
Stemming is the basic operation in Natural language processing (NLP) to remove derivational and inflectional affixes without performing a morphological analysis. This practice is essential to extract the root or stem. In NLP domains, the stemmer is used to improve the process of information retrieval (IR), text classifications (TC), text mining (TM) and related applications. In particular, Urdu stemmers utilize only uni-gram words from the input text by ignoring bigrams, trigrams, and n-gram words. To improve the process and efficiency of stemming, bigrams and trigram words must be included. Despite this fact, there are a few developed methods for Urdu stemmers in the past studies. Therefore, in this paper, we proposed an improved Urdu stemmer, using hybrid approach divided into multi-step operation, to deal with unigram, bigram, and trigram features as well. To evaluate the proposed Urdu stemming method, we have used two corpora; word corpus and text corpus. Moreover, two different evaluation metrics have been applied to measure the performance of the proposed algorithm. The proposed algorithm achieved an accuracy of 92.97% and compression rate of 55%. These experimental results indicate that the proposed system can be used to increase the effectiveness and efficiency of the Urdu stemmer for better information retrieval and text mining applications.  相似文献   

19.
许肖  顾磊 《计算机科学》2016,43(4):313-317
针对复杂背景下的文本检测问题,提出了显著性检测与中心分割算法相结合的文本检测技术。对于输入的图像,首先分别使用前景与背景作为标准的显著性检测方法,背景检测时将图像的四边分别作为基准,前景检测时将背景检测中得到的非背景区域作为基准,最终可得到较准确的备选文本区。然后使用中心分割算法,得到精确的边缘图。由于显著性图备选区域准确边缘细节缺失,而边缘图边缘精确但无法得出备选文本区,因此将两者进行融合处理,得到最终文本区域。实验表明,所提出的方法有较好的检测效果。  相似文献   

20.
为了提高网页目录的构建效率、增加其灵活性,提出了一种改进的文本聚类算法.改进的CBC算法用于快速确定文本的聚类中心,根据网页目录的特点,该算法增加了层次聚类方法,以形成文本类别的层次结构,考虑到网页文本的快速增长,采用增量方式对新网页进行聚类.把该算法应用于网页文本集,产生了有意义的聚类结果,对比K-Means算法,获得了更高的精度,并具有较高的时间性能,实验结果表明了该算法的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号