首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
方面提取是情感分析中的关键步骤,随着互联网的快速发展,短文本数据迅猛增加,对短文本数据加以整理和利用极为重要.本文针对短文本的特殊性,提出了短文本模型WESM.与现有模型不同的是,本文引入了词汇共现网络,丰富了词汇的上下文信息,针对中文数据,引入了cw2vec模型,能够充分利用中文词语的语义信息;为了提高短文本的上下文语义缺失,引入了自注意力机制,能够丰富模型的上下文语义信息,提高方面词汇权重,在词汇聚类过程中,降低了非方面词汇的影响.相较于传统方面提取算法性能有着显著的提升.  相似文献   

2.
《现代电子技术》2018,(6):121-124
互联网隐式文本感知技术能够在图像中提取相应文本格式内容,但存在信息吞吐量低、运算速度差等问题。为此,提出基于Hadoop的互联网隐式文本感知技术。引入Hadoop分布式框架,承接互联网隐式文本感知技术,利用隐式文本感知方式,实现图像特征向量生成提取。实验数据表明,设计的基于Hadoop的互联网隐式文本感知技术能够进行高信息的吞吐,实现隐式文本感知提取。  相似文献   

3.
李宗佑  高勇 《无线电工程》2023,(12):2798-2804
为提高音频隐写算法的安全性,提出了一种将卷积注意力模块(Convolutional Block Attention Module, CBAM)与深度神经网络相结合的高容量、高透明性和高鲁棒性的隐写术。网络在频域对信号进行处理,其模型包含3部分:含密音频的自适应编码、解码和提取秘密音频。编码器和解码器在末尾卷积层后添加注意力模块,在提高模型感受野的同时,增强了秘密信息对隐写嵌入位置的敏感程度,大大提升了隐写术的容量和透明性。实验在多个干净与含噪语音数据集上进行,结果表明,该隐写术相较于传统隐写方案,含密音频信噪比提升2~8 dB,嵌入容量提升约20倍;相较于对比神经网络生成的含密音频,信噪比提高了约4 dB。此外,实验还进行了加噪训练,测试结果证明该模型具有较好的鲁棒性。  相似文献   

4.
文本生成图像是指将语句形式的文本描述翻译成与文本具有相似语义的图像。在早期研究中,图像生成任务主要基于关键字或语句的检索来实现与文本匹配的视觉内容的对齐。随着生成对抗网络的出现,文本生成图像的方法在视觉真实感、多样性和语义相似性方面取得了重大进展。生成对抗网络通过生成器和鉴别器之间的对抗来生成合理且真实的图像,并在图像修复和超分辨率生成等领域显示出良好的能力。在回顾并总结文本生成图像领域最新研究成果的基础上,文中提出了一种新的分类方法,即注意力增强、多阶段增强、场景布局增强和普适性增强,并讨论了文本生成图像面临的挑战和未来的发展方向。  相似文献   

5.
<正>针对现有的无监督语法可控文本生成模型存在的问题进行改进,通过在原输出目标上进行合理的扰动,生成了与原输出样本语法结构相同,语义近似的新输出目标。以此方式消除无监督生成模型训练过程中过于关注输入的问题,使模型在应用中会删除输入样本中不符合目标语法模板的冗余旧词,此生成模型较原模型获取了更高的BLEU得分。进一步,设定多个目标语法模板,利用此生成模型获取同一语义在不同语法模板下的表示,使用对比学习范式,将同一语义的多种表示、同一标签的数据归为正例,不同标签的数据归为反例,训练得到了具有更强鲁棒性的分类模型。  相似文献   

6.
当前,由于深度学习技术的发展,信息隐藏方向有了巨大进步,由原始的隐写方法逐步实现语言隐写,尤其近几年来语言隐写技术取得了很大的突破。但是之前所提出的基于循环神经网络等的隐写方法存在偏差,而且在生成步骤所获得的候选池也是基于固定的控制,这样会使隐写的安全性大大降低。基于此,提出了一种基于动态选词策略的语言隐写模型,在保证秘密信息正常隐藏在生成文本中的同时,通过计算词典中单词的方差与阈值进行比较来确定最佳候选池的大小,从而以降低困惑度的形式来实现生成句子的安全性。实验表明,基于动态选词的方法可以实现生成更加流畅且自然的隐写文本,但会小小的牺牲嵌入率。  相似文献   

7.
本文提出一种基于概念图和简单语义分析相结合的文本过滤技术.利用概念图知识表示方法定义文本中概念间的语义倾向关系,把文本过滤问题转换成基于概念图的语义匹配问题.在使用概念图匹配推理中,利用敏感词汇分类和词语的褒贬性,有效简化过滤的匹配处理.经实际应用表明,基于概念图的倾向性文本过滤方法可以有效的识别和过滤倾向性文本信息.  相似文献   

8.
针对在传统语义融合的文本相似度算法设计与实现中由于汉语语义复杂存在容易形成局部极小值而得不到全局最优、训练次数较多、学习效率降低、隐节点的选取缺乏理论依据等问题,提出一种改进算法。首先在把握文本相似度算法内涵和分类情况的基础上,通过调整数字识别方向、选取合适的数据来源,依据图像识别技术和算法深度学习的共性需求,从语义融合角度提出以核心词为节点进行文本相似度计算;然后通过多特征融合向量空间模型对特征项的类间分布问题进行分析,最终通过加权计算得到文本相似度。从算法实现效果来看,相较于传统算法能够获得更高文本分类准确度,改进基于文本相似度算法的语言处理技术更加高效、准确。  相似文献   

9.
熊炜  孙鹏  赵迪  刘粤 《光电子.激光》2023,34(11):1158-1167
自然场景文本识别中采用固定大小的卷积核提取视觉特征,后仅进行字符分类的方法,其全局建模能力弱且忽视了文本语义建模的重要性,因此,本文提出一种基于字符注意力的自然场景文本识别方法。首先构建不同于卷积网络的多级efficient Swin Transformer提取特征,其可使不同窗口的特征进行信息交互;其次设计了字符注意力模块(character attention module, CAM),使网络专注于字符区域的特征,以提取识别度更高的视觉特征;并设计语义推理模块(semantic reasoning module, SRM),根据字符的上下文信息对文本序列进行建模,获得语义特征来纠正不易区分或模糊的字符;最后融合视觉和语义特征,分类得到字符识别结果。实验结果表明,在规则文本数据集IC13上识别准确率达到了95.2%,在不规则的弯曲文本数据集CUTE上达到了85.8%,通过消融及对比实验证明了本文提出的方法可行。  相似文献   

10.
针对文本编码方式不灵活以及候选词增加导致生成的隐写文本质量较低的问题,提出了一种基于自动选择编码及动态选词策略的文本隐写方法。所提方法基于Transformer的神经机器翻译模型生成隐写译文。在生成隐写译文的过程中,采用定长编码和哈夫曼编码建立候选词与码字之间的映射关系,通过计算隐写词元与正常词元的概率差异百分比,实现基于概率差异阈值的动态选词。最后,比较生成的2种隐写译文Sacrebleu的大小,实现编码方式的自动选择。实验结果表明,所提方法能够生成流畅度高、可读性强的隐写译文。当隐藏容量为11.19%时,隐写译文的Sacrebleu达到10.53。  相似文献   

11.
提出一种可扩展验证核的结构,根据该结构建立了一个面向光通信应用领域SDH系列芯片验证的可扩展验证核VIP,验证人员通过文本编辑,可以产生验证所需要的XML配置文件,VIP根据配置XML文件,产生仿真激励并在线检查仿真结果.  相似文献   

12.
互信息是一种常用的特征选择评价函数,但研究表明它会导致分类精度相对较低.文中针对互信息倾向选择低频词的不足,提出了一种新的特征评价函数TFMIIE,将信息熵和改进互信息相结合,其中改进互信息能够避免偏向低频的生僻词,而特征熵有利于去除类别不确定的特征词.实验结果表明,采用TFMIIE进行特征选择,用得到的特征子集表示文本和构建分类器,文本分类的准确率与召回率比采用互信息的方法提高了约40%,验证了所提出的基于改进互信息和信息熵的文本特征选择方法是有效的.  相似文献   

13.
英语口语机考应该像传统的口语测试一样,评估受试者的语音、语法和内容这几个方面。针对目前四、六级网考试点考试中口语测试中效度不高的问题,文章提出了英语口语机考评分实现途径,既通过语种识别、语音识别、语音文本转换文字文本、文字文本评分四个环节来实现英语口语机考的自动评分。通过这四个环节的结合,形成一种方法,使之能够有效地实现四、六级网考中英语口语评估的难题。  相似文献   

14.
A semantic-extension-based algorithm for short texts is proposed, by involving the Word2vec and the LDA model, to improve the performance of classification, which is frequently deteriorated by semantic dependencies and scarcity of features. For every keyword within a short text, weighted synonyms and related words can be generated by the Word2Vec and LDA model, respectively, and subsequently be inserted to extend the short text to a reasonable length. We not only have established a criterion by means of similarity estimation to determine whether a sentence should be extended, we designed a scheme to choose the number of extended words. The extended text will be classified. Experimental results show that, the classification performance of the proposed algorithm, in terms of the precision rate, is approximately 5% higher than that of the TF-IDF model and approximately 10%higher than that of the VSM method.  相似文献   

15.
基于高速电视图像文件与跟踪转台实时运动数据信息的存储结构,在VC 6.0环境下编程开发一种测量软件,解决了在实际工程应用中实现图像信息与跟踪转台实时信息的融合与回放时所遇到的对4G大文件的读写操作问题以及图像与实时数据融合时的时间同步问题,提出了一种将高速电视图像及实时信息的融合与回放的通用方法,在工程应用中取得了良好的效果.  相似文献   

16.
廖唯棨  邹维 《通信学报》2010,31(3):31-36
在进行基于针对该问题,首先提出了基于文本片断的部分匹配概念,然后设计并实现了一种基于文本片断的多模部分匹配算法.该算法能检测文本片断中的特征片断而无需进行重组.最后经过实验验证,相对于基于完整文本的多模匹配算法,在文本片断足够大的情况下,该算法漏报率为0,且误报率足够小.  相似文献   

17.
A number of data and other services are examined, and the total digital traffic generated, compared to voice traffic in digital form, is estimated. The total yearly traffic generated by telephone calls is estimated. The total traffic in digital form is calculated for a number of data services involving terminals and the transmission of text in digital form as alphanumeric characters. Included are results for video telephones, data file transfers, electronic newspapers, information-age labor force, motion picture distribution, network television distribution, data generated by or about people, newspaper and periodical composition and airline reservations. It is found that the total is less than one third of telephone traffic. It is pointed out that telephone traffic dominates because a single call generates a very large amount of data  相似文献   

18.
A portable personal computer has been programmed as a flexible and economical text display device capable of delivering single and multiple words or symbols flashed in the center of the screen with a wide range of repetition times and duty cycles (fraction of stimulus on/off time). All aspects of a computer-controlled experiment are controlled by a command file which can be created by workers with basic word processing skills and no knowledge of computer programming. Digital output is provided for recording stimulus timing on a chart recorder or computer for comparison to eye movements or other externally recorded variables. The system is ideal for zero-eye-movement reading experiments in which sentences are flashed a word or group of words at a time in the center of a CRT screen. If the subject is then asked to repeat the sentence aloud, the percentage of words correctly recalled is a measure of "reading comprehension." Results with nine subjects match previous data [1] obtained cinematographically.  相似文献   

19.
上下文无关文法与无限状态自动机   总被引:6,自引:0,他引:6  
吕映芝 《电子学报》1996,24(8):23-27
目前,在研究上下文无关语言时常用的形式系统是上下文无关文法和下推自动机,在研究正则语言时常用的形式系统是正则文法和有限状态自动机。正则文法中的符号和有限状态自动机的符号之间的对应关系比较明显,因此,两种系统之间的转换比较容易,并且在这两种系统中观察语言时,可以得到一致的解释。  相似文献   

20.
为了使全文检索系统支持多种文件格式的检索,必须先对待检索的文件进行文本抽取以转化为便于建立索引的纯文本。针对多格式的文本抽取问题,文章设计了一种基于插件的支持多格式的文本抽取系统,该系统采用文件后缀名和魔数(magic number)结合的方式自动识别文件类型,以统一接口调用已存在的针对单一类型文件的抽取插件,对得到的纯文本进行编码转换以使得最终的输出编码统一,系统还针对目录输入设计了多进程并行优化以利用CPU多核优势,使用贪心算法优化任务分配以使总运行时间尽可能短。该系统易于扩展,编程接口简单。实验结果表明,该系统能正常抽取文本内容和元数据,且其抽取效率高于Apache的Tika等开源文本抽取系统。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号