共查询到16条相似文献,搜索用时 46 毫秒
1.
该文分析了现有基于分类策略的文本蕴涵识别方法的问题,并提出了一种基于知识话题模型的文本蕴涵分类识别方法。 其假设是: 文本可看作是语义关系的组合,这些语义关系构成若干话题;若即若文本T蕴涵假设H,说明 T 和 H 具有相似的话题分布,反之说明T 和 H 不具有相似的话题分布。基于此,我们将 T 和 H 的蕴涵识别问题转化为相关话题的生成过程,同时将文本推理知识融入到抽样过程,由此建立一个面向文本蕴涵识别的话题模型。实验结果表明基于知识话题模型在一定程度上改进了文本蕴涵识别系统的性能。 相似文献
2.
信息的暴涨给文本处理带来了更多的挑战。话题检测能够把大量的信息以话题为单位有效地组织起来,然而最终用户有可能并不需要涉及某一话题的所有文本,而是仅仅关心该话题的具体内容。在我们根据相关文本智能表达话题内容推送给用户之前,自动从相关文本中挑选符合用户需求的文本是一个非常有意义的工作。本文致力于相同话题文本之间的内容比较,目的是有效地选出满足需求的文本。我们通过对话题进行重新定义,并根据此定义设定了话题和文本的表示方法,给出了基于该表示方法的话题和文本之间的内容比较计算方法。最后,通过实验说明了这一系列方法的有效性。
相似文献
相似文献
3.
4.
针对话题先验相关报道稀疏性及在话题发展过程中所产生的漂移问题,结合微博文本特点提出了一种基于双态模型的微博话题跟踪方法。该方法首先提出了双态话题模型的构建方法,将其划分为永久存储区域和临时存储区域,分别用于保持跟踪话题的中心和跟踪话题部分特征词的变迁;并在跟踪过程中动态更新话题模型,能有效应对微博话题发展所产生的漂移。将该方法与其他微博话题跟踪方法进行对比,结果表明,该方法使得漏检率和误检率等指标均得到降低,有效地提高了话题跟踪的效果。 相似文献
5.
6.
在文本流数据中,文本文档以流的形式源源不断地进入系统,数据量大和数据更新速度快给文本流话题发现与追踪提出了严峻的挑战。为了应对上述困难,本文提出了一种基于联合矩阵分解的话题发现与追踪模型。为了有效地处理海量数据,将流数据按照时间戳划分为数据块;为了能在数据的快速变化中追踪到话题的演化,将当前时刻的话题分布表示为前一时刻话题分布的线性演化。本文采用联合矩阵分解技术将当前的数据块分别表示为当前的话题分布和前一时刻的话题分布两种形式,通过同时分解两个矩阵得到当前的话题分布。在优化求解过程中,通过Karush-Kuhn-Tucker条件分析得到参数的更新策略,并给出相应的求解算法。Yahoo数据集对比实验表明,本文提出的话题发现算法能更好的发现文本流中蕴含的话题分布情况,并且可以随着时间的推移对话题的演化进行追踪。 相似文献
7.
8.
9.
针对安全领域所涉及的文本中存在大量人为混淆的文字的问题,提出一种基于汉字知识图谱的BERT(Bidirectional Encoder Representation from Transformers)预训练模型,表征汉字的读音、字形、语义三个维度的特征,构建纠错算法。首先,构建汉字知识图谱刻画汉字的读音、字形拆解、繁简转换、汉字与数字转换等属性和关系,并基于汉字知识图谱中的读音属性和node2vec模型训练得到汉字读音向量;其次,基于知识图谱中字形关系构建node2vec模型,得到node2vec字形向量,并结合卷积神经网络(CNN)方法训练字形向量,两者之和作为最终的字形向量;最后,基于BERT预训练模型,融合读音、字形、语义三维度的向量,并在不同维度间使用自注意力机制加权求和,发现错误字位置并选择正确的候选字。为验证所提模型的有效性,在安全领域诈骗短信数据集上,将所提模型与FASpell、SpellGCN、Soft-Masked BERT进行了对比。实验结果表明,所提模型的正确率和召回率比FASpell分别提升了24.7、21.6个百分点,比SpellGCN分别提升了22.2、1... 相似文献
10.
近年来,微博等社交网络的发展给人们的沟通交流提供了方便。由于每条微博都限定在140字以内,因此产生了大量的短文本信息。从短文本中发现话题日渐成为一项重要的课题。传统的话题模型(如概率潜在语义分析(PLSA)、潜在狄利克雷分配(LDA)等) 在处理短文本方面都面临着严重的数据稀疏问题。另外,当数据集比较集中并且话题文档间的差别较明显时,K-means 聚类算法能够聚类出有区分度的话题。引入BTM话题模型来处理微博数据这样的短文本,以缓解数据稀疏的问题。同时,整合了K-means聚类算法来对BTM模型所发现的话题进行聚类。在新浪微博短文本集上进行的实验证明了此方法发现话题的有效性。 相似文献
11.
针对双语微博情感分析方法稀缺且准确率低的问题,根据相同英文词汇在不同语境下对文本情感作用不同这一事实,提出基于注意力机制的双语文本情感分析神经网络模型。该模型使用双向循环神经网络模型学习文本的特征表示,并引入注意力机制,为文本不同词语赋予不同权重,得到融合特征后新的知识表示,从而实现双语文本情感识别。实验结果显示,与纯中文作为网络输入、纯英文作为网络输入和中英混合文本作为网络输入相比,注意力机制明显优于其他方法;与现有双语情感分析算法相比,该模型有效提升了情感分析的准确率。 相似文献
12.
陈琴 《计算机应用与软件》2010,27(7):107-109
针对跨语言信息检索中常用的提问式翻译中存在的问题,提出了基于最大熵模型建立的中-英,英-中双语词典方法,并对常用的双向翻译方法进行改进以获得较高的检索准确率,实验结果验证了该方法的有效性。 相似文献
13.
为解决复杂拍摄背景下采集到的文本图像难以快速、准确地进行倾斜校正的问题,提出一种新的倾斜文本图像校正方法。该方法通过对选定图像的投影窗口的水平投影统计分析计算,自适应地筛选出只含有文字的文本特征子区。在特征子区内部,通过采用连通域横向搜索法定位文字行并拟合直线计算出文本线的倾斜角度,从而得到文本图像的倾斜角度,最后利用改进的快速旋转变换算法进行倾斜校正。实验结果表明,该倾斜校正方法不受成像背景、复杂版面的影响,具有速度快、精度高、适应性强的优点,可广泛应用于对速度和效率有更高要求的移动终端平台上。 相似文献
14.
针对现有可逆文本水印抗同义词替换攻击鲁棒性不强的缺点,提出一种基于纠错编码的可逆文本水印算法。利用纠错编码方法,对同义词库中同义词的位置进行编码生成同义词词码字,结合同义词替换技术完成水印的嵌入;在提取水印时,利用纠错码的检测纠错功能完成水印的提取,同时实现同义词替换后可还原的可逆文本水印功能。仿真实验表明,算法嵌入的水印具有良好的不可见性和较强的鲁棒性。 相似文献
15.
16.
《计算机应用与软件》2016,(6)
针对传统二维层面的倾斜校正算法难以处理扭曲文本的倾斜,提出一种基于点云数据的扭曲文本图像倾斜校正方法。首先,通过三维扫描仪采集文本的数据信息,重建文本的三维点云模型,接着通过检测文本在空间中的位置,定义为空间倾斜与平面倾斜,最后实现文本的自动倾斜校正。实验结果表明,基于点云数据的倾斜校正算法在处理扭曲文本的倾斜校正正确率达到95%以上。 相似文献