首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
针对维吾尔语文本的分类问题,提出一种基于TextRank算法和互信息相似度的维吾尔文关键词提取及文本分类方法。首先,对输入文本进行预处理,滤除非维吾尔语的字符和停用词;然后,利用词语语义相似度、词语位置和词频重要性加权的TextRank算法提取文本关键词集合;最后,根据互信息相似度度量,计算输入文本关键词集和各类关键词集的相似度,最终实现文本的分类。实验结果表明,该方案能够 提取出具有较高识别度的关键词,当关键词集大小为1250时,平均分类率达到了91.2%。  相似文献   

2.
文本相似度计算是自然语言处理的核心任务之一,传统的文本相似度计算方法只考虑文本的结构或者语义等单方面特征,缺少对文本多特征的深度分析,导致性能较低。提出一种基于多重相关信息交互的文本相似度计算方法,在文本嵌入矩阵中增加余弦相关性特征,使用自注意力机制考虑文本自身的相关性和词语依赖关系,进而使用交替协同注意力机制提取文本之间的语义交互信息,从不同角度获得更深层、更丰富的文本表征。实验结果表明,所提方法在2个数据集上的F1值分别为0.916 1和0.769 5,其性能优于基准方法的。  相似文献   

3.
针对传统ML-KNN进行多标签文档分类时,忽略标签之间关联性的问题,笔者提出了一种基于改进的ML-KNN多标签微博短文本分类方法。该方法通过归一化互信息控制每对标签的相关性阈值。针对微博短文本的特征,在计算文本相似度时引入同义词词林进行语义特征扩展。通过数据集的实验测试,笔者所提方法在性能上优于传统的ML-KNN算法。  相似文献   

4.
李鹏清  李扬定  邓雪莲  李永钢  方月 《计算机科学》2018,45(Z11):458-461, 467
传统的谱聚类算法在建立相似度矩阵时仅考虑数据点与点的距离,忽略了数据点之间隐含的内在联系。针对这一问题,提出了一种基于SimRank的谱聚类算法。该算法首先用无向图数据建立邻接矩阵,并计算出基于SimRank的相似度矩阵;然后根据相似度矩阵建立拉普拉斯矩阵表达式,对其进行归一化后再进行谱分解;最后对分解得到的特征向量进行k-means聚类。在Zoo等UCI标准数据集上的实验结果表明,所提算法在聚类精确度、标准互信息和纯度3个评价指标上均优于现有的LRR(Low Rank Rrepresentation)等基于距离相似度的谱聚类算法。  相似文献   

5.
随着裁判文书等司法大数据不断积累,如何将人工智能与法律相结合成为了法律智能研究的热点。该文针对2020中国法研杯司法人工智能挑战赛(CAIL2020)的机器阅读理解任务,提出了一种基于多任务联合训练的机器阅读理解模型。该模型将阅读理解任务划分为四个子模块: 文本编码模块、答案抽取模块、答案分类模块和支持句子判别模块。此外,该文提出了一种基于TF-IDF的“问题-文章句子”相似度匹配的数据增强方法。该方法对中国法研杯2019的训练集进行重新标注,实现数据增强。通过以上方法,最终该集成模型在2020中国法研杯机器阅读理解任务中联合F1值为74.49,取得全国第一名。  相似文献   

6.
通过分析已有的基于统计和基于语义分析的文本相似性度量方法的不足,提出了一种新的基于语言网络和词项语义信息的文本相似度计算方法。对文本建立语言网络,计算网络节点综合特征值,选取TOP比例特征词表征文本,有效降低文本表示维度。计算TOP比例特征词间的相似度,以及这些词的综合特征值所占百分比以计算文本之间的相似度。利用提出的相似度计算方法在数据集上进行聚类实验,实验结果表明,提出的文本相似度计算方法,在F-度量值标准上优于传统的TF-IDF方法以及另一种基于词项语义信息的相似度量方法。  相似文献   

7.
基于词典和规则集的中文微博情感分析   总被引:2,自引:0,他引:2  
通过对微博文本的特性分析,提取了中文微博情感分析的关键问题:如何识别微博新词并理解其情感含义?如何利用附加信息辅助文本情感分析?如何结合语言特性构造情感计算方法?针对第一个问题,利用统计信息和点间互信息对新词进行挖掘和情感识别,在40万条新浪微博数据中构建了新情感词词典,用于对已有情感词资源的扩充。对于后两个问题,提出了基于词典和规则集的中文微博情感分析方法。根据微博特性,在不同的语言层次上定义了规则,结合情感词典对微博文本进行了从词语到句子的多粒度情感计算,并以表情符号作为情感计算的辅助元素。通过对采集到的原创微博数据集进行实验,验证了该方法的有效性。  相似文献   

8.
一种基于反向文本频率互信息的文本挖掘算法研究   总被引:1,自引:0,他引:1  
针对传统的文本分类算法存在着各特征词对分类结果的影响相同,分类准确率较低,同时造成了算法时间复杂度的增加,在分析了文本分类系统的一般模型,以及在应用了互信息量的特征提取方法提取特征项的基础上,提出一种基于反向文本频率互信息熵文本分类算法。该算法首先采用基于向量空间模型(vector spacemodel,VSM)对文本样本向量进行特征提取;然后对文本信息提取关键词集,筛选文本中的关键词,采用互信息来表示并计算词汇与文档分类相关度;最后计算关键词在文档中的权重。实验结果表明了提出的改进算法与传统的分类算法相比,具有较高的运算速度和较强的非线性映射能力,在收敛速度和准确程度上也有更好的分类效果。  相似文献   

9.
将传统的文本相似度量方法直接移植到短文本时,由于短文本内容简短的特性会导致数据稀疏而造成计算结果出现偏差。该文通过使用复杂网络表征短文本,提出了一种新的短文本相似度量方法。该方法首先对短文本进行预处理,然后对短文本建立复杂网络模型,计算短文本词语的复杂网络特征值,再借助外部工具计算短文本词语之间的语义相似度,然后结合短文本语义相似度定义计算短文本之间的相似度。最后在基准数据集上进行聚类实验,验证本文提出的短文本相似度计算方法在基于F-度量值标准上,优于传统的TF-IDF方法和另一种基于词项语义相似度的计算方法。  相似文献   

10.
机器阅读理解是基于给定文本,自动回答与文本内容相关的问题。针对此任务,学术界与工业界提出多个数据集与模型,促使阅读理解取得了一定的进步,但提出的模型大多只是针对某一类问题,不能满足现实世界问题多样性的需求。因此,该文针对阅读理解中问题类型多样性的解答展开研究,提出一种基于Bert的多任务阅读理解模型,利用注意力机制获得丰富的问题与篇章的表示,并对问题进行分类,然后将分类结果用于任务解答,实现问题的多样性解答。该文在中文公共阅读理解数据集CAIL2019-CJRC上对所提模型进行了实验,结果表明,系统取得了比所有基线模型都要好的效果。  相似文献   

11.
为实现某型装备远程维修技术支援系统中资源的访问控制,保证系统数据安全,设计了基于PERMISPMI的安全访问控制方法,通过对业务层的合理构建和对主体、客体以及相应动作的访问控制策略配置,实现了由角色代替用户对资源进行访问。实践证明,基于PERMIS PMI的访问控制方法在系统中起到了良好的作用并降低了维护工作的强度。  相似文献   

12.
在工作流系统应用中,权限管理基础设施(PMI)模型存在数据冗余、动态适应性差的缺陷。针对该问题,提出一个基于任务-角色的访问控制的PMI模型。该模型通过增加任务规范角色证书与任务分配属性证书、PMI任务管理器与策略库,将访问权限与任务关联。应用结果证明该模型能够对访问控制进行动态、灵活的管理,实现基于角色、任务、角色和任务这3种访问控制,为企业信息安全管理提供保障。  相似文献   

13.
随着中国英语新词大量出现,缺少中国英语新词语料库成为研究中国英语的主要障碍,新词识别是建设语料库主要的技术问题。针对现有的点互信息和邻接熵新词识别算法中的词内部凝聚度低,及点互信息单阈值设置存在较多高阈值无效词组,且低阈值新词组无法识别的问题,提出了改进多字点互信息和邻接熵中国英语新词识别算法。利用多字点互信息以及点互信息双阈值的设定来识别新词。实验结果表明,相同数据和实验环境下,该方法提高了准确率、召回率和[F]值,对语料库建设是有效可行的。  相似文献   

14.
LDAP目录服务在PKI/PMI中的应用   总被引:3,自引:0,他引:3  
轻量级目录访问协议是互联网中一门新技术,它可用来为PKI/PMI提供后台数据支持,优化数据的查询,同时其目录数据的树形结构,也可优化PKI/PMI中资源的管理。该文探讨了LDAP目录服务在PKI/PMI中的应用方案,并且给出了一种采用JNDI技术实现基于Web的LDAP目录服务方案。  相似文献   

15.
机器阅读理解任务在近年来备受关注,它赋予计算机从文本数据中获取知识和回答问题的能力。如何让机器理解自然语言是人工智能领域长期存在的挑战之一,近年来大规模高质量数据集的发布和深度学习技术的运用,使得机器阅读理解取得了快速发展。基于神经网络的端到端的模型结构,基于预训练语言模型以及推理技术的应用,其性能在大规模评测数据集上有很大提升,但距离真正的理解语言还有较大差距。本文对机器阅读理解任务的研究现状与发展趋势进行了综述,主要包括任务划分、机器阅读理解模型与相关技术的分析,特别是基于知识推理的机器阅读理解技术,总结并讨论了该领域的发展趋势。  相似文献   

16.
ETL是构建数据仓库的一个非常重要的环节,可以这样认为:ETL就是整个数据仓库系统乃至整个决策支持系统的基石。如何设计高效的ETL过程就成为了众多计划或正在实施数据仓库项目的企业考虑的重要问题。从前期的数据理解阶段入手,分别讨论了数据的抽取、清洗转换、装载等不同阶段需要考虑的设计问题及相应的解决方案。提出了以数据理解为根基,以清洗转换为中心的设计思想,并给出了具体的实施步骤。  相似文献   

17.
阅读理解问答系统是利用语义理解等自然语言处理技术,根据输入问题,对非结构化文档数据进行分析,生成一个答案,具有很高的研究和应用价值。在垂直领域应用过程中,阅读理解问答数据标注成本高且用户问题表达复杂多样,使得阅读理解问答系统准确率低、鲁棒性差。针对这一问题,该文提出一种面向垂直领域的阅读理解问答数据的增强方法,基于真实用户问题,构造阅读理解训练数据,一方面降低标注成本,另一方面增加训练数据多样性,提升模型的准确率和鲁棒性。该文用汽车领域数据对本方法进行实验验证,其结果表明,该方法对垂直领域中阅读理解模型的准确率和鲁棒性均得到有效提升。  相似文献   

18.
侯孟波  徐秋亮 《计算机应用》2005,25(5):1145-1147
网格安全技术主要解决网格环境中实体之间的认证和授权问题。Globus网格项目中的GSI(Grid Secudty Infrastmcture)主要基于X.509技术实现身份认证以及数据的机密性、完整性和抗否认性,重点解决了认证和消息保护问题,然而在授权问题上缺乏必要的技术支撑。在分析现有安全技术的基础上,提出了将基于X.509的PKI技术和PMI技术相结合的网格安全框架,旨在实现基于安全认证基础之上网格用户和虚拟群组实体间的安全授权机制,从而构建强认证、强授权的网格安全基础设施。  相似文献   

19.
委托授权在PMI体系架构中的研究与应用   总被引:4,自引:0,他引:4  
PMI是构建在PKI基础上实施特权管理的服务体系,目前普遍采用基于角色的安全架构和基于属性证书的实现机制。该文提出了一种面向PMI环境基于角色和权限两级的开放分布武委托授权模型——DM for PMI(Delegation Model for PMI),并在该模型的基础上引入委托证书,给出了一种扩展的PMI体系架构——EPMI(Extension PMI)。EPMI增强了原有PMI中委托授权的语义和机制,解决了开放分布式环境下电子政务与电子商务实际应用中的特权委托问题。  相似文献   

20.
虚拟专用网(VPN)作为一个广泛应用的技术,隧道传输安全性与用户认证是关系到虚拟专用网安全的两个核心内容.传统的基于用户名和密码的认证措施容易发生被窃取的情况,另外VPN本身对权限的等级分配也未作考虑,需要其他技术的支持.而特权管理基础设施(PMI)作为认证与授权的一个新型的以PKI基础建立的技术,正好满足VPN对用户管理的需求.本文提出的基于PMI的VPN架构,具有较好的应用价值.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号