共查询到18条相似文献,搜索用时 62 毫秒
1.
本文根据Google Search API的搜索结果的特点,设计了一种综合HTML结构分析与条件随机域模型理论的不依赖于模板的信息抽取方法;根据向量空间模型思想和网页文本特性,本文设计了一种基于向量空间模型的文本聚类方法。最后通过系统实现并实验,验证了本文方法在对人名搜索结果中重名的个人信息进行消解的有效性。 相似文献
2.
研究客户重名消解问题。针对以往重名消解方法如文本聚类的方法需考虑大量无用词汇并需要人工设定阈值以及类别数量,而基于信息抽取的人物相关属性相似度方法对于人物信息的抽取具有依赖性,提出了一种改进的重名消解算法。该算法首先对具有相同标志的客户进行属性匹配,合并匹配成功的标志;然后进行链接分析,对客户合作网的结构进行分析,将具有相同标志并与同一个代理人实体合作的客户归为一个客户实体,并把具有相同合作对的信息加以分析合并;最后通过原子团簇分析法进行聚类分析。仿真实验结果表明,所提改进算法对中文字符串的匹配处理进行了优化,执行效率高,适合于以大量数据为特征的保险领域的重名消解。 相似文献
3.
跨文本人名消歧是判断出现在不同文本的相同人名是否指称现实中相同实体的过程。跨文本人名消歧是准确获取感兴趣人物相关信息的基础,对多文本摘要、信息融合等具体应用也有重要的作用。该文运用社会网络分析法消歧中文不同文本同名歧义问题,思想是先使用谱聚类对社会网络中的人名聚类,然后根据不同社会网络边权值和不同图划分准则对人名消歧效果的影响,引入了模块度阈值作为社会网络划分的停止条件。在CLP 2010的中文人名消歧数据上进行测试,显示了社会网络分析对人名消歧的有效性。 相似文献
4.
【目的】命名实体识别是自然语言处理领域的一项基本任务,实体包括人名、地名和组织名等,与其他实体相比,人名与职务、职务变更及人称代词有关。人名的实体识别中,人名语料的残缺及人称指代不明等问题,成为处理中的难点、痛点。基于此观察,本文提出一种融合指代消解的序列标注方法来改进人名识别,这可以有效缓解人名识别中人名语料不完善的问题,并且可以解决人称代词指代不明、人力耗费量大等问题。【方法】具体地,首先利用职务变更进行数据增强,可以有效解决实际应用中标注数据不足的问题。接着为了更好地学习上下文特征,本文使用语言预训练模型BERT和双向长短时记忆网络结合的方式,并利用条件随机场建模来标签序列的关系。最后,针对文本中的人称代词,加入指代消解算法,进一步改进人名识别。【结果】在公共数据集和本文提出的数据集上的实验结果均表明本文提出方法的有效性。 相似文献
5.
6.
7.
移动社会网络的路由工作中存在一个不合理的假设,即所有节点是无私合作的,愿意为其他节点转发数据.然而,MSN网络节点通常表现出自私性,因为在现实世界中,节点通常被人们所支配,而社会中的人们可能由于节点资源的匮乏不愿意节点参与转发.这种节点的自私行为无疑极大地降低了网络的性能.为了解决移动社会网络的自私路由问题,提出了一种... 相似文献
8.
社会网络是现实社会在网络空间的延伸,研究社会网络的结构特征对于发现网络结构、预测网络行为、保障网络安全有着重要的意义.社团结构是社会网络最重要的一种结构特征.近年来,研究人员提出了大量的社团检测算法,但大多集中在无权网络,不能处理网络中越来越复杂的连接关系.为了衡量有向加权网络中节点之间的关联强度,提出了一种新的节点亲密度定义,在此基础上设计了一种基于节点亲密度和度的社团结构检测方法(community detecting method based on node intimacy and degree, CDID),并在真实的社会网络数据集上进行了实验验证.与传统的社团检测方法相比,CDID方法能够获得更加准确的社团划分结果,并为无向无权、有向无权、无向加权、有向加权网络的社团划分提供了一种统一的解决方法. 相似文献
9.
在当今互联网时代,电子邮件的快速、低耗等特性,使其成为人们生活和工作中的必需工具。为了智能化地提取和分析邮件网络中的海量数据,以从海量邮件数据中挖掘潜在的有价值的信息,将社会网络分析方法应用于邮件网络分析,提出了基于CN-M( Core Node-Modularity)的邮件网络核心社团挖掘算法。首先用JavaMail对数据进行解析,将解析后的数据保存在数据库中,使用这些数据来构建邮件网络图,根据节点的连接中心度、紧密中心度和中间中心度计算加权中心度,由加权中心度最大的节点开始,根据模块度指标进行核心社团的挖掘。实验结果表明该算法可以很好地挖掘邮件网络中潜在的核心社团。 相似文献
10.
随着人们在互联网上的行为日益丰富,互联网上的社交行为和关系逐渐接近传统的客观世界的社交网络,并能够真实反映出人与人之间在客观世界的真实关系。可以从互联网中通过搜索的方式来构建一个真实客观世界的社会网络。社会网络搜索技术及其方法逐渐成为目前的研究热点,如何对每个Web进行人名同一性判断是社会网络搜索的关键技术。为了从文本中抽取准确的特征并降低向量维度,本文给出了一个基于C-value和逆文档频率IDF的特征向量权值计算方法;实现了基于余弦夹角的相似度计算的算法;通过对文本聚类算法中层次聚类算法和划分聚类算法的研究,给出一种改进的层次聚类算法来实现人名同一性判断。以搜索引擎的人名检索结果进行测试,说明了基于改进的层次聚类算法能有效地提高人名同一性判断的性能。 相似文献
11.
人名歧义是一种身份不确定的现象,指的是文本中具有相同姓名的字符串指向现实世界中的不同实体人物。人名消歧很长时间一直是一个具有挑战性的问题,关注网页里的人名消歧的问题。因为经典的K-means算法如果选择了一个差的随机初始聚类中心,算法会遇到局部收敛的问题,所以文章提出一种基于最大最小原则的改进的K-means算法来进行人名消歧。同时使用了WePS的训练数据作为实验的语料。实验结果表明,改进的方法比层次聚类方法有着更好的性能。 相似文献
12.
13.
14.
针对知识库中存在单条实体定义特征稀疏和人工设置相似度阈值适用性不强的问题,本文提出了一种基于分步聚类的人名消歧算法。首先,将知识库中人名实体定义的人物属性特征作为查询特征,利用文本检索的方式实现基于知识库的初次聚类,弥补了知识库中单条实体定义中特征稀疏的问题;然后,利用初次聚类的结果,采用基于自适应阈值的凝聚层次聚类算法实现知识库人名消歧;最后,采用条件随机场进行Other类识别,利用基于自适应阈值的凝聚层次聚类完成S类聚类,从而实现非知识库人名消歧。在CLP2012的中文人名消歧评测语料上进行实验,结果表明本文的算法能够有效地对人名进行消歧。 相似文献
15.
16.
17.
因短文本实体消歧具有不能完整地表达语义关系、上下文提供的信息较少等局限性。针对以上难点,该文提出了一种新的方法,混合卷积网络(Mixed Convolution Network,MCN)。该方法的核心思想是首先对数据集进行预处理;其次,采用Google提出的BERT模型进行特征提取,并通过注意力机制将特征进一步抽取后作为CNN模型的输入,通过CNN模型获得句子的依赖特征。同时,该文使用GCN模型获取语义特征,将二者提取到的语义信息融合,输出得到结果。在CCKS2019评测数据集上的实验结果表明,该文提出的混合卷积网络取得了86.57%的精确率,验证了该模型的有效性。 相似文献
18.
无结构P2P网络中基于泛洪法的搜索机制会给系统带来极大的网络负载,结构化P2P网络则需要较大的开销来维护其拓扑结构。针对该问题,给出一种具有社会网络特性的P2P分层搜索机制。根据社会网络的基本原理,将语义相似度高的节点分布在同一个虚拟社区,节点在虚拟社区内能动地建立搜索链接。实验结果证明,该搜索机制能有效地提高P2P网络的资源搜索效率。 相似文献