首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
翟周伟  刘刚  吕玉琴 《软件》2012,(8):9-13
文章提出一种基于图模型的关键词挖掘方法,应用K最邻近耦合图构造文档的图模型,将文档映射为一个语义结构图,然后结合聚类系数变化量,平均路径变化量,TF-IDF以及区域位置因子来衡量词语节点的重要性,根据重要性得分选择候选关键词集,最后根据短语合并规则形成最终的关键词,实验结果表明,该方法相比于TF-IDF和小世界特征方法性能有所提高。  相似文献   

2.
针对维吾尔语文本的分类问题,提出一种基于TextRank算法和互信息相似度的维吾尔文关键词提取及文本分类方法。首先,对输入文本进行预处理,滤除非维吾尔语的字符和停用词;然后,利用词语语义相似度、词语位置和词频重要性加权的TextRank算法提取文本关键词集合;最后,根据互信息相似度度量,计算输入文本关键词集和各类关键词集的相似度,最终实现文本的分类。实验结果表明,该方案能够 提取出具有较高识别度的关键词,当关键词集大小为1250时,平均分类率达到了91.2%。  相似文献   

3.
基于语义的中文文本关键词提取算法   总被引:1,自引:0,他引:1       下载免费PDF全文
为克服传统关键词提取算法局限于字面匹配、缺乏语义理解的缺点,提出一种基于语义的中文文本关键词提取(SKE)算法。将词语语义特征融入关键词提取过程中,构建词语语义相似度网络并利用居间度密度度量词语语义关键度。实验结果表明,与基于统计特征的关键词提取算法相比,SKE算法提取的关键词能体现文档的主题,更符合人们的感知逻辑,且算法性能较优。  相似文献   

4.
利用统计和规则相结合的算法从互联网的动态信息流中提取网络流行语。在利用全切分算法获取候选词集的基础上,依次对候选词集进行三次过滤:首先基于向量空间模型的权重过滤,运用语言模型进行过滤;然后利用垃圾串过滤规则获取网络流行词语候选词集;最后利用提出的流行词语评分模型进行筛选得到网络流行词语。实验表明,在不影响流行词语准确率的前提下,利用该方法自动获取网络流行词语的速度明显提高。  相似文献   

5.
针对目前基于监督学习的关系抽取方法需要标注大量训练数据和预先定义关系类型,提出了一种基于词语共现信息构建关联网络并在关联网络上进行图聚类分析的人物关系提取方法。首先,从新闻标题数据获得关联度较高的500个人物对用于关系抽取研究;然后,抓取关联人物对所在新闻数据,对其进行预处理,并利用词频-逆向文档频率(TF-IDF)得到人物对共现句子中的关键词;其次,基于词语共现信息得到词语之间的关联,进而建立关键词关联网络;最后,利用对关联网络进行图聚类分析以获得人物关系。在关系抽取的实验中,与传统基于词语共现和模式匹配的中文实体关系提取方法相比,所提方法在准确率、召回率和平衡F分数(F-score)上分别提升了5.5,3.7和4.4个百分点。实验结果表明,所提算法能够在没有标注训练数据的条件下,有效地从新闻数据中抽取丰富且高质量的人物关系数据。  相似文献   

6.
从单个文档中直接提取关键词不能满足关键词提取的精度要求,而现有基于邻居信息的关键词提取相关研究又耗时较长.因此,文中提出利用科学文献中共同作者关系以构建邻居网络,并联合使用这些邻居网络信息及文档本身内容提取关键词的方法.在此基础上,进一步提出利用领域知识中高频度共现词对以提取关键词,获得更高质量的关键词的方法.实验表明,文中方法性能较优.  相似文献   

7.
关键词提取在自然语言处理领域有着广泛的应用,如何准确、快速地从文本中获取关键词信息已经成为文本处理的关键性问题。现有的关键词提取方法很多,但是这些关键词提取方法的准确率和通用性有待提高。因此,提出了一种改进的TextRank关键词提取方法,该方法使用TF-IDF方法与平均信息熵方法计算文本中词语的重要性,然后根据计算结果得到词语的综合权重。利用词语的综合权重改进TextRank算法的节点初始值以及节点概率转移矩阵,通过迭代的方式计算各个节点的权重,直至收敛,从而得到词语的权重信息,选择top N个词语作为关键词输出,实现关键词的提取功能。实验结果表明,相较于传统的TF-IDF方法和TextRank方法,提出的改进后的TextRank关键词提取方法有更好的通用性,提取的关键词的准确率更高。  相似文献   

8.
融合语义特征的关键词提取方法   总被引:1,自引:0,他引:1  
关键词提取被广泛应用于文本挖掘领域,是文本自动摘要、自动分类、自动聚类等研究的基础。因此,提取高质量的关键词具有十分重要的研究意义。已有关键词提取方法研究中大多仅考虑了部分文本的统计特征,没有考虑词语的隐式语义特征,导致提取结果的准确率不高,且关键词缺乏语义信息。针对这一问题,文中设计了一种针对词语与文本主题之间的特征进行量化的算法。该算法首先用词向量的方法挖掘文本中词语的上下文语义关系,然后通过聚类方法抽取文本中主要的语义特征,最后用相似距离的方式计算词语与文本主题之间的距离并将其作为该词语的语义特征。此外,通过将语义特征与多种描述词语的词频、长度、位置和语言等特征结合,文中还提出了一种融合语义特征的短文本关键词提取方法,简称SFKE方法。该方法从统计信息和语义层面分析了词语的重要性,从而可以综合多方面因素提取出最相关的关键词集合。实验结果表明,相比TFIDF,TextRank,Yake,KEA和AE等方法,融合多种特征的关键词提取方法的性能有了明显的提升。该方法与基于有监督的AE方法相比,F-Score提升了9.3%。最后,用信息增益的方法对特征的重要性进行评估,结果表明,添加语义特征后模型的F-Score提升了7.2%。  相似文献   

9.
杨朝举  葛维益  王羽  徐建 《计算机应用研究》2021,38(4):1022-1026,1032
关键词提取在众多文本挖掘任务中扮演着重要的角色,其提取效果直接影响了文本挖掘任务的质量。以文本为研究对象,提出了一种基于k-truss图分解的关键词提取方法,名为KEK(keyword extraction based on k-truss)。该方法首先借助空间向量模型理论,以文本中的词为节点,通过词语之间的共现关系来构建文本图,接着利用k-truss图分解技术来获取文本语义特征,并结合词频、单词位置特征、复杂网络特征等构造无参评分函数,最终根据评分结果来提取关键词。通过在基准数据集上进行实验验证,结果表明KEK算法在提取短文本关键词上的F1值性能指标优于其他基于文本图的关键词提取方法。  相似文献   

10.
在研究区分性关键词提取方法的基础上,对维吾尔语中的生气和高兴等常见情感类型进行基于文本句子的情感分类研究。结合维吾尔文本句子中的情感表达特点,以词频和文档频率作为基本统计量,通过计算同一词语在不同组合统计量下的类间差异得到区分性关键词,并基于这些关键词进行特征提取和区分性情感模型构建。从维吾尔语电影字幕、小说等文本库中提取生气和高兴2种情感构造实验数据集,并验证所提出的情感分类方法。实验结果表明,基于区分性关键词的建模方法能有效地对维吾尔文本句子进行情感分类。  相似文献   

11.
面向置标文档的文档转换技术研究   总被引:1,自引:0,他引:1  
文档系统间的转换是文档内容共享和协作的必然途径,转换根据不同应用目的包括失真,不失真和增值三种方式。置标文档是用标签(Tag)进行文档结构描述的文档。本文介绍了一种面向置标文档的文档转换增值技术,给出了一种文档转换描述语言,用户可以利用它来定义转换信息从而实现文档间复杂的转换。  相似文献   

12.
基于CURE算法的网络用户行为分析   总被引:1,自引:0,他引:1  
从安全的角度分析网络用户行为,建立了一个基于Netflow统计的用户行为向量数据模型,提出了一个网络用户行为的分析框架,建立了一个分析流程。针对存储网络用户行为的大型数据库选用了一个合适的聚类算法即CURE算法,并对CURE算法进行了基于实际应用的改进。实验结果表明,改进后的CURE算法不仅能很好地聚类,而且能区分出正常行为和异常行为,通过危害行为评价体系分析,聚类得到的异常行为是危害行为的检测率非常高。对于实时网络上的增量数据,文中也给出了增量挖掘的算法,符合网络实时分析的需要。  相似文献   

13.
神经网络在钢铁件混料分选中的应用   总被引:1,自引:0,他引:1  
本文针对钢铁件混料分选的问题,介绍了一种基于初始幅值磁导率法的电磁无损检测方法,针对原有识别系统和传统BP神经网络学习算法的不足,提出一种改进算法,提高了网络分类的可靠性。  相似文献   

14.
基于网络的遥测遥控供水系统的可靠性研究   总被引:2,自引:0,他引:2  
提出了一种数字微波遥测遥控供水系统的结构形式。研究了天线参数以及城市特定的地貌对网络通信误码率的影响,提出了采用数据冗余、循环码技术控制误码率和采用载波监听技术、线性退避算法保证网络通信速度以及系统终端硬件故障诊断方法,确保了无线网络遥测遥控供水系统的可靠性和安全性。  相似文献   

15.
薛东升  尹东 《计算机仿真》2006,23(12):188-191
图像中物体轮廓线的描述和辨识是图像理解的一个核心问题,提出了一种新的快速的轮廓线描述和匹配方法。该方法不是把曲线中的每一点都进行了描述和匹配,而是按照最小面积法则对曲线进行采样。用采样点与质心的距离增量为每一个采样点赋予一个身份向量,通过所有采样点的身份向量来构造曲线的质心距离增量矩阵以描述曲线,最后利用两条曲线的质心距离增量矩阵的差异度来度量它们的相似性。实验证明该描述方法不仅具有很好的唯一性,而且相比目前已有算法计算量大大减少。该方法的一个实际应用在于将一个地区的SAR图像与地图相匹配。  相似文献   

16.
网络信息过滤系统(NIFS)的研究与实现   总被引:10,自引:0,他引:10  
随着Internet普及和应用,电子商务和企业上网已经成为一种发展趋势,网络的安全日益引起人们的关注,提供一定的手段,实时对网络中的信息进行监测具有十分重要的意义,本文利用中文文档信息处理中特定分类文档特征向量提取技术,为信息过滤提供依据,并且从信息过滤系统结构、网络信息捕获,网络协议分析等方面对网络信息过滤系统(NIFS)基本理论和实现方法进行详细的讨论。  相似文献   

17.
随着攻击的日益增多和高速网络的普及,对IDS的性能要求也日益提高,Kruegel将ID3决策树引入到入侵检测系统中,有效地提高了入侵检测的速度,但该方法在增加规则时需要完全重建决策树,而且占用内存过大,对于要求实时性的应用场合并不适合。引入基于增量学习的ID5R决策树算法,并对规则属性处理方式进行优化,在保证检测速度的同时解决了实时增加规则和占用内存过大的问题。  相似文献   

18.
针对海量中文短信文本的聚类簇数的确定问题,提出一种基于聚类过程的短信文本最佳聚类数确定方法。通过扫描一遍数据即可获得多个统计信息,利用增量逐层划分得到最优划分所对应的簇类数,求出最优解。实验结果表明,与其他方法相比,该方法的分类效率较高。  相似文献   

19.
Ad Hoc中的TCP改进方案——Adaptive ADTCP   总被引:1,自引:0,他引:1  
宋军  李浩  李嫄源  李霖 《计算机应用》2010,30(7):1750-1753
在分析无线自组网特点及其对TCP性能影响的基础上,提出了一种能够自适应无线自组网状态的TCP改进方案(Adaptive ADTCP)。Adaptive ADTCP在明确辨识网络状态的前提下,首先根据前向路径跳数自适应地调整拥塞窗口增长因子,限制源节点TCP拥塞窗口过分增长,避免造成网络拥塞;同时源节点TCP根据当前拥塞窗口自适应改变发送的分组长度,充分利用网络资源。仿真实验表明,在网络重负载和节点高速移动情况下,Adaptive ADTCP对数据传输的吞吐量有较大提升。  相似文献   

20.
随着网络技术的迅猛发展,利用网络进行信息交流已经成为社会生活的一种重要手段,作为网络管理者,加强对Intranet和Internet之间进出信息流的检测和审计具有重要意义。本文以中文信息处理中特征值匹配技术为基础,完成了较完整的信息审计系统;并在系统结构、审计源获取分析及文档敏感值计算等方面进行了详细阐述。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号