首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
基于词频统计的文本关键词提取方法   总被引:1,自引:0,他引:1  
针对传统TF-IDF算法关键词提取效率低下及准确率欠佳的问题,提出一种基于词频统计的文本关键词提取方法。首先,通过齐普夫定律推导出文本中同频词数的计算公式;其次,根据同频词数计算公式确定文本中各频次词语所占比重,发现文本中绝大多数是低频词;最后,将词频统计规律应用于关键词提取,提出基于词频统计的TF-IDF算法。采用中、英文文本实验数据集进行仿真实验,其中推导出的同频词数计算公式平均相对误差未超过0.05;确立的各频次词语所占比重的最大误差绝对值为0.04;提出的基于词频统计的TF-IDF算法与传统TF-IDF算法相比,平均查准率、平均查全率和平均F1度量均有提高,而平均运行时间则均有降低。实验结果表明,在文本关键词提取中,基于词频统计的TF-IDF算法在查准率、查全率及F1指标上均优于传统TF-IDF算法,并能够有效减少关键词提取运行时间。  相似文献   

2.
多文档自动摘要技术可以向用户提供一个简洁、全面的摘要信息,因此研究多文档自动摘要技术具有很重要的意义.本文提出了一种上下文敏感的基于词频统计的多文档自动摘要生成方案.该方案利用高频词的重要作用统计高频词信息,同时具备上下文敏感的特性.它具有简单易行,运行速度快,效果好等特点.实验结果证明,取得了很好的ROUGE成绩.  相似文献   

3.
命名实体识别是自然语言处理必不可少的重要部分, 其中组织机构名识别占了很大的比例。提出了基于词频统计的组织机构名识别方法。训练数据主要通过百度百科词条整理得到。训练时, 利用百度百科词条名在词条文本中的频数统计进行机构构成词的词频统计。在此基础上, 构建了数学模型, 实现了组织机构名识别算法。该识别算法集成到了中文分词中, 取得了较好的识别结果, 可以满足一定的实际应用需求。  相似文献   

4.
一种基于段落词频统计的论文抄袭判定算法   总被引:2,自引:0,他引:2  
解决论文抄袭的判定问题不但可以减轻审稿人员的工作负担,而且对于提高学术论文质量、净化学术领域、防止学术腐败都有很重要的意义.从抄袭的定义和法律规定出发,在分析比较国内外主要的论文抄袭判定方法基础上,提出存在的问题和改进策略,然后给出一种基于段落词频统计的论文抄袭判定算法.此算法不但可以检测出抄袭者成段抄袭的情况,而且可以检测出段落中语句顺序改变、段落内容压缩和扩充的情况,若疑似抄袭还可以将抄袭论文和被抄袭论文的相似内容输出,方便用户进一步审查.  相似文献   

5.
由于语言信息具有大数据量、随机性等特征,在语言学研究中常引进统计学方法来定量分析,以确定语言现象的基本特征,通过揭示数量关系来帮助判定语言系统之间的关系。本文选用现代维吾尔语中常用的发生语音弱化的词汇,建立一个语料库(弱化规则库),利用传统语言学,计算语言学和统计学相结合的方法对语料进行统计分析,实现了维吾尔语中生活常用词的词频统计分析,考察了维吾尔语词汇中的弱化情况和词频统计。  相似文献   

6.
池云仙  赵书良  罗燕  高琳  赵骏鹏  李超 《计算机科学》2017,44(10):276-282, 288
在大数据时代,文本挖掘 面临特征的“高维-稀疏”问题,海量文本词汇与稀少关键特征间的矛盾导致了高时空复杂度和低效率等问题,严重制约了文本挖掘效率,因此在文本挖掘前进行有效的数据预处理至关重要。传统文本挖掘算法在数据预处理阶段只进行分词和去停用词操作。为提高性能,提出基于词频统计规律的文本数据预处理方法。首先,基于齐普夫定律和最大值法推导同频词数表达式;然后,基于同频词数表达式探究各频次词语在文中的分布规律,结果表明词频为1和2的词语与文档的关联度较低,但比重高达 2/3;最后,基于词频统计规律进行数据预处理,在预处理阶段去除低频词,减小特征维度。在公共数据集Reuters-21578和20-Newsgroups上进行的实验的结果表明,各频次词语的分布规律是正确的,基于词频统计规律的文本数据预处理方法在分类准确率、精确率、召回率以及F1度量值方面均有提升,运行时间明显降低,文本挖掘效率得到显著提高。  相似文献   

7.
基于词频统计的中文分词的研究   总被引:21,自引:1,他引:20  
论文介绍了一个基于词频统计的中文分词系统的设计和实现。通过这个系统,可以将输入的连续汉字串进行分词处理,输出分割后的汉语词串,一般是二字词串,并得到一个词典。词典中不重复地存储了每次处理中得到的词语,以及这些词语出现的频率。这个系统选用了三种统计原理分别进行统计:互信息,N元统计模型和t-测试。文中还对这三种原理的处理结果进行了比较,以分析各种统计原理的统计特点,以及各自所适合的应用场合。  相似文献   

8.
关键词抽取是信息检索、文本分类、文本聚类以及自动文摘生成等技术的基础。在分析传统中文关键词抽取方法不足的基础上,提出一种基于多特征的中文关键词提取方法。该方法在抽取中文关键词过程中,从词频、关联度、词性以及位置等多种特征来全面考查关键词,有效地避免了传统关键词提取方法产生的偏差。实验结果表明,与传统方法相比,该方法在不同测试集上关键词提取的平均召回率均得到明显提升。  相似文献   

9.
哈萨克语作为新疆少数民族语言之一,其词频统计作为自然语言处理的基础性课题,成为需要迫切解决的问题。基于此,介绍Zapf 定律及哈萨克语词频统计之间的联系。对连续输入哈萨克语字符串进行切分,再输入切分后的哈萨克语词串,由此得到哈萨克语词典。在词典中存储词形不同的哈语词组,以及这些词组出现的频率,并进行哈萨克语的统计实验,结果说明哈萨克语词频之间存在内在联系,同时验证哈萨克词频符合Zapf 的幂率定律。  相似文献   

10.
本文详细介绍SVM(支持向量机)在词频统计中文分词中的应用。可将输入的连续字串进行分词处理,输出分割后的汉语词串,一般为二字词串,并得到一个词典。词典中不重复地存储了每次处理中得到的词语,以及这些词语出现的频率。选用了互信息原理进行统计。并采用SVM算法,分词的准确性与传统相比有了很大的提高,并具有一定的稳定性。  相似文献   

11.
针对传统浮动关键词匹配算法功耗高和速率低的问题,提出一种基于三态内容寻址寄存器(TCAM)的高效匹配算法。该算法应用关键词分类数据结构,将关键词存储在不同的TCAM模块中,并只将疑似关键词送入TCAM中查找匹配,从而减少每次访问TCAM查找的表项数目,提高一个查询周期内待匹配报文的移动速度。仿真结果表明,与传统算法相比,该算法功耗较低、匹配速度较快。  相似文献   

12.
In this paper, we propose a new algorithm for dynamic calibration of multiple cameras. Based on the mapping between a horizontal plane in the 3-D space and the 2-D image plane on a panned and tilted camera, we utilize the displacement of feature points and the epipolar-plane constraint among multiple cameras to infer the changes of pan and tilt angles for each camera. This algorithm does not require a complicated correspondence of feature points. It can be applied to surveillance systems with wide-range coverage. It also allows the presence of moving objects in the captured scenes while performing dynamic calibration. The sensitivity analysis of our algorithm with respect to measurement errors and fluctuations in previous estimations is also discussed. The efficiency and feasibility of this approach has been demonstrated in some experiments over real scenery.  相似文献   

13.
针对在云存储服务中可搜索加密技术的研究,解决了现存3个问题:1)传统可搜索加密方法大多数只支持单关键字搜索,并且在安全索引过大时,搜索时间代价过大;2)现有方案大多使用倒排索引进行快速搜索,然而倒排索引并不支持动态关键字更新;3)现有方案大多数无法针对某些按需用户,根据关键字的重要性对搜索文件进行安全高效的top-k排序.提出了一种基于多关键字的top-k布尔可搜索加密方案(top-k boolean searchable encryption scheme based on multiple keywords, TBSE).该方案利用Goldwasser-Micalli与2DNF这2种加密算法构建了一种支持动态更新的安全索引;利用集合论与布尔搜索的相关知识构建了关键字交集索引与交集搜索令牌,以实现对多关键字的布尔搜索;利用TF-IDF加权技术与安全协处理器构造分数索引,进而能够对文件进行top-k排序.安全性分析表明:该方案保证了在已知密文模型与已知背景模型下的安全性.通过实验证明:该方案提升了对多关键字布尔搜索的效率以及索引存储的效率.  相似文献   

14.
基于结构与文本关键词相关度的XML网页分类研究   总被引:9,自引:0,他引:9  
针对XML网页特点,提出了计算XML文档结构相似性、文档关键词出现的位置以及关键词频度的方法,根据计算的结果提取XML网页特征,同时设计了一种基于支持向量机的XML网页多类分类算法.算法通过XML文档的训练样本集为每一类文档建立基于相似公共特征的聚类核,计算测试样本中的文档与每个聚类核的相似度,判断该文档的所属类.实验证明该分类算法具有比较高的分类查全率和查准率,能够较好地解决XML文档同时属于多个类的问题.  相似文献   

15.
一种有效的人脸识别方法   总被引:6,自引:0,他引:6  
人脸识别是模式识别领域中一个相当困难而又有重要理论价值的研究课题.本文首先引入表示人脸的特征图像和投影图像的概念,提出利用投影图像在特征图像上投影的坐标作为描述人像本质属性的特征矢量,并导出了基于投影图像的人脸特征抽取方法.最后构造了一个层次的距离分类器进行人脸的识别.实验结果表明基于投影图像的特征矢量具有很好的稳定性、鉴别能力和识别率.  相似文献   

16.
17.
针对越来越丰富的电视节目资源和多用户同时观看电视的现实,文章提出了一种面向多用户的电视节目推荐生成方法,描述并设计了实现该方法的关键技术:用户对节目喜好程度度量,用户时间优先级度量,以及多个单用户节目单的融合算法。  相似文献   

18.
As stream data is being more frequently collected and analyzed, stream processing systems are faced with more design challenges. One challenge is to perform continuous window aggregation, which involves intensive computation. When there are a large number of aggregation queries, the system may suffer from scalability problems. The queries are usually similar and only differ in window specifications. In this paper, we propose collaborative aggregation which promotes aggregate sharing among the windows so that repeated aggregate operations can be avoided. Different from the previous approaches in which the aggregate sharing is restricted by the window pace, we generalize the aggregation over multiple values as a series of reductions. Therefore, the results generated by each reduction step can be shared. The sharing process is formalized in the feed semantics and we present the compose-and-declare framework to determine the data sharing logic at a very low cost. Experimental results show that our approach offers an order of magnitude performance improvement to the state-of-the-art results and has a small memory footprint.  相似文献   

19.
多基频估计被广泛应用于音乐结构分析、乐音辅助教育、信息检索等各个领域.为了满足准确识别乐曲中随机和弦的需求,提出了基于生成对抗网络去影像的多基频估计算法.首先将完整音频切分成音符段,提出了一种谐音指纹图提取音符段频谱特征;然后通过卷积神经网络识别谐音指纹图当前的主导基频,将已识别出的主导基频作为干扰下一个基频识别的影像...  相似文献   

20.
多元时间序列中跨事务关联规则分析的高效处理算法   总被引:5,自引:1,他引:5  
用挖掘跨事务关联规则的方法分析多元时间序列,可以找到序列中不同采样点观察值之间相互影响的关系。本文为实现这一目的,提出一种新的分析方法:ES—Apriori。此方法通过减少数据库扫描次数,优化内存分配,能够高效地分析多元时间序列之间的关联规则。试验表明,用此方法分析中国证券市场的股票时间序列非常有效。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号