首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
基于模糊综合评判的文本自动分类算法   总被引:2,自引:0,他引:2  
文本分类在文献检索、信息过滤、数据组织、信息管理等领域中应用十分广泛。本文给出了一种基于模糊综合评判的文本自动分类算法,该算法以文本分词技术作为基础,以类间词频方差作为评判因素的选择依据,通过预定义类中关键词的词频均值高低构造评判矩阵,以最大隶属度作为评判原则。文中详细描述了算法的理论依据、评判因数的选择、评判矩阵的构造及分类算法。实验结果表明本文提出的分类算法具有相当的应用价值。  相似文献   

2.
通过分析网页的特点及因特网用户感兴趣的查询信息,提出了一种基于机器学习的、独立于语种的文本分类模型.这一模型的算法主要利用字间的相关信息、词频、页面的标记信息以及对用户的查询信息的浅层语义分析,提取网页特征,并计算可调的词频加权参数和增加特征词的可分性信息,然后通过本类和非本类训练,建立预定义类的特征向量空间,进一步对文本进行分类.这种分类方法在对于相似文本分类中具有明显的优势.  相似文献   

3.
当前的网页重复信息抽取方法缺少信息分类步骤,导致传统方法存在抽取全面率低、重复信息比例高以及整体性能差的问题。于是提出基于模式识别算法的网页重复信息抽取方法。利用类间平衡因子和词频获取网页信息的互信息特征。在关联规则的基础上根据网页置信度向量化互信息特征,完成网页信息特征的提取。利用模式识别中的支持向量机对网页信息分类,优化惩罚函数,建立软间隔支持向量机分类器。计算不同类别网页信息的结构相似度和语义相似度,结合上述计算结果获得网页信息相似性,完成网页重复信息的抽取。仿真结果表明,所提方法的抽取全面率高、重复信息比例低,且整体应用性能好,实验结果表明所提方法具有理想的应用效果。  相似文献   

4.
一种基于向量空间模型的文本分类方法   总被引:21,自引:1,他引:21  
介绍的文本分类是指在给定分类体系下,根据文本的内容自动确定文本类别的过程。通过分析网页的特点及因特网用户感兴趣的查询信息,提出了一种基于机器学习的、独立于语种的文本分类模型。这一模型的关键算法主要利用字间的相关信息、词频、页面的标记信息以及对用户的查询信息的浅层语义分析,提取网页特征,并计算可调的词频加权参数和增加特征词的可分性信息,然后通过本类和非本类训练,建立预定义类的特征向量空间,进一步对文本进行分类。这种分类方法在相似文本分类中具有明显的优势。  相似文献   

5.
《软件工程师》2017,(12):19-22
IG算法是一种有效的特征选择算法,在文本分类研究领域中得到了广泛应用。本文针对IG算法的不足,提出了一种基于词频信息的改进方法,分别从类内词频信息、类内词频位置分布、类间词频信息等方面进行了改进。通过实验对改进的算法进行了测试,结果表明,改进的算法相对传统算法更有效。  相似文献   

6.
针对网页分类中关联分类方法存在的如下两点不足:(1)仅把网页当成纯文本处理,忽略了网页的标签信息,(2)仅用网页中的特征词作为关联规则的项,没有考虑特征词的权重,或仅以词频来量化权重,忽略了特征词位置特征的影响,提出了基于特征词复合权重的关联网页分类方法。该方法利用网页标签信息所体现的位置特征计算特征词的复合权重,并以此权重为基础建立分类规则,对网页进行分类。实验结果表明,该方法取得了比传统的关联分类方法更好的效果。  相似文献   

7.
针对目前主题网络爬虫搜索策略难以在全局范围内找到最优解,通过对遗传算法的分析与研究,文中设计了一个基于遗传算法的主题爬虫方案。引入了结合文本内容的PageRank算法;采用向量空间模型算法计算网页主题相关度;采取网页链接结构与主题相关度来评判网页的重要性;依据网页重要性选择爬行中的遗传因子;设置适应度函数筛选与主题相关的网页。与普通的主题爬虫比较,该策略能够获取大量主题相关度高的网页信息,能够提高获取的网页的重要性,能够满足用户对所需主题网页的检索需求,并在一定程度上解决了上述问题。  相似文献   

8.
图像搜索中基于网页分块的图像分类研究   总被引:1,自引:0,他引:1       下载免费PDF全文
本文提出并实现了一种基于网页分块的图像分类模型,利用图像位于网页中的特点,将图像和网页结构有效地结合起来对网络环境中的图像进行分类。首先利用VIPS页面分块算法对网页进行分块,然后根据分块网页结构的特点将各分块网页中的图像分为背景类、广告类和主题类,最后利用这个图像分类结果指导网络环境下的图像搜索。实验结果表明明,这种方法能够显著提高图像搜索性能。  相似文献   

9.
为了解决传统主题爬虫效率偏低的问题,在分析了启发式网络爬虫搜索算法Context Graph的基础上,提出了一种改进的Context Graph爬虫搜索策略。该策略利用基于词频差异的特征选取方法和改进后的TF-IDF公式对原算法进行了改进,综合考虑了网页不同部分的文本信息对特征选取的影响,及特征词的类间权重和类中权重,以提高特征选取和评价的质量。实验结果表明,与既定传统方法进行实验对照,改进后的策略效率更高。  相似文献   

10.
针对目前主题网络爬虫搜索策略难以在全局范围内找到最优解,通过对遗传算法的分析与研究,文中设计了一个基于遗传算法的主题爬虫方案.引入了结合文本内容的 PageRank 算法;采用向量空间模型算法计算网页主题相关度;采取网页链接结构与主题相关度来评判网页的重要性;依据网页重要性选择爬行中的遗传因子;设置适应度函数筛选与主题相关的网页.与普通的主题爬虫比较,该策略能够获取大量主题相关度高的网页信息,能够提高获取的网页的重要性,能够满足用户对所需主题网页的检索需求,并在一定程度上解决了上述问题  相似文献   

11.
模糊互补判断矩阵一致性检验和改进方法研究   总被引:1,自引:0,他引:1  
针对模糊互补判断矩阵的一致性修正问题,指出了模糊互补判断矩阵一致性修正方法的不足,从模糊一致矩阵传统定义出发,讨论了检验模糊判断矩阵是否满足完全一致性的方法,推导出模糊一致性指标,并给出了模糊判断矩阵一致性改进的方法,从理论上分析了该算法的可行性,这种算法不仅简便实用,而且为专家对原始判断信息进行针对性修正提供了参考依据.  相似文献   

12.
首先,选择合适的文本集合,并且对文本进行分词处理,然后,进行文档内部特征词的提取,通过采用词频统计的方法对文本向量进行降维处理,从而选择最佳的特征向量。最后,将非数值的文本数据进行量化处理后,利用减聚类优化的模糊C-均值算法对文本集合进行聚类,从而提高文本聚类的效果。  相似文献   

13.
针对当前X射线数字化实时成像检测技术的广泛应用,研究了决策信息以三角模糊数互补判断矩阵形式给出的有限方案决策问题,给出了一种模糊有序加权平均(FOWA)算子,利用该算子对以三角模糊数互补判断矩阵形式给出的判断信息进行了集结。基于FOWG算子及互补判断矩阵排序公式,给出了一种对决策方案进行排序和择优的算法。利用该算法对长输管道钢质对接焊缝X射线数字化实时成像检测方案进行排序和择优,最后通过算例说明了该方法的有效性和实用性。  相似文献   

14.
Experiments comparing neural networks trained with crisp and fuzzy desired outputs are described. A handwritten word recognition algorithm using the neural networks for character level confidence assignment was tested on images of words taken from the United States Postal Service mailstream. The fuzzy outputs were defined using a fuzzy k-nearest neighbor algorithm. The crisp networks slightly outperformed the fuzzy networks at the character level but the fuzzy networks outperformed the crisp networks at the word level. This empirical result is interpreted as an example of the principle of least commitment  相似文献   

15.
基于关联规则的文本聚类算法的研究   总被引:1,自引:0,他引:1  
K-均值聚类算法是目前一种较好的文本分类算法,算法中的相似度计算通常基于词频统计,小文档或简单句子由于词频过小,使用该算法聚类效果较差。为此,提出了一种基于词语关联度的相似度计算算法,对简单文档集执行关联规则算法,得出基于关键词的关联规则,并根据这些规则求得词语关联度矩阵,然后由权重对文本进行文本特征向量表示,最后借助于关联度矩阵和文本特征向量,并按一定算法计算出句子相似度。实验证明该算法可得到较好的聚类结果,且其不仅利用词频统计的方法而且考虑了词语间的关系。  相似文献   

16.
This paper discusses the problem of automatic word boundary detection in the presence of variable-level background noise. Commonly used robust word boundary detection algorithms always assume that the background noise level is fixed. In fact, the background noise level may vary during the procedure of recording. This is the major reason that most robust word boundary detection algorithms cannot work well in the condition of variable background noise level. In order to solve this problem, we first propose a refined time-frequency (RTF) parameter for extracting both the time and frequency features of noisy speech signals. The RTF parameter extends the (time-frequency) TF parameter proposed by Junqua et al. from single band to multiband spectrum analysis, where the frequency bands help to make the distinction between speech signal and noise clear. The RTF parameter can extract useful frequency information. Based on this RTF parameter, we further propose a new word boundary detection algorithm by using a recurrent self-organizing neural fuzzy inference network (RSONFIN). Since RSONPIN can process the temporal relations, the proposed RTF-based RSONFIN algorithm can find the variation of the background noise level and detect correct word boundaries in the condition of variable background noise level. As compared to normal neural networks, the RSONFIN can always find itself an economic network size with high-learning speed. Due to the self-learning ability of RSONFIN, this RTF-based RSONFIN algorithm avoids the need for empirically determining ambiguous decision rules in normal word boundary detection algorithms. Experimental results show that this new algorithm achieves higher recognition rate than the TF-based algorithm which has been shown to outperform several commonly used word boundary detection algorithms by about 12% in variable background noise level condition, It also reduces the recognition error rate due to endpoint detection to about 23%, compared to an average of 47% obtained by the TF-based algorithm in the same condition.  相似文献   

17.
为了提高网络信息过滤的准确率,引入了模糊评判,通过将模糊评判与向量夹角余弦相结合的方法,改进了求目标信息空间与待过滤信息空间之间相似度的Sim函数,并将该方法应用到所设计的网络信息过滤系统中,验证了改进的有效性。  相似文献   

18.
为了提高从社交网络文本信息中发现热点话题的准确率,提出一种基于用户关联分析的热点话题识别算法。该算法综合考虑词频变化率和用户权威度,词频变化率通过EMA和MACD等指标来计算,用户权威度通过建立用户关联图的方式来计算。使用基于HITS算法的话题热度度量计算方法,将词频变化率数据和用户权威度数据结合在一起,得到话题的热度值。实验结果表明,使用基于用户关联分析的热点话题识别算法能够提高热点话题发现准确率。  相似文献   

19.
基于OWA算子的不同形式偏好信息的群决策方法   总被引:9,自引:0,他引:9  
研究具有不同形式偏好信息的群决策问题.在描述效用值、序关系值、模糊判断矩阵和AHP判断矩阵等4种形式偏好信息的基础上,首先给出将不同形式的偏好信息转化为模糊判断矩阵形式的计算公式,然后基于OWA算子给出集结各决策者偏好信息和方案优选的方法,最后用一个算例证明了所提出方法的有效性.  相似文献   

20.
为提供准确且更贴近日常用语的关键词,针对视频弹幕内容提出一种基于TI-RANK(TTF-ICDF-DWText Rank)的词频词义相结合的关键词提取模型。将标题内容进行分类得到标题的关键信息,将该信息用于词频提取构建TTF算法;进一步考虑词频与篇章数对提取效果的影响,通过分段函数构建ICDF算法;引入语义维度信息并利用中文拼音作为编辑距离的计算单元构建DWText Rank模型。实验结果表明,TI-RANK模型提取关键词的F1值达到0.8以上,相较传统TF-IDF和Text Rank算法提高了约20%。为更合理评价关键词提取的准确率,按照关键词重要程度降序排列定义三级梯度评价标准,该标准能够更好体现出排序靠前关键词的正确性对准确率的影响。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号