首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
个性化检索服务已成为提高信息检索查准率的有效途径。论文针对用户兴趣模型的构建,在传统TFIDF算法的基础上,提出了一种基于文档结构和网页兴趣权重的TFIDF算法,并给出了用户兴趣模型的更新算法。实例分析表明,基于该文算法的用户兴趣模型能够改善用户兴趣的捕获情况。  相似文献   

2.
一种面向中文敏感网页识别的文本分类方法   总被引:1,自引:0,他引:1  
陈欣  张菁  李晓光  卓力 《测控技术》2011,30(5):27-31
提出了一种面向中文敏感网页识别的文本分类方法,主要包括中文分词、停用词表的建立、特征选择、分类器等4个部分.为丰富中文分词词库,提出了一种以词频统计为主、以人工判决为辅并标注词性的新词识别算法;提出了一种停用词表的建立算法,据此建立了含300个停用词的停用词表;采用开方拟合检验统计量方法作为特征选择方法,并确定了400...  相似文献   

3.
周诗龙  徐俊刚 《软件学报》2013,24(S2):150-161
目前,微博搜索大多应用向量空间模型计算查询词与文档间的相关程度,通常使用TF-IDF(termfrequency-inverse document frequency)统计方法来确定词的权重.然而仅使用词进行微博搜索并不能检测到某条微博的信息含量,而这些往往是查询用户所关注的问题.为此提出了一种基于分析特征与动态步长的微博排序学习算法.首先,定义了一些微博分析特征,经过统计分析获得的这些分析特征可以用来预测用户行为;其次,在此基础上,提出了以词性为单位计算微博相关度的方法,结合信息熵计算方法得到微博词性信息的含量,并用来预测该微博的信息含量;最后,在现有ListNet排序学习算法的基础上,引入了动态步长的概念,对步长进行了动态优化,最终形成了一种基于动态步长的微博排序学习算法——RDLS(ranking based on dynamic learning stepsize)算法.实验结果表明,无论是基于直接特征还是加入分析特征,在相同迭代轮数情况下,相比ListNet算法,RDLS 算法可以训练出更优的模型,在微博排序方面有更好的表现.  相似文献   

4.
基于同义替换和相邻词合并的关键词特征权重计算新方法   总被引:1,自引:0,他引:1  
特征项权重计算是文本挖掘中关键词提取的核心,其计算方法的好坏对文本挖掘的结果有着重要的影响。本文在对关键词提取特征项权重计算的传统TFIDF算法分析的基础上,为减少该算法特征权重计算时对词频的过于依赖,提出一种基于同义替换和相邻词合并(KSRAM)的特征权重计算方法。为检验算法性能,对KSRAM算法和传统TFIDF算法进行了关键词提取对比实验,实验表明KSRAM算法在关键词提取的准确率和召回率方面比传统TFIDF算法有明显的提高。  相似文献   

5.
在词性标注研究中,未登录的专业领域合成词给词性标注增加了很大的困难。本文提出了一种领域自适应的合成词词性标注方法,融合支持向量机(SVM)模型和基于转换学习(TBL)的方法来进行自动词性标注。对专业领域合成词的形态特征进行了详尽的分析,对有关的语法特点和语言现象进行总结。有效利用这些合成词构词单元的语言学信息,把词类和词内结构信息引入SVM特征选择模板和TBL转换规则模板中,并采用核心属性渗透方法标注专业领域合成词的词性。实验结果表明,该方案能够有效地提高词性标注的准确率。  相似文献   

6.
英汉机器翻译系统中的词性标注研究   总被引:1,自引:1,他引:0       下载免费PDF全文
词性标注是英汉机器翻译系统中一个基础性的研究课题。提出了一种基于决策树的词性标注的非监督学习算法,在只有一个词库的有限条件下,通过决策树进行词性标注的非监督学习,生成词性标注规则。  相似文献   

7.
为了提高文本信息检索的查准率和缩短检索时间,提出了一种基于多策略的文档过滤算法.该算法根据潜在词性特征初步生成候选词,采用基于标题的特征词发现扩充候选词,使用改进的TFIDF对候选词的特征进行加权合成,去除不符合条件词,求出用户需求向量和待过滤文档向量的相似度,将相似度大于一定阈值的文档提供给用户.从实验参数确定、策略对结果的影响两方面论证了文档信息过滤算法的可行性.实验结果表明,基于多策略的文档信息过滤算法能够提高信息检索的查准率,改善信息检索的质量.  相似文献   

8.
文本分类中基于类别概念的特征选择方法   总被引:1,自引:0,他引:1  
传统的TFIDF公式常被用于信息检索各种计算特征项权重的场合,但在文本分类任务下,TFIDF忽略了特征项的类别信息,且较易产生一些不合理的低频高权特征,一定程度上影响了最终分类的准确性。本文提出一种基于类别概念的TFCW特征选择方法,该方法避免了TFIDF的上述缺陷。实验表明该方法用于文本分类中优于目前常见的TFIDF改进算法。  相似文献   

9.
基于词频反文档频率(term frequency inverse document frequency,TFIDF)的现有文本特征提取算法及其改进算法未能考虑类别内部词语之间的语义关联,如果脱离语义,提取出的特征不能很好地刻画文档的内容。为准确提取特征,在信息熵与信息增益的基础上,加入词语的语义关联因素,实现融合语义信息的特征提取,进而提出语义和信息增益相结合的TFIDF改进算法,该算法弥补了统计方法丢失语义信息的弊端。实验结果表明,该算法有效地提高了文本分类的精准率。  相似文献   

10.
《软件工程师》2017,(12):19-22
IG算法是一种有效的特征选择算法,在文本分类研究领域中得到了广泛应用。本文针对IG算法的不足,提出了一种基于词频信息的改进方法,分别从类内词频信息、类内词频位置分布、类间词频信息等方面进行了改进。通过实验对改进的算法进行了测试,结果表明,改进的算法相对传统算法更有效。  相似文献   

11.
吕佳 《计算机工程与设计》2007,28(24):6039-6041
特征提取算法TFIDF是文本分类中常用的衡量特征权重的算法,但该算法没有考虑特征词在类间和类内的分布情况,导致算法无法反映特征词在分布比例中量上的差异.为此,引入方差来描述特征词在类间和类内的分布情况,并利用方差来修正TFIDF权重.仿真实验结果表明,同传统TFIDF算法相比,改进TFIDF算法能得到更好的分类结果.  相似文献   

12.
采用向量空间模型(vector space model,VSM)表示网页文本,通过在CHI(Chi-Square)特征选择算法中引入频度、集中度、分散度、位置信息这四个特征因子,并考虑词长和位置特征因子改进TF-IDF权重计算公式,提出了PCHI-PTFIDF(promoted CHI-promoted TF-IDF)算法用于中文文本分类。改进算法能降维得到分类能力更强的特征项集、更精确地反映特征项的权重分布情况。结果显示,与使用传统CHI和传统TF-IDF的文本分类算法相比,PCHI-PTFIDF算法的宏F1值平均提高了10%。  相似文献   

13.
基于信息熵的改进TFIDF特征选择算法   总被引:2,自引:0,他引:2  
特征的选择对文本分类的精确性有着非常重要的影响。针对传统的TFIDF没有考虑特征词条在各个类之间的分布的不足,对TFIDF特征选择算法进行了深入的分析,并结合信息熵的概念提出了一种新的TFIDF特征选择算法。实验结果表明,改进后的算法可以有效地提高文本分类的精确度。  相似文献   

14.
本文提出了一种快速学习算法,它解决了Brill基于变换的学习方法中规则获取时间过长的问题.在每次迭代过程中,该算法仅需调整受到影响的小部分变换模式,而无需遍历所有变换模式,大大节省了学习时间.应用这一快速学习算法,以SUSANNE英语语料库作为训练文本,获得300条英语词性标注规则和生词处理的概率知识,实现了一个英语词性标注系统,系统封闭测试和开放测试的正确率分别达到了98.2%和96.6%.  相似文献   

15.
汉语分词和词性标注一体化分析的方法研究   总被引:2,自引:0,他引:2  
提出了一种汉语文本切分和词性标准注相融合的一体化分析的统计模型,并应用动态规划算法与A^*解码算法相结合的二次搜索算法,实现了一个基于该模型的汉语词法分析器。初步的开放测试表明,该分析器的分词准确率和词性标准注正确率分别可达98.67%和95.49%。  相似文献   

16.
吴惠甲  张家俊  宗成庆 《软件学报》2016,27(11):2691-2700
范畴标注是组合范畴语法解析中的子任务之一,可用于提高解析器的效率和性能.传统的最大熵模型需要手工定义特征模板,神经网络则通过隐含层学习到离散特征的分布式表示,从而自动提取分类需要的特征.引入该模型来解决该问题,在原有神经语言模型的基础上加入了向量化的词性表示层和范畴表示层,并通过反向传播自动更新词向量、词性向量和范畴向量,学习到它们的分布式表示.此外,在预测时采用束搜索的序列解码方式来引入标签之间的依赖信息.实验结果表明,这两种改进都能提升模型的性能,使其在范畴标注任务上比传统的最大熵模型效果要好(提升1%).  相似文献   

17.
句法分析是自然语言处理领域中应用前景非常广阔的一个研究方向。针对目前句法分析多数是从字、词的角度出发且存在诸多不足,提出了二、三元词模型相结合的句法规则层次化分析算法,并结合分词、词性标注以及句子组织信息之间的结合度来解决词元间优先合成的问题,同时利用句子成分之间的语法结构关系对词性、词序的影响,实现句法规则的层次化分析实验。实验结果表明,二元与三元词模型相结合的句法规则层次化分析算法相比于独立二、三元词模型,准确率和召回率分别提高了82.04%和8083%,与现有基于二分结构句法分析的RNN-INT算法和词汇化模型算法相比,准确率和召回率均有明显提升。  相似文献   

18.
文本表示是使用分类算法处理文本时必不可少的环节,文本表示方法的选择对最终的分类精度起着至关重要的作用。针对经典的特征权重计算方法TFIDF(Term Frequency and Inverted Document Frequency)中存在的不足,提出了一种基于信息熵理论的特征权重算法ETFIDF(Entropy based TFIDF)。ETFIDF不仅考虑特征项在文档中出现的频率及该特征项在训练集中的集中度,而且还考虑该特征项在各个类别中的分散度。实验结果表明,采用ETFIDF计算特征权重可以有效地提高文本分类性能,对ETFIDF与特征选择的关系进行了较详细的理论分析和实验研究。实验结果表明,在文本表示阶段考虑特征与类别的关系可以更为准确地表示文本;如果综合考虑精度与效率两个方面因素,ETFIDF算法与特征选择算法一起采用能够得到更好的分类效果。  相似文献   

19.
基于文本分类TFIDF方法的改进与应用   总被引:32,自引:0,他引:32       下载免费PDF全文
TFIDF是文档特征权值表示常用方法。该方法简单易行,但低估了在一个类中频繁出现的词条,该词条是能够代表这个类的文本特征的,应该赋予其较高的权重。通过修改TFIDF中IDF的表达式,来增加那些在一个类中频繁出现的词条的权重,用改进的TFIDF选择特征词条、用遗传算法训练分类器来验证其有效性。该方法优于其它算法,实验表明了改进的策略是可行的。  相似文献   

20.
在文本分类系统中,特征选择方法是一种有效的降维方法.在分析了几种常用的特征选择评价函数之后,将权值计算函数应用于特征选择,并基于改进的TFIDF方法提出了一种新的评价函数,它将类别信息引入到特征项中,提取出与类别相关的特征项,弥补了TFIDF的缺陷.实验证明该方法简单可行,有助于提高所选特征子集的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号