排序方式: 共有73条查询结果,搜索用时 0 毫秒
1.
中文文本分类中的特征词抽取方法 总被引:6,自引:4,他引:2
李晓红 《计算机工程与设计》2009,30(17)
针对目前各类主流的中文文本特征词抽取方法中只关心词频信息却不关注特征的位置这一现象,给出了位置权重的概念,对以往提出的无词典分词算法进行了适当的修改,并在此基础上提出将信息增益、卡方统计和互信息这3种常用的特征选择方法有机的结合起来,构成新的特征选择方法.这种新方法综合考虑了特征的各类信息,从而更加准确地选取文本中的有效特征词,并且试验结果也验证了这种改进算法的可行性和有效性. 相似文献
2.
3.
维基百科词条编辑特性研究 总被引:1,自引:0,他引:1
针对维基百科词条编辑特性问题,以网络化数据挖掘思想方法为指导,对高质量维基百科词条进行文本分析,判断词条相邻版本间句子差异,以编辑者为节点,编辑者间编辑交互关系为连边,构建词条编辑交互网络,通过分析网络结构特征实现词条编辑特性分析。分析表明网络具有小世界特性,度分布与强度分布相似,具有较强正相关性,其累积分布与边权重分布服从幂律分布,节点度与聚集系数具有较强负相关性,最短路径长度分布与高斯分布相似,网络具有异配性和较弱的互惠性,编辑群体具有较强异质性、抱团性;深化了对词条编辑交互过程和群体智能的认识。 相似文献
4.
5.
徐山 《盐城工业专科学校学报》2005,18(4):63-64,83
东汉王符《潜夫论》中的并列复词相当丰富,出现了许多新词新义,然《汉语大词典》存在着对《潜夫论》并列复词未收录的问题;对相关并列复词进行考释。 相似文献
6.
李鸿燕 《上海工程技术大学学报》2011,25(4):366-369
在新闻网页上配置广告的算法通常以信息关联度为基础,没有考虑新闻和广告之间的情感差异,容易导致错误匹配.针对目前广告匹配算法的缺陷,在关键词生成、情感分析技术的基础上,引入情感差异分析,建立了一种新的支持在线新闻与广告内容、情感相匹配的模型.该模型对在线新闻网站和广告投放商实际应用具有重要的意义. 相似文献
7.
特征抽取是文本分类的重要研究领域,针对原始特征空间的高维性与稀疏性给分类算法带来"维数灾难"问题,探讨了基于词条聚合的特征抽取方法,设计了一种利用词条聚合进行特征抽取的文本分类的方案.该方案利用改进的树型动态自组织映射(TGSOM)进行词条聚合,并根据聚合特征的特点,考虑所包含的词条的文档频率的不同和区分文档类别属性的能力的不同,提出了一种新权重计算方法,最后利用SPRINT决策树算法进行分类,实验表明该方法比普通方法分类精度提高4.32%. 相似文献
8.
10月20日,法国道达尔首席执行官兼董事长马哲睿的飞机在俄罗斯伏努科沃失事,机上4人全部死亡.两天之后,百度百科新增加了一个人名词条的解释,帕特里克·普亚纳(Patrick Pouyanne).他就是新上任的法国道达尔公司的首席执行官.就像词条上只有简单的三句话介绍仍待补充编辑一样,这位接替马哲睿执掌道达尔帝国的新任执行官充满了神秘感,同样充满神秘感的是他会领导道达尔走一条什么样的道路. 相似文献
9.
10.
郑宏萍 《重庆工业高等专科学校学报》2010,(6):128-129
对“青海藏毯国际展览会”现有的译名进行了分析,根据该展览会的由来,尤其是“青海藏毯”这一特定名称的由来,指出其翻译中的不当之处,并提出了恰当的译名。 相似文献