首页 | 本学科首页   官方微博 | 高级检索  
文章检索
  按 检索   检索词:      
出版年份:   被引次数:   他引次数: 提示:输入*表示无穷大
  收费全文   10篇
  免费   3篇
  国内免费   2篇
自动化技术   15篇
  2015年   1篇
  2012年   1篇
  2011年   2篇
  2010年   2篇
  2009年   3篇
  2008年   1篇
  2007年   1篇
  2005年   1篇
  2004年   1篇
  2002年   1篇
  2000年   1篇
排序方式: 共有15条查询结果,搜索用时 15 毫秒
1.
基于邻接矩阵全文索引模型的文本压缩技术   总被引:1,自引:0,他引:1  
基于不定长单词的压缩模型的压缩效率高于基于字符的压缩模型,但是它的最优符号集的寻找算法是NP完全问题,本文提出了一种基于贪心算法的计算最小汉字平均熵的方法,发现一个局部最优的单词表。这种方法的关键是将文本的邻接矩阵索引作为统计基础,邻接矩阵全文索引是论文提出的一种新的全文索引模型,它忠实地反映了原始文本,很利于进行原始文本的初步统计,因此算法效率得以提高,其时间复杂度与文本的汉字种数成线性关系,能够适应在线需要。并且,算法生成的压缩模型的压缩比是0.47,比基于字的压缩模型的压缩效率提高25%。  相似文献   
2.
杨茹  陶晓鹏 《计算机应用》2009,29(3):908-911
社团挖掘是Web信息挖掘领域的重要应用,而话题监控是文本信息研究领域的重要应用,目前这两种技术是各自独立的。为更好地应用于互联网形成的复杂社会网络,将这两种技术结合起来研究,发现了社团和话题之间的关系,创建了社团挖掘和话题监控的静态和动态互动模型,设计了社团挖掘、话题识别以及社团跟踪算法。  相似文献   
3.
客户评论在人们的日常生活中越来越重要,人们希望从客户评论中获取商品的用户体验信息.客户评论数量的急剧增长使得用户快速、精准地获取有用的信息变得较为困难.为此,提出一种能够自动提取用户体验信息的方法.该方法通过语义片段过滤评论中的冗余信息,提取产品特征词及特征描述词,将其结合组成用户体验信息,自动获取信息能够迅速、准确地从客户评论中提取信息.实验结果证明了该方法的有效性,并且能够保证较高的准确率与查全率.  相似文献   
4.
一种全新的全文索引模型--后继数组模型   总被引:10,自引:0,他引:10  
提出了一种新的全文索引模型--后继数组模型,它结合了目前多个主流全文检索模型(倒排表模型、Pat数组模型等)的优点,提高了空间效率和时间效率,并得到了理论和实验的证明.  相似文献   
5.
使用最大熵模型进行中文文本分类   总被引:51,自引:1,他引:51  
随着WWW的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术.由于最大熵模型可以综合观察到各种相关或不相关的概率知识,对许多问题的处理都可以达到较好的结果.但是,将最大熵模型应用在文本分类中的研究却非常少,而使用最大熵模型进行中文文本分类的研究尚未见到.使用最大熵模型进行了中文文本分类.通过实验比较和分析了不同的中文文本特征生成方法、不同的特征数目,以及在使用平滑技术的情况下,基于最大熵模型的分类器的分类性能.并且将其和Baves,KNN,SVM三种典型的文本分类器进行了比较,结果显示它的分类性能胜于Bayes方法,与KNN和SVM方法相当,表明这是一种非常有前途的文本分类方法.  相似文献   
6.
协同过滤算法根据用户项目评分数据进行推荐,但评分数据通常很稀疏,使得用户无法获得满意的推荐,尤其是新用户。而信任网络以及社交网络能提供用户之间的关系数据,可用于推荐算法中。基于二值信任网络,提出GenTrust算法预测新的信任关系,扩展信任网络;并提出IndegreeTrust算法,区分被同一用户信任的所有用户。采用Epinions.com数据集,实验结果表明改进算法相比基于原始信任网络的算法准确率有所提升。  相似文献   
7.
针对目前语义计算准确率低、可理解性差的问题,提出一种基于维基百科的语义相似度计算方法。不同于利用分类信息计算词的语义相似度,该方法利用页面的链接信息,通过模仿人类联想的方式计算不同词之间的相似度,所得到的结果较容易被理解,并结合词语的语义类别提高计算结果的准确率。和现有算法的对比实验证明了该方法的优越性。  相似文献   
8.
提出一种利用同场景多幅图像作为输入来降低数码照片在高感光度下数码照片噪点的方法.该方法本质上基于按区块匹配加权平均值的方法.该方法在匹配区块的搜索过程中利用了计算机视觉中的追踪、变换等技术来减小搜索范围,从而大幅度降低了整个处理过程的时间复杂度,并且增加了匹配的准确度,满足了高分辨率图像在处理速度上的需求.此外,该方法...  相似文献   
9.
kNN文本分类器类偏斜问题的一种处理对策   总被引:5,自引:0,他引:5  
类偏斜问题(class imbalance problem)是数据挖掘领域的常见问题之一,人们提出了各种策略来处理这个问题.当训练样本存在类偏斜问题时,kNN分类器会将小类中的样本错分到大类,导致分类的宏F1指标下降.针对kNN存在的这个缺陷.提出了文本训练集的临界点(criticaI point,CP)的概念并对其性质进行了探讨,给出了求CP,CP的下近似值LA、上近似值UA的算法.之后,根据LA或UA及训练样本数对传统的kNN决策函数进行修改,这就是自适应的加权kNN文本分类.为了验证自适应的加权七NN文本分类的有效性,设计了2组实验进行对比:一组为不同的收缩因子问进行对比,可看做是与Tan的工作进行对比,同时用来证实在LA或UA上分类器的宏F1较好;另一组则是与随机重取样进行实验对比,其中,传统kNN方法作为对比的基线.实验表明,所提的自适应加权kNN文本分类优于随机重取样,使得宏F1指标明显上升.该方法有点类似于代价相关学习.  相似文献   
10.
后缀数组构建算法的时间和空间开销是它在实际应用中的瓶颈。该文介绍了两种较好的构建算法,对它们的性能作了评估和分析,指出了各自的适用范围,给出并比较了两种算法在不同情况下的实验结果。  相似文献   
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号