排序方式: 共有15条查询结果,搜索用时 15 毫秒
1.
社团挖掘是Web信息挖掘领域的重要应用,而话题监控是文本信息研究领域的重要应用,目前这两种技术是各自独立的。为更好地应用于互联网形成的复杂社会网络,将这两种技术结合起来研究,发现了社团和话题之间的关系,创建了社团挖掘和话题监控的静态和动态互动模型,设计了社团挖掘、话题识别以及社团跟踪算法。 相似文献
2.
基于邻接矩阵全文索引模型的文本压缩技术 总被引:1,自引:0,他引:1
基于不定长单词的压缩模型的压缩效率高于基于字符的压缩模型,但是它的最优符号集的寻找算法是NP完全问题,本文提出了一种基于贪心算法的计算最小汉字平均熵的方法,发现一个局部最优的单词表。这种方法的关键是将文本的邻接矩阵索引作为统计基础,邻接矩阵全文索引是论文提出的一种新的全文索引模型,它忠实地反映了原始文本,很利于进行原始文本的初步统计,因此算法效率得以提高,其时间复杂度与文本的汉字种数成线性关系,能够适应在线需要。并且,算法生成的压缩模型的压缩比是0.47,比基于字的压缩模型的压缩效率提高25%。 相似文献
3.
客户评论在人们的日常生活中越来越重要,人们希望从客户评论中获取商品的用户体验信息.客户评论数量的急剧增长使得用户快速、精准地获取有用的信息变得较为困难.为此,提出一种能够自动提取用户体验信息的方法.该方法通过语义片段过滤评论中的冗余信息,提取产品特征词及特征描述词,将其结合组成用户体验信息,自动获取信息能够迅速、准确地从客户评论中提取信息.实验结果证明了该方法的有效性,并且能够保证较高的准确率与查全率. 相似文献
4.
5.
使用最大熵模型进行中文文本分类 总被引:51,自引:1,他引:51
随着WWW的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术.由于最大熵模型可以综合观察到各种相关或不相关的概率知识,对许多问题的处理都可以达到较好的结果.但是,将最大熵模型应用在文本分类中的研究却非常少,而使用最大熵模型进行中文文本分类的研究尚未见到.使用最大熵模型进行了中文文本分类.通过实验比较和分析了不同的中文文本特征生成方法、不同的特征数目,以及在使用平滑技术的情况下,基于最大熵模型的分类器的分类性能.并且将其和Baves,KNN,SVM三种典型的文本分类器进行了比较,结果显示它的分类性能胜于Bayes方法,与KNN和SVM方法相当,表明这是一种非常有前途的文本分类方法. 相似文献
6.
7.
提出一种利用同场景多幅图像作为输入来降低数码照片在高感光度下数码照片噪点的方法.该方法本质上基于按区块匹配加权平均值的方法.该方法在匹配区块的搜索过程中利用了计算机视觉中的追踪、变换等技术来减小搜索范围,从而大幅度降低了整个处理过程的时间复杂度,并且增加了匹配的准确度,满足了高分辨率图像在处理速度上的需求.此外,该方法... 相似文献
8.
协同过滤算法根据用户项目评分数据进行推荐,但评分数据通常很稀疏,使得用户无法获得满意的推荐,尤其是新用户。而信任网络以及社交网络能提供用户之间的关系数据,可用于推荐算法中。基于二值信任网络,提出GenTrust算法预测新的信任关系,扩展信任网络;并提出IndegreeTrust算法,区分被同一用户信任的所有用户。采用Epinions.com数据集,实验结果表明改进算法相比基于原始信任网络的算法准确率有所提升。 相似文献
9.
10.
kNN文本分类器类偏斜问题的一种处理对策 总被引:5,自引:0,他引:5
类偏斜问题(class imbalance problem)是数据挖掘领域的常见问题之一,人们提出了各种策略来处理这个问题.当训练样本存在类偏斜问题时,kNN分类器会将小类中的样本错分到大类,导致分类的宏F1指标下降.针对kNN存在的这个缺陷,提出了文本训练集的临界点(critical point, CP)的概念并对其性质进行了探讨,给出了求CP,CP的下近似值LA、上近似值UA的算法.之后,根据LA或UA及训练样本数对传统的kNN决策函数进行修改,这就是自适应的加权kNN文本分类.为了验证自适应的加权kNN文本分类的有效性,设计了2组实验进行对比:一组为不同的收缩因子间进行对比,可看做是与Tan的工作进行对比,同时用来证实在LA或UA上分类器的宏F1较好;另一组则是与随机重取样进行实验对比,其中,传统kNN方法作为对比的基线.实验表明,所提的自适应加权kNN文本分类优于随机重取样,使得宏F1指标明显上升.该方法有点类似于代价相关学习. 相似文献