共查询到18条相似文献,搜索用时 31 毫秒
1.
2.
3.
为了实现视频层次结构挖掘,提出了一个有效的视频镜头分割算法和一种镜头相似性度量方法,然后根据镜头颜色、纹理和语义相似性采用场景边界探测算法构造视频场景.实验结果表明,这些算法是可行的. 相似文献
4.
讲述了为单个企业提供文本自动分类服务的系统的设计和实现方法.对系统中所涉及的关键技术包括向量空间模型、特征提取、机器学习方法进行了讨论,给出了实验结果. 相似文献
5.
к-近邻作为一种简单、有效、非参数的分类方法,在文本分类中得到广泛的应用,但是这种方法计算量较大.针对к-近邻法的不足之处,提出了一种新的快速文本分类方法,通过对原始训练样本集的训练生成代表样本,再根据原始训练样本与已生成代表样本之间的分布状况,对已生成的代表样本进行多次调整,从而使代表样本更具有代表性.这种方法有效地压缩了原始训练样本集,提高了分类效率;同时,由于代表样本的分布更加合理,可以提高分类的准确性.实验结果显示,此方法具有很好的分类性能. 相似文献
6.
多主题是文本的一个自然属性,即一些文本不是确定的属于单一主题,而是多个主题.对于这种情况,标准SVM多分类算法不能解决.本文提出一种基于模糊支持向量机的多主题文本分类算法.用1-a-1方法训练子分类器,对于待分类样本,通过子分类器得到对应其隶属度矩阵,依据隶属度矩阵每行元素和判定该文本所属主题.实验结果表明,该算法具有较好的准确率、召回率和F1值. 相似文献
7.
8.
不均衡数据集上文本分类的特征选择研究 总被引:3,自引:0,他引:3
文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术.文本分类中数据集的不均衡问题是一个在实际应用中普遍存在的问题.如何在不影响整体分类性能的基础上,提高稀有类别的分类效果是解决不均衡数据集问题的基本要求.从特征选择的角度出发,提出选择具有较强类别信息的词条是提高稀有类别分类性能的关键.一般而言,具有较强类别信息的词条不是高频词,甚至有倾向于稀有词的趋势.提出了解决不均衡数据集问题的一个途径--构造形如DFICF的特征选择方法.在Reuters语料上进行实验,实验结果表明该特征选择方法的效果比IG,DF都要好,特别是在微平均指标上.从而表明该方法对稀有类别的分类效果有明显的改进. 相似文献
9.
以解决公安部门犯罪信息文本数据自动分类问题为应用目的,通过对已有多层文本自动分类技术的研究,给出多层文本分类器的过程模型,并对模型中的特征提取方法进行深入研究,提出改进后的特征提取权重计算公式。实验证明,该分类器能够有效解决犯罪信息文本的自动分类问题。 相似文献
10.
为解决IP地址空间耗尽问题,本文提出一种分级寻址的IP网体系结构(IPEA),说明了分级寻址的IP网地址空间与寻址方案,定义了带扩展地址的IP包格式,及层次路由算法。并以仿真实验分析评价了IPEA的性能,结果表明IPEA有以下优点:1 采用扩展地址扩大了地址空间,解决了IPv4地址耗尽问题;2 减小了路由表长度,有利于解决路由表爆炸问题;3 基本不改变IPv4寻址方式,迁移容易;4 由于使用了内部地址,更便于网络管理。 相似文献
11.
本文探讨了在WWW中用动态库界面代替原有的CGI界面,以提高服务器的性能,并简单介绍了如何在软件NCSAhttpd的基础上实际这一目标。 相似文献
12.
基于随机化的数据扰乱及重构技术是数据挖掘中的隐私保护(Privacy-Preserving Data Mining,PPDM)领域中最重要的方法之一.但是,随机化难以消除由于属性变量本身相关性引起的数据泄漏.介绍了一种利用主成分分析(Principal Component Analysis,PCA)进行属性精简的增强随机化方法,降低了参与数据挖掘的属性数据间相关性,更好地保护了隐私数据. 相似文献
13.
一种提高Web服务器性能的方法 总被引:5,自引:0,他引:5
首先阐述了Web服务器性能的定义,然后从Web服务器性能的几个关键问题入手,从应用负载、服务器软件和服务器硬件3个层面上详细讨论了如何解决这些关键问题.通过对比目前流行的测试工具,选择了合适的应用负载;采用探索式方法优化服务器软件的配置参数,从而减少了测试次数;通过屏蔽各种HTTP请求找出影响性能的瓶颈——对动态请求CAD GET的处理.针对该种请求,调整其在动态请求中所占的比例并分析其对不同大小的文件在响应速度上的影响,最后优化相应的代码.将这一方案应用到曙光3000超级服务器上并使用SPECweb99作为Benchmark测出实验数据,对比改进前的结果,可以明显看到Web服务器的性能提高了一倍. 相似文献
14.
提高工作站机群系统通信性能方法的研究 总被引:2,自引:0,他引:2
工作站机群系统是目前并行处理技术的研究特点之一,而春网络通信的性能又是机群系统的关键。本文在分析影响系统性能因素的基础上,从软、硬件两方面着重讨论了高速网络技术,精简通信协议和Active Message通信机制等提高网络通信性能的方法。 相似文献
15.
SSL协议为网络中数据的安全传输提供了有利的保障,但是大量SSL连接所引起的开销,导致了服务器性能的急剧下降.根据标准的SSL协议,提出了一个建立连接的优化模型,它将协议改进和功能分化融合到原有的协议中,以重用和分化的思想提高SSL服务器的性能. 相似文献
16.
基于KNN的Web文本分类方法的研究 总被引:1,自引:0,他引:1
为了更有效地组织Internet 上丰富的信息资源, 通过分析Web 文本的特点,提出了基于KNN 的Web文本分类方法,并结合具体实验在对数据进行预处理的基础上实现了KNN分类算法.实验表明,该方法训练数据规模大大减少,训练效率较高,同时具有较好的精确率和召回率. 相似文献
17.
This paper proposes a classification framework based on simple classifiers organized in a tree‐like structure. It is observed that simple classifiers, even though they have high error rate, find similarities among classes in the problem domain. The authors propose to trade on this property by recognizing classes that are mistaken and constructing overlapping subproblems. The subproblems are then solved by other classifiers, which can be very simple, giving as a result a hierarchical classifier (HC). It is shown that HC, together with the proposed training algorithm and evaluation methods, performs well as a classification framework. It is also proven that such constructs give better accuracy than the root classifier it is built upon. 相似文献
18.
文本结构分析与基于示例的文本过滤 总被引:13,自引:0,他引:13
本文简要介绍了文本过滤的背景和发展,提出了基于示例的中文文本过滤模型.其基本思想是首先对于用户提出的示例文本进行文本结构分析,采用本文提出的文本层次分析方法,提取文本特征,形成主题词表示的用户模版(user profile),然后进行了文本过滤,同时引进段落匹配机制,提高过滤效率.通过用户反馈,改进用户模版. 相似文献