首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 145 毫秒
1.
针对BitTorrent网络上的数据分布情况做了统计和分析,并对用Zipf定律来描述BitTor rent网络中数据分布的情况做了讨论和修正。该研究可以为其他的P2P文件共享网络数学建模提供依据。  相似文献   

2.
通过对Web通信量的分析,人们发现用户对Web对象的访问模式服从Zipf定律或类Zipf定律。在Web缓存的设计中,为得到所期望的Web对象命中率的要求,设计人员可以根据Zipf定律近似计算出相应的缓存大小。因此,Zipf定律为Web缓存结构的设计提供了重要的依据。适当的缓存大小结合P-LFU替换策略可以得到很高的Web缓存命中率。  相似文献   

3.
现代汉语计算语言模型中语言单位的频度—频级关系   总被引:4,自引:2,他引:4  
Zipf定律是一个反映英文单词词频分布情况的普适性统计规律。我们通过实验发现,在现代汉语的字、词、二元对等等语言单位上,其频度与频级的关系也近似地遵循Zipf定律,说明了Zipf定律对于汉语的不同层次的语言单位也是普遍适用的。本文通过实验证实了Zipf定律所反映的汉语语言单位频度-频级关系,并进而深入讨论了它对于汉语自然语言处理的各项技术,尤其是建立现代汉语基于统计的计算语言模型所具有的重要指导意义。  相似文献   

4.
Zipf定律与汉字字频分布   总被引:7,自引:0,他引:7  
本文证明了在以Zipf定律描述整个汉字字频分布时,不管如何精心挑选参数a和c ,一些累计拟合频率都有明显的误差。针对这一现象,本文提出了一个解决办法,那就是以Zipf定律仅描述汉字字频分布的尾部的方法。  相似文献   

5.
面向应用加速的两阶段数据压缩流程   总被引:1,自引:0,他引:1  
在应用加速技术中,为进一步提高数据压缩率和网络传输性能,提出基于低粒度自适应的两阶段数据压缩流程。该流程基于Zipf和Heaps分布定律和字节粒度,首先检测传输数据是否属已发送内容,若是,则先对传输数据进行减缩,然后根据适应性压缩策略作进一步压缩。实验结果表明,两阶段的数据压缩流程可以有效地减小传输数据量,从而为保障企业关键业务流高速地通过广域网传输提供一种解决方案。  相似文献   

6.
在中文引文网络中,研究节点之间引用关系特性的成果较多,但是,对引文网络中的关键词研究却非常少见。关键词是论文的代表词语,可通过关键词大致了解论文所研究的重点和领域。因此,对于挖掘关键词的分布特性的研究尤为重要。从中国科学期刊爬取人工智能、生物和财经三个领域的关键词各约2 500个;从百度学术、知网和Bing学术搜索引擎中爬取每个关键词的结果数目,对于百度学术搜索引擎中,另外爬取2016年、2017年和2018年等每年的结果数,并爬取每个关键词下的三个相关知名学者;基于以上数据,引入Zipf定律构建结果数与排名之间的关系模型(包括近三年的结果数与排名之间的关系模型);引入超网络模型,构建关键词与相关知名学者之间的超网络模型。基于以上两个模型,分析得出了关键词分布的几个有趣的相关结论。  相似文献   

7.
Deep Web的查询中,关键词的选择是一个关键问题。文中针对查询Deep Web中的文本数据库,对查询词的选择作出一些研究。将Zipf Estimator应用于根据查询词的频率选择词条的方法中,提出了用部分文档中的查询词的排序来得出整个文档集中查询词的排序的方法。将Zipf Estimator运用于查询词的选择,减少查询词选择时的运算量,以较少的查询次数得到较多的查询结果。测试结果证明了Zipf Estimator运用于查询词的选择可有效提高查询Deep Web中的文本数据库的效率。  相似文献   

8.
DNS与关键词服务请求分布研究   总被引:1,自引:0,他引:1  
分析了Internet上DNS和关键词服务两种不同服务请求分布各自特性以及二者与WWW请求分布的相互关系,得出DNS,关键词服务与WWW请求分布都遵从Zipf定律的结论。借助于中国互联网络信息中心(CNNIC)独一无二的资源优势,通过统计分析两个实际应用系统在一定时间段内的请求分布,验证了该结论,并探讨了其重要的研究意义。  相似文献   

9.
石磊  古志民  卫琳  石云 《计算机应用》2004,24(11):33-34,37
Web对象的流行度满足Zipf分布。利用Zipf第一定律和Zipf第二定律建立Web对象访问流行度模型。对于访问频率较高的Web对象,利用Zipf第一定律建模;而对于访问频率较低的Web对象,则使用Zipf第二定律进行描述。该模型为分析和模拟Web用户访问行为提供了依据。  相似文献   

10.
针对校园网VOD系统应用中面临的网络带宽和服务器I/O带宽的瓶颈问题,通过对流媒体文件访问次数的统计回归分析,并结合Zipf分布规律和校园网流媒体点播的特征给出了一种流媒体文件访问概率的预测算法.根据该预测算法的结果提出了一种VOD代理服务器的数据分布策略.实验表明,该策略可以有效提高系统的服务性能和减少网络的阻塞.  相似文献   

11.
为了实现多语种词对齐,该文提出一种以点互信息为基础的翻译概率作为改进的多语种单词关联强度度量方法。首先,论证了在服从Zipf定律的普通频级词区域,单词间关联强度的点互信息度量法可简化为翻译概率;其次,对汉语、英语、朝鲜语平行语料进行句子对齐、分词和去停用词等预处理后计算平行语料单词之间的翻译概率,取翻译概率最高的前k个词作为候选翻译词,并通过优化处理提高了词对齐准确率。实验结果表明,该方法可以不完全依赖语料规模,在小规模语料中取得94%以上的准确率,为跨语言小众文献及低资源语言词对齐提供了技术基础。  相似文献   

12.
姜芳艽 《计算机科学》2010,37(11):184-189
在Deep Web数据集成中,集成查询接口和很多W cb数据库查询接口用合取谓词表达查询,但是也有相当一部分Web数据库的查询接口用互斥谓词表达查询,这意味着查询转换时每次只能选择一个谓词。因此,准确、高效地佑计每个互斥查询的选择性是优化查询转换的关键。提出了基于Zipf分布与属性相关性的选择性佑计方法。通过属性之间的相关性从Web数据库上获取该属性近似随机的属性级样本,在此基础上计算属性值的Zipf分布方程,进而推断该无限值属性的任意值的选择性。实验表明,该方法可以准确、高效地估计各互斥查询的选择性。  相似文献   

13.
基于Web对象流行度的PPM预测模型   总被引:7,自引:0,他引:7  
Web预取技术是减少网络延迟,提高服务质量的主要解决方案之一.利用Zipf第一法则和第二法则分别对Web高频区对象和低频区对象建立访问流行度模型,进而提出一种基于Web对象流行度的PPM预测模型,实验表明,该模型除继承了传统PPM模型简单易实现的特点外,在缩减模型规模的同时预测精度也有一定程度的提高,并且控制了由预取引起的网络流量.  相似文献   

14.
网格密度峰值聚类在兼顾密度峰值聚类算法可识别任意形状类簇的基础上,通过数据集的网格化简化整体计算量,成为当前备受关注的聚类方法.针对大规模数据,如何进一步区分稠密与稀疏网格,减少网格密度峰值聚类中参与计算的非空网格代表点的数量是解决“网格灾难”的关键.结合以网格密度为变量的概率密度分布呈现出类Zipf分布的特点,提出一种基于Zipf分布的网格密度峰值聚类算法.首先计算所有非空网格的密度并映射为Zipf分布,根据对应的Zipf分布筛选出稠密中心网格和稀疏边缘网格;然后仅对稠密中心网格进行密度峰值聚类,在自适应确定潜在聚类中心的同时减少欧氏距离的计算量,降低算法复杂度;最后通过对稀疏边缘网格的处理,进一步优化类簇边界并提高聚类精度.人工数据集和UCI数据集下的实验结果表明,所提出算法对大规模、类簇交叉数据的聚类具有明显优势,能够在保证聚类精度的同时降低时间复杂度.  相似文献   

15.
大规模中文搜索日志中查询重复性分析   总被引:2,自引:0,他引:2       下载免费PDF全文
分析大规模中文搜索日志中的查询重复性,通过对查询重复率和用户个体查询重复率等数据的统计发现:查询串的查询频率、文档的点击频率及用户查询频率均符合Zipf分布,查询重复率较高。查询历史越长,查询重复率越高。高查询频率用户的查询重复率较高。以上数据为中文搜索引擎的改进提供了有力的依据。  相似文献   

16.
针对基于Web网络链接分析及搜索引擎统计的网络计量学方法,不能对网络通信中的微观层面的数据信息进行分析研究的问题,提出用协议分析的方法对网络通信中的海量数据信息进行捕获,对敏感的数据信息进一步解码分析,得到数据“位”级的信息统计分析结果,从而为网络计量学在微观的网络信息分析研究领域提供一种可行的方法。  相似文献   

17.
DNS服务中的Internet访问行为测量研究   总被引:2,自引:0,他引:2       下载免费PDF全文
借助于中国互联网络信息中心负责管理的国家顶级域名系统资源,对当前CN顶级域名DNS服务请求进行了宏观测量和分析。研究发现,CN国家域名整体查询频度特征服从类Zipf’s分布,递归服务器域名查询量遵从广延指数分布,即CN国家域名的DNS服务请求具有整体集中分布的特征和域名查询模式的时间局部特征。这些关于国家域名服务的整体认识和全局性描述对于深入了解我国国家域名系统的整体运行状况,科学认识我国宏观网络发展特征具有重要意义。  相似文献   

18.
建立有效的用户浏览预测模型,对用户的浏览行为进行准确的预测,是Web预取的关键。标准PPM预测模型由于存在存储复杂度高、执行效率低等缺点,影响了其推广和应用。文章基于剪枝技术,依据Zipf法则及Web对象访问特征对标准PPM预测模型进行预先剪枝和后剪枝,构造出一种自适应PPM预测模型。实验表明,该模型不仅能动态预测用户的Web浏览特征,而且在预测准确率和存储复杂度方面都有一定程度的提高。  相似文献   

19.
通过研究视频点播系统中用户的行为,构建出用户行为的数学模型,可以为视频媒体数据缓存算法改进提供依据.本文对常用的建立用户访问模型的数学模型进行了研究,对给出的一批媒体访问数据进行了建模分析,指出广延指数模型能够比Zipf模型更接近地描述实际影片点播的频率;并且用广延指数模型对影片播放长度进行了分析和拟合,验证了其有效性;进一步,基于所得的用户点播频率模型和点播长度模型,给出了一种缓存算法命中率上界的计算方法,从而为评价视频媒体数据缓存算法的性能提供了重要指导.  相似文献   

20.
基于Web流行度的选择Markov预取模型   总被引:1,自引:0,他引:1       下载免费PDF全文
石磊  古志民  卫琳 《计算机工程》2006,32(11):72-74
Web预取技术是目前WWW中减少用户的访问延迟、提高服务质量的主要解决方案之一。该文利用Zipf第1定律和第2定律对Web对象访问流行度建模,并在此基础上,提出了基于Web流行度的选择Markov预取模型。实验表明,该预取模型不仅具有较高的命中率,而且在一定程度上还减少了对带宽的需求。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号