首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 234 毫秒
1.
袁柳  张龙波 《计算机科学》2012,39(6):179-183
标签作为用户生成的对资源的描述,反映了资源的语义和用户的兴趣。由于Web资源的动态性,标签数据相应地表现出较为明显的时态特征,已有相关研究中标签的时态特征却很少受到关注。针对这方面的不足,对标签数据的时态特征以及基于时态特征的标签间语义关联进行分析,并提出发现标签时态特征的时间段划分准则;为了评价标签时态特征的价值,以经典的统计主题模型为基础,提出新的模型用于分析数据时态特征对所生成主题的影响,并将其用于标签预测。在多个数据集上的测试验证了标签数据的时态特性及其对提高标签预测性能的影响。  相似文献   

2.
传统基于标签的推荐算法仅考虑用户的评分信息,导致推荐准确度不高。为解决该问题,提出一种改进的协同过滤推荐算法。对用户-标签矩阵、资源-标签矩阵进行潜在Dirichlet分布建模,发掘推荐系统中的潜在语义主题,从语义层面计算用户对各资源的偏好概率,将计算出的偏好概率与协同过滤算法计算出的资源相似度相结合,预测用户偏好值,实现个性化推荐。在Movielens数据集上的实验结果表明,与传统基于标签的推荐算法相比,该算法能消除标签中存在的同义词、多义词等语义模糊问题,同时提高推荐准确度。  相似文献   

3.
用户特征的描述方式是实现个性化搜索算法的核心因素。针对传统的基于关键词向量空间模型的用户特征描述过于简单,不能全面描述用户兴趣的缺陷,将folksonomy的结构与本体概念的清晰语义相结合,提出一种多层用户特征描述方式。从用户兴趣主题、用户间关联两个不同角度,从用户生成的标签、标记的文档及主题等不同层次建立用户特征描述模型,并将其应用于个性化搜索过程的方式进行分析。同时对个性化搜索的结果评价方式、资源类型对用户特征及搜索结果的影响进行了讨论。在Delicious和Flickr两种不同类型数据集上的实验表明,所提出用户特征模型能够有效提高个性化搜索结果的性能。  相似文献   

4.
针对基于传统LDA主题模型的标签生成算法对用户兴趣主题描述不完整的问题,提出一种基于主题嵌入表示的微博用户标签生成算法TopicERP.该算法在LDA模型的基础上,通过引入Word2vec词嵌入模型,对用户兴趣主题进行全面描述,并对匹配度计算方法进行改进.首先利用LDA主题模型对用户微博进行主题分析,生成用户兴趣主题;然后利用Word2vec词嵌入模型将主题文本转换为主题向量,用于匹配度计算;最后,利用余弦相似度和主题在文档中的条件概率,计算主题向量与候选标签匹配度,选取Top-Q的候选标签作为目标用户标签.本文在公开微博数据集microPCU上进行实验,实验结果表明,该算法在总体性能上高于基于传统LDA主题模型的微博标签生成算法,生成的用户标签能够较为准确地描述用户的兴趣偏好.  相似文献   

5.
针对基于传统LDA主题模型的标签生成算法对用户兴趣主题描述不完整的问题,提出一种基于主题嵌入表示的微博用户标签生成算法TopicERP.该算法在LDA模型的基础上,通过引入Word2vec词嵌入模型,对用户兴趣主题进行全面描述,并对匹配度计算方法进行改进.首先利用LDA主题模型对用户微博进行主题分析,生成用户兴趣主题;然后利用Word2vec词嵌入模型将主题文本转换为主题向量,用于匹配度计算;最后,利用余弦相似度和主题在文档中的条件概率,计算主题向量与候选标签匹配度,选取Top-Q的候选标签作为目标用户标签.本文在公开微博数据集microPCU上进行实验,实验结果表明,该算法在总体性能上高于基于传统LDA主题模型的微博标签生成算法,生成的用户标签能够较为准确地描述用户的兴趣偏好.  相似文献   

6.
《计算机科学与探索》2017,(7):1166-1174
针对Web对象的多标签分类的自动标注过程中,存在的标记数据耗时和不足导致分类性能不高的问题,提出了基于稀疏混合图随机跳跃变迁策略的Web对象多标签分类算法。首先,在构建Web对象亲和子图和标签相关子图基础上,通过权重自适应方式构建Web对象标签分类的混合图,实现半监督形式的自动标注,解决人工标注存在的耗时问题;其次,针对混合图求解问题,利用随机跳跃变迁策略实现混合图对象与预测标签间的概率分配,实现未标记的Web对象所属类别标签的概率估计,并获得其top-k最高相关性分数;最后,在UCI Web测试集和真实大数据上进行测试,结果显示所提算法的Rand指标要优于对比算法,验证了算法的有效性。  相似文献   

7.
图像语义自动标注是实现图像语义检索与管理的关键,是具有挑战性的研究课题.传统的图像标注方法需要具有完整、准确标签的数据集才能取得较好的标注性能.然而,在现实应用中获得数据的标签往往是不准确、不完整的,并且标签分布不均衡.对于Web图像和社会化图像尤其如此.为了更好地利用这些弱标签样本,提出了一种基于语义邻域学习的图像自动标注方法(semantic neighborhood learning from weakly labeled image,SNLWL).首先在邻域标签损失误差最小化意义下,填充训练集样本标签.通过递进式的邻域选择过程,保证建立的语义一致邻域内样本具有全局相似性、部分相关性和语义一致性,并且语义标签分布平衡.在邻域标签重构误差最小化意义下进行标签预测,降低噪声标签对性能的影响.多个数据集上的实验结果表明,与已知的具有较好标注效果的方法相比,此方法更适用于处理弱标签数据集,标准评测集上的测试也表明了此方法的有效性.  相似文献   

8.
大量上传的网络图像因用户语义标注的随意性,造成了图像标签的不完备,大大降低了图像检索的效率.低秩稀疏是一种有效降低数据噪声的方法.为提高图像语义标签完备的准确度,提出一种基于低秩稀疏分解优化(LRSDO)的图像标签完备方法.首先结合待完备图像的视觉特征和语义搜索其近邻图像集;然后通过低秩稀疏分解模型获得其视觉特征与语义之间的映射关系,并以此预测该图像的候选标签;最后使用面向个体的标签共现频率方法对候选标签进行去噪优化,进而实现对其更加准确的自动图像标签完备.在基准数据集Corel5K和真实数据集Flickr30Concepts上进行了实验,结果表明,该方法在图像标签完备的平均准确率,平均召回率和覆盖率上均表现出更优的性能.  相似文献   

9.
极限多标签文本分类任务具有标签集大、类间关系复杂、数据分布不平衡等特点,是具有挑战性的研究热点。现有模型对标签语义信息利用不足,性能有限。对此,该文提出一种利用层级标签语义信息引导的极限多标签文本分类模型提升策略,在训练和预测过程中给予模型层级标签引导的弱监督语义指导信息,利用这种弱监督信息规约多标签文本分类任务中要对应的多标签语义边界。在标准数据集上的实验结果表明,该文所提策略能够有效提升现有模型性能,尤其在短文本数据集中增效显著,宏精准率最高提升21.23%。  相似文献   

10.
王勇  王超  程凯 《计算机系统应用》2018,27(12):227-233
为更深入挖掘用户位置信息,本文从位置语义相似性角度挖掘用户特征.利用LDA算法对用户签到信息进行位置主题建模,采用Gibbs采样算法计算LDA模型中的分布函数,并根据这些分布提出了基于签到地点语义的用户相似性特征向量.利用有监督的机器学习算法,综合LBSN的网络结构信息、签到地点信息、地点语义信息得到多维相似性特征向量来进行链接预测.在Gowalla数据集上的实验结果表明,相较于传统的链接预测算法,将基于签到信息的多个相似性特征作为辅助信息的链接预测算法显著提高了LBSN链接预测的性能.  相似文献   

11.
王秋月  曹巍  史少晨 《计算机应用》2015,35(9):2553-2559
联邦搜索是从大规模深层网上获取信息的一种重要技术。给定一个用户查询,联邦搜索系统需要解决的一个主要问题是数据源选择问题,即从海量数据源中选出一组最有可能返回相关结果的数据源。现有的数据源选择算法大多基于数据源的样本文档集和查询之间的关键词匹配,通常无法很好地解决少量样本文档的信息缺失问题。针对这一问题,提出了基于隐含狄利克雷分布(LDA)主题模型进行数据源选择的方法。首先,使用LDA主题模型获得数据源和查询的主题概率分布;然后,通过比较两者主题概率分布的相近性来对所有数据源进行排序。通过将数据源和查询映射到低维的主题空间来解决高维词条空间稀疏性所带来的信息缺失问题。在TREC FedWeb 2013和2014 Track的测试集上分别进行了实验,并和其他参赛方法的结果进行了比较。在FedWeb 2013测试集上的实验结果显示比其他参赛方法的最好结果提高了24%;在FedWeb 2014测试集上的实验结果显示比传统的基于小文档和大文档的关键词匹配方法分别提高了22%和43%。另外,使用文档片段来代替文档还可以大幅提升系统的效率,更增加了此方法的实用性和可行性。  相似文献   

12.
基于主题划分的网页自动摘要   总被引:4,自引:0,他引:4  
陈志敏  沈洁  林颖  周峰 《计算机应用》2006,26(3):641-0644
提出了一种以网页结构为指导的自动摘要方法。对页面源文件进行解析时,利用文档的结构信息生成DOM树,并在此基础上划分文档主题。同时充分挖掘网页标记对主题词提取和句子重要性计算的价值。最后以主题块为单位,根据句子间的相似度调整句子权重,动态生成摘要。实验结果表明该方法能有效解决文档摘要分布不平衡问题,减少了文摘内容的冗余。  相似文献   

13.
14.
The incredible increase in the amount of information on the World Wide Web has caused the birth of topic specific crawling of the Web. During a focused crawling process, an automatic Web page classification mechanism is needed to determine whether the page being considered is on the topic or not. In this study, a genetic algorithm (GA) based automatic Web page classification system which uses both HTML tags and terms belong to each tag as classification features and learns optimal classifier from the positive and negative Web pages in the training dataset is developed. Our system classifies Web pages by simply computing similarity between the learned classifier and the new Web pages. In the existing GA-based classifiers, only HTML tags or terms are used as features, however in this study both of them are taken together and optimal weights for the features are learned by our GA. It was found that, using both HTML tags and terms in each tag as separate features improves accuracy of classification, and the number of documents in the training dataset affects the accuracy such that if the number of negative documents is larger than the number of positive documents in the training dataset, the classification accuracy of our system increases up to 95% and becomes higher than the well known Naïve Bayes and k nearest neighbor classifiers.  相似文献   

15.
In this paper, we proposed a novel approach based on topic ontology for tag recommendation. The proposed approach intelligently generates tag suggestions to blogs. In this approach, we construct topic ontology through enriching the set of categories in existing small ontology called as Open Directory Project. To construct topic ontology, a set of topics and their associated semantic relationships is identified automatically from the corpus‐based external knowledge resources such as Wikipedia and WordNet. The construction relies on two folds such as concept acquisition and semantic relation extraction. In the first fold, a topic‐mapping algorithm is developed to acquire the concepts from the semantic of Wikipedia. A semantic similarity‐clustering algorithm is used to compute the semantic similarity measure to group the set of similar concepts. The second is the semantic relation extraction algorithm, which derives associated semantic relations between the set of extracted topics from the lexical patterns between synsets in WordNet. A suitable software prototype is created to implement the topic ontology construction process. A Jena API framework is used to organize the set of extracted semantic concepts and their corresponding relationship in the form of knowledgeable representation of Web ontology language. Thus, Protégé tool provides the platform to visualize the automatically constructed topic ontology successfully. Using the constructed topic ontology, we can generate and suggest the most suitable tags for the new resource to users. The applicability of topic ontology with a spreading activation algorithm supports efficient recommendation in practice that can recommend the most popular tags for a specific resource. The spreading activation algorithm can assign the interest scores to the existing extracted blog content and tags. The weight of the tags is computed based on the activation score determined from the similarity between the topics in constructed topic ontology and content of the existing blogs. High‐quality tags that has the highest activation score is recommended to the users. Finally, we conducted experimental evaluation of our tag recommendation approach using a large set of real‐world data sets. Our experimental results explore and compare the capabilities of our proposed topic ontology with the spreading activation tag recommendation approach with respect to the existing AutoTag mechanism. And also discuss about the improvement in precision and recall of recommended tags on the data sets of Delicious and BibSonomy. The experiment shows that tag recommendation using topic ontology results in the folksonomy enrichment. Thus, we report the results of an experiment mean to improve the performance of the tag recommendation approach and its quality.  相似文献   

16.
XML作为Web上新的数据发布语言,将成为web下一代"数据表达"和"数据交换"的统一标准.然而XML文档很少是静止的,它经常会被修改.引入"时态表达"后,时态XML文档能够记录一系列的修改痕迹以及数据的变化过程.本文提出了将双时态XML数据模型映射到双时态XML文档的四种映射方法,最后通过实验对比了这些映射方法及其适用场合.  相似文献   

17.
由于目前的内容寻址存储系统在应用时存在很大的问题,提出基于标准HTTP协议开发CAS存储接口,将文件操作映射为URI资源的标签语义,实现基于Web的文件存取和操作;并借助Web服务器和数据库建立功能强大的CAS客户端,基于元数据模型并结合数据库对文件对象进行描述,通过Web界面进行文件对象浏览和搜索,构建具有强大内容导航和搜索能力的对象存储系统.  相似文献   

18.
This paper introduces a framework for trend modeling and detection on the Web through the usage of Opinion Mining and Topic Modeling tools based on the fusion of freely available information. This framework consists of a four step model that runs periodically: crawl a set of predefined sources of documents; search for potential sources and extract topics from the retrieved documents; retrieve opinionated documents from social networks for each detected topic and extract sentiment information from them. The proposed framework was applied to a set of 20 sources of documents over a period of 8 months. After the analysis period and that the proposed experiments were run, an F-Measure of 0.56 was obtained for the detection of significant events, implying that the proposed framework is a feasible model of how trends could be represented through the analysis of documents freely available on the Web.  相似文献   

19.
20.
网页实时分类是聚焦爬虫需要解决的重要问题,现有主题特征提取方法多数是面向离线分类的,性能达不到应用要求。本文首先扩展了标签树表示模型DocView的节点类型,且将其作为加权的重要因素,然后提出一个面向实时网页分类的Web文本和文本集主题特征提取算法。实验结果表明,算法的准确率提高了31%,主题偏移度降低了1倍多,能够满足应用要求。同时,还提出了一个新的主题特征提取性能评价模型。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号