排序方式: 共有108条查询结果,搜索用时 15 毫秒
1.
抑郁症日益成为影响现代人生活幸福程度的重要因素。实时有效地识别用户情绪的方法对于抑郁症潜在患者的发现和治疗十分有意义。用户情绪的状态及变化会体现在其生活日志数据上。该文从使用可穿戴设备收集的用户生活日志数据出发,对数据进行了特征方面的分析;进一步地,使用以回归树为弱学习器的集成学习模型,设计了使用全部数据、仅用户自身数据以及仅他人数据进行训练的三组实验构成的对比实验框架,以比较使用不同用户数据对识别结果的影响。实验结果表明,基于生活日志数据的集成学习模型可以有效地识别用户的情绪状态。同时,基于实验结果提出了用户认知不一致的猜想,对于心理学上的抑郁分析也有一定的启发作用。该工作是目前所知第一个利用用户生活日志信息进行情绪识别以及抑郁症患者分析的工作,为后续进一步扩大实验规模和改良实验设计提供了思路。 相似文献
2.
微博环境中用户可以为自己添加标签,用户所添加的标签往往被视为是对自身特点和兴趣的重要描述信息.标签中所包含的信息可能有助于建立精确的用户描述,因此在个性化推荐、专家检索、影响力分析等应用中有潜在的应用价值.首先,在大规模数据上分析和研究了微博中用户添加标签的行为及标签内容分布的特点;之后,通过主题模型对用户的微博内容进行分析,实验结果表明:用户的标签越相似,微博内容也越相似,反之亦然;随后,分析了用户关注关系与微博和标签内容之间的联系,实验结果显示,有关注关系的用户之间微博和标签的内容越相似;基于这个发现,分别使用标签内容和微博内容对真实微博数据中的用户关注关系进行预测,结果表明:基于标签的预测方法其效果明显优于基于微博内容的预测方法,显示出用户标签在描述用户兴趣方面的价值. 相似文献
3.
随着社交网站的流行以及用户的大规模增加,社交网络用户行为分析已经成为社交网站进行网站维护、性能优化和系统升级的重要基础,也是网络知识挖掘和信息检索的重要研究领域。为了更好地理解社交网络用户添加个人标签的行为特征,该文基于大约263万个微博用户的真实数据,对用户标签的分布进行了研究和分析。我们主要考察了用户标签的宏观分布特征,以及用户标签与关注对象的标签分布之间的联系,发现微博用户给自己添加标签时,在开始阶段倾向于使用反映个性的标签,之后会出于从众心理而选用大众化标签。我们将研究发现运用到基于关注关系的标签预测算法中,结果证实相关分析对于社交网站的标签推荐等课题具有一定的参考意义。 相似文献
4.
网络作弊检测是搜索引擎的重要挑战之一,该文提出基于遗传规划的集成学习方法 (简记为GPENL)来检测网络作弊。该方法首先通过欠抽样技术从原训练集中抽样得到t个不同的训练集;然后使用c个不同的分类算法对t个训练集进行训练得到t*c个基分类器;最后利用遗传规划得到t*c个基分类器的集成方式。新方法不仅将欠抽样技术和集成学习融合起来提高非平衡数据集的分类性能,还能方便地集成不同类型的基分类器。在WEBSPAM-UK2006数据集上所做的实验表明无论是同态集成还是异态集成,GPENL均能提高分类的性能,且异态集成比同态集成更加有效;GPENL比AdaBoost、Bagging、RandomForest、多数投票集成、EDKC算法和基于Prediction Spamicity的方法取得更高的F-度量值。 相似文献
5.
Web访问日志中的会话(session)是指特定用户在一定时间范围内的访问行为的连续序列。会话主题(topic)是指会话中具有相同用户意图的部分。从会话中进一步识别出能体现用户意图的处理单元(topic)是进行用户访问行为分析的重要基础。目前相关工作主要集中在边界识别上,无法处理用户意图交叉情况。为了解决该问题,该文重新形式化定义了session和topic的相关概念,提出最大划分的求解任务,并设计出了基于用户群体智慧的会话主题识别算法。在使用大规模真实Web访问日志的实验中,我们的算法取得了不错的效果。 相似文献
6.
基于多例学习的Web图像聚类 总被引:2,自引:0,他引:2
在图像分类和自动标注系统中,多例学习(MIL)是研究的热点.目前MIL中的算法多为监督学习方法.针对非监督学习,在基于EM算法和启发式迭代优化算法的框架下,提出了6种多例聚类算法,并通过它们对来自于真实Web环境下的图像进行聚类以分析用户的搜索兴趣.由于一幅图像含有若干个区域,每个区域可被看为一个样例,属于同一个图像的区域则组成一个包.因此如何理解图像语义内容的问题即转化为多例学习.在多例学习的经典数据集MUSK数据和来自于Web图像集上的比较实验表明,提出的多例聚类算法具有优良的聚类性能. 相似文献
7.
8.
网络数据的飞速增长为搜索引擎带来了巨大的存储和网络服务压力,大量冗余、低质量乃至垃圾数据造成了搜索引擎存储与运算能力的巨大浪费,在这种情况下,如何建立适合万维网实际应用环境的网页数据质量评估体系与评估算法成为了信息检索领域的重要研究课题。在前人工作的基础上,通过网络用户及网页设计人员的参与,文章提出了包括权威知名度、内容、时效性和网页外观呈现四个维度十三个因素的网页质量评价体系;标注数据显示我们的网页质量评价体系具有较强的可操作性,标注结果比较一致;文章最后使用Ordinal Logistic Regression 模型对评价体系的各个维度的重要性进行了分析并得出了一些启发性的结论 互联网网页内容和实效性能否满足用户需求是决定其质量的重要因素。 相似文献
9.
10.