排序方式: 共有62条查询结果,搜索用时 15 毫秒
21.
22.
针对微博行文自由性大,情感倾向识别困难的问题,提出了一种基于混合高斯分布伪样本生成技术和条件随机场模型的新方法。该方法首先利用混合高斯分布模型来为训练集中的少数类生成伪样本从而构建一个情感倾向分布平衡的训练集,然后通过使用Word2vec来扩展微博句子以丰富它的情感信息,从而缓解情感词典不足够大对情感分类的负面影响;最后将条件随机场模型应用在上面已经平衡和扩展后的训练集上.实验结果表明该方法比现有方法在数据集情感倾向分布不平衡时能更有效地识别微博的情感倾向. 相似文献
23.
由于信息传播模型是社区挖掘、社区影响力研究的基础,文中提出结合用户兴趣的信息传播模型,设计基于频繁子树的信息传播微观模式挖掘方法.首先,基于微博社交网络图表示及用户多标签建模,将微观信息传播模式转换为频繁子树挖掘问题.然后,针对微博社交网络图单节点多标签特性,设计多标签节点树的频繁子树挖掘算法(MLTreeMiner).最后,结合主题提取方法,使用MLTreeMiner挖掘信息传播模式.在人工数据集上的实验表明,MLtreeMiner能高效地对多标签节点树进行频繁子树挖掘.针对新浪微博真实数据的实验也验证方法的有效性. 相似文献
24.
高含硫原油加工过程硫化亚铁自燃现象遇到的一个主要问题是很难得到活性硫化亚铁,通过3种不同方法制备高纯度硫化亚铁,并对比测定了市售硫化亚铁与3种实验室制备硫化亚铁的自燃活性。实验结果表明:在空气中,常温下实验室制备的硫化亚铁均可自燃,市售的硫化亚铁不具备自燃活性。利用热重/差热分析法对硫化亚铁的自燃特性进行了研究,结果表明,硫化钠溶液与硫酸亚铁铵溶液反应制备的硫化亚铁自燃活性最高。 相似文献
25.
通过基因表达数据发现与特定疾病相关的基因表达规则,对于疾病辅助诊断有重要意义。针对现有关联规则兴趣度度量的不足,提出了基于最大间隔的基因表达规则筛选策略。该筛选策略综合考虑了基因表达规则与同类及异类样本的距离,具有较强的基因表达规则筛选能力。结合最大间隔准则和递增式关联规则挖掘算法设计的关联规则挖掘算法,能够高效地发现Top-K最大间隔基因表达规则。在实际基因表达数据集上的实验结果,验证了最大间隔基因表达规则筛选策略的有效性和挖掘算法的高效性。 相似文献
26.
现有主流的利用预训练卷积神经网络提取图像特征的方法存在仅使用单层预训练特征表征图像和预训练任务与实际研究任务不一致的问题,使得现有图文匹配方法无法充分利用图像特征,极易受到噪声特征干扰。针对上述问题,使用了预训练网络中的多层特征,并提出了多层次图像特征融合算法。在图文匹配的学习目标指导下,利用多层感知机(multi-layer perceptron)有监督地融合和降维多层次的预训练图像特征,生成融合图像特征,从而充分利用预训练特征,减少噪声干扰。实验结果表明,提出的融合算法可实现对预训练的图像特征更有效的利用,相比于使用单层次特征的方法能获得更好的图文匹配效果。 相似文献
27.
微博行文具有较大的自由性,其中情感对象识别是一个困难的问题,尤其是情感对象未显性出现情况下的情感对象识别,暂未发现有效解决方法。该文针对这一难题,结合中文微博的特点,提出了一种改进的条件随机场的模型。该模型把情感对象识别看作一个序列标记问题,通过在传统的CRF序列标记模型上增加情感对象的全局节点,有效地结合上下文信息、句法依赖以及情感词典,从而可以识别出微博中的情感对象。该方法的优势在于能够应用于情感对象未显性出现的情况。实验结果表明该方法比现有方法能更有效地识别出微博中的情感对象。 相似文献
28.
29.
挖掘多视图一致性是提升多视图聚类性能的关键,为更好地从多视图数据中学习一致性表示,提出一种新的多视图聚类算法OMTSC。OMTSC算法同时学习每个视图的聚类分配矩阵和特征嵌入,并将聚类分配矩阵分解为共享正交基矩阵和聚类编码矩阵。正交基矩阵可捕获并储存多视图一致性信息形成潜在聚类中心,经过加权融合的多视图聚类编码矩阵可更好地平衡不同视图的质量差异。引入基于二部图的协同聚类,实现正交基、聚类编码和特征嵌入3个矩阵的知识相互迁移,以提升多视图数据一致性和多样性,并利用特征嵌入的多样性最大化多视图一致性学习最优的潜在聚类中心,从而提高多视图聚类的性能。此外,基于群稀疏约束的特征嵌入可有效消除多视图数据中的噪声,提升算法的鲁棒性。在WikipediaArticles、COIL20和ORL数据集上的实验结果表明,与SC-Best、Co-Reg等先进的多视图聚类算法相比,OMTSC算法在ACC、NMI、ARI 3个评价指标上整体取得最优值,其中在COIL20和ORL数据集中的NMI评价指标均高于0.9。 相似文献
30.
移动社交网络等基于定位服务应用的快速发展导致时空数据流规模呈爆炸式增长,要求底层数据存储系统支持高吞吐量轨迹数据的插入以及空间和时间约束下的低延迟查询,而现有HBase等数据存储方案因索引更新开销过高无法满足该需求。针对时空数据流的应用特性,提出一种数据流内存索引及存储方法。根据键值和时间范围对历史与增量数据元组进行物理分区,将其以模板B+树的形式写入内存并构建索引以增强快速写入和查询能力,同时对数据进行压缩存储提升索引效率。在此基础上,采用多级索引根据数据分区将复杂查询分解为可独立处理的子查询。实验结果表明,与传统HBase、WaterWheel等方法相比,该方法在不同数据插入和查询条件下的数据存储性能与查询效率更优。 相似文献