共查询到20条相似文献,搜索用时 62 毫秒
1.
随着微博、照片分享等社会化媒体的快速发展,每天产生了大量的短文本内容如评论、微博等,对其进行深入挖掘有重大的应用价值和学术意义。该文选取微博作为例子,详细阐述我们提出的方法。微博信息流因其简短和实时的特性而具有非常大的价值,已经成为市场营销,股票预测、舆情监控等应用的重要信息源。尽管如此,微博内容特征极其稀疏、上下文语境提取困难,使得微博信息的挖掘面临着很大挑战。因此,我们提出一种基于Wikipedia的微博语义概念扩展方法,通过自动识别那些与微博信息语义相关的Wikipedia概念来丰富它的内容特征,从而有效提高微博信息数据挖掘和分析的效果。该文工作首先通过可链接性剪枝、概念关联和消歧,发现微博信息中重要的n-gram所对应的Wikipedia概念;其次,采用基于概念-文档关联矩阵的NMF分解(非负矩阵分解)方法获取Wikipedia概念之间的语义近邻,为微博信息扩展相关的语义概念。基于TREC 2011的微博数据集和Wikipedia 2011数据集进行实验,与已有两个相关研究工作比较,该文提出的方法取得了较好的效果。 相似文献
2.
文本特征选择是文本分类和信息提取的关键技术。针对文本分类中特征向量的高维稀疏问题,提出了非负矩阵分解和概念语义空间结合的特征抽取方法,对特征矩阵分解算法加入非负限制能够给出概念语义向量面向主题的解释,较好体现文本的局部特征。采用非负矩阵分解对全局和局部语义空间进行降维处理提高了体征提取效率,对不同概念语义空间中文本分类效果比对分析。实验结果表明基于非负矩阵分解的局部概念语义空间中文本分类精度较高。 相似文献
3.
将传统的文本相似度量方法直接移植到短文本时,由于短文本内容简短的特性会导致数据稀疏而造成计算结果出现偏差。该文通过使用复杂网络表征短文本,提出了一种新的短文本相似度量方法。该方法首先对短文本进行预处理,然后对短文本建立复杂网络模型,计算短文本词语的复杂网络特征值,再借助外部工具计算短文本词语之间的语义相似度,然后结合短文本语义相似度定义计算短文本之间的相似度。最后在基准数据集上进行聚类实验,验证本文提出的短文本相似度计算方法在基于F-度量值标准上,优于传统的TF-IDF方法和另一种基于词项语义相似度的计算方法。 相似文献
4.
5.
郐媛媛 《计算机光盘软件与应用》2014,(9):302-303
文本相似度算法研究一直是文本挖掘领域非常重要的算法,指采用一定的策略比较两个文本之间的相似程度,目前文本相似度算法已经在文本分类、文本聚类、自然语言处理等多个领域崭露头角。本文主要就语义角度出发对文本之间相似度进行界定。 相似文献
6.
针对短文本中大量文法混乱语义不清的句子,提出一种将句法结构和修饰语义相结合的短文本质量评估算法。该方法将短文本分为单句和多句两种模式。对于单句模式,将句子解析为抽象语义表示,接着分析谓词的句法结构的完整程度;根据不同的修饰关系计算句子序列的紧密程度,结合句子的结构完整性与紧密性得出单句短文本质量评估值。对于多句模式,选取每句中的关键词;循环计算与其他句子中关键词的相似性,总相似度最高的单句作为核心句,用核心句的质量评估值作为多句短文本的质量评估值。实验结果表明,该方法在中文AMR数据集上的准确率为80%,在自建的多句微博数据集中准确率为74.73%。 相似文献
7.
孙滨刘林 《计算机与数字工程》2014,(2):187-189,209
论文提出一个基于语义的文本间的相似度算法,以文本的特征词相似度为基础,来计算文本间的相似度,利用聚类算法对文本簇进行聚类.实验结果证明基于知网的文本语义相似度方法在对文本相似度计算以及文本聚类方面,能有效提高聚类的效果. 相似文献
8.
9.
文本之间在相似度比较时主要考虑关键词的匹配特性,缺乏对关键词间组合关系的深入分析。针对关键词间组合特性,按序组合的关键词数目越大,对文本之间相似度贡献越大,并提出基于关键词组合数目的非线性语义关联性函数,在LCS基础上提取文本中所有关键词组合块。将这种结合关键词组合关系的相似度比较方法运用于短文本的相似度比较中,数据采用微软语义释义语料库,实验结果表明,短文本相似度计算的准确率和F1值都有了提高,其中F1值的提高较为明显。 相似文献
10.
现有数据聚类方法在处理文本数据时,没有考虑词之间潜在的相似信息,导致聚类效果不理想。针对中文短信文本聚类提出一种基于语义的聚类算法。给出中文概念、词和中文短信文本的相似度度量方法,通过向下连锁裂变和向上两两归并完成中文短信文本聚类。实验结果表明,该算法的聚类质量高于传统算法。 相似文献
11.
语义相关度计算是自然语言处理领域的研究热点。现有的以文本相似度计算代替文本相关度计算的方法存在不足之处。提出从语形相似性和组元相关性两个方面来综合度量短文本之间的语义相关性,并提出2个以Wikipedia作为外部知识库的短文本相关度计算算法:最大词语关联法和动态组块法。在一个网络短文本测试集上对算法进行测评。实验结果表明,该算法与典型相似度计算算法比较,在正确率方面提高了20%以上。 相似文献
12.
本体作为一种概念模型建模工具,被应用到计算机的各个领域,用来信息组织和知识管理。本体扩展是一种将新概念以及概念间的关系添加到已有本体的合适位置,以扩大本体为目的的方法。提出一种基于词间语义关联性从文本中扩展本体的方法,该方法主要利用共现分析、词过滤技术和词间语义关联性从文本中发现潜在的概念,作为待扩展概念,并使用扩展规则、包含分析等关系识别技术将概念添加到已有本体中。以电子政务领域的教育子领域为例,使用该方法扩展了一个教育领域的领域本体,结果表明该方法扩展的本体比较合理,具备较强的应用能力。 相似文献
13.
语义Web是在分布式环境下构建复杂系统的一种新兴技术。在分析语义Web与移动Agent的基础上,提出了基于移动Agent的语义挖掘系统模型。该系统由三个层次构成:通信网络层、移动Agent平台以及基于语义Web的移动Agent服务,包括推理服务、查询服务、匹配服务、本体服务和语义扩展服务等。并且给出了改进的:粒群优化算法作为移动Agent路由判定算法,为下一步研究开发比较成熟的软件产品奠定了良好的基础。 相似文献
14.
随着语义网的不断发展,网页语义的研究也在不断的进步。但现阶段的网络结构中,非语义化网页仍旧占据了信息系统最主要的部分。信息系统在整合的过程中,也需要了解网页的语义结构以完成信息的获取和分析。提出一种基于视觉特征筛选的网页语义结构分析方法。该方法可以在忽略网页语义的情况下,通过网页结构的视觉特性和内容特性分析网页中不同结构的语义关系,使用聚类分析方法来推定网页中半结构化信息的语义结构,并通过该方法对一组随机网页进行了分析,结果证明该方法具有比较好的分析能力。 相似文献
15.
现有的语义Web服务匹配算法没有考虑到本体概念间的多元关系,导致概念的语义不能被完整地反映出来,从而影响了算法的匹配性能。利用本体概念间的多元关系定义了一种语义距离,并通过该语义距离给出了概念间的语义相似度计算方法,在此基础上提出基于语义相似度的Web服务匹配算法。该算法通过本体概念间的语义相似度来反映Web服务的匹配程度。最后,通过对比实验验证了该算法的可行性和有效性。 相似文献
16.
一种基于本体的概念语义相似度计算研究 总被引:2,自引:2,他引:0
姜华 《计算机应用与软件》2009,26(7):143-145
概念的语义相似度研究,是知识表示以及信息检索领域中的一个重要内容.通过分析两种传统的语义相似度计算方法,对它们存在的问题进行改进,提出了一种综合的基于本体的概念语义相似度计算方法.该方法结合本体网络特征和语义距离计算中的多种语义影响因素,充分利用本体中概念的语义信息计算概念间的语义相似度.实验结果比较合理,验证了该方法的有效性. 相似文献
17.
基于语义web的agent系统模型 总被引:1,自引:0,他引:1
随着互联网的迅速发展,网络信息的处理变得越来越复杂,语义web技术的出现正是为了解决这样的问题。在语义web上信息表示是面向机器可处理的,因此使得机器更容易自动处理网络上的资源,这大大方便了对网络资源的利用和收集。本文在此基础上提出一个基于语义web的agent系统模型,该系统主要包括information server、ontology base、client application三个模块,并结合了本体收集agent、搜索agent和本体agent。其中知识的表示由ontology实现,并可利用其实现一定的推理。 相似文献
18.
对非负矩阵分解的初始化进行研究,提出针对文本分类的主成分分析(PCA)、有监督PCA(SPCA)和模糊C平均3种初始化方法并进行了实验。多类文本分类的实验结果表明,这些方法有效地解决了初值对结果的影响问题,不同程度地提高了文本分类结果,其中SPCA优于其他2种方法。 相似文献
19.
随着对Web服务的不断深入研究和应用,出于各种服务自动化任务的需要,语义Web服务逐渐成为学术界的研究热点。可以看出这些研究大都基于服务单个操作级别的语义进行推理,而对于多个操作之间的语义联系却很少涉及。提出Web服务的重写模型,通过为Web服务添加操作之间的重写规则语义,将Web服务建模为服务重写系统,利用重写技术中的推理机制,实现对Web服务的分析和挖掘。这个方法可应用于服务的QoS优化,以及服务的组合与融合等方面。 相似文献
20.
元数据的交换是实现语义网应用的基础。在语义网的架构中,Ontology语言利用自己的元级描述能力来建立元数据之间的联系,从而实现语义的交换。本文分析了DAML OIL语言的知识描述能力,并对它蕴含的关于类的知识建立了Prolog的推理规则,最后结合XSBProlog推理引擎和InterProlog接口用Java语言实现了对Ontology的推理,从而实现了不同Ontology之间的元数据交换。 相似文献