首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
2.
网络图像语义自动标注是实现对互联网中海量图像管理和检索的有效途径,而自动有效地挖掘图像语义是实现自动语义标注的关键。网络图像的语义蕴含于图像自身,但更多的在于对图像语义起不同作用的各种描述文本,而且随着图像和描述知识的变化,描述文本所描述的图像语义也随之变化。提出了一种基于领域本体和不同描述文本语义权重的自适应学习的语义自动标注方法,该方法从图像的文本特征出发考查它们对图像语义的影响,先通过本体进行有效的语义快速发现与语义扩展,再利用一种加权回归模型对图像语义在其不同类型描述文本上的分布进行自适应的建模,进而实现对网络图像的语义标注。在真实的Wcb数据环境中进行的实验中,该方法的有效性得到了验证。  相似文献   

3.
目前主流的网页抽取方法存在两大问题:提取信息类型单一,难以获取多种类新闻信息;多依赖HTML标签,难以扩展至不同来源。为此提出一种基于多维度文本特征的新闻网页信息提取方法,利用新闻文本的写作特点划分出写作、语义和位置特征,通过多通道卷积神经网络融合为多维度文本特征,用于提取多种类新闻网页信息;仅需少量数据集训练,就可提取新来源的新闻网页信息。实验结果表明,该方法在性能上高于当前最优方法。  相似文献   

4.
A logical foundation for the semantic Web   总被引:8,自引:0,他引:8  
World Wide Web (WWW) has been one of important channels from which people acquire information and services, but most web pages are only used by humans at pre-sent, and these pages cannot be processed and understood automatically by computers. The semantic Web is an essential reformation of Web. The main objective of the seman-tic Web is to enrich Web with semantics and make Web be understood by computers, in order to communicate and cooperate between people and computer. The key of the se-…  相似文献   

5.
基于本体的语义Web服务QoS描述和发现   总被引:1,自引:0,他引:1  
WS-QMO是提出的一个用来对Web服务及其QoS信息进行建模和发现的顶层本体,它既可用于对服务QoS信息的描述和发布,也可用于对服务QoS需求的描述.WS-QMO本体基本满足了当前对Web服务QoS语义建模的普遍要求,并且由于适当地加入SWRL规则,它不但可以灵活地自定义单个QoS属性,描述一个QoS属性在不同条件下的不同取值,还可以定义复杂的组合QoS属性.相对同类本体或描述语言,它能更好地描述具有复杂约束规则的QoS属性,同时尽量利用现有的成熟规范使其定义式更为简洁.最后给出了基于该本体的QoS知识库的管理方法以及一个新的自动服务发现算法,该算法仅使用描述逻辑推理机的功能便可实现复杂约束的QoS自动服务发现,使得基于WS-QMO的Web服务建模和发现同时具备较好的描述能力和执行效率.  相似文献   

6.
面向网上论坛的信息抽取技术   总被引:5,自引:0,他引:5  
在分析了网上论坛内部的信息组织模式和链接结构的基础上,提出了一套面向网上论坛的语义话题线索抽取框架、叙述了其具体实现。为信息抽取定义了完善的抽取规则规范,提供了用户定制规则的可视化工具和论坛站点中语义信息单元自动下载抽取的后台引擎。  相似文献   

7.
8.
Improving pattern quality in web usage mining by using semantic information   总被引:1,自引:1,他引:0  
Frequent Web navigation patterns generated by using Web usage mining techniques provide valuable information for several applications such as Web site restructuring and recommendation. In conventional Web usage mining, semantic information of the Web page content does not take part in the pattern generation process. In this work, we investigate the effect of semantic information on the patterns generated for Web usage mining in the form of frequent sequences. To this aim, we developed a technique and a framework for integrating semantic information into Web navigation pattern generation process, where frequent navigational patterns are composed of ontology instances instead of Web page addresses. The quality of the generated patterns is measured through an evaluation mechanism involving Web page recommendation. Experimental results show that more accurate recommendations can be obtained by including semantic information in navigation pattern generation, which indicates the increase in pattern quality.  相似文献   

9.
基于ATT&CK的APT攻击语义规则构建   总被引:1,自引:0,他引:1       下载免费PDF全文
从自然语言描述文本中提取网络攻击知识存在语义鸿沟,导致TTPs威胁情报自动化利用低。为提高威胁情报自动分析效率,设计并实现了基于ATT&CK的APT攻击语义规则。首先,构建带标签的有向图语义规则模型,对自然语言文本描述的攻击技术进行知识化描述;其次,定义语义规则,阐释网络实体属性及其逻辑运算关系的形式化描述方法;最后,利用关键词组识别、知识抽取等自然语言处理技术,从攻击技术文本中抽取形成123个APT攻击语义规则,涵盖ATT&CK的115项技术和12种战术。利用模拟场景采集的APT攻击日志数据,对语义规则进行验证,实验结果表明,语义规则检出率达到93.1%,并具备一定的攻击上下文信息还原能力,可有效支撑威胁检测分析。  相似文献   

10.
Semantic block identification is an approach to retrieve information from Web pages and applications. As Website design evolves, however, traditional methodologies cannot perform well any more. This paper proposes a new model to merge Web page content into semantic blocks by simulating human perception. A “layer tree” is constructed to remove hierarchical inconsistencies between the DOM tree representation and the visual layout of the Web page. Subsequently, the Gestalt laws of grouping are interpreted as the rules for semantic block detection. During interpretation, the normalized Hausdorff distance, the CIE-Lab color difference, the normalized compression distance, and the series of visual information are proposed to operationalize these Gestalt laws. Finally, a classifier is trained to combine each operationalized law into a unified rule for identifying semantic blocks from the Web page. Experiments are conducted to compare the efficiency of the model to a state-of-art algorithm, the VIPS. The comparison results of the first experiment show that the GLM model generates more “true positives” and less “false negatives” than VIPS. The next experiment upon a large-scale test set produces an average precision of 90.53 % and recall rate of 90.85 %, which is approximately 25 % better than that of VIPS.  相似文献   

11.
面向Web服务发现的本体知识库   总被引:3,自引:0,他引:3  
本文探讨了面向Web服务发现的本体知识库的构建方法及其形式化描述。作为语义Web服务的发现框架中数据层和语义层,面向Web服务的本体知识库与一般的常识知识库不同,它既要表达领域本体的知识(本文涉及旅游领城知识),又涉及到Web服务的形式化描述以及个人兴趣模型的描述,以支持形式化的规范查询请求,并应用本体间的关系最终实现Web服务智能发现。本文通过一个Web服务发现实例说明此模型的应用价值,并与传统的本体知识库进行了对比。  相似文献   

12.
在W2DR算法实验中,部分网页因其锚文本提供的信息量不足,导致利用半结构化的网页信息填充结构化数据库内容效果不佳。为此,提出一种基于链接路径包的URL属性集成方法。采用将锚文本和网页标题相结合的机制,从被搜索网页集中,根据最佳匹配策略求解得到URL属性值,并将其填充到目标数据库。实验结果表明,与W2DR算法相比,该方法在2个不同数据集中的F值分别提高13.91%和3.54%。  相似文献   

13.
在知识图谱中,实体的文本描述信息、实体的层次类型信息和图的拓扑结构信息中隐藏着丰富的内容,它们可以形成对原始三元组的有效补充,帮助提高知识图谱各种任务的效果.为了充分利用这些多源异质信息,首先通过一维卷积神经网络嵌入文本描述信息,然后根据实体的层次类型信息构建投影矩阵,将三元组中的实体向量和实体的描述向量映射到特定的关...  相似文献   

14.
15.
张波  向阳 《计算机应用》2008,28(2):267-271
根据语义网中信息拥有的属性特征以及节点之间交互方式,在将信息语义信任度定义为传播节点信任度和传播信息内容信任度基础上,提出了一种信息语义信任度计算算法。该算法由三部分组成:一是每个节点通过自身本体对知识的形式化说明计算信息内容信任度;二是通过节点之间信息交互计算节点信任度;三是在前两种计算基础上综合计算得到最终信息语义可信任度。进而提出一种信息传播动态信任控制机制。最后进行了仿真实验,实验结果表明,本论文研究成果能够使信息在语义信任计算基础上进行有效传播。  相似文献   

16.
针对网页的正文信息抽取,提出一种基于支持向量机(SVM)的正文信息抽取方法。该方法采取宽进严出的策略。第1步根据网页结构的规律遍历网页DOM树,定位到一个同时包含正文和噪音信息的HTML标签。第2步选择含噪音信息的HTML标签的5个重要特征,并采用SVM训练样本数据。SVM训练得出的数据模型可以有效去除导航、推广、版权等噪音信息,成功保留正文。将该方法应用于几大常用的网站,实验结果表明该方法具有较好的正文抽取效果和降噪效果,对于传统方法中经常误删的短文本、与正文相关的超链接等信息能够准确保留。  相似文献   

17.
18.
语义传感器Web的出现为物联网中传感器系统间的数据互操作、信息共享和知识融合提供了实现方式,传感器本体的构建则是实现这些功能的前提.本文在参考万维网联盟提出的语义传感器网络本体的基础上,对传感器及配套的数据采集仪构建了对应的本体,为传感器系统提供了有效的知识组织模型.通过建立的传感器和数据采集仪本体,可以实现传感器的自动分类管理,设定推理规则后可以提供传感器和采集仪间的配接推荐,提高检测现场多传感器系统设计的效率和可靠性,将领域知识应用到系统设计和管理中.最后以具体的传感器实例对推理规则进行了测试,结果满足应用要求.  相似文献   

19.
基于网页框架和规则的网页噪音去除方法   总被引:4,自引:0,他引:4       下载免费PDF全文
提出了一种基于网页框架和规则的网页去除噪音的新方法,该方法根据网页中HTML标签将网页分成若干部分,对各个table的长宽比属性进行比较,去掉长宽比很大的部分,并对其余table中的内容进行分析,根据内部是否存在和段落文字有关的标签


等来区分主题内容和噪音内容,在此基础上去除噪音内容。对来自CWT200G语料的132 559个网页进行测试后的结果表明,该方法可以有效地去除网页噪音,使索引文件减少约75%,大大地提高了检索速度,准确度也得到一定提高。  相似文献   


20.
基于统计学理论,提出了一种视频多粒度语义分析的通用方法,使得多层次语义分析与多模式信息融合得到统一.为了对时域内容进行表示,首先提出一种具有时间语义语境约束的关键帧选取策略和注意力选择模型;在基本视觉语义识别后,采用一种多层视觉语义分析框架来抽取视觉语义;然后应用隐马尔可夫模型(HMM)和贝叶斯决策进行音频语义理解;最后用一种具有两层结构的仿生多模式融合方案进行语义信息融合.实验结果表明,该方法能有效融合多模式特征,并提取不同粒度的视频语义.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号