首页 | 本学科首页   官方微博 | 高级检索  
文章检索
  按 检索   检索词:      
出版年份:   被引次数:   他引次数: 提示:输入*表示无穷大
  收费全文   18篇
  完全免费   9篇
  自动化技术   27篇
  2014年   1篇
  2013年   1篇
  2012年   1篇
  2011年   1篇
  2010年   1篇
  2009年   5篇
  2007年   2篇
  2006年   2篇
  2005年   2篇
  2004年   1篇
  2003年   2篇
  2002年   3篇
  1997年   2篇
  1993年   1篇
  1992年   1篇
  1991年   1篇
排序方式: 共有27条查询结果,搜索用时 31 毫秒
1.
A Semi-Structured Document Model for Text Mining   总被引:7,自引:0,他引:7       下载免费PDF全文
A semi-structured document has more structured information compared to an ordinary document,and the relation among semi-structured documents can be fully utilized.In order to take advantage of the structure and link information in a semi-structured document for better mining,a structured link vector model (SLVM) is presented in this paper,where a vector represents a document,and vectors‘ elements are determined by terms,document structure and neighboring documents.Text mining based on SLVM is described in the procedure of K-means for briefness and clarity:calculating document similarity and calculating cluster center.The clustering based on SLVM performs significantly better than that based on a conventional vector space model in the experiments,and its F value increases from 0.65-0.73 to 0.82-0.86.  相似文献
2.
半结构化数据相似搜索的索引技术研究   总被引:5,自引:0,他引:5  
杨建武  陈晓鸥 《计算机学报》2002,25(11):1219-1226
为了在海量、高维、动态的半结构化数据集上进行有效的相似搜索,该文提出一种采用聚类技术进行索引构建与更新的多路平衡树--CSS-树以及基于CSS-树的相似搜索与动态更新的算法。CSS-树借鉴SS^ -树基于聚类进行节点组织与分裂的基本思想,避免了根据坐标准进行分裂时所要求的维不相关性,同时在节点组织、分裂算法和搜索算法等方面进行了改进,提出了新的搜索剪枝策略,实验表明,该结构及算法对海量半结构化数据相似搜索和效率明显优于传统算法。  相似文献
3.
一种通过内容和结构查询文档数据库的方法   总被引:4,自引:0,他引:4       下载免费PDF全文
文档是有一定逻辑结构的,标题、章节、段落等这些概念是文档的内在逻辑.不同的用户对文档的检索,有不同的需求,检索系统如何提供有意义的信息,一直是研究的中心任务.结合文档的结构和内容,对结构化文件的检索,提出了一种新的计算相似度的方法.这种方法可以提供多粒度的文档内容的检索,包括从单词、短语到段落或者章节.基于这种方法实现了一个问题回答系统,测试集是微软的百科全书Encarta,通过与传统方法实验比较,证明通过这种方法检索的文章片断更合理、更有效.  相似文献
4.
Learning element similarity matrix for semi-structured document analysis   总被引:3,自引:3,他引:0  
Capturing latent structural and semantic properties in semi-structured documents (e.g., XML documents) is crucial for improving the performance of related document analysis tasks. Structured Link Vector Mode (SLVM) is a representation recently proposed for modeling semi-structured documents. It uses an element similarity matrix to capture the latent relationships between XML elements—the constructing components of an XML document. In this paper, instead of applying heuristics to define the element similarity matrix, we propose to compute the matrix using the machine learning approach. In addition, we incorporate term semantics into SLVM using latent semantic indexing to enhance the model accuracy, with the element similarity learnability property preserved. For performance evaluation, we applied the similarity learning to k-nearest neighbors search and similarity-based clustering, and tested the performance using two different XML document collections. The SLVM obtained via learning was found to outperform significantly the conventional Vector Space Model and the edit-distance-based methods. Also, the similarity matrix, obtained as a by-product, can provide higher-level knowledge on the semantic relationships between the XML elements.
Xiaoou ChenEmail:
  相似文献
5.
一个基于规则的图书逻辑结构提取算法   总被引:1,自引:0,他引:1  
在数字图书馆建设中,一个急需解决的问题是如何自动化地将海量的纸张图书数字化为电子文档,对于生成图书电子文档而言。除了文档内容信息以外,文档版面信息和文档逻辑信息同样重要。该文提出了一种基于规则的图书逻辑结构提取算法。从多页图书文档的模型描述出发,通过采用基于规则的推理方法,提取出图书中的逻辑元素并确定各元素间的层次关系和相互联系,从而得到了整本图书的逻辑结构。实验结果证明了算法的有效性。  相似文献
6.
Accomplishing Deterministic XML Query Optimization   总被引:1,自引:1,他引:0       下载免费PDF全文
As the popularity of XML (extensible Markup Language) keeps growing rapidly, the management of XML compliant structured-document databases has become a very interesting and compelling research area. Query optimization for XML structured-documents stands out as one of the most challenging research issues in this area because of the much enlarged optimization (search) space, which is a consequence of the intrinsic complexity of the underlying data model of XML data. We therefore propose to apply deterministic transformations on query expressions to most aggressively prune the search space and fast achieve a sufficiently improved alternative (if not the optimal) for each incoming query expression. This idea is not just exciting but practically attainable. This paper first provides an overview of our optimization strategy, and then focuses on the key implementation issues of our rule-based transformation system for XML query optimization in a database environment. The performance results we obtained from experimentation show that our approach is a valid and effective one.  相似文献
7.
基于知识模式的文档描述构建方法*   总被引:1,自引:0,他引:1       下载免费PDF全文
鉴于传统文档分析方法不能有效获取弱结构文档的知识描述,提出基于知识模式的文档描述构建方法。该方法综合考虑知识的行文模式与上下文结构特征,从而能够比传统方法更为有效地获取弱结构文档的知识描述。  相似文献
8.
基于无秩树自动机的信息抽取技术研究   总被引:1,自引:0,他引:1  
针对目前基于网页结构的信息抽取方法的缺陷,提出了一种基于无秩树自动机的信息抽取技术,其核心思想是通过将结构化(半结构化)文档转换成无秩树,然后利用(k,l)-contextual树构造样本自动机,依据树自动机接收和拒绝状态来对网页进行数据的抽取.该方法充分利用结构,依托树自动机将传统的以单一结构途径的信息抽取方法与文法推理原则相结合,得到信息抽取规则.实验结果表明,该方法与同类抽取方法相比在准确率、召回率以及抽取所需时间上均有所提高.  相似文献
9.
采用树自动机推理技术的信息抽取方法   总被引:1,自引:1,他引:0       下载免费PDF全文
提出了一种利用改进的k-contextual树自动机推理算法的信息抽取技术。其核心思想是将结构化(半结构化)文档转换成树,然后利用一种改进的k-contextual树(KLH树)来构造出能够接受样本的无秩树自动机,依据该自动机接收和拒绝状态来确定是否抽取网页信息。该方法充分利用了网页文档的树状结构,依托树自动机将传统的以单一结构途径的信息抽取方法与文法推理原则相结合,得到信息抽取规则。实验证明,该方法与同类抽取方法相比,样本学习时间以及抽取所需时间上均有所缩短。  相似文献
10.
为了管理业务办公系统中所需的文档资料,解决电子档案的录入、存储和访问问题,提出基于扫描及非结构化文档管理的实用方案。该方案先扫描原始凭据并保存在PDF文件中,然后用FIP批量上传这些档案,客户端以FIP文件下我的方式查询电子档案。  相似文献
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号