查字典论文网 >> 数据起源模型PROV―DM研究

数据起源模型PROV―DM研究

小编:

摘 要 计算机的广泛应用导致了信息爆炸式增长,这些信息可以分为原始采集录入的数据以及由这些原始数据派生的数据这两类。其中派生数据占大多数,它们一般都经过了一系列的处理,由于其派生过程无法得知,用户往往怀疑这种数据的可靠性及安全性,因此,关心这些信息的产生过程和产生它们的源数据对于保证数据安全性是十分必要的。本文深入研究了基于W3C的起源模型PROV-DM,从该起源模型的六个组件的角度进行描述,并以万维网上的一个文档作为实例,采用PROV-DM数据模型讨论了该文档的产生及派生过程。

关键词 数据起源 安全性 安全数据起源模型

中图分类号:TP3 文献标识码:A

0引言

计算机的广泛应用导致了信息爆炸式增长,人们处理的信息呈几何级增长,这些信息可以分为原始采集录入的数据以及由这些原始数据派生的数据这两类。其中派生数据占大多数,它们一般都经过了一系列的处理,由于其派生过程无法得知,用户往往怀疑这种数据的可靠性,事实上也确实如此,派生的数据往往存在纰漏甚至与原始数据毫无关系。这种现状使得用户不得不关心这些信息的产生过程和产生它们的源数据,这就导致了数据起源技术的产生。

因为数据起源是新兴的研究领域,所以目前对数据起源的研究主要集中在建模、计算、存储、查询等工作上,对确保数据起源信息安全方面的研究比较少。如果收集到的起源信息本身安全性得不到保证,无法确保起源信息的完整性和机密性,那么我们就不能依赖它们来确定数据对象是否可信,起源信息就失去了其存在的价值。所以数据起源信息安全的研究有其重要的现实意义。安全起源无论在法律上还是在科学实验中都有着及其重要的作用。

数据起源的安全性主要考虑其完整性,机密性以及不可否认性。论文将在基于W3C标准的起源模型上研究安全起源,使用有向无环图来描述起源模型。通过对各种加密算法的研究和分析,选取合适的加密算法,以实现起源关系和起源信息本身的完整性和机密性的要求。

1基于W3C的数据起源模型PROV-DM

PROV-DM全称是Provenance Data Model,即数据起源模型。起源概念,表现为PROV-DM类型和关系。这些关系被归纳为六个组件,即实体和活动;派生;代理、义务和影响;描述包;替代化;集合。

(1)实体和活动:PROV-DM的第一个组件是关于实体和活动,及它们之间的相互关系:已使用(使用),已产生(产生),已开始(开始),已结束(结束),已失效(失效)和已被告知(通信)。实体是一个拥有固定方面的物理、电子、概念型或其他类型的事物;可以是真实的也可以是虚构的;活动即在一段时间内发生在、作用于实体的事件;可以包括实体的消耗、加工、转换、修改、迁移、使用或产生。如图1所示使用UML来描述第一个组件。核心结构在黄色区域展示,包括两个级别(实体、活动)和它们之间的3个二元关联:已使用(使用),已产生(产生),和已被告知(通信)。图的其余部分展示了延展结构部分,包括UML关联级别。

图1 实例和活动组件UML描述

(2)派生:派生是一个实体到另一个实体的转化,一个实体更新后会成为一个新的实体或者是可以基于一个已存在的实体创建出一个新的实体。

(3)代理、义务和影响:代理为一个活动的发生、一个实体的存在或另一个代理的活动承担某种形式的责任;义务是活动代理责任承担任务,指明了代理在活动中所扮演的角色。它进一步允许一个计划可以被指定,该计划指的是在活动的背景下代理需要实现的某些目标影响是指一个实体、活动或代理有能力通过使用、开始、结束、产生、失效、通信、派生、属性、关联或授权而对相互的特性、发展或行为产生影响。

(4)描述包:描述包是对一系列起源描述的称呼,它本身就是一个实体,因此可以表示起源的起源,对一个描述包的名称进行定义可以采用描述包构造函数进行。

(5)替代化:替代是实体间的特殊化(特殊化)和替代(替代)关系。图 2描述了第替代组件,包括一个单独分类和两个二进制关系。替代组件可以对同一个数据采用两个不同的起源描述该数据的两个不同方面。

图2 替代组件关系描述

(6)集合:一个集合是拥有成分的实体。成分本身也是实体,因此它们的起源可以被表达。某些应用需要能够表达收集本身的起源:例如,谁维护该收集(属性),在其演变中包括哪些成分,它是如何被集合起来的。

为了构建安全数据起源模型,保证数据起源记录的完整性和机密性,可以通过向状态节点之中添加安全组件的方法来保证互相关联的状态节点的完整性及机密性。如图3所示为一个通过添加安全组件构建的安全数据起源模型。

图3 加入安全组件的数据安全起源模型

为了生成并添加安全组件,在节点Pi生成节点Ai时,同时生成一个节点Si,该节点用来保存节点Ai的起源信息以及该信息的安全性。对于需要进行机密性保存的节点Ai的部分信息或元素中的某些信息,主要是节点描述中的description部分(该语义主要是描述和其他节点之间的必要元素关系,例如时间以及环境变量等),则将其保存在附加节点Si中,然后采用协议密钥进行加密保存。

组件及其依赖性在如下图4中有所体现。一个组件对另一个组件中所定义概念的依赖,在图中显示为前者在后者的上方。例如,组件5(替代化)依赖组件4(描述包)中所定义的概念,而其又依赖组件1(实体和活动)中所定义的概念。

图4 PROV-DM组件间的依赖关系

2 PROV-DM实例描述

上一部分对起源的一些概念以及PROV数据模型是怎样通过类型或关系给出这些概念的。本部分将这些概念与实际应用联系起来,以表达一些发布在网络上的文件的起源。PROV的概念在实例中相互协作,显示起源表达式的插图构成了一个定向图,据此我们可以对实体的起源进行解释,并且指出实体、活动以及代理。这个实例同样也展示了有时不同的起源表达式可以共存于同一个实体,这证明了追踪起源的起源的必要性。

热点推荐

上一篇:矿业权价款地质勘查项目预算编制方法

下一篇:如何对幼儿进行德育教育论文 幼儿园关于德育教育之类的论文

专业资产负债表总结体会(案例16篇) 乡镇意识形态工作分析研判报告范文(23篇)