仓库定义的定义是什么?必须出现在规范中

3--数据仓库萣义开发模型

简介:本文档为《3--数据仓库定义开发模型ppt》可适用于高等教育领域

数据仓库定义与数据挖掘蔡永明Smcaiymujneducn第三章数据仓库定义开發模型第三章数据仓库定义开发模型模型:是对现实世界进行抽象的工具。在信息管理中需要将现实世界的事务及其有关特征转换为信息卋界的数据才能对信息进行处理与管理这就需要依靠数据模型作为这种转换的桥梁。设计一个能够真正支持用户进行决策的决策分析数據仓库定义并非一件轻而易举的事情需要经历一个从现实环境到抽象模型从抽象模型到具体现实的过程。现实的决策环境→概念数据模型→逻辑模型→物理模型→数据仓库定义(软件程序)第三章数据仓库定义开发模型数据仓库定义开发上的困难自顶向下的开发方法从全系统嘚角度提供解决方案使得(模块)集成的问题最小但是该方法十分昂贵需要对组织进行长期研究和建模分析自底向上方法提供了更多的開发灵活性价格便宜但往往会遇到集成问题(每个模块单独运行都没有问题但是一集成就出异常)解决方法:使用递增性、演化性的开发方法高层数据模型?企业仓库定义和数据集市并行开发?通过分布式模型集成各数据集市?多层数据仓库定义提纲一、数据仓库定义开发模型的概念二、数据仓库定义的概念模型三、数据仓库定义的逻辑模型四、数据仓库定义的物理模型五、数据仓库定义的生成六、数据仓庫定义的使用和维护七、数据仓库定义的粒度、聚集和分割八、元数据一、数据仓库定义开发模型的概念现实世界:是存在于现实之中的各种客观事物它反映了客观事物及其相互之间的关系。概念世界:是现实情况在人们头脑中的反映人们需要利用一种模式将现实世界在自巳的头脑中表达出来便于相互交流逻辑世界:是人们为将存在于自己头脑中的概念模型转换到计算机中的实际物理存储过程中的一个计算机逻辑表示模式。物理世界:是指现实世界中的事物在计算机系统中的实际存储模式只有依靠这一物理存储模式人们才能实现利用计算機对现实世界的信息管理、四个世界:一、数据仓库定义开发模型的概念模型:是对现实世界进行抽象的工具。在信息管理中需要将现實世界的事务及其有关特征转换为信息世界的数据才能对信息进行处理与管理这就需要依靠数据模型作为这种转换的桥梁。、模型现实卋界信用张三客户客户与产品概念世界特性个体整体整体间联系逻辑世界属性实体同质总体异质总体物理世界字段记录表文件数据库现实與不同模型的变化联系应用需求(数据、处理)转换规则、DBMS功能、优化方法需求收集和分析设计概念结构设计逻辑结构数据模型优化设计粅理结构评价设计性能预测物理实现试验性运行使用、维护数据库应有助于完成数据智能的支持信息提供更确定的数据与事务结构有映射关系包含标准的数据结构数据量比指标实体少但比维实体多数据可能是数值型的、定性的或说明性的。、概念模型的实体图形符号二、數据仓库定义的概念模型、概念模型的实体图形符号详细类别实体维实体指标实体二、数据仓库定义的概念模型ERD作为一种数据仓库定义的設计基础在实际应用中存在很多缺点如图.所示的简单ERD中有个相互关联的简单实体。数据仓库定义设计从概念模型的设计角度来看所有實体之间的关系是对等的仅仅从概念模型的角度来设计数据仓库定义会产生一种“平等”效应。实际上由于管理决策的原因数据仓库定義中的实体绝不会是相互对等的每个实体都有它们自己的特别处理。因此在数据仓库定义中建立实体时需要根据裁人数据实体的数据量來考虑数据仓库定义中数据的结构设计例如在实际工作中代表供应商、客户、产品、发货的实体数据量只是一些说明订单的实体而订单實体则是管理者所真正关心的分析对象。这样在数据仓库定义的应用中将会有大量的数据载入订单实体表而其他实体表中的数据载人量则楿对较少因此需要一种不同的数据模型设计方式用于描述数据仓库定义中某个实体所要载人大旦数据的设计结构这就是“星形模型”。、概念模型的实体图形符号二、数据仓库定义的概念模型、概念模型的实体图形符号产品订单发货供应商客户图.一个简单的ERD二、数据仓庫定义的概念模型星型模式(Starschema):事实表在中心周围围绕地连接着维表(每维一个)事实表含有大量数据没有冗余雪花模式(Snowflakeschema):是星型模式的变种其中某些维表是规范化的因而把数据进一步分解到附加表中。结果模式图形成类似于雪花的形状事实星座(Factconstellations):多个事实表共享維表,这种模式可以看作星型模式集因此称为星系模式(galaxyschema)或者事实星座(factconstellation)、数据模型设计其它方式二、数据仓库定义的概念模型星型模式(Starschema):大多数的数据仓库定义都采用星型模型。星型模型是由事实表(大表)以及多个维表(小表)组成?事实表存放大量关于企业的事实数据(數量数据),这些数据通常都很大,而且非规范化程度很高,例如,多个时期的数据可能会出现在同一个表中?维表存放描述性数据,维表是围绕事实表建立的较小的表。?差别事实表有大量的行(记录),然而维表相对来说有较少的行(记录)、数据模型设计其它方式二、数据仓库定义的概念模型、数据模型设计其它方式星型模式星型模式(Starschema)星型模式实例SalesFactTabletimekeyitemkeybranchkeylocationkeyunitssolddollarssoldavgsalesMeasures二、数据仓库定义的概念模型星型模式(Starschema)星型模型优点星型模型存取數据速度快,主要在于针对各个维作了大量的预处理。如按照维进行预先的统计、分类和排序等,如果按照汽车的型号、颜色和代理商进行预先的销售量统计,作报表时速度会很快星型模型缺点当业务问题发生变化,原来的维不能满足要求时,就需要增加新的维。由于事实表的主键甴所有的维表的主键组成,这种维的变化带来的数据变化将是非常复杂、非常耗时的星型模型的数据冗余量很大,不适合于大数据量的情况。、数据模型设计其它方式二、数据仓库定义的概念模型星型模式(Starschema):星型模型与完全规范化的关系设计相比较星型模型以潜在的存储空間代价,使用了大量的非规范化来优化速度规范的关系设计使数据的冗余保持在最少,并减少了当数据改变时系统必须执行的动作。星型模型限制了事实表上的数量属性个数,然而规范的关系设计能够存储多个与事务相关的数据、数据模型设计其它方式二、数据仓库定义的概念模型雪花模式(Snowflakeschema)雪花模型是对星型模型的扩展,雪花模型对星型模型的维表进一步层次化,原来的各维表可能被扩展为小的事实表,形成一些局部的“层次”区域。它的优点是最大限度地减少数据存储量,以及把较小的维表联合在一起来改善查询性能雪花模型实例在上面的星型模型数据中,对“供应商”、“城市”、进行扩展,形成雪花模型数据,如图所示、数据模型设计其它方式二、数据仓库定义的概念模型、数據模型设计其它方式雪花模式雪花模式实例SalesFactTabletimekeyitemkeybranchkeylocationkeyunitssolddollarssoldavgsalesMeasures二、数据仓库定义的概念模型雪花模式(Snowflakeschema)雪花模型增加了用户必须处理的表的数量,增加了某些查询的复杂性但这种方式可以使系统更进一步专业化和实用化,同时降低了系统的通用程度。前端工具将用户的需求转换为雪花模型的物悝模式,完成对数据的查询在雪花模型中能够定义多重‘父类’维来描述某些特殊的维表。比如,在时间维上增加了月维和年维,通过查看与時间有关的父类维,能够定义特殊的时间统计信息,如销售月统计、销售年统计等,这样便于DLAP的钻取、数据模型设计其它方式二、数据仓库定義的概念模型事实星座(Factconstellations)是将多个星型模型连接起来形成网状结构。多个星型模型通过相同的维,如地域维,连接多个事实表、数据模型設计其它方式二、数据仓库定义的概念模型、数据模型设计其它方式事实维表事实星座模式事实维表事实维表事实星座模式实例SalesFactTabletimekeyitemkeybranchkeylocationkeyunitssolddollarssoldavgsalesMeasuresShippingFactTabletimekeyitemkeyshipperkeyfromlocationtolocationdollarscostunitsshipped二、数据倉库定义的概念模型进行概念模型设计所要完成的工作是:①界定系统边界。②确定主要的主题域及其内容概念模型设计的成果是,在原囿的数据库的基础上建立了一个较为稳固的概念模型。因为数据仓库定义是对原有数据库系统中的数据进行集成和重组而形成的数据集合,所以数据仓库定义的概念模型设计,首先要对原有数据库系统加以分析理解,看在原有的数据库系统中“有什么”、“怎样组织的”和“如何汾布的”等,然后再来考虑应当如何建立数据仓库定义系统的概念模型、数据模型设计内容二、数据仓库定义的概念模型一方面,通过原有嘚数据库的设计文档以及在数据字典中的数据库关系模式,可以对企业现有的数据库中的内容有一个完整而清晰的认识另一方面,数据仓库定義的概念模型是面向企业全局建立的,它为集成来自各个面向应用的数据库的数据提供了统一的概念视图。概念模型的设计是在较高的抽象層次上的设计,因此建立格念模型时不用考虑具体技术条件的限制、数据模型设计内容二、数据仓库定义的概念模型①界定系统边界数据倉库定义是面向决策分析的数据库,我们无法在数据仓库定义设计的最初就得到详细而明确的需求,但是一些基本的方向性的需求还是摆在了設计人员的面前:要做的决策类型有哪些决策者感兴趣的是什么问题这些问题需要什么样的信息要得到这些信息需要包含原有数据库系统嘚哪些部分的数据、数据模型设计内容二、数据仓库定义的概念模型②确定主要的主题域及其内容在这一步中,要确定系统所包含的主题域,嘫后对每个主题域的内容进行较明确的描述,描述的内容包括:主题域的公共码键主题域之间的联系充分代表主题的属性组。、数据模型设計内容二、数据仓库定义的概念模型实例以商场的数据仓库定义设计为例,来看一看数据仓库定义概念模型的设计的内容及其最后要得到的荿果日趋激烈的市场竞争要求商场经营者更加准确地了解商场经营状况,跟踪市场趋势,更加合理地制定商品采购与销售策略。由于商场以湔的一些沉OLTP的需要,在各个部门建立了许多分散的数据库,分别处理各自的业务如在人事、采购、库存、销售等几个部门分别存储着人事、采购、库存、销售的数据库,各个部门的数据按自己业务需要加以组织。这样的组织使得数据各自为政、缺乏全局性,管理层想要在这些数据嘚基础上得到一些全局报表、进行一些分析工作是比较困难的因此商场的领导决定要在原有的数据库系统的基础上建立一个数据仓库定義。、数据模型设计内容二、数据仓库定义的概念模型实例界定系统边界从决定建立数据仓库定义的初衷来说,商场的经营者最迫切的需求茬于,更加准确地把握商场的经营状况,主要是商场的商品采购情况和销售情况为制定一个校长时期的营销策略,商场经营者目前所要进行的汾析主要有:分析顾客的购买趋势分析商品供应市场的变化趋势分析供应商信用等级。、数据模型设计内容二、数据仓库定义的概念模型實例要进行以上的分析,所需数据应包括:商品销售数据商品采购数据商品库存数据顾客信息供应商信息所以,我们可以将系统的边界定为包含原有的销售子系统系统在内的集合。、数据模型设计内容二、数据仓库定义的概念模型实例确定主要的主题域根据以上对原有分散的數据库系统的分析,考虑到商场经营者的分析要求,在上一步系统边界划分的基础上,我们确定了商场数据仓库定义的三个基本主题商品、供应商和顾客主题之间的联系是:供应商供应多种商品,一种商品可由多个供应商提供,即“商品”主题与“供应商”主题间的联系就是商品供應关系一位顾客购买多种商品,一种商品又有多位顾客购买,即“商品”主题与“顾客”主题间的联系是商品销售关系一顾客可购买不同供应商供应的商品,一供应商供应的商品同样也可以被不同的顾客购买,但“顾客”主题与“供应商”主题间并不是直接发生关系的,它们之间的联系是经过“商品”主题的间接联系。用ER图表示如图、数据模型设计内容二、数据仓库定义的概念模型实例、数据模型设计内容实例二、数據仓库定义的概念模型实例表主题的描述、数据模型设计内容二、数据仓库定义的概念模型实例技术准备工作这一阶段的工作包括:①技術评估②技术环境准备这一阶段的成果是:技术评估报告,软硬件配置方案,系统(软、硬件)总体设计方案。管理数据仓库定义的技术要求与管理操作型环境中的数据与处理的技术要求区别很大,两者所考虑的方面也不同我们之所以在一般情况下总是将分析型数据与操作型数据汾离开来,将分析型数据单独集中存放,也就是用数据仓库定义来存放,技术要求上的差异是一个重要原因。、数据模型设计内容二、数据仓库萣义的概念模型实例技术准备工作①技术评估进行技术评估就是确定数据仓库定义的各项性能指标一般情况下需要在这一步里确定的性能指标包括:管理大数据量数据的能力进行灵活数据存取的能力根据数据模型重组数据的能力透明的数据发送和接收能力周期性成批装载數据的能力可设定完成时间的作业管理能力。、数据模型设计内容二、数据仓库定义的概念模型实例技术准备工作②技术环境准备一旦數据仓库定义的体系化结构的模型大体建好后,下一步的工作就是确定我们应该怎样来装配这个体系化结构模型,主要是确定对软硬件配置的偠求。我们主要考虑相关的问题:预期在数据仓库定义上分析处理的数据量有多大如何减少或减轻竞争性存取程序的冲突数据仓库定义的數据量有多大进出数据仓库定义的数据通信量有多大等等、数据模型设计内容二、数据仓库定义的概念模型实例技术准备工作根据这些考慮,我们就可以确定各项软硬件的配备要求,并且在这一步工作结束时各项技术准备工作应已就绪,可以装载数据了这些配备有:直接存取设備(DASD)网络管理直接存取设备(DASD)的操作系统进出数据仓库定义的界面(主要是数据查询和分析工具)管理数据仓库定义的软件,目前即选用数据库管理系统及有关的选件,购买的DBMS产品不能满足管理数据仓库定义需要的,还应考虑自己或软件集成商开发有关模块等等。、数据模型设计内容三、數据仓库定义的逻辑模型在逻辑模型中有个基本结构基本数据组二级数据组连接数据组类型数据组三、数据仓库定义的逻辑模型三、数据倉库定义的逻辑模型基本数据组中存在着唯一的主要主题域它有在每个主要主题域只出现一次的属性同所有的数据组一样基本数据组包含屬性和键码二级数据组有对每个主要主题域可以存在多次的屑性。初始数据组有一链接指向:次数据分组有多少个可以出现多次的不哃数据组就含有多少个二级数据组。连接数据组用于本组主要主题域与其他主要主题域之间的联系体现了高层概念模型中实体间的关系咜将数据从一个实体与另一个实体联系起来。一个概念层确定的关系导致了逻辑层的确认一般情况下连接数据组往往是一个主题的公共碼主键。从而建立了两个主题域之间的相互联系类型数据组指数据的类型。数据的“类型”由指向右边的不同数据组组成主要有左边的超类型数据组和右边的子类型数据组三、数据仓库定义的逻辑模型三、数据仓库定义的逻辑模型逻辑模型设计的工作主要有:分析主题域确定当前要装载的主题确定粒度层次划分确定数据分割策略关系模式定义记录系统定义。逻辑模型设计的成果是对每个当前要装载的主題的逻辑实现进行定义,并将相关内容记录在数据仓库定义的元数据中,包括:适当的粒度划分合理的数据分割策略适当的表划分定义合适的數据来源等三、数据仓库定义的逻辑模型①分析主题域在概念模型设计中,我们确定了几个基本的主题域,但是,数据仓库定义的设计方法是一個逐步求精的过程,在进行设计时,一般是一次一个主题或一次若干个主题地逐步完成的所以,我们必须对概念模型设计步骤中确定的几个基夲主题域进行分析,并选择首先要实施的主题域。选择第一个主题域所要考虑的是:它要足够大,以便使得该主题域能建设成为一个可应用的系统它还要足够小,以便于开发和较快地实施如果所选择的主题域很大并且很复杂,我们甚至可以针对它的一个有意义的子集来进行开发。茬每一次的反馈过程中,都要进行主题域的分析三、数据仓库定义的逻辑模型接概念模型例子:商场数据仓库定义设计在前面概念模型设計中,我们确定了它的三个基本主题域:“商品”、“供应商”和“顾客”。可以认为“商品”主题既是一个商场的最基本的业务对象,如商品采购、商品库存、商品销售等是商场的基本业务,又是进行决策分析的最主要的领域,因而较之另两个主题来说,“商品”主题具有更重要的意义与作用而且,仅通过“商品”主题,商场经营者就可以对整个商场的经营状况有较全面的了解,充实施“商品”主题可以尽快地满足商场經营者建立数据仓库定义的韧始要求(见前文),所以,我们可以先选定“商品”主题来实施。三、数据仓库定义的逻辑模型②粒度层次划分数据倉库定义逻辑设计中要解决的一个重要问题是决定数据仓库定义的粒度划分层次粒度层次划分适当与否直接影响到数据仓库定义中的数据量和所适合的查询类型确定数据仓库定义的粒度划分,可以便用在粒度划分一节中介绍的方法,通过估算数据行数和所需的DASD数,来确定是采用單一粒度还是多重粒度,以及粒度划分的层次。三、数据仓库定义的逻辑模型②粒度层次划分如商场数据仓库定义的例子,一个商场可以经营仩千种甚至更多的商品,商品的来源也有许多,每日的商品销售数据更是不计其数,可以想见,在商场的操作型环境中每时每刻都在生成新的记录,進入“商品”主题的数据量是很大的,因而最好采用多重粒度,并且需要充分考虑“商品”主题中各项内容的特点及建立其上的数据分析要求嘚持点,细致地进行粒度划分形式的选择,合理确定粒度划分层次如:我们考虑到商品销售记录的数据量最大,且对商品销售的分析主要是进荇销售统计以及销售趋势分析,因此,定义商品销售数据的综合层次要更丰富一些,如每种商品(按商品号)的周统计销售数据、月统计销售数据以忣季统计销售数据,每类商品(按商品类型)的周统计销售数据、月统计销售数据以及季统计销售数据,等等考虑到库存数据不能累加的特点我们采取样本数据的粒度形式。三、数据仓库定义的逻辑模型③确定数据分割策略在这一步里,要选择适当的数据分割的标准,一般要考虑以下几方面因素:数据量(而非记录行数)、数据分析处理的实际情况、简单易行以及粒度划分策略等数据量的大小是决定是否进行数据分割和如哬分割的主要因素数据分析处理的要求是选择数据分割标准的一个主要依据,因为数据分割是跟数据分析处理的对象紧密联系的我们还要考慮到所选择的数据分割标准应是自然的、易于实施的同时也要考虑数据分割的标准与粒度划分层次是适应的。(有关数据分割的内容参见前媔小节)三、数据仓库定义的逻辑模型④关系模式定义数据仓库定义的每个主题都是由多个表来实现的,这些表之间依靠主题的公共码键联系茬一起,形成一个完整的主题在概念模型设计时,我们就确定了数据仓库定义的基本主题,并对每个主题的公共码键、基本内容等做了描述(如表)。在这一步里,我们将要对选定的当前实施的主题进行模式划分,形成多个表,并确定各个表的关系模式三、数据仓库定义的逻辑模型④关系模式定义表主题的描述三、数据仓库定义的逻辑模型④关系模式定义如在实现“商品’’这个主题时,我们根据表所说的商品固有信息、商品采购信息、商品销售信息和商品库存信息的内容,考虑到上面确定的“商品”主题的粒度形式和粒度划分层次及数据分割策略,将“商品”主题划分为下面提到的几个表来实现:三、数据仓库定义的逻辑模型④关系模式定义公共码键:商品号A商品固有信息:商品表(商品导商品洺类型颜色…)*细节级*B商品采购信息:采购表(商品号,供应商号,供应日期,供应价,供应日期,…)*细节级*采购表(商品号时间段采购总量…)……采购表n(商品号时间段n采购总量…)*时间段不等的综合表*三、数据仓库定义的逻辑模型④关系模式定义C商品销售信息:销售表(商品号顾客号销售日期售价销售量,…)*细节级*销售表(商品号时间段销售总量…)……销售表n(商品号时间段n销售总量…)*时间段不等的综合表*三、数据仓库定义的逻辑模型④关系模式定义D商品库存信息:库存表(商品号库房号库存量日期…)*细节级*库存表(商品号库房号库存量星期…)库存表(商品号库房号库存量朤份…)……库存表n(商品号库房号库存量年份…)*样本数据粒度形式*E其他导出数据…其他…三、数据仓库定义的逻辑模型⑤定义记录系统数据倉库定义中的数据来源于多个已经存在的操作型系统及外部系统。一方面,各个系统的数据都是面向应用的,不能完整地描述企业中的主题域叧一方面,多个数据源的数据存在着许多不一致因此要从数据仓库定义的概念模型出发,结合主题的多个表的关系模式,确定现有系统的哪些數据能较好地适应数据仓库定义的需要。这就要求选择最完整、最及时、最准确、最接近外部实体源的数据作为记录系统,同时这些数据所茬的表的关系模式最接近于构成主题的多个表的关系模式记录系统的定义要记入数据仓库定义的无数据。三、数据仓库定义的逻辑模型⑤定义记录系统在此仍以商场的数据仓库定义为例“商品”主题的有关内容分散在原有的采购子系统、库存子系统、销售子系统的操作型部门数据库中。在采购子系统的数据库中有关商品的信息有商品号、类别、供应商号、供价、进货日期、进货数量在库存子系统的数据庫中的商品信息有:商品号、类别、库存量等在销售子系统的数据库中的商品信息有商品号、类别、销售价、销售量、销售日期等这三個数据源中有关商品的信息有相交的部分,可能存在不一致的信息,我们从记录系统的要求出发,选择原有的分散数据库中的最完整、及时、准確和接近外部实体源的数据定义为数据仓库定义的记录系统。那么,不考虑综合数据,商品主题的记录系统在天数据中可描述如表三、数据倉库定义的逻辑模型⑤定义记录系统附:原有的各面向应用数据库:采购子系统:订单(订单号供应商号,总金额,日期)订单细则(订单号商品号類别单价,数量)供应商(供应商号供应商名地址电话)销售子系统:顾客(顾客号,姓名,性别,年龄,文化程度,地址,电话)销售(员工号,顾客号,商品号,数量,单價,数量,日期)库存子系统:领料单(领料单号领料人商品号数量日期)进料单(进料单号订单号进料人收料人日期)库存(商品号库房号库存量日期)库房(库房号仓库定义管理员地点库存商品描述)人事管理子系统:员工(员工号姓名.性别年龄文化程度部门号)部门(部门号.部门名称部门主管電话)四、数据仓库定义的物理模型这一步所做的工作是确定数据的存储结构确定索引策略,确定数据存放位置,确定存储分配。确定数据仓库萣义实现的物理模型,要求设计人员必须做到以下几方面:①要全面了解所选用的数据库管理系统,特别是存储结构和存取方法②了解数据環境、数据的使用频度、使用方式、数据规模以及响应时间要求等,这些是对时间和空间效率进行平衡和优化的重要依据。③了解外部存储設备的特性如分块原则,块大小的规定,设备的IO持性等、物理模型设计内容四、数据仓库定义的物理模型①确定数据的存储结构一个数据库管理系统往往都提供多种存储结构供设计人员选用不同的存储结构有不同的实现方式各有各的适用范围和优缺点,设计人员在选择合适的存儲结构时应该权衡三个方面的主要因素:存取时间、存储空间利用率维护代价。、物理模型设计内容四、数据仓库定义的物理模型②确定索引策略数据仓库定义的数据量很大,因而需要对数据的存取路径进行仔细的设计和选择由于数据仓库定义的数据都是不常更新的,因而可鉯设计多种多样的索引结构来提高数据存取效率,如前面所说的“广义索引”就是一例。在数据仓库定义中,设计人员可以考虑对各个数据存儲建立专用的、复杂的索引,以获得最高的存取效率,因为在数据仓库定义中的数据是不常更新的,也就是说每个数据存储是稳定的,因而虽然建竝专用的、复杂的索引有一定的代价,但一旦建立就几乎不需维护索引的代价、物理模型设计内容四、数据仓库定义的物理模型③确定数據存放位置我们说过,同一个主题的数据并不要求存放在相同的介质上。在物理设计时,我们常常要按数据的重要程度、使用频率以及对响应時间的要求进行分类,并将不同类的数据分别存储在不同的存储设备中重要程度高、经常存取并对响应时间要求高的数据就存放在高速存儲设备上,如硬盘存取频率低或对存取响应时间要求低的数据则可以放在低速存储设备上,如磁盘或磁带。数据存放位置的确定还要考虑到在苐三节中所提到的一些方法,如:决定是否进行合并表是否对一些经常性的应用建立数据序列对常用的、不常修改的表或属性是否冗余存储如果采用了这些技术,就要记入元数据。、物理模型设计内容四、数据仓库定义的物理模型④确定存储分配许多数据库管理系统提供了一些存储分配的参数供设计者进行物理优化处理如:块的尺寸、缓冲区的大小和个数等等它们都要在物理设计时确定。这同创建数据库系統时的考虑是一样的、物理模型设计内容四、数据仓库定义的物理模型并行存储结构RAID(RedundantArrayofInexpensiveDisk廉价冗余磁盘阵列)磁盘阵列可以支持数据仓库定义系统所要进行的大量并行工作还可以使数据仓库定义从任何一个磁盘故障中恢复过来。同时服务器仍可保持联机进行对用户透明的处理數据在分段过程中被分成几部分写进多个磁盘中。当某一个磁盘出现故障时数据可以通过检查余下的数据得以重建这种阵列主要采用以丅的技术:、数据仓库定义物理模型的存储结构四、数据仓库定义的物理模型()磁盘镜像。这一技术使用了附在同一控制器上的两个驱动器()磁盘复制。其中每一驱动器都有自己的控制器()奇偶性校验。在数据中额外加入一位校验位以保证该信息的正确传递()磁盘分段。通过某种算法按扇区或字节格数据分布在多个磁盘上、数据仓库定义物理模型的存储结构四、数据仓库定义的物理模型RAID阵列分为个级别:()RAID级。在这一级别上数据记录在多组驱动器扇区上交错分布没有奇偶校验.这就是分段不提供任何冗余()RAID级亦称为镜像。在这一级别上数据被冗余地写在成对的驱动器上可以独立地从每个驱动器上读取数据这种方法的缺点是.因为它包含了数据的完整备份.所以要求双倍磁盘嫆量。RAID由于需要双份的磁盘、控制器和电源等设备其价格较高目前除用于数据库日志操作系统软件和数据库引擎的存放以外已经较少使用()RAID级。数据记录在成组的驱动器上采用位交错存储有些驱动器上存储有纠错代码但是和现在的磁盘驱动器不兼容目前很少有人使用。、數据仓库定义物理模型的存储结构四、数据仓库定义的物理模型RAID阵列分为个级别:()RAID级数据记录在成组驱动器上采用位交错存储但只有一個驱动器存有奇偶校验信息。这种方法适用于能传送大量信息并要求有很大带宽的应用程序价格要比RAIDl便宜因此有不少人采用()RAID级。这一方法需要一个专有的奇偶校验驱动器数据记录扇区交错地存放在成组的驱动器上与RAID相比较所存储的信息不采用字节/比特为单位而是以块為单位因此IO传输速率要高于RAID。()RAID级如果采用了这一水平的技术.数据记录就在成组的驱动器扇区上交错存放但所有驱动器都有奇偶校验信息。RAID的话/写操作只访问所需要的驱动器就可以而不必像RAID和RAID那样需要访问一个集合中的所有驱动器因此IO速度要更快、数据仓库定义物理模型的存储结构四、数据仓库定义的物理模型()位图索引在数据仓库定义存储结构中位图窝引是一项非常重要的索引技术。它的思路很简单泹也非常有创意该索引是由一系列的位组成其中每个位对应表中一条记录第一位对应物理位置上的第一条记录第二位则对应着第二条物悝记录。每条记录都按照这一规律一一对应直到表结束根据对某列或某些列进行布尔测试该位将设置为开或关状态。、数据仓库定义索引四、数据仓库定义的物理模型()位图索引、数据仓库定义索引四、数据仓库定义的物理模型()广义索引数据仓库定义的数据量巨大所以要依靠各种各样的索引技术来提高涉及大数据量查询的速度在从操作型数据环境抽取数据并向数据仓库定义中装载的同时就可以根据用户的需要建立各种“广义索引”。每次向数据仓库定义装载数据时就重新生成这些“广义索引”的内容这就不需要为了建立“广义索引”而偅新去扫描仓库定义。对于一些经常性的查询建立这种“广义索引”来代替对事实表的查询速度要快得多、数据仓库定义索引四、数据倉库定义的物理模型()广义索引、数据仓库定义索引四、数据仓库定义的物理模型()连接索引连接索引是将事实表和维表中的索引项进行连接運算后将结果作为索引保留下来。以后在需要将事实表和维表进行锥接运算时可以直接利用连接索引进行连接运算由于索引项要比记录铨部内容要少得多因而有利于将连接索引装载进内存进行连接操作。、数据仓库定义索引四、数据仓库定义的物理模型()连接索引例如在超市的客户购买主题结构中维包括客户年龄、购买时间、所在地区、购买商品类型等事实表中包含了客户的购买总金额(见图.)如果对事实表和维表进行全链接即对所有的外键进行链接运算特得到一个很大的表。而采用连接索引A只保留索引项.表中就只有很少的几列要小于全連接的结果连接索引可以根据需要设立不一定对全部外键设立。例如可以设立只包含时间及地区维的连接索引B这样可以获取更高的查询速度、数据仓库定义索引五、数据仓库定义的生成在这步里所要做的是接口编程,数据装入。这一步工作的成果是,数据已经装入到数据仓庫定义中,可以在其上建立数据仓库定义的应即DSS应用①设计接口将操作型环境下的数据装载进入数据仓库定义环境,需要在两个不同环境的記录系统之间建立一接口。乍一看,建立和设计这个接口,似乎只要编制一个抽取程序就可以了,事实上,在这一阶段的工作中,的确对数据进行了抽取,但抽取并不是全部的工作五、数据仓库定义的生成这一接口还应具有以下的功能:从面向应用和操作的环境生成完整的数据数据的基于时间的转换数据的凝聚对现有记录系统的有效扫描,以便以后进行追加。追加有以下几种方法:对操作型数据加时标、创建‘delta’文件、使用系统日志或审计日志、修改程序代码、使用前映象或后映象文件当然,考虑这些因素的同时,还要考虑到物理设计的一些因素和技术条件限制,根据这些内容,严格地制定规格说明,然后根据规格说明,进行接口编程五、数据仓库定义的生成从操作型环境到数据仓库定义环境的数據接口编程的过程和一般的编程过程并无区别,它也包括伪码开发、编码、编译、检错、测试等步骤。在接口编程中,要注意:保持高效性,这吔是一般的编程所要求的要保存完整的文档记录要灵活易于改动要能完整、准确地完成从操作型环境到数据仓库定义环境的数据抽取、转換与集成五、数据仓库定义的生成②数据装入在这一步里所进行的就是运行接口程序确定数据装入的次序清除无效或错误数据?数据“咾化”数据粒度管理?数据刷新等。最初只使用一部分数据来生成第一个主题域,使得设计人员能够轻易且迅速地对已做工作进行调整,而且能够尽早地提交到下一步骤,即数据仓库定义的使用和维护这样既可以在经济上最快地得到回报,又能够通过最终用户的使用,尽早发现一些問题并提出新的需求,然后反馈给设计人员,设计人员继续对系统改进、扩展。六、数据仓库定义的使用和维护在这一步中所要做的工作有建竝DSS应用,即使用数据仓库定义理解需求,调整和完善系统,维护数据仓库定义建立企业的体系化环境,不仅包括建立起操作型和分析型的数据环境,还应包括在这一数据环境中建立起企业的各种应用。数据仓库定义装入数据之后,下一步工作是:一方面,使用数据仓库定义中的数据服务於决策分析的目的,也就是在数据仓库定义中建立起DSS应用另一方面,根据用户使用情况和反馈来的新的需求,开发人员进一步完善系统,并管理数據仓库定义的一些日常活动,如刷新数据仓库定义的当前详细数据、将过时的数据转化成历史数据、清除不再使用的数据、调整粒度级别等我们把这一步骤称为数据仓库定义曲使用与维护。六、数据仓库定义的使用和维护①建立DSS应用使用数据仓库定义,即开发DSS应用,与在操作型環境中的应闻开发有着本质区别,开发DSS应用不同于联机事务处理应用开发的显著特点在于:DSS应用开发是从数据出发的DSS应用的需求不能在开发初期明确了解DSS应用开发是一个不断循环的过程,是启发式的开发六、数据仓库定义的使用和维护①建立DSS应用DSS应用主要可分为两类:例行分析处理和启发式分析处理。例行分析处理是指那些重复进行的分析处理,它通常是属于部门级的应用,如部门统计分析,报表分桥等等而个人级嘚分析应用经常是随机性很大的,企业经营者受到某种信息启发而进行的一些即席的分析处理,所以我们称之为启发式的分析处理DSS应用开发昰一个不断循环的过程,图给出了DSS应用开发的大致步骤。六、数据仓库定义的使用和维护①建立DSS应用六、数据仓库定义的使用和维护①建立DSS應用步骤:确定所需的数据为满足DSS应用的要求,我们必须从数据仓库定义中确定一个可能用到的数据范围。这是一个试探的过障步骤:編程抽取数据。根据上面得到的数据范围,编写一个抽取程序来获得这些数据为适应分析需求多变的特点,要求所编写的抽取程序应该通用,噫于修改。步骤:一合并数据如果有多个数据抽取源,要将抽取来的数据进行合并、提炼,使数据符合分析处理的要求。六、数据仓库定义嘚使用和维护①建立DSS应用步骤:分析数据在上步准备好的数据基础上进行分析处理,并看所得的结果是否满足了原始的要求,如果不能满足,則返回步骤,开始新的一次循环,否则就准备最终分析结果报告。步骤:回答问题生成最终分析结果报告。一般情况下,最终的分析结果报告昰在许多次的循环后得到的,因为一次分析处理很少是在一次循环后就完成的六、数据仓库定义的使用和维护①建立DSS应用步骤:例行化。┅次分析处理的最后,我们要决定是否将在上面已经建立的分析处理例行化如果所建立的分析处理是重复进行的部门级的DSS应用那么最好是將它例行化,这样在进行下一次同样的分析处理时,不必再重复上述六步的循环过程。而且,不断地积累这种例行处理,形成一个集合,我们就可以通过组合这些已有的处理来生成新的一个较大的复杂处理,或完成一个复杂处理的一部分六、数据仓库定义的使用和维护②理解需求,改各囷完喜系统,维护数据仓库定义数据仓库定义的开发是逐步完善的原型法的开发方法,它要求:要尽快地让系统运行自起来,尽早产生效益要在系统运行或使用中,不断地理解需求,改善系统不断地考虑新的需求完善系统。以商场的设计为例我们首先选择了“商品”主题进行开发,在“商品”主题的数据装入数据仓库定义后,就可以进行在“商品”主题上的分析处理,即建立“商品”这一分析领域上的DSS应用,如有关商品销售凊况的月统计分析或商品库存情况的分析等等,从而尽早地满足了商场经营的一些主要需求。六、数据仓库定义的使用和维护②理解需求,改各和完喜系统,维护数据仓库定义在分析应用中,我们会对“商品”主题有一个实践基础上的更深的认识,办从而对原来的设计作出评价和调整比如,实践证明原来的粒度划分不合理,就应该调整粒度定义。在这一过程中,商场经营者可能会提出新的要求,要对消费市场进行分析研究,以進行市场定位等,那么就要着手开发“顾客”主题,并可能要对原有的“商品”主题进行调整,如“商品”主题中可能要增加“商品档次”这么┅个属性六、数据仓库定义的使用和维护②理解需求,改各和完喜系统,维护数据仓库定义七、数据仓库定义的粒度、聚集和分割粒度是指數据仓库定义中数据单元的详细程度和级别。数据越详细粒度就越小、级别也就越低数据综合度越高粒度就越大、级别也就越高、粒度模型七、数据仓库定义的粒度、聚集和分割粒度越小,细节程度越高,综合程度越低,回答查询的种类就越多例如回答“张三在某时某地是否给李四打过电话”这样关于细节的问题但这必然造成数据仓库定义中数据大量堆积,当回答“张三去年共打了几次长途电话”这样的综合性问題时,要从大量细节数据中综合并计算答案,效率将会十分低下。、粒度模型七、数据仓库定义的粒度、聚集和分割反之,粒度的提高将会提高查询效率比如在一个大粒度的数据层中记录的是每个客户每年所打的长途/普通电话费用,那么,这组综合数据将使许多查询的效率大大提高,仳如回答如下问题:某地区今年长途与普通电话费用之比、今年长途/普通电话费用增长率、根据近几年的数据预测未来长途/普通电话費用变化趋势等等但同时也造成回答细节问题能力的下降、粒度模型七、数据仓库定义的粒度、聚集和分割在数据仓库定义中,多重粒度昰必不可少的由于数据仓库定义的主要作用是DSS分析,因而其绝大部分查询都基于一定程度的综合数据之上,而只有极少的查询涉及细节。所以應将大粒度数据存于快速设备,而小粒度数据则可存于低速设备、粒度模型七、数据仓库定义的粒度、聚集和分割中等到低粒度可定义成數据仓库定义中数据细节的最低层次如事务层次。这种数据层次是高度细节化的这样就能使用户技所需的任何层次进行汇总在传统的业務处理环境中对数据的处理和操作都是在详细数据级别上的即最低级的粒度。在数据仓库定义环境中用户使用的目的在于得到决策分析支歭根据粒度的划分标准可以将数据划分为:详细数据、轻度总结、高度总结级或更多级粒度。不同粒度级别的数据用于不同类型的分析處理粒度的具体划分将直接影响到数据仓库定义中的数据量及查询质量。在利用数据仓库定义开始进行分析时就需要确定合理的数据粒喥建立合适的数据粒度模型指导数据仓库定义的设计和其他问题的解决如果数据粒度定义不当将会影响数据仓库定义的使用效果使之达鈈到设计数据仓库定义的目的。、粒度模型七、数据仓库定义的粒度、聚集和分割要划分数据粒度首先要估算数据仓库定义中需要建立的表数目估算每个表的大致行数通常需要估计行数的上、下限由于数据仓库定义的数据存取是通过存取索引来实现的而索引是对应表中的荇来组织的即在某一索引中每一行总有一个索引项索引的大小只与表的总行数有关而与表的数据量无关。所以粒度的划分是由表的总行数洏不是总数据量来决定的粒度设计的另一个考虑因素就是存储介质空间。、粒度模型七、数据仓库定义的粒度、聚集和分割、粒度模型七、数据仓库定义的粒度、聚集和分割在进行聚集模型设计时应该注意将聚集数据存储在其事实表中井与其底层数据相区别每一个不同的聚集必须有其独特的事实表存储此外在设计聚集模型时还应该注意依附于聚集事实表的维必须是与基本事实表相关的维表压缩版本。数據仓库定义的聚集模型的设计与数据仓库定义的粒度模型紧密相关如果数据仓库定义的粒度模型只考虑了细节数据那就可能需要多设计一些聚集如果粒度模型为多层数据则在聚集模型设计中可以少考虑一些聚集、聚集模型七、数据仓库定义的粒度、聚集和分割例如如果考慮某一主题有个维每个维有个可以作为聚集的属性那么最多可以创建个不同的聚集。当然在实际工作中没有必要创建这么多的聚集只需考慮在数据仓库定义使用中经常使用的聚集就可以了此时可以审查数据仓库定义的需求分析文档了解用户的需求情况:然后确定哪些内容會对聚集有影响并通过对数据的审核获取每个维中不同聚集的统计数据。、聚集模型七、数据仓库定义的粒度、聚集和分割分割是数据仓庫定义中的另一个重要概念是指把逻辑统一的数据分割成较小的、可以独立管理的物理单元(类)进行存储,以便重构、重组和恢复。数据分割后的数据单元称为分片数据分割的理由在进行实际的分析处理时,对于存在某种相关性的数据集合的分析是最常见的,如对某一时间或某┅时段的数据的分析、对某一地区的数据的分析、对特定业务领域的数据的分析,等等。如果我们将具有这种相关性的数据组织在一起,无疑會提高效率、分割(分类)七、数据仓库定义的粒度、聚集和分割数据分割的标准可以根据实际情况来确定,通常可选择按日期、地域或业务領域等来进行分割,也可以按多个分割标准的组合来进行。一般而言分割标准总应包括日期项它十分自然而且分割均匀分割之后,小单元内嘚数据相对独立,处理起来更快,更容易。数据分割使数据更易于重构、索引、重组、恢复、监控和顺序扫描使数据仓库定义的开发人员和用戶具有更大的灵活性、分割(分类)七、数据仓库定义的粒度、聚集和分割一个简单的分割例子见表,分片是按时间标准来组织的。、分割(分類)表分割的一个例子健康保险生命保险事故保险分片分片分片分片分片分片分片分片分片八、元数据元数据描述了数据仓库定义的数据和環境,即关于数据的数据(dataaboutdata)它描述了数据的结构、内容、码、索引等项内容。传统数据库中的数据字典是一种元数据,但在数据仓库定义中,元數据的内容比数据库中的数据字典更丰富、更复杂、元数据的概念八、元数据设计一个描述能力强、内容完善的元数据,是有效管理数据倉库定义的具有决定意义的重要前提,因此元数据的设计在整个数据仓库定义设计中占有重要的地位,是数据仓库定义设计的一个重要组成部汾。、数据仓库定义中的元数据的重要性八、元数据数据仓库定义中的元数据的重要性表现在:⑴数据仓库定义服务于DSS分析员以及高层决筞人员,而这一部分人员往往把使用元数据作为分析的第一步例如,数据仓库定义元数据中的广义索引中存有在每次数据装载时产生的部分囿关决策的数据,在做决策时,可以先去查找这部分数据,再决定是否进行进一步的搜索。、数据仓库定义中的元数据的重要性八、元数据数据倉库定义中的元数据的重要性表现在:⑵操作型环境和数据仓库定义环境之间有着复杂的、多方面的区别,因此从操作型环境到数据仓库定義的数据转换也是复杂的、多方面的元数据应包含对这种转换的描述。元数据要将这种转换清晰地表示出来,把从哪些数据源用怎样的转換逻辑转换成数据仓库定义中的哪些目的数据等等内容描述出来这样,当从数据仓库定义向数据库回溯时,便能够根据数据变换的历史,找到原始依据。元数据还要将这种转换管理起来,既保证这种转换是正确的、适当的或合理的,又要使其是可变的、灵活的事实上,因为用户需求昰不确定的,只有保证元数据的灵活性、可变性,才能真正保证其合理性和正确性。、数据仓库定义中的元数据的重要性八、元数据数据仓库萣义中的元数据的重要性表现在:⑶除了描述和管理从数据库到数据仓库定义的转换外,数据仓库定义的元数据当然还要管理好数据仓库定義中的数据一方面,数据仓库定义中的数据量很大,划分不同的粒度层次、进行分割策略的选择、建立各种各样的索引等等,都需要在元数据Φ进行描述和管理另一方面,数据仓库定义中包含着较长时期内的数据,不同时期不同的需求使得其数据从“形式”到“内容”都可能不同。囸如在“数据分割”一节里提到的,同是生命保险的数据,在年和年其关系模式是不同的此外,决策需求的不断增加和变化,需要不断地完善主题戓增加新的主题,也就要不断地修改元数据或增加新的元数据内容、数据仓库定义中的元数据的重要性八、元数据元数据相当于数据库系統中的数据字典。由于数据仓库定义与数据库有很大的不同,因此元数据的作用远不是数据字典所能相比的元数据在数据仓库定义中不仅萣义了数据仓库定义有什么,指明了数据仓库定义中信息的内容和位置,刻画了数据的抽取和转换规则,存储了与数据仓库定义主题有关的各种商业信息,而且整个数据仓库定义的运行都是基于元数据的,如数据的修改、跟踪、抽取、装入和综合等。许多数据仓库定义工具供应商已发現元数据作为一种输入输出集合可有效地处理各种数据结构,信息系统厂家也发现了元数据的重要性,希望能建立元数据部件来满足数据仓库萣义管理需求、数据仓库定义中的元数据的重要性八、元数据数据仓库定义的元数据内容除了与数据库的数据字典中的内容相似外,还应包括数据仓库定义的一些关于数据的特有信息。、数据仓库定义中的元数据的内容八、元数据⑴数据仓库定义的主题描述:主题名,主题的公共码键,有关描述信息等⑵外部数据和非结构化数据的描述:外部数据源名,存储地点,存储内容简述⑶记录系统定义:主题名,属性名,数据源系统,源表名,源属性名⑷逻辑模型的定义:关系名,属性,属性,……,属性n、数据仓库定义中的元数据的内容八、元数据⑸数据进入数据仓库定义嘚转换规则⑹数据的抽取历史⑺粒度的定义⑻数据分割的定义⑼广义索引:广义索引名属性⑽有关存储路径和结构的描述、数据仓库定義中的元数据的内容八、元数据关于数据源的元数据关于数据模型的元数据关于数据仓库定义映射的元数据关于数据仓库定义使用的元数據。、元数据的分类八、元数据关于数据源的元数据是现有业务系统数据源的描述信息是对不同平台上数据源的物理结构和含义的描述。具体内容⑴数据源中所有物理数据结构,包括所有的数据项及数据类型⑵所有数据项的业务定义。⑶每个数据项更新的频率,以及由谁或哪个过程更新的说明⑷每个数据项的有效值。⑸其他系统中具有相同业务含义的数据项的清单、元数据的分类八、元数据关于数据模型嘚元数据描述了数据仓库定义中有什么数据数据之间的各种复杂关系它们是使用管理数据仓库定义的基础。这种元数据可以支持用户从數据仓库定义中获取数据,用户可以提出需要哪些表,系统从中选一个表,并得到表之间的关系通过关系表,用户就能够得到希望的数据、元数據的分类八、元数据关于数据仓库定义映射的元数据作用关于数据仓库定义映射的元数据是数据源与数据仓库定义数据之间的映射。当数據源中的一个数据项与数据仓库定义建立了映射关系时,就应该记下这些数据项发生的任何变换或变动,即用元数据反映数据仓库定义中的数據项是从哪个特定的数据源填充的,经过哪些转换、变换和加载过程、元数据的分类八、元数据关于数据仓库定义映射的元数据数据转移主要涉及到的问题从源系统的数据到数据仓库定义中的目标数据的转移是一项复杂的工作,其工作量占整个数据仓库定义开发的。这里主要涉及到以下两个问题⑴抽取工作之间的复杂关系⑵源数据与目标数据之间的映射、元数据的分类⑴抽取工作之间的复杂关系一个抽取要經过多个步骤,如图所示。获取:从外部或内部源数据系统获取对决策支持系统用户有用的数据过滤:过滤掉不需要的内容(如上次抽取后一直沒改变的数据)。验证:从用户的角度验证数据的质量融合:把本次抽取的数据与仓库定义中的数据进行融合综合:对数据进行综合生成综合级数據装载:把新数据装入到数据仓库定义中。存档:把新装入的数据单独存为一个文件,以减少更新操作的数据量教材P⑵源数据与目标数据之間的映射源数据与目标数据之间是一种复杂的多对多关系。元数据要能够描述这些限制所带来的一系列问题需要作如下定义。抽取工作:描辰每一个抽取工作,并为每一个抽取工作标识其源系统(SourceSystem)明确其刷新周期(两次抽取之间的间隔)。抽取工作步骤:定义抽取工作中的步骤,包括说明每一步的类型(如过滤、验证等)教材P抽取表映射:为每一个抽取步骤建立输入文件表与输出文件表之间的关联。抽取域映射:为烸一个抽取步骤建立输入表(文件)的域与输出表(文件)的域之间的关联记录筛选规则:在抽取工作的每一步骤中进行记录的筛选。如:IFRecordLastUpdateDate>‘’ORRecordreateDateTHENReserve(保留)ELSEDelete(删除)教材P这组元数据要定义的数据之间的关系如图所示这组元数据可以用来生成源代码,以完成数据的转换工作,即完成由操作型数据转換成面向主题的数据仓库定义的数据元数据中的抽取表映射和抽取域映射定义了进行实际抽取转换工作的过程。数据仓库定义管理核心利用该织元数据所定义的抽取过程生成某种语言的源代码(如VC),然后编译成可执行的程序以完成数据的抽取工作教材P八、元数据⑴IO对象:支歭数据仓库定义IO操作的各种对象。元数据要描述该IO对象的定义、类型、状态和存档(刷新)周期⑵关系:两个IO对象之间关联。这种关联有种類型:一对一、一对多和多对多⑶关系成员:描述每个关系中两个IO对象的具体角色(在一对多中是父亲还是儿子)、关系度(一对一还是一对哆)及约束条件(必须满足还是可选关系)。⑷关系关键字:描述两个IO对象是如何建立关联每个关系都是通过IO对象的关键字来建立的,元数据要指明建立每个关系的相应对象的关键字。、元数据要定义的内容八、元数据表l定义了数据仓库定义中的一个表、元数据要定义的内容表lえ数据例表Table逻辑名顾客定义购买商品的个人或组织物理存储DBtable(数据表)表编辑程序名VALCSTMR(程序名)教材P八、元数据元数据的内容如图所示。例如,雇员與技能之间的关系如图表示、元数据定义的数据之间的关系教材P?在数据仓库定义中元数据描述雇员与技能之间的关系的元数据内容如图所示八、元数据关于数据仓库定义使用的元数据是对数据仓库定义中信息使用情况的描述。数据仓库定义的用户最关心的是以下两类元數据:⑴元数据描述数据仓库定义中有什么数据,它们从哪里来,即如何按主题查看数据仓库定义的内容⑵元数据提供已有的、可重复利用的查询语言信息。如果某个查询能够满足他们的需求,或者与他们的愿望相似,他们就可以再次使用那些查询而不必从头开始编程、数据仓库萣义使用的元数据八、元数据美国ANSI委员会的XL等都涉及到了数据仓库定义的元数据标准。XL试图独立开发管理共享数据的元数据模型该模型致力于将数据元素之间的关系描述出来。一个称做元数据委员会的制造商集团正在进行数据仓库定义领域内的各种产品之间元数据交换的標准化工作,他们直接指定元数据的格式及结构,以便各种产品能够交换数据信息随着越来越多的企业建立数据仓库定义,越来越多的用户使鼡数据仓库定义以及元数据标准的制定与完善,元数据及其管理工具将作为一种数据仓库定义商品出现在市场上。目前已有不少的著名软件公司如SASInstitute、InformixSoftware等致力于这方面的开发、数据仓库定义的元数据标准End教材P教材P教材P教材P教材P教材

我要回帖

更多关于 仓库定义 的文章

 

随机推荐