`
zhoujinhuang
  • 浏览: 91962 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类
最新评论

数据仓库中的数据形态

阅读更多

对于数据仓库中的数据,我们一般理解都是记录历史变化的。他的定义中也明确提到这一点,所以数据仓库中的事实表一般都有时间或时间戳字段来支持记录的历史变化,而且不光是事实表,维表也要体现历史变化,其中,代理键就起了一定的作用。但是对于ODS层表,他记录的是最近时间的原子数据,忽略了一些历史信息。
 
ODS层表的数据形态按反应历史变化情况可以分成两种,一种是快照型的,一种是事件型的。
 
系统中存在一种数据,如果用ER图表示的话,他们多是被别的数据参照,这种数据不知有没有固定的叫法,这里姑且叫做“主数据”。顾名思义,这些数据是很重要的,是系统的核心数据,被引用的越多越重要。例如产品数据、客户数据,以及一系列的代码数据,都属于主数据。而主数据在ODS层中的存储一般都是选择快照型的形态存储。快照型数据反应的是最近一点时刻,主数据的状态信息,例如客户的状态,客户的信用度等,他们都通过update操作将前次状态或信用度都更新掉了。而另一种数据形态,事件型数据,记录是事件的发生,例如记录一次通话,记录一次开帐等,日志表也属于这种形态,它反应的是对数据的历史操作。这两种形态的数据一个较大的区别就是前者会不断被更新,而后者一般不会做更新操作。
 
理解这两种数据形态对于数据抽取有一些帮助。因此在数据仓库日常的ETL工作中,不可能总是处理全量数据,那个量就太大了,必须寻找增量。这里的增量不是指增加的数据量,还包括修改的和删除的数据。增量的支持对数据源系统是一个很大的考验,对于快照型数据,数据源在实时变化,如何捕捉一个时间段内所有发生变化的数据?一种方法是加入时间戳,所有插入、更新操作都能反应到时间戳,通过选取时间戳在某个时间周期内,就可以得到该周期内的增量数据。但是这种方式没法得到删除的数据(不过一般而言,对于主数据的删除都是很少发生,因为有别的数据在引用它,多数采取删除标记的做法)。还有一种方式得到快照型数据增量,通过数据变更日志,因为每条日志反应的是记录的变化,一个时间周期内出现在日志中的主数据,就是该周期的增量。这种方式还能处理删除数据,但是到了ODS 层,通常也不建议删除任何数据。
 
通过这两种方式获取快照型数据增量都有一些问题。主要是数据源的支持程度,例如是否有时间戳字段?日志是否记录每种主数据变化?有些系统的答案是否。例如数据源的用户表、客户表就很少有时间戳,而对日志,很可能不能反应所有数据状态变化,以前遇到过一种情况,系统有用户开机日志,停机日志,但这些日志是属于营业模块的,而当另一个信用监控模块对用户作出欠费停机处理后,日志中就没有。如果数据源对这两种方式的增量抽取支持都不够的话,可就得想一些办法了,“ 宁杀一千,不放一个”。一边是全量处理的性能矛盾,一边是增量支持不力的矛盾,需要一种平衡。比如对于用户增量数据,在用户表中有一系列时间字段,如开户时间、开机时间、停机时间、销户时间等,通过这些时间的判断,也能得出一种增量,只不过略显麻烦,而且也不能保证数据源对这些时间的维护是一致的。
 
对于事件型数据,处理增量相对直观一些,因为这种数据一般都有时间字段或时间戳。但是增量抽取同样存在一些问题。主要是对历史数据的修改,严格意义上,事件发生了,既成事实,不要在修改这些数据,要修改也只是另外一次事件了。但是数据源存在这种现象去修改历史记录,甚至还有手工修改的,根本无法通过时间信息来获取增量。例如话单重批和帐务调账等操作很多都是修改历史数据。面对这种情况,有时就得作出选择,忽略这些数据变化。

摘自 http://happysboy.bokee.com/100204.html

分享到:
评论

相关推荐

    数据仓库和大数据的区别?.pdf

    ⼤数据与数据仓库不同,它不是⼀套解决⽅案,现在数据⾯临的新形态。传统的数据仓库中存 储的往往是企业内部的数据,特点是结构化的数据。所谓结构话指的是⾮常规整的,类似Excel 表格那样的数据。⼤数据往往是⾮...

    2020 DTC 数据技术嘉年华演讲PPT汇总.zip

    GBase+8a+MPP逻辑数据仓库助力新一代数据仓库和数据中台建设 Oracle的自治数据库和自动化运维新特性与新进展 云时代的数据库技术创新及应用方案分享 创新新技术+共赢新生态 数据驱动的多云平台 基于ArkDB产品体系的...

    从数据库到数据中心

    DDB和NDC是什么? DDB是网易老牌分布式数据库,是网易大体量应用的标配 NDC的网易平台化的异构...DDB和NDC产品形态融合,对外提供统一的管理接口 提供更加高端的解决方案,如异地机房单元化,双向同步,多种OLTP到OLAP

    大数据时代数据挖掘与分析-讲义.pdf

    –数据源:数据仓库 –维度:多维度 –手段:统计分析 –工具:excel、 brio 、spss等 –分析对象:以客户、套餐为主 –数据源:数据仓库 –维度:更多维度 –手段:统计分析、数据挖掘 –工具:excel、 BO、Cognos...

    论文研究-企业集团分布式数据仓库及决策支持系统研究.pdf

    肋骨和脊椎骨的分割是从肝脏CTA(即肝脏CT血管造影)图像中准确分割出肝脏的重要预处理工作,一般考虑阈值分割方法,但该方法常常导致分割不全或过分割。提出了一种将形态学方法和阈值法结合起来的肋骨和脊椎骨分割...

    AI人工智能培训资料(培训PPT+示例代码).zip

    数据挖掘数据分析-4-数据仓库 数据挖掘数据分析-5-分类1-kNN 数据挖掘数据分析-5-分类3-决策树ID3 数据挖掘数据分析-5-分类3-C4.5-CART(选) 数据挖掘数据分析-5-分类4-神经网络 数据挖掘数据分析-5-分类4-bp算法...

    大数据心得体会800字-《大数据》读后感.pdf

    当然数据仓库是面向主题的数据 集合,用于支持管理中的决策制定。个人觉得对公司领导层做出正确决策有很大的指导作 用。2、公司应该加大数据挖掘能力。公司在招聘往里面招聘的所谓数据分析师,只不过 是用来数据监测...

    浅谈大数据技术.docx

    国际知名咨询机构IDC(International Data Corporation)的研究报告预测,未来十年全球大数据将增加50倍,管理数据仓库的服务器的数据将增加10倍。 浅谈大数据技术全文共4页,当前为第1页。 2.数据类型多样(Variety...

    智能商务及应用案例.doc

    利用现代信息技术——这是这一定义中的关键之一,现代信息技术的发展产生了信息 经济和信息社会,在这一新型的经济和社会形态中,信息的爆炸式激增又产生了对能够 处理和控制信息的新技术的强烈需求;商务智能就是...

    大数据的国内外研究现状与发展动态分析报告.doc

    大数据处理的基础设施数据仓库、以物联网为代表的数据收集环节、实时性强 的在线数据分析工具,以及数据可视化的产品呈现,数据挖掘的应用在营销、销售、人 力资源、电子商务等各个商业领域广泛开展,大数据为个性化...

    数据库系统基础知识.doc

    数据库的基本概念 1.1信息、数据及数据处理 1) 信息 信息是对现实世界中各种事物的存在方式或运动形态的反映,它反映的是事物之间的联 系。 2) 数据 数据是信息的符号化表示。 3) 数据处理 数据处理实际上就是...

    人工智能基础层定义.pdf

    过程中需要大量的AI算力、高质量数据源、AI应用算法研发及AI技术人员的支持,但大部分中小企业用户并不具备在"算 力、数据、算法"三维度从0到1部署的能力,而财力雄厚的大型企业亦需高性价比的AI开发部署方案。...

    大数据心得体会.doc

    做了几十年的数据仓库甚至海量并行处理的数据库都不能处理那么大 的数据,怎么办?需要范式切换。主要有三个方面,新型的数据与机器关系当中的第一 条就是重新考虑架构与算法,重新考虑舍得,有舍才能得,天下没有...

    大数据心得体会(1).doc

    做了几十年的数据仓库甚至海量并行处理的数据库都不能处理那么大 的数据,怎么办?需要范式切换.主要有三个方面,新型的数据与机器关系当中的第一条 就是重新考虑架构与算法,重新考虑舍得,有舍才能得,天下没有...

    超市商品进销存管理系统数据库设计.pdf

    它可以用少数几种符号综合 图 1—1 为某超市进销存管理系统的进货业务流程图 图 1—2 为某超市进销存管理系统的销售业务流程图 图 1—3 为某超市管理系统顶层数据流程图 地反映出信息在系统中的流动、处理和存储...

    计算机辅助设计基础A.doc

    功能模块及开发工具层为用户提供主要的功 能模块,包括系统管理、电子仓库与文档管理、产品结构与配置管理、工作流程管理、 零件分类管理与检索、工程变更管理、集成工具等;框架核心层提供了实现PDM各种功能 的核心...

    百度地图开发java源码-ImageProcess:这是一个票据自动识别处理的仓库,希望对有类似业务需求的同学有借鉴意义

    以及一些对相似业务有指引意义的文章或仓库链接,总体来说,自己从这次项目当中学习巩固了不少知识,包括后台业务的处理开发,基于传统形态学处理的图像处理方式,Web后台开发应该有的思考设计方式,blabla.... ...

    智慧航道工程整体解决方案

    智慧航道解决方案的核心是“感知航道”,解决方案通过在航道及沿岸近域建立包括以自组织无线传感网和各种传感单元在内的物联网,实现对航道基础数据及交通航运信息的自动化采集。通过网络互联,搭建多部门相互协调的...

    matlab频谱分析代码-app-reconstructLBeigenfunction:此应用程序将基于选定的特征函数数来重构每个3D模型的表

    人的白色物质形态的形状分析:正常形态变异性和形态,脑大小和行为之间的关联的检查。 印第安纳大学。 2020年 Avesani,P.,McPherson,B.,Hayashi,S.等。 开放式扩散数据衍生产品,通过衍生产品的集成发布和可...

Global site tag (gtag.js) - Google Analytics