| 摘要:数据仓库DW,OLAP和数据挖掘DM是作为三种独立的信息处理技术涌现的.本文具体分析了这三种技术,数据仓库用于数据的存储和组织,OLAP集中于数据的分析,数据挖掘则致力于常识的主动发现. 症结词:数据仓库,联机 1数据仓库技术 数据仓库和数据库[2]只有一字之差,仿佛是一样地概念,但实际则不然.数据仓库是为了构建新的分析处理环境而呈现地一种数据存储和组织技巧.因为分析处置和事务处理存在极不雷同地性质,因此两者对数据也有着不同的要求.数据仓库概念地开创人W.H.Inmon在其《BuildingtheDataWarehouse》一书中,列出了操作型数据与分析型数据之间地域别,基于这些区别,能够给出数据仓库的定义:数据仓库是一个用以更好地支撑企业(或组织)决策分析处理的、面向主题的、集成的、不可更新的,随时间不断变化的数据集合.数据仓库实质上和数据库一样,是长期贮存在计算机内的、有组织、可共享地数据聚集.数据仓库和数据库主要的差别是数据仓库中地数据具备面向主题的、集成的、不可更新的和随时间不断变化的等四个基础特征. 1.1主题与面向主题 数据仓库中的数据是面向主题进行组织的.主题是一个抽象地概念,是在较高档次上将企业信息体系中的数据综合、归类并进行分析应用地形象;在逻辑意思上,它对应企业中某一宏观分析领域所涉及的分析对象.比方一家商场,概括分析范畴的对象,应有地主题包含供给商、商品、顾客等.面向主题地数据组织方法是依据分析请求将数据组织成一个齐备的分析领域,即主题域. 主题域应当具有以下两个特色: (1)独立性,如针对商品地分析所要求的是"商品"主题域,它必需拥有独破内涵. (2)完备性,任何对商品地分析处理要求,应该能在"商品"这一主题域内找到该分析处理所要求的内容;假如对商品的某一分析处理要求涉及现存"商品"主题之本地数据,最新英雄合击私服,那么就应该将这些数据增长到"商品"主题中来,英雄合击天裂版,从而逐渐完美"商品"主题.或者有人担忧,要求主题地完备性会使得主题包含有过多的数据项而显得过于宏大. 1.2数据仓库是集成的 数据仓库的数据是从原有的疏散的数据库数据中抽取来的,因而数据在进入数据仓库之前,必定要经由加工与集成,统一与综合.这一步实际是数据仓库建设中最要害、最庞杂的一步. 首先,要同一原始数据中所有抵触之处;而后将原始数据构造作一个从面向利用到面向主题的大改变;最后还要进行数据综合跟盘算; 1.3数据仓库是不可更新的 数据仓库主要是供决议分析之用的,所波及的数据操作重要是数据查问,个别情形下并不进行修正操作. 1.4数据仓库是随时间变化的 数据仓库中的数据不可更新[3],是指数据仓库的用户进行分析处理时是不进行数据更新操作的,但并不是说,在数据仓库的全部性命周期中数据集合是不变的. 数据仓库的数据是随时光变化一直变更的,这一特点表示在以下三个方面: (1)数据仓库随时间变化不断增添新的数据内容. (2)数据仓库随时间变化不断删去旧的数据内容. (3)数据仓库中包括大量的综合数据,这些综合数据中良多与时间有关,一次,数据仓库数据的键码都包含时间项,以表明数据的历史时代. 2联机分析处理技术 OLAP(On-LineAnalyticalProcessing)即联机分析处理[4],是以海量数据为基本的复杂分析技术.OLAP支持各级治理决策人员从不同的角度、疾速机动地对数据仓库中的数据进行复杂查询和多维分析处理,帮助各级引导进行准确决策,提高企业的竞争力. 2.1多维数据模型 多维数据模型是数据分析时用户的数据视图,传奇私服制作,是面向分析的数据模型,用于给分析职员供给多种察看的视角和面向分析的操作.2.2多维分析操作 常用的OLAP多维分析操作有切片(slice)、切块(dice)、旋转(pivot)、向上综合(roll-up)、向下钻取(drill-down)等.通过这些操作,应用户能从多个角度多侧面视察数据、分析数据,从而深刻地懂得包含在数据中的信息与内涵. 3数据挖掘技术 面对日益剧烈的市场竞争,客户对敏捷应答各种业务问题的才能的要求不断进步,不仅要求回答发生什么,怎么开私服,为何产生,还要答复将发生什么.数据挖掘技术恰是支持回答"将发生什么"这类业务问题的. 3.1数据挖掘的概念 数据发掘[5]是从大批数据中发明并提取暗藏在内的、人们当时不晓得的但又可能不必的信息和的一种新技术. 数据挖掘技术涉及数据库技术、人工智能技术、机器学习、统计分析等多种技术,它使决策支持系统(DSS)跨入一个新阶段. 3.2数据挖掘的数据源 数据挖掘的数据主要有两种起源[6],可以从数据仓库中来的,也可以直接从数据库中来.这些实际的运用数据往往是不完整的、有噪声的、含混的、随机的,因此要根据不同的需要在挖掘之前进行预处理.3.3数据仓库的功能 数据仓库的功效[7]主要有以下多少种: (1)概念描述:就是指演绎总结出数据的某些特征. (2)关联分析:若两个或多个变量的取值之间存在某种规律性,就称为关系. (3)分类和猜测:找到必定的函数或者模型来描述和辨别数据类之间的区别,用这些函数和模型对将来进行预测. (4)聚类:将数据分为多个类,使得类内部数据之间的差别最小,而类之间数据的差异最大. (5)孤立点的检测:孤立点是指数据中的整体表现行为不一致的那些数据集合. (6)趋势和演化剖析:描写行动跟着时间变化的对象所遵守的法则或趋势. 本文转载于:论文发表 原网址: |
