BI开发的基本步骤是什么?
它专门用于支持主要用户访问原始数据,不包括专业人员的成品报告生成工具。2.OLAP工具。提供多维数据管理环境,其典型应用是业务问题的建模和业务数据的分析。OLAP也被称为多维分析。3.数据挖掘软件。使用神经网络和规则归纳等技术来发现数据之间的关系,并根据数据进行推断。4.数据集市和数据仓库产品。它包括用于数据转换、管理和访问的预配置软件,通常还包括一些业务模型,如财务分析模型。5.高管信息系统(EIS)的定义应该是学术性的,大部分客户并不了解。其实BI就是收集分析相关信息,帮你做决策。大多数成功的商业智能系统都使用数据仓库技术。那么,我们来看看什么是数据仓库:数据仓库是企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合数据仓库。它的英文名是Data Warehouse,可以缩写为DW。数据仓库之父比尔·恩门在1991出版的《构建数据仓库》一书中提出的定义被广泛接受——数据仓库是面向主题的、集成的、反映历史变化的、相对稳定的(非易失性的)数据集,用于支持决策支持。◆面向主题:运营数据库的数据组织面向事务处理任务,各业务系统分离,而数据仓库中的数据按照一定的主题域组织。◆集成:数据仓库中的数据是在提取和清理原始分散的数据库数据的基础上,经过系统的加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库中的信息是一致的,是关于整个企业的全局信息。相对稳定:数据仓库中的数据主要用于企业决策分析,涉及的数据操作主要是数据查询。某个数据一旦进入数据仓库,一般会保存很长时间,即数据仓库中有大量的查询操作,但很少有修改和删除操作,通常只需要定期加载和刷新即可。◆反映历史变化:数据仓库中的数据通常包含历史信息,系统地记录了企业从过去某一点(如应用数据仓库的时间)到现在阶段的信息。通过这些信息,可以定量分析和预测企业的发展过程和未来趋势。数据仓库是一个过程而不是一个项目。数据仓库系统是一个信息提供平台。它从业务处理系统获取数据,主要通过星型模型和雪花型模型组织数据,为用户提供从数据中获取信息和知识的各种手段。从结构上看,一个数据仓库系统至少应该包括三个关键部分:数据采集、数据存储和数据访问。什么是数据仓库?目前,数据仓库这个词还没有一个统一的定义。著名的数据仓库专家W.H.Inmon在其著作《构建数据仓库》中给出了如下描述:数据仓库是一个面向主题的、集成的、非易失的、时变的数据集,用于支持管理决策。我们可以从两个层面来理解数据仓库的概念。首先,数据仓库用于支持决策和面向分析的数据处理,不同于企业现有的运营数据库。其次,数据仓库是多个异构数据源的有效集成。整合后按照主题重新组织,包含历史数据,存储在数据仓库中的数据一般不做修改。根据数据仓库的概念,数据仓库有以下四个特点:1,面向主题。操作数据库的数据组织面向事务处理任务,各个业务系统是分离的,而数据仓库中的数据是按照一定的主题域组织的。主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的关键方面。一个主题通常与多个操作信息系统相关。2.综合的。面向事务的操作数据库通常与一些特定的应用相关,并且这些数据库相互独立,通常是异构的。数据仓库中的数据是在提取和清理原始分散的数据库数据的基础上,经过系统的加工、汇总和整理而得到的。必须消除源数据中的不一致性,以确保数据仓库中的信息是一致的,并且是关于整个企业的全局信息。3.相对稳定。操作数据库中的数据通常是实时更新的,并且数据根据需要及时改变。数据仓库中的数据主要用于企业决策分析,涉及的数据操作主要是数据查询。某个数据一旦进入数据仓库,一般会保存很长时间,即数据仓库中有大量的查询操作,但很少有修改和删除操作,通常只需要定期加载和刷新即可。4.反映历史变迁。运营数据库主要关注的是某一段时间内的当前数据,而数据仓库中的数据通常包含历史信息,系统地记录了企业从过去某一点(如数据仓库应用的时间)到目前各个阶段的信息。通过这些信息,可以定量分析和预测企业的发展过程和未来趋势。企业数据仓库的建设是基于现有的企业业务系统和大量业务数据的积累。数据仓库不是一个静态的概念。只有及时向需要信息的用户提供信息,以便他们做出决策来改善业务运营,信息才能发挥作用并发挥作用。对信息进行整理、汇总和重组,并及时提供给相应的管理决策者,是数据仓库的根本任务。因此,从行业的角度来看,数据仓库的建设是一个项目,一个过程。整个数据仓库系统是一个四层架构,具体如下图所示。数据仓库系统架构数据源:是数据仓库系统的基础,是整个系统的数据源。通常包括内部信息和外部信息。内部信息包括存储在RDBMS中的各种业务处理数据和各种文档数据。外部信息包括各种法律法规、市场信息和竞争对手的信息等。数据存储和管理:它是整个数据仓库系统的核心。数据仓库的真正关键是数据的存储和管理。数据仓库的组织和管理模式决定了它不同于传统数据库,也决定了它对外数据的表达形式。为了决定采用什么产品和技术来建立数据仓库的核心,有必要分析数据仓库的技术特征。对现有业务系统的数据进行提取、清洗、有效整合,并按照主题进行组织。根据数据的覆盖范围,数据仓库可以分为企业级数据仓库和部门级数据仓库(通常称为数据集市)。OLAP服务器:有效整合分析所需数据,按照多维度模型组织,进行多角度多层次分析,发现趋势。其具体实现可分为ROLAP、MOLAP和HOLAP。ROLAP基础数据和聚合数据存储在RDBMS中;MOLAP基础数据和聚合数据存储在多维数据库中;HOLAP基础数据存储在RDBMS中,聚集数据存储在多维数据库中。前端工具:主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以及基于数据仓库或数据集市的各种应用开发工具。其中,数据分析工具主要针对OLAP服务器,报表工具和数据挖掘工具主要针对数据仓库。目前,数据仓库这个词还没有一个统一的定义。著名的数据仓库专家W.H.Inmon在他的著作《构建数据仓库》中给出了这样的描述:数据仓库是面向主题的、集成的、相对稳定的、反映历史变化(时间)的。我们可以从两个层面来理解数据仓库的概念。首先,数据仓库用于支持决策和面向分析的数据处理,不同于企业现有的运营数据库。其次,数据仓库是多个异构数据源的有效集成。整合后按照主题重新组织,包含历史数据,存储在数据仓库中的数据一般不做修改。多维数据仓库的构成数据仓库数据库是整个数据仓库环境的核心,是存储数据的地方,提供对数据检索的支持。与被操纵的数据库相比,它的突出特点是支持海量数据和快速检索技术。数据抽取工具将数据从各种存储方式中取出,进行转换和整理,然后存储到数据仓库中。访问不同的数据存储方法是数据抽取工具的关键,这些工具应该能够生成COBOL程序、MVS作业控制语言(JCL)、UNIX脚本和SQL语句来访问不同的数据。数据转换包括删除对决策应用无意义的数据段;转换成统一的数据名称和定义;计算统计数据和派生数据;将默认值数据分配给默认值;统一不同的数据定义。元数据元数据是描述数据仓库中数据的结构和建立方法的数据。根据用途的不同可以分为两类,技术元数据和商业元数据。技术元数据是数据仓库的设计者和管理者每天用来开发和管理数据仓库的数据。包括数据源信息;数据转换的描述;数据仓库中对象和数据结构的定义;数据清理和数据更新规则;从源数据到目标数据的映射;用户访问权限、数据备份历史、数据导入历史、信息发布历史等。业务元数据从业务的角度描述数据仓库中的数据。包括:业务主题描述、数据、查询、报表;元数据提供了访问数据仓库的信息目录,全面描述了数据仓库中有哪些数据,这些数据是如何获得的,以及如何访问这些数据。它是数据仓库运维的中心。数据仓库服务器用它来存储和更新数据,用户可以通过它来了解和访问数据。访问工具为用户提供了一种访问数据仓库的方法。有数据查询和报表工具;应用开发工具;管理信息系统工具;在线分析(OLAP)工具;数据挖掘工具。数据集市是从数据仓库中分离出来的数据的一部分,用于特定的应用目的或范围,也可以称为部门数据或主题区域。在数据仓库的实施过程中,我们往往可以从一个部门的数据集市开始,然后用几个数据集市组成一个完整的数据仓库。需要注意的是,在实现不同的数据集市时,含义相同的字段定义一定要兼容,这样才不会在以后实现数据仓库时造成很大的麻烦。数据仓库管理:安全性和权限管理:跟踪数据的更新;数据质量检查;管理和更新元数据;审计和报告数据仓库的使用和状态;删除数据;复制、分割和分发数据;备份和恢复;存储管理。信息分发系统:将数据仓库中的数据或其他相关数据发送到不同的地方或用户。基于Web的信息发布系统是处理多用户访问的最有效方式。设计数据仓库的九个步骤1)选择合适的主题(解决问题的领域)2)明确定义事实表3)确定并确认维度4)选择事实5)计算并存储事实表中的衍生数据段6)对维度进行舍入7)。选择数据库的持续时间8)needtottrackslowlychangindimensions 9)确定查询优先级和查询模式。技术上,硬件平台:数据仓库的硬盘容量通常是操作数据库的2-3倍。一般大型机性能和稳定性更可靠,容易与历史遗留的系统结合;PC服务器或UNIX服务器更加灵活,易于操作,并提供动态生成查询请求的能力。选择硬件平台时要考虑的问题:您提供并行I/O吞吐量吗?支持多CPU的能力是什么?数据仓库DBMS:它存储大量数据的能力、查询性能和对并行处理的支持如何?网络结构:数据仓库的实施会在网络的那个部分产生大量的数据通信。需要完善网络结构吗?步骤1)收集分析业务需求;2)建立数据模型和数据仓库的物理设计;3)定义数据源;4)选择数据仓库技术和平台;5)从操作数据库中提取、纯化和转换数据到数据仓库中;6)选择访问和报告工具;7)选择数据库连接软件;8)选择数据分析和数据展示软件;9)更新数据仓库的数据提取、清理、转换和移植。2)支持平面文件、索引文件和legacyDBMS。3)可以整合不同类型数据源的数据作为输入。4)具有标准化的数据访问接口5)最好具有从数据字典中读取数据的能力6)工具生成的代码在开发环境中必须是可维护的7)它只能提取满足指定条件的数据。以及源数据的指定部分8)可以在抽取中进行数据类型转换和字符集转换9)可以在抽取过程中计算生成衍生字段10)可以让数据仓库管理系统自动调用定期执行数据抽取工作,也可以将结果生成为平面文件11)。需要仔细评估软件供应商的生命力和产品支持能力。主要的数据提取工具供应商:Prism Solutions。卡尔顿的护照。信息化建筑公司的EDA/SQL。数据仓库带来了什么?每个公司都有自己的数据。而且很多公司在计算机系统中存储了大量的数据,记录了企业采购、销售、生产过程中的大量信息和客户信息。通常这些数据存储在许多不同的地方。使用数据仓库后,企业将所有收集到的信息存储在一个独特的地方——数据仓库。仓库中的数据是按照一定的方式组织起来的,这使得信息易于访问并且有价值。目前,一些专门的软件工具已经被开发出来,使数据仓库的过程半自动化,帮助企业将数据倒入数据仓库,并使用已经存储在仓库中的数据。数据仓库给组织带来了巨大的变化。数据仓库的建立给企业带来了一些新的工作流,其他工作流也发生了变化。数据仓库给企业带来了一些“基于数据的知识”,主要用于评估市场策略,为企业发现新的市场机会。同时,它还用于控制库存、检查生产方法和定义客户群。每个公司都有自己的数据。数据仓库以特定的方式组织企业的数据,从而产生新的业务知识,给企业的运营带来新的视角。为什么要建立数据仓库?在计算机发展的早期,人们已经提出了建立数据仓库的想法。“数据仓库”一词最早由比尔·恩门先生在1900中提出,其描述如下:数据仓库是为支持企业决策而专门设计和建立的数据集合。企业建立数据仓库来填补现有的数据存储形式已经不能满足信息分析的需要。数据仓库理论中的一个核心思想是,事务性数据和决策支持数据的处理性能是不同的。企业在其交易操作中收集数据。在企业运营过程中:随着订货和销售记录的进展,这些交易数据也在不断产生。为了引入数据,我们必须优化事务数据库。在处理决策支持数据时,经常会问一些问题:什么样的客户会购买什么样的产品?促销后销量会有多大变化?价格变化或者门店地址变化后,销售额会有多大变化?在一定时期内,什么样的产品相对于其他产品特别好卖?哪些客户增加了购买量?哪些客户又削减了购买量?事务数据库可以回答这些问题,但它给出的答案往往不是很令人满意。在使用有限的计算机资源时,经常会有竞争。当添加新信息时,我们需要事务数据库处于空闲状态。在回答一系列关于信息分析的具体问题时,系统处理新数据的有效性会大打折扣。另一个问题是事务数据总是动态变化的。决策支持处理需要相对稳定的数据,这样问题才能得到一致持续的回答。数据仓库的解决方案包括:将决策支持数据处理与事务性数据处理分离。数据按照一定的周期(通常是每天晚上或周末)从事务型数据库导入决策支持数据库,即“数据仓库”。数据仓库根据企业一些问题的答案,按“主题”组织数据,是最有效的数据组织方式。数据仓库和数据集市决策支持数据库的数据集市面向企业中的某个部门或项目组。一些专家顾问将数据集市的构建描述为建立数据仓库的整个过程中的一个步骤。首先,创建数据仓库是为了存储企业的所有信息,其中的数据具有有组织的、一致的和不变的格式。随后,数据集市成立了,其目的是为不同的部门提供他们需要的信息。数据仓库收集所有的详细信息,数据集市中的数据根据用户的具体需求进行汇总。其他专家认为建立数据集市不需要先建立数据仓库。在该模型中,数据直接从事务数据库转移到数据集市。一个公司可能建立多个数据集市,但彼此之间没有任何联系。这种创建数据集市而不构建数据仓库的方式会更便宜、更快,因为它的规模更容易管理。第二种观点的缺陷在于,它无法达到最初创建数据仓库的主要目的——将企业的所有数据统一成一致的格式。现有事务处理系统的数据往往是不一致和冗余的。