中国信息官CIO精英 前沿视野 经验之谈 职业发展 信息官杂谈 | 产品资讯笔记本 商用电脑 服务器 办公 网络设备 存储设备 软件 显示设备 其他

您当前的位置: 首页 > BI频道 > 数据挖掘 〉基于网络的商务智能研究

基于网络的商务智能研究

2012-03-27 14:45:08

    随着计算机和信息时代的迅猛发展,人类收集、存储和访问数据的能力大大增强,快速增长的海量数据集已经远远超出了人类的理解能力,传统的数据分析工具已经不能解决这些问题。为了解决海量数据的存储、组织,并从中找出有价值的知识这些问题,出现了数据仓库和数据挖掘技术。

    信息化系统在企事业单位的迅速普及,各单位信息系统产生了大量的数据信息。如何处理已经过期的大量数据成了一个难题,现在各单位的处理这些数据一般有三种做法:简单的删除、备份后再删除、建立一个数据仓库系统,将数据保存到数据仓库中。现在各单位也已经认识到历史业务数据是非常有用的,可以综合利用这些数据建立分析模型,从中挖掘出有价值的知识,帮助决策者做出正确的决策。目前,大多数企业都不是缺数据,比较难解决的问题是海量数据如何处理,商务智能在这种背景下应运而生。

    数据挖掘可以对数据进行自动分类和聚类,找出数据中的趋势和异常,根据这些因素来预测,在海量的数据挖掘出有价值的知识,使数据真正发挥作用。数据挖掘在商务智能解决方案的体系中占据着重要的地位。

    1 相关概念

    1.1 网络

    网络是把整个因特网整合成一台巨大的超级计算机,实现计算资源、存储资源、数据资源、信息资源、知识资源、专家资源的全面共享。当然,网络并不一定非要这么大,我们也可以构造地区性的网络,如中关村科技园区网络、企事业内部网络、局域网网络、甚至家庭网络和个人网络。事实上,网络的根本特征是资源共享而不是它的规模。它应用到不同领域又叫计算网络、信息网络、知识网络、服务网络等。

    网络具有以下四点优势:

    (1)资源共享,消除资源孤岛:网络能够提供资源共享,它能消除信息孤岛、实现应用程序的互连互通。网络与计算机网络不同,计算机网络实现的是一种硬件的连通,而网络能实现应用层面的连通。

    (2)协同工作:网络第二个特点是协同工作,很多网络结点可以共同处理一个项目。

    (3)通用开放标准,非集中控制,非平凡服务质量:这是Ian Foster最近提出的网络检验标准。网络是基于国际的开放技术标准,这跟以前很多行业、部门或者公司推出的软件产品不一样。

    (4)动态功能,高度可扩展性:网络可以提供动态的服务,能够适应变化。同时网络并非限制性的,它实现了高度的可扩展性。

    1.2 商务智能

    商务智能的概念最早由Gartner Group于1996年提出,当时将商务智能定义为一类由数据仓库、查询报表、联机分析、数据挖掘、数据备份和恢复等部分组成的,以帮助企业进行决策的技术。到目前为止,关于商务智能还没有一个准确的定义,但可以从知识论、数据分析、信息系统和方法论四种不同视角来解释商务智能,即认为商务智能是综合利用知识管理的理论、信息分析和系统分析的工具,以及设计科学的方法论构建的一个人机智能系统。其目的是在商务中进行成功利用基于IT的商务应用机会为企业获取成功的决策支持。它的主要功能就是提供一系列信息分析方法、不同视角的信息与知识呈现功能(各种视图、报表和链接)、智能的技术和评价工具等来支持管理人员决策进化的一个智能集成系统。

    商务智能的功能主要有:

    (1)数据管理方面包括数据的获取、选择、转换、集成能力;从原来数据中发现知识的能力;对大量数据高效存储与维护能力。

    (2)数据分析方面包括具备OLAP、OLTP、Legacy等多种数据分析能力;终端信息查询和报告生成能力。

    (3)决策支持方面包括具备数据对比分析与趋势预测能力。

    (4)企业优化方面包括辅助企业建模能力。

    2 关键技术

    随着商务智能的研究和应用的不断深入,商务智能技术已经有了一个公认的流程框架(如图1所示),一般的商务智能系统构造基本上都根据这个框架设计开发。

     点击放大图片
    图1 商务智能技术流程图

    2.1 数据抽取ETL

    ETL过程是进行数据的抽取、转换和“净化提炼”处理的过程。要对从多个不同业务数据库抽取的数据,进行数据项名称的统一、位数的统一、编码的统一和形式的统一,消除重复数据。

    ETL工具包括数据抽取、数据转换、数据清洗和数据加载。在构建数据库的过程中,外部数据源所提供的数据并不都是有用的,有些数据对决策并不能提供支持,同时,外部数据源中的数据冗余的现象也很普遍,以主题的需求为依据,对数据源的内容进行有目的的选择,这一过程被称为“数据抽取”。数据转换是把数据仓库的不同格式的外部数据源对其格式进行转换处理,统一格式。数据仓库的外部数据源所提供的数据内容并不一定都是好的,有些数据是有缺陷的,在数据仓库的各数据源之间,其内容也存在着不一致的现象。为了不让这些缺陷数据影响数据仓库的分析结果,要采取各种有效的措施,将错误的、不一致的数据在进入数据仓库之前予以更正或删除,以免影响DSS决策的正确性,这一过程称为“数据清洗”。把清洗后的数据装入数据仓库的过程称为数据装载。数据装载要综合考虑经营分析需求,对不同业务系统的数据采用不同的加载周期,但必须保持同一时间业务数据的完整性和一致性。

    网络商务智能平台的ETL模块主要解决的问题有以下几个:

    (1)ETL功能全部以子模块的形式提供。每一个ETL子模块对应于一种类型数据源的ETL功能,对于新的数据源类型,只要在系统中添加相应的ETL子模块。

    (2)常用的ETL子模块是JDBC数据源的抽取模块。

    (3)系统要包含一些常见的JDBC驱动。

    (4)将每一个数据源构建一个数据类型映射,将该数据源的每个数据类型映射到网络商务智能平台内部数据类型上。

    (5)网络商务智能平台内部数据类型使用JDBC标准数据类型。

    2.2 数据仓库

    在众多的数据仓库定义。中,公认的是W.H.Inmon的定义,W.H.Inmon对数据仓库的定义是在《Building the Data Warehouse》一书中提出的。他将数据仓库定义为:一个面向主题、集成的、非易失的、非时变的数据集合,用于支持管理决策的过程。

    一般地,数据仓库具有四个主要特征:

    (1)面向主题性。面向主题是数据仓库中数据组织的最基本原则。一般来讲,一个数据仓库中可以有若干个主题,一个主题可以分解成若干个子主题,这样逐层分解从而构成一个主题层次。数据仓库的创建、使用都是围绕主题实现的,所以,必须了解如何按照决策分析来抽取主题,所抽取出的主题应该包括哪些数据内容,这些数据内容应该如何组织。

    (2)集成性。数据仓库中数据的集成性,是指在构建数据仓库的过程中,多个外部数据源内格式不同、定义各异的数据,按指定的策略经过抽取、清洗、转换等一系列处理,最终构成一个有机的整体。

    (3)非易失性。数据仓库的非易失性是指数据仓库的用户进行分析处理时不进行更新操作,一旦数据进入数据仓库以后,就会保持一个相当长的时间,但并不是说在数据仓库的整个生存周期中数据集是不变的。数据的非易失性可以保证不同的用户在不同的时间查询、分析相同的问题时,获得同一结果。

    (4)时变性。数据的时变性是指数据仓库的内容随时间的变化而不断的得到增补、更新。当然数据仓库不能频繁地更新数据,但为了保证决策分析的正确性,更新是必要的。

(责编:fanwei)

投稿邮箱:cio114@foxmail.com