中国信息官CIO精英 前沿视野 经验之谈 职业发展 信息官杂谈 | 产品资讯笔记本 商用电脑 服务器 办公 网络设备 存储设备 软件 显示设备 其他

您当前的位置: 首页 > 资料库 > 案例库 〉大数据案例分析:电信业Hadoop应用分析

大数据案例分析:电信业Hadoop应用分析

2012-07-03 09:17:13

    Hadoop+HBase+ MapReduce


    对于Hadoop分布式文件系统本身来说,重要的出发点在于硬件故障是常态,不是非异常的状态,我们可以摒弃采用IBM小型机方案,Hadoop中数据可以自动复制,一份数据可以复制成三份,第一份在一台服务器上,第二份数据在另外一台机架的另外一台服务器上,第三份数据可能在另外一台机架的另外一台服务器上,作为分布式文件系统,每次请求写入的磁盘和服务器物理地点可能不一样,可以带来高并发的读写请求。


    MapReduce框架分成很多数据级,最后再合并处理。HBase分布式数据库是分布式存储系统,主要特点在正它是四维存储系统,传统的数据库是二维表的结构,有行、有列,对它来说,除了有行之外,有列的概念,在列和行之间又可以存放多个版本,在这种情况下相当于四维表结构,好处在于可以灵活的表格结构,每个列组里面的列后来都可以随机应变,我们的采集系统现在在采集一些字段,未来的发展过程中,为了数据挖掘的需要,会采集更多的字段,方便我们在一个结构之下进行更多信息的存储以及后续的处理工作。


    HBase本身利用自动复制机制保证Hbase本身存储的高可靠性。我们会做一些数据挖掘工作,除了采用MapReduce技术之外,还采用数据仓库技术,针对海量数据进行高性能查询和分析工作。中国联通已经构建了一个全国集中的一级架构海量数据存储和查询系统,第一,是一级架构,全国所有用户所有上网记录数据都放北京数据中心里,在国内电信行业当中也是首创的方式。


    另外一个方式,首先将开源Hadoop、Hbase技术应用商用电信服务系统中来,开源的软件架构基本上没有商用系统的,但是这次是商用系统,系统的构成,包括数据采集、数据入库、数据存储、数据查询和数据分析技术,基本技术采用Hadoop,目前上网记录数据存储一般不小于30分钟,30分钟之前的上网记录现在可以通过我们系统查询到。


    在实际使用过程中,联通发现约10分钟的记录可以查到,用HBase处理这么海量的数据时候,入库速度非常非常迅速,另外查询速度也非常非常迅速。另外系统的存储不少于6个月原始上网记录能力,中间的统计报表会保存不少于5年,现在的数据查询速度,查询一个用户上网记录,比如有几万条记录,在几千亿条记录当中检索的时间小于一秒钟,当然,这个时间不包括查询页面的时间。


    这是上网记录详单内容,存储了很多用户上网记录信息,随着系统的发展,为了数据挖掘的需要,联通会进一步提取更多信息存到上网记录系统当中来。


    Hadoop三节点 控制数据


    整个系统部署情况是这样的,我们采用普通PC服务器部署这个系统,Hadoop本身有三个节点,一个是数据存储节点,现在有178个数据存储节点,每个数据存储节点有14T的容量,集群的监控节点有一台,入库服务节点24台,Web查询应用服务节点20台,在同一个机架上的数据交换采用千兆交换机。这是查询系统的界面,用户详细信息都可以通过这个系统查询出来。


    在目前情况下,现在已经部署完成了4个省份,北京、黑龙江、浙江、重庆,四个省份所有用户上网记录都可以上来,每天入库条数超过42亿条用户上网数据记录,每天入库数据量超过1.2T,在这种数据量的情况下,现在已经保存了几个月的上网记录数据,在这种情况下,上网记录数据保存在一张表当中,保存4个省的数据,一个月可能超过1200亿条的数据,在这种情况下,在1200亿条数据当中检索一个用户数据会达到不小于一秒,目前1200亿条只用到15个数据节点,随着178个数据节点上线之后,保存全国31省的数据以及进行快速入库、查询和检索我们认为都没有问题。


    现在预估,31省上线之后,每个月用户上网记录超过8千亿条,我们系统明年6月份才可能考虑到下一期扩容工程,在这种情况下,我们相信每个月会有1万亿条数据,保存6个月用户数据,原始数据量会超过6万亿条,目前每条上网记录基本上在300个字节,随着我们把更多的字段加入进来之后,可能平均每条用户上网记录的长度还会增加,可能达到400字节,对整个集群的要求会更高。


    联通研究院处长王志军表示,联通第一次采用了开源技术,在此之前,在电信行业当中比较少见。联通采用了Hadoop、HBase,这里面还有用户管理员信息等等。目前,在客服使用当中感觉也是非常非常好的,更重要的是利用这个系统可以做深入的数据挖掘工作。


    中国联通在查询用户上网记录之前会征得用户的同意,有可能通过口服开头同意,如果客服后台查询的话,我们可能会通知用户有人要查询其上网记录,在安全方面联通做了考虑。


(责编:fanwei)

下一篇文章:一汽的TTI管理模式
上一篇文章:企业的“神经系统”
投稿邮箱:cio114@foxmail.com