中国信息官CIO精英 前沿视野 经验之谈 职业发展 信息官杂谈 | 产品资讯笔记本 商用电脑 服务器 办公 网络设备 存储设备 软件 显示设备 其他

您当前的位置: 首页 > 资料库 > 案例库 〉大数据案例分析:电信业Hadoop应用分析

大数据案例分析:电信业Hadoop应用分析

2012-07-03 09:17:13

    目前,电信计费系统流量话单在GGSN设备上产生,是网关设备。这个设备产生流量话单的时候是根据一个流量依据而产生:


    第一,达到一定时间,例如2个小时。


    第二,达到一定流量大小,比如5兆。


    这个流量话单相当于一段时间之内使用流量总合的话单,没有说访问哪个目标的IP地质,没有访问的目的地,只告诉你这个时刻产生了这样的话单,用户当然不愿意,用户说我那天没有使用过手机,没有产生这个流量,这样情况下用户要求退费,或者双倍赔偿,GSN设备,无论是中国联通也好,还是其他运营商也好,采用设备可能来子华为、阿尔卡特,这些设备在全球商用了,GGSN产生的话单在一定意义上之上,出现这种问题是微乎其微的,说不清流量到哪儿去了,运营商作为弱势群体,只能退费或者双倍赔偿。


    运营商的难言之隐


    联通研究院处长王志军以一个案例进行说明,2011年,中国联通一个用户在0点到4点之间产生巨额流量费用,他认为中国联通既然拿不出证据,以涉嫌欺诈消费者为由向法院提起了诉讼,影响是两方面的。


    对用户而言,他也是想知道流量到底什么时候发生的,如果手机的问题,他也知道怎么进行防范,这样就不会发生类似问题,根据客户部门提供的数据,可能因为无法提供商网流量详单造成退费和赔付,会影响到运营商流量计费商务模式,所以我们建立这种系统意义非常大,第一,我们的系统供联通客服人员使用,提供快速查询服务,解决流量投诉的问题,另外,我们也准备向最终用户提供异常的大流量查询服务。再一个问题,上网记录数据本身是数据的金矿,我们可以通过获取上网数据记录对流量进行统计。


    海量数据的应对之策


    对于以上这些问题该如何应对呢?联通研究院处长王志军分析处理问题的难点:上网记录数据是海量数据,经过我们的系统可以分析到,用户每个用上网记录基本几万到几十万,有的用户五六十万,我们现在采用的方案是在网关所有用户流量必经地方采集,分析流量数据,然后上成上网记录话单,话单量非常大。


    联通研究院处长王志军表示,例如用移动手机访问新浪网首页,对流量采集设备基本能生成20条左右上网记录话单,如果点iPad新闻链接,恐怕会产生180条上网记录,如果访问淘宝网首页,会产生60条请求和回应,在手机上网记录当中有大量DNS查询和推送服务。以中国联通某一个中等省份公司为例,日均上网记录达到10亿条,每个月的数据接近9T,整个移动互联网也在快速发展。


    根据中国联通统计,每隔6个月中国联通用户整体上网流量会翻一番,去年平均3G每用户的流量一年之内翻一番,整个流量增长非常迅速,也带来了上网记录的量非常非常大。


    传统IOE方式,IBM小型机,思科数据库存储,EMC存储,思科数据库存储这么大上网记录时候已经不可能了,所以,联想采用开源的Hadoop解决,Hadoop本身是系统架构,也是开源项目,由Apache基金会开发,Hadoop本身最底层是分布式文件系统,这个分布式文件系统叫HDFL,在它之上有分布式处理框架,基于Hadoop整个开源项目,上面构建了结构化的访问数据库,在这之上又提供了类似的数据挖掘工具,另外也提供了一些分布式同步,以及远程调用和序列化工具。

(责编:fanwei)

下一篇文章:一汽的TTI管理模式
上一篇文章:企业的“神经系统”
投稿邮箱:cio114@foxmail.com