您的位置】:知源论文网 > 理工类论文 > 计算机 > 正文阅读资讯:3G时代客户识别数据挖掘模型及实证研究

3G时代客户识别数据挖掘模型及实证研究

[作者:李权[来源:互联网]| 打印 | 关闭 ]
引言:本文对3G时代用户的细分方法和3G目标市场的定位作了初步的研究,提出了3G时代客户识别数据挖掘模型,并采用BP神经网络和决策树对该模型进行验证,最后研究了3G目标市场定位考虑的要素和初步的建议。   一、3G用户细分体系架构   用户细分是3G业务开发及市场营销的基础,用户细分能够使差异化成为可能,使运营商提供的3G产品和服务能够更有针对性。3G用户细分方法的选择直接决定了相关用户细分结果的准确性及实用性。对于3G用户细分的体系搭建的思路是: 采用3 个纬度进行用户的细分,首先按照用户价值纬度进行用户细分,然后再结合消费行为纬度和消费心理纬度细分用户群。在3G用户细分的体系架构中,3个纬度的用户细分依据、方法及应用价值如表1 所示。   二、客户识别分类模型   (一)数据抽取   本案例数据来源于某电信运营公司,该数据总量为26000条。每一条对应一个客户近六个月的统计信息。其中已知分类(2G、3G)的为18000条,未知分类8000 条。其中包括客户年龄,月平均消费额,月平均通话时长等属性250 个(包括客户类型)。本例利用26000条已知分类的数据进行分类模型的建立,随机抽取训练数据10000条,测试数据8000条。   (二)数据预处理   上述采集的数据有数据多、数据取值范围广和数据取值类型多样的特点,因此必须在建模前对数据进行预处理,如采集的样本数据存在一些属性值缺省或空值,如果不做处理,将直接影响后续算法的挖掘效果,严重时甚至得到错误的结果。数据预处理包含数据清洗、属性筛选、数据平衡、数据归一化和离散化五个步骤。数据清洗分为类型转换和缺失数据填补两部分;属性筛选分为人工筛选和通过相关系数分析实现属性选择两部分;由于作为训练的18000条数据只有少数是3G用户,这样会导致模型输出结果偏向判别为2G 客户,因此必须通过数据平衡实现2、3G用户数量达到1:1;为了提高BP 神经网络的性能,需要对数据进行归一化;对于决策树算法,需要对数据进行离散化,否则生产的决策树将会过于茂盛,以至于无法分析。   三、客户数据分类识别过程   本文分别采用BP 神经网络和决策树进行建模,实现对3G 客户的分类识别。本案例运用TipDM 数据挖掘在线建模平台中的性分析进行数据探索,再运用BP 神经网络和C4.5 决策树进行客户识别。(一)模型输入。本案例中,模型数据涉及客户年龄、月平均通话时长和月平均消费额等240多个属性(包含客户类型),模型输入需将客户识别样本属性表导入建模平台中即可。(二)仿真识别过程。建模仿真过程说明如下:1.登录TipDM 平台,在方案管理页面中,新建方案或者打开一个已建方案;2.切换到数据管理页面,上传经预处理后的专家样本数据文件;3.选择相关性分析功能,导入样本数据进行相关性分析;4.分别选择BP 神经网络算法和C4.5 决策树算法,进行模型构建;5.对比BP 神经网络和C4.5 决策树的建模结果,并选择最优算法;6.用最优法对测试样本进行3G 客户识别。(三)仿真结果分析。1.基于BP 神经网络的模型构建。由于神经网络算法输出结果受到训练次数影响,并伴随一定的随机性,多次实验得到的分类正确率如下表所示。   四、总结与建议   决策树与BP神经网络对于3G客户的识别正确率都接近80%,说明本用例建立的分类模型对3G客户的敏感度比较高,基本能识别出3G用户,能达到预期目标。但是只看3G客户的识别正确率是不科学的,还要看2G 客户的识别正确率和总体识别正确率。从总体正确率看,BP 神经网络的正确率仍然比决策树高近10%,BP神经网络无论是总体性能还是对局部分类的敏感度都表现不错,而决策树分类模型性能还有待提高。   虽然本例的客户识别未能达到百分百地准确,但从另外一个角度看,一味追求正确率并没有太多意义。因为本来运营商对各个用户的类别就已经作了登记,反而,我们或许能从客户的误识别中获得更多信息。   本来是2G客户,但被识别为3G客户的用户很有可能就是因为它的各项属性与3G客户的相似,如月均网络游戏游流量比较大,月均消费额较高,说明这部分人客户是有机会被发展成3G客户,电信运营商应对这批客户大力推销3G应用;而部分3G客户被识别为2G客户,很有可能是因为对目前的3G资费或3G服务不满意的客户,他们对3G应用并不感兴趣,因此和3G用户的特征不相符,这部分客户很有可能在未来几个月内会流失,所以,电信运营商应更加关注这批客户的情况,争取减少客户的离网率。
Tags: