数据仓库和数据挖掘技术在保险公司中的应用
2020-05-13
来源:步旅网
第21卷第6期 2011年6月 计算机技术与发展 COMPUTER TECHNOL0GY AND DEVELOPMENT Vo1.21 No.6 June 2011 数据仓库和数据挖掘技术在保险公司中的应用 杨 杉 ,何跃 (1.四川大学锦城学院,四川成都611731; 2.四川大学工商管理学院,四川成都610064) 摘要:随着我国保险市场的开放,我国保险业的垄断格局被打破,竞争也日趋激烈。保险业作为传统数据处理密集型行 业之一,已经积累的大量业务数据。如果能够根据保险公司的实际情况,构建数据仓库平台,利用数据挖掘技术挖掘其中 蕴涵的知识和信息,就能有效地制定市场策略,以及时把握市场机会。结合A人寿保险公司的实际情况,详细设计和实现 了A人寿保险公司的数据仓库,接着以该数据仓库为数据源,分别实现了客户流失挖掘模型和客户理赔风险模型,利用直 观的图表方式将数据挖掘的结果展示出来。最后给出了模型的验证与评价方法,得出了有价值的结论,可以为保险公司 的决策层提供参考。 关键词:数据挖掘;人寿保险;客户流失;客户理赔 中图分类号:TP31 1 文献标识码:A 文章编号:1673—629X(201 1)06—0157—04 Application of Data Warehouse and Data Mining to Life Insurance Company ’ YANG Shah ,HE Yue (1.Jincheng College of Sichuan University,Chengdu 61 1731,China; 2.Business Management College,Sichuan University,Chengdu 610064,China) Abstract:With the openning of domestic insurance market,foreign insurnce companiaes entered,which break he monopoltization of do・ mestic insurance.The competition between insurnce compaanies is intense.Insurance is a tradiitonal industry which faces lots of business data everyday.If the insurance companies Can construct data warehouse according tO the actual siuattion and scoop OUt information from it,then they Can eficifently make marketing tactics and seize opportulities.Firstly,designed the data warehouse of A Life Insurance in— dustry detailedly.Secondly took the data warehouse as data source,desinged and realised models of customer chum prediction and ’”s- tomer compensate risk prediction.Finally,verified and evaluated the methods nd agave out valuable conclusions which Can provide ence tO the management levels of Life Insurance companies. Key words:data mining;life insurance;customer chum;customer claim r_ O 引 言 随着外资公司不断涌人中国保险市场,国内保险 市场的竞争愈发激烈,给中国寿险带来了巨大冲击。 假如保险公司无法有效利用积累的内部业务数据,就 的业务系统和不同地点的计算机中。如果能够利用数 据仓库…和数据挖掘 技术,将这些零散的数据集中 起来,并挖掘出有价值的信息,将大大提高管理层的决 策能力,从而提供更好的产品和服务,赢得更多客户。 很难获取有价值的信息或规律,也就很难把握市场机 会,规避市场风险。 中国人寿保险股份有限公司A分公司(简称“A 1保险公司数据仓库的设计 保险公司分支机构较多,地域分布较广,数据仓库 的数据来源于总部及各个地理位置分散的分公司。 1.1数据仓库的概念模型设计 人寿保险公司”)是文中研究的具体实例。该公司内 部使用的计算机业务处理系统已大大提高了工作效 率,但这些数据并没有系统集中,而是分散在不同地点 收稿日期:2010—10—28;修回日期:2011—01—3O 在本保险业数据仓库系统中,主要是分析与客户 相关的信息,因此只关心与客户密切相关的四个主题: 基金项目:国家自然科学基金资助项目(70771067) 作者简介:杨杉(1983一),女,四川成都人,硕士,研究方向为数据 客户个人信息、承保信息(新投保信息、续保信息)、退 保信息和理赔信息。 1.2数据仓库的逻辑模型设计 挖掘、管理信息系统、决策技术;何跃,博士,副教授,研究方向为 管理信息系统、数据挖掘、决策支持系统。 数据仓库中广泛使用的多维模型主要有星型模 ・158・ 计算机技术与发展 第21卷 型 (Star Schema)和雪花模型…(Snowflake Schema) (marial—status)、收入(income)、教育程度(education)、 两种,文中采用“星型模型”。将退保主题和理赔主题 作为中心的星型数据模型,由一个事实表、五个维表组 成。事实表中的每条记录含有指向每个维表的指针, 职业(occupation)、机构(agent—name)、险种(product— name)、缴费方式(paytype—name)、总保费(total—premi— un1)、退保金额(quit—money)、退保原因(quit—reason)。 从而将多维数据连接起来,如图1、图2所示。 客 信息维表 退保事实表 险种维表 客J’。1D 保 号 险种ID 性别 1L 客户ID 广{ ● 年龄 健康保险 婚姻状况 意外保险 平均年收入 险种lD 一 一 终身或 教育程度 伞类保险 l机构lD 1 缴费方式ID 机构维表 缴费方式维表 退保时问 ,-q 机构ID 缴费方式ID●一 退保金额 成都 趸交 绵阳 10☆1 退保蟓 德『j¨ … 2O f: … .一 … 图1 以退保信息为主题的星形模型 l客, 信息维表 理赔事实表 险 }『 表 ID'| 保单号 .. 1玲种lD r 别 客户lD 健康保险 年龄 L_ 意外保险 婚娴状况 险种1D 终身或两 一 平均年收入 全类保险 教育程度 机构ID 职业 机构维表 缴赞方式ID ' 机构ID 缴费方式维表 案件号 成都 缴费方式ID_ 理赔费用 绵阳 德刚 10 趸交 q: …险原因 … 20{卜 … … - … l 图2 以理赔信息为主题的星形模型 2保险公司数据挖掘实证研究 在本章中,将利用数据仓库系统,从中抽样提取A 人寿保险公司业纡数据(包括退保信息、理赔信息), 经过对数据的预处理,来分别建立客户流失 、客户理 赔风险 模 ,并应用数据挖掘工具Clementine 进 行r模型的验征。 2.1数据处理流程 A人寿保险公司的业务数据在建模之前,必须经 过一系列的处理流程,分别包括:选取口标数据集和数 据预处理过程。 2.1.1 选取目标数据集 客户流失分析所需字段组成数据集“lost—set”:客 户号(client—id)、性别(sex)、年龄(age)、婚姻状况 客户理赔风险分析所需字段组成的数据集“con— pensate—risk—set”:客户号(client—id)、性别(sex)、年龄 (age)、婚姻状况(marial—status)、收入(income)、教育 程度(education)、职业(occupation)、机构(agent— name)、险种(product—name)、理赔金额(conpensate— money) 文中选取了2007.01.O1—2008.11.30时间段内的 6万条数据,分别是:3.3万条退保数据以及相应的客 户信息数据、2.7万条理赔客户数据以及相应的客户 信息数据,这些数据均从设计好的保险数据仓库中提 取,以便为数据挖掘提供分析数据源。 2.1.2数据预处理 保险公司采用SQL Server2000来建立数据仓库, 数据库表的属性大部分采用varchar类型。数据挖掘 算法在处理这些数据的时候速度比较慢而且资源消耗 比较大,为了解决这个问题,在建立模型之前,需要对 所选择的建模属性值进行数字离散化 。进行客户 流失分析和客户理赔风险分析时,只需将各个字段的 连续值离散化为“0,l,2,…”或“F,M”这类集合。 2.2模型验证与评价 2.2.1客户流失模型 利用Clementine工具中C5.0决策树算法 对客 户流失进行特征分析,随机选取现有3.3万条数据的 66%作为训练集,剩下34%作为验证集。将客户退保 原因分为“经济原因退保一0”和“险种或服务不理想~ l”两类,作为输出属性,承保人的性别、年龄、婚姻状 况、收人、教育程度、职业、承保险种作为输入属性,从 而分析哪些属性值导致两类退保原凶的出现。 1)挖掘结果(如图3所示)。 l 璺I壅塑__j 图3客户流失挖掘规则集模型 第6期 杨杉等:数据仓库和数据挖掘技术在保险公司中的应用 从图3可以看出:共产生6个规则,其中规则l、规 则2是有效的规则集。从以上规则集中可以看出:客 户选择的缴费方式是影响客户退保的一个关键因素, 同时客户选择的险种也是影响客户退保的主要因素。 2)模型的验证和评估。 理赔风险特征进行分析。将现有2.7万条数据分成两 部分,其中,随机选取的60%作为训练集…,剩下 40%作为验证集 。 客户风险可以分为“低风险一0”和“高风险一l”两 类,作为输出属性;险种、年龄、性别、婚姻状况作为输 入属性。从而分析哪些属性值导致客户理赔高风险, 哪些属性值导致客户理赔低风险。 把用于分析的数据分成两部分,随机抽取60%作 为训练集,剩下40%作为验证集。训练集与验证集的 收益表如图4、图5所示。 厂 ]厂 目输出字段quit_reason的结果 :岛总结果 白比较¥c—quiLreason与quiLreason r正橱一…~1一黼~ j 茸 l锚溴 3.685 1 6 56%l !f总计 22.250 f 自¥c—quiLreason的符台矩阵(行表示实际值) 一 隧 戆錾 整鲤鬻 《麓瀚 整 1 2.965 …— ! 一 !曼旦旦l2 l it_reason,按字段quiLreason分割 E quiLreason=0 : 岛比较¥c—qujLre f正确r一~…一1 硬i一~Ⅷ百峥 l锚误 26 0.2%l :l总计 1 2.991 l自¥c—qult reason的符台矩阵(行裹示实际值) 图4客户流失挖掘训练集收益表 输出字段quiLreason的结果 离总结果 Fj比较¥c—quiLreason与qui-treason f正祸……一…一_f ;丐…一百3 葺 6] I锚 是 3.685 16 5696l :l总计 22.250 } 白¥c—quILrea ̄sOn的符合矩阵(行表示衮际值) 目输出享段quiLreason,按字段quiLreason分剖 国 E较¥c—qulLreason与qul-treason :r正_确一 一 一…一T 芎一一 百?l闻 l睾毒l’溴 26 0.2%l ;L枣吐一………~堡里旦 ………J 由¥C-qul-treason的符合矩阵(行表示实际值) ;; …隧 殛 翮 ! ! …~ 剑 熊醛臻 E-J quILreason=1 岛比较¥c—qult re= ̄son与qui-treason ¥c—qulLreason的犄旨矩阵(行裹示实际值) … 蹙 繇麓瓢 髅 鼷嘲 3.659 5.600 图5客户流失挖掘验证集收益表 从上图可以看出,在训练集和验证集上的错误率 分别是16.56%和16.68%,即正确率分别是83.44% 和83.32%,这说明本研究中客户流失特征模型的正 确率是比较令人满意的。 2.2.2客户理赔风险模型 利用Clementine工具中C&R Tree算法 对客户 1)挖掘结果(如图6所示)。 单 规则用于0一包含2个规则 白规则1用于0.0(1 3.955;0 997) ;if Product hameinf_-B…一F‘】 i…then 0.000 i岛规则2用于0 0(446:0 72) if product namein【..8.… ‘1 and ageIn【3 0O0 4.O00】 and agein【4.O00】 then 0.000 岛岛 规则用于1一包含2个规则 自规则1用千1 0(2.298;0 71 8) i if productname in【..S…。 。】 and egein【0.O001 0O0 2 O001 l then 1 O00 白规则2用于1 0(1。084:0 503) i if productheme in【..8…。 。】 i end ageinf 3 000 4.000】 and agein【3 O001 then 1 O00 图6客户理赔风险挖掘规则集模型 从上图结果中可以看出:共产生4个规则,其中规 则1是有效的规则集。 从规则1可以看出:客户选择的险种是影响客户 理赔风险的一个关键因素,同时客户的年龄也是影响 客户理赔风险的一个主要因素。 2)模型的验证和评估。 将现有数据分成两部分,其中,随机选择60%作 为训练集,剩下的30%作为验证集,训练集与验证集 的收益表如图7、图8所示。 日输出字段new_conpensate—money的结果 自总结果 分割 岛比较SR.new_c0npensate—money- ̄-newcnnpensate__money 锚误 1 60 6 79% 总计 2.355 SR-new_conpensate—money的符合矩阵(行袁示实际值) ;圈 …豳黼攒 鬓 霸 礴鼹彝嘲 — — 图7客户理赔风险挖掘训练集收益表 ・160・ 客 目晰鑫( 镩鼹开 计算机技术与发展 第2l卷 理依据。 参考文献: [1] 闰娜娜,刘锋,李锡娟,等.支持CRM分析的数据仓库 多维房动模型[J].计算机技术与发展,2008,18(5):2】一 22. 日输出宰段new conpensate money的结果 岛总结果 自比较SR—new_conDensate money与new_conpensate_money 礴___…l锚头 l总计 __—1 稠 1.347 7 57%i 1 7.783 l 自¥R-new conpensate—money的符合矩阵(行表示实际值) [-]输出字段new conpensate money,按字段new_conDensate_mehey分割 岛new_conDensate—money=0 [2] 于红蕾,华庆一,刘燕玲,等.数据仓库在电信统计分析中 的应用[J].计算机技术与发展,2007,17(8):59—60. 自比较SIR—new conDensate_money与new_conDensate—money f厦两—一] 矿鳓 {复生 :!!!!! , —: 7.69%I lmoney的符台矩阵(行表示实际值) [3] 张宁,贾自艳,史忠植.数据仓库中ETL技术的研究 凤,蔡家媚.数据仓库中的数据提取[J].计算 [J].计算机工程与应用,2002(24):214—215. [4] 连立贵,金机工程,2001(9):61—62. B¥R---ew conpensate圈 圈 辫 黼 嘲 麟濑 圈豳 躐霞嘲鲤暨一一!垡 …一一_! 自newconDensatemoney=1 _日比较SR new_conpensate—money-- ̄-;new_coopensate money [_]¥R---ewconpensate_—匿丽广~—一__m丁 一__ _T 。l总计 2. 兰i1 355 ~ [5]Lingand R,Yen D C.Customer Relationship Management:An Analysis Framework and Implementation Strategies[J],Jour- nal of Computer Information System,2001(3):82—97. money的符台矩阵(行表示套两 值) :瞬 豳礴鳗 囊 嘲聪 瓣翮嘲… ! 蚓 [6] Ruggieri S.Efifcient C4.5[J].IEEE Transactions on knowl— edge and Data Engineering,2002,14(2):438—444. 图8 客户理赔风险挖掘验证集收益表 从上图可以看出,在训练集和验证集上的错误率 分别是7.57%和7.65%,即正确率分别是92.43%和 [7]梅强,张冬茉.数据挖掘在保险分析中的应用 J].汁 算机工程,2004(12):37—38. 92.21%,这说明本研究中客户理赔风险特征模型的正 确率是非常令人满意的。 [8] 桂现才,彭宏;王小华.基于决策树的保险客户流失分 析[J].计算机工程与设计,2005(8):59—60. [9j马建红,王万森.基于数据仓库的保险管理系统的设计 实现[J].微机发展,2004,14(7):64—66. 3结束语 通过客户流失模型和客户理赔风险模型,从中得 出了客户流失的特征、客户理赔风险大小的特征等结 [1O]梁循.数据挖掘:建模、算法、应用和系统[J].汁算机技 术与发展,2006,16(1):86~87. 111]王爱平,王占凤,陶嗣干,等.数据挖掘中常用关联规则挖 掘算法[J].计算机技术与发展,2010,20(4):17—20. [12]姚毓才,王本年.数据挖掘工具的分类与挖掘[J].计算机 技术与发展,2006,16(8):25—27. 论。在面向分析的数据仓库的基础上,可以利用数据 挖掘技术来设计险种绑定销售,制定挽留客户的措施, 并且控制保险公司理赔风险,为保险产品定价提供合 (上接第156页) [5] 金毅,黄敏.基于旋律的音乐检索研究——旋律特征的表 计算简单,易于实现,适用于主旋律只布在一个音轨的 音乐。通过对5O多首MIDI音乐进行分析统计, 92.8%都能准确地提取出主音轨。结果令人满意,同 达和提取[J].信息检索技术,2003,4:49—51. [6] 杨军.MIDI消息和标准MIDI文件格式剖析及应用[J].中 南民族大学学报(自然科学版),2009,22(Sup):62—64. [7] 刘嘉欣.嵌入式MIDI文件格式解析设计与实现[J].微计算机 信息,2006,22(11—2):66—67. 时也表明了该方法的有效性及可行性,从而为音乐灯 光表演方案辅助设计系统的构建进行了很好前提准 备。 参考文献: l1]Liu Li,Cai Junwei,Wang Lei,et a1.Melody Extraction from Po]一 [8] 秦丹.利用c#从MIDI文件中获取音乐旋律[J].电脑知识 j了技术,2009(7):4281—4284. [9] 彭琼,支垮.计算机自动识别音乐情感的关键技术研究 f J].电声基础,2008,32(4):35—38. [1 O]Zhu Bin.Music Features Recognition and its Application in Nation— al Music Pmtecfion[C]//Tth International Conference Oil Compul— er—Aided Industrial Design and Conceptual Design,2006(CAID— yphonic MIDI Files Based on Melody Similarity[c]//2008 Inter- national Symposium on Information Science and Engineering (ISISE 08).[S.1.]:[s.n.],2008:232—235. [2] 赵芳,吴亚栋,宿继奎.基于青轨特征量的多音轨MIDI主旋 CD O6).[S.1_]:[S.n.],2006:1—6. [1 1]Li Jiangtao,Yang Xiaohong,Chen Qingcai.MIDI melody extraction based on improved neural network『C 1//20o9 International Con 律抽取方法[J 汁算机工程,2007,33(2):j65一l67. [3] 冯国杰,E占军.基于分层次聚类的MIDI旨乐主旋律提取方 法[JJ.计算机工程与应用,2009,45(26):233—235. ference on Machine Learning and Cybernetics.[s.1_]:[S.n.1, 2009:1133 1138. [4] 叶霖,李雄飞,刘丽娟,等.一种有效识别MIDI文件中主旋 [12]孙即祥.现代模式识别[M J.长沙:国防科技大学出版社, 2001.46-70. 律音轨的方法[J].计算机应用与软件,2010,27(1):48—5O.