介绍数据分析/挖掘的图书有很多,这些图书分为很多等级,有的是直接面向应用(business, academy or interplay between both two),有的是介绍理论背景(个人认为很重要,如果以20/80规则,这些图书将有助于解决剩余20%的问题,不过你可能要付出80%精力),有的是结合各类计算工具(例如SAS,Excel,R etc)。相信很多人对此都很头疼,到底应该如何选择呢?
现在先谈谈我个人在数据分析的经历,最后我将会做个总结。
大学开设了两门专门讲授数据分析基础知识的课程:“概率统计”和“高等多元数据分析”。这两门选用的教材是有中国特色的国货,不仅体系完整而且重点突出,美中不足的是前后内在的逻辑性欠缺,即各知识点之间的关联性没有被阐述明白,而且在应用方面缺少系统地训练。当时,我靠着题海战术把这两门课给混过去了,现在看来是纯忽悠而已。(不过,如果当时去应聘数据分析职位肯定有戏,至少笔试可以过关)。
抱着瞻仰中国的最高科研圣地的想法,大学毕业后我奋不顾身的考取了中科院的研究生。不幸的是,虽然顶着号称是高级生物统计学的专业,我再也没有受到专业的训练,一切全凭自己摸索和研究(不过,我认为这样反而挺好,至少咱底子还是不错的,一直敏而好学)。首先,我尽全力搜集一切资料(从大学带过来的习惯),神勇地看了一段时间,某一天我突然“顿悟”,这样的学习方式是不行的,要以应用为依托才能真正学会。然后呢,好在咱的环境的研究氛围(主要是学生)还是不错滴,我又轰轰烈烈地跳入了paper的海洋,看到无数牛人用到很多牛方法,这些方法又号称解决了很多牛问题,当时那个自卑呀,无法理解这些papers。某一天,我又“顿悟”到想从papers中找到应用是不行的,你得先找到科学研究的思路才行,打个比方,这些papers其实是上锁的,你要先找到钥匙才成。幸运的是,我得到了笛卡尔先生的指导,尽管他已经仙游多年,他的“谈谈方法”为后世科研界中的被“放羊”的孤儿们指条不错的道路(虽然可能不是最好地,the better or best way要到国外去寻找,现在特别佩服毅然出国的童鞋们,你们的智商至少领先俺三年)。好了,在咱不错的底子的作用下,我掌握了科研方法(其实很简单,日后我可能会为“谈谈方法”专门写篇日志)。可惜,这时留给咱的时间不多了,中科院的硕博连读是5年,这对很多童鞋们绰绰有余的,但是因本人的情商较低,被小人“陷害”,被耽搁了差不多一年。这时,我发挥了“虎”(东北话)的精神,选择了一个应用方向,终于开始了把数据分析和应用结合的旅程了。具体过程按下不表,我先是把自己掌握的数据分析方法顺次应用了,或者现成的方法不适合,或者不能很好的解决问题,当时相当的迷茫呀,难道是咱的底子出了问题。某一天,我又“顿悟”了,毛主席早就教育我们要“具体问题具体分析”,“教条主义”要不得,我应该从问题的本质入手,从本质找方法,而不是妄想从繁多的方法去套住问题的本质。好了,我辛苦了一段时间,终于解决了问题,不过,我却有些纠结了。对于数据发分析,现在我的观点就是“具体问题具体分析”,你首先要深入理解被分析的问题(领域),尽力去寻找问题的本质,然后你只需要使用些基本的方法就可以很好的解决问题了,看来“20/80法则”的幽灵无处不在呀。于是乎,咱又回到了原点,赶紧去学那些基础知识方法吧,它们是很重要滴。
这里,说了一大堆,我做过总结:首先,你要掌握扎实的基础知识,并且一定要深入理解,在自己的思维里搭建起一桥,它连接着抽象的数据分析方法和现实的应用问题;其次,你要有意识的去训练分析问题的能力;最后,你要不断的积累各方面的知识,记住没有“无源之水”、“无根之木”,良好的数据分析能力是建立在丰富的知识储备上的。
因篇幅问题不能全部显示,请点此查看更多更全内容