资讯详情

数据挖掘与数据化运营实战

大数据技术系列
实际的数据挖掘和数据操作:思想、方法、技能和应用
卢辉 着
版本中的图书编目(CIP)数据
实际的数据挖掘和数据操作:思想、方法、技能和应用 / 卢辉-北京:2013年机械工业出版社.6
(大数据技术丛书)
ISBN 978-7-111-42650-9
I. 数… II. 卢… III. 数据采集 IV. TP274
中国版图书馆CIP第11479号数据核字(2013)
版权所有·侵权必究
封底无防伪标准均为盗版
法律顾问 北京展达律师事务所
本书是目前数据挖掘在数据操作实践领域更全面、更系统的工作,也是为数不多的数据挖掘书穿插大量真实的实际应用案例和场景,是创造性的数据操作不同的分析挖掘主题类型,推出相应的分析理念和相应的分析技能集成,为读者提供菜单化实战锦囊。作者结合自己的数据操作实践大量项目经验,易于理解非技术语言和大量生动的案例,围绕数据分析挖掘思想、方法、技能和应用、综合整理、总结、共享,帮助读者深入理解和掌握以业务为核心,以思想为重点,辅以分析技术的数据挖掘实践应用宝藏。作者结合自己的数据操作实践大量项目经验,易于理解非技术语言和大量生动的案例,围绕数据分析挖掘思想、方法、技能和应用、综合整理、总结、共享,帮助读者深入理解和掌握以业务为核心,以思想为重点,辅以分析技术的数据挖掘实践应用宝藏。
本书共19章,分为三个部分:基文章(第1~4章)系统介绍了数据分析挖掘和数据操作的相关背景、数据操作中协调合作的核心,以及实践中常见的分析项目类型;实践文章(第6~13章)主要介绍了实践中常见的分析挖掘技术的实践技能,并共享和展示了大量的实践案例;思想意识部分(第5章、第14~19章)主要是对数据分析师责任、意识和思维培养和改进的总结和探索,以及一些有效的项目质量控制体系和经典的方法论介绍。
机械工业出版社(北京市西城区百万庄街22号) 邮政编码 100037)
编辑:朱秀英
印刷
2013年6月第一版第一次印刷
186mm×240 mm·17.25印张
标准书号:ISBN 978-7-111-42650-9
定 价:59.00元
购买本书时,如有缺页、倒页、脱页,由本社发行部门更换
(010)88378919 88361066 (010)88379604
(010)68326294 88379649 68995259 读者信箱:hzjsj@hzbook.com
推 荐 序
所谓自知者明。
面对大量的数据,数据分析师偶尔会将自己视为对象进行分析、思考和总结,从而成为一名有品味的数据分析师,不断审视和提高分析水平,在数据分析的道路上走得更远。
这本书是作者卢辉对过去10年数据挖掘职业生涯的自省、总结和提炼。
国内企业很难看到以前读过的数据挖掘书籍的完整例子。而本书分享的数据化运营实战案例都是来自阿里巴巴B2B近三年的商业实践, 有立竿见影的案例,也有充满曲折和重复的案例。面对这些实战中的挫折和曲折,作者分享了如何调整思路和方法,如何与业务方一起寻找新的解决方案,最终如何达到满意的业务应用效果。这些分享是非常真实和有价值的。我相信这些完整的实际战斗案例将给你一个新的阅读体验,给你一个真实和清晰的数据挖掘业务应用程序的原始外观,也将在启发和参考读者未来的数据挖掘业务实践。
从这个角度来看,这本书是作者探索的一系列数据挖掘和数据操作规则,是作者对数据分析师有效工作方法的框架和总结。
如果你是一个新的读者(或对进入数据分析行业感兴趣),这本书对你有很大的参考和指导意义:帮助你尽快开始,尽快成长。如果你是一个有一定工作经验的数据分析专业人士,这本书也可以作为一面镜子来激励你思考和总结。
读者可以通过阅读这本书来问自己:
掌握了多少数据分析挖掘技巧?
书中有实战案例吗?
你有数据分析师对分析/数据的态度吗?
如何有效管理团队?
如果上述某些方面你没有想过,这本书会给你有意义的启迪。
最后,请允许我唠叨一些数据的未来:
关于分析师
在不久的将来,或者现在,数据分析师将面临新的挑战(也是一个转型机会):在原分析师的专业定位中,为了更适合业务应用,开始逐步融入产品经理的角色:善于总结、细化、推广、产品化分析。要做到这一点,数据分析师必须对数据和业务有更深入的了解。
在成熟阶段,数据分析师将是一群具有商业理解、数据分析和商业应用思维三大核心能力的综合体。
关于数据质量
在数据操作的道路上,有许多问题需要解决。最棘手、最突出的是数据质量。
在企业的数据商业实践中,数据为自己使用和数据为他人使用是两个完全不同的难题。例如,在家里做几道家常菜和开餐馆。后者对口味质量更为严格,食客们盯着它看。
这本书写了使用数据和分析数据的经验;在未来,当数据可以很容易地使用时,我们会发现数据的力量已经渗透到每个人的决策环节中。
车品觉
阿里巴巴数据委员会主席
前 言
为什么要写这本书?
自2002年以来第一次接触 数据挖掘(Data Mining)自从这个新名词以来,我已经在数据挖掘商业应用相关领域度过了11年。在过去的11年里,我不仅看到了外国数据挖掘商业应用的全面发展;从21世纪开始,国内企业在数据挖掘商业应用中的探索,到当前的形势;更幸运的是,在传统行业的数据挖掘商业应用之后,我加入了互联网行业(当今的数据分析商业应用正在蓬勃发展,最快,最依赖于数据和数据挖掘的商业应用的行业)的数据挖掘商业实践中。这11年是我职业生涯中最为重要的一段时光,从个人生存的角度来说,我找到了谋生和养家糊口的饭碗—数据挖掘工作;从个人归属的角度来说,我很幸运地碰到了职业与兴趣的重合点。
    在国内,“数据挖掘”作为一门复合型应用学科,其在商业领域的实践应用及推广只有十几年的时间,在此期间,国内虽然陆续出版了一些相关的书籍,但是绝大多数都是基于理论或者国外经验来阐述的,少有针对国内企业相关商业实战的详细介绍和分享,更缺乏从数据分析师的角度对商业实战所进行的总结和归纳。因此,从商业应用出发,基于大量的商业实战案例而不是基于理论探讨的数据挖掘应用书籍成为当今图书市场和广大“数据挖掘”学习者的共同需求。
    同时,在有幸与数据挖掘商业实践相伴11年之后,我也想稍微放慢些脚步,正如一段长途跋涉之后需要停下脚步,整理一路经历的收获和感悟一样,我希望将自己一路走来的心得与体会、经验与教训、挫折与成绩整理出来。
    基于以上原因,我决定从数据挖掘的商业需求和商业实战出发,结合我10多年来在不同行业(尤其是最近4年在互联网行业)的大量数据挖掘商业实战项目,将自己这些年来积累的经验和总结分享出来,希望能够起到抛砖引玉的作用,为对数据挖掘商业实践感兴趣的朋友、爱好者、数据分析师提供点滴的参考和借鉴。同时,鉴于“数据化运营”在当今大数据时代已经成为众多(以后必将越来越多)现代企业的普遍经营战略,相信本书所分享的大量有关数据化运营的商业实践项目也可以为企业的管理层、决策层提供一定程度的参考和借鉴。
    我相信,本书总结的心得与体会,可以推动自己今后的工作,会成为我的财富;同时,这些心得与体会对于部分数据分析师来说也可以起到不同程度的参考和借鉴作用;对于广大对数据挖掘商业应用感兴趣的初学者来说也未尝不是一种宝贵经验。
    我是从机械制造工艺与设备这个与“数据挖掘”八竿子打不着的专业转行到数据挖掘商业应用行业的,这与目前国内绝大多数的数据分析挖掘专业人士的背景有较大差别(国内绝大多数数据分析挖掘专业人士主要来自统计专业、数学专业或者计算机专业)。我的职业道路很曲折,之所以放弃了自己没兴趣的机械制造工艺与设备专业,是因为自己喜欢市场营销。有幸在国外学习市场营销专业时了解并亲近了国外市场营销中的核心和基石—市场营销信息学(Marketing Informatics)。当然,这是国外10多年前的说法,换成行业内与时俱进的新说法,就是时下耳熟能详的“数据分析挖掘在市场营销领域的商业实践应用”)。说这么多,其实只是想告诉有缘的对数据挖掘商业实践感兴趣的朋友, “以业务为核心,以思路为重点,以挖掘技术为辅佐”就是该领域的有效成长之路。
    很多初学者总以为掌握了某些分析软件,就可以成为数据分析师。其实,一个成功的数据挖掘商业实践,核心的因素不是技术,而是业务理解和分析思路。本书自始至终都在力图用大量的事实和案例来证明“以业务为核心,以思路为重点,以挖掘技术为辅佐”才是数据挖掘商业实践成功的宝典。
    另外,现代企业面对大数据时代的数据化运营绝不仅仅是数据分析部门和数据分析师的事情,它需要企业各部门的共同参与,更需要企业决策层的支持和推动。
读者对象
    对数据分析和数据挖掘的商业实践感兴趣的大专院校师生、对其感兴趣的初学者。
    互联网行业对数据分析挖掘商业实践感兴趣的运营人员以及其他专业的人士。
    实施数据化运营的现代企业的运营人员以及其他专业的人士,尤其是企业的管理者、决策者(数据化运营战略的制定者和推动者)。
    各行各业的数据分析师、数据挖掘师。
勘误和支持
    由于作者水平和能力有限,编写时间仓促,不妥之处在所难免,在此恳请读者批评指正。作者有关数据挖掘商业实践应用的专业博客 “数据挖掘 人在旅途”地址为http://shzxqdj.blog.163.com,欢迎读者和数据挖掘商业实践的爱好者不吝赐教。另外,如果您有关于数据挖掘商业实践的任何话题,也可以发送邮件到邮箱 chinadmer@163.com ,期待你们的反馈意见。
如何阅读本书
    本书分为19章。
    第1~4章为基础和背景部分,主要介绍数据分析挖掘和数据化运营的相关背景、数据化运营中“协调配合”的本质,以及实践中常见的分析项目类型。
    第6~13章是数据分析挖掘中的具体技巧和案例分享部分,主要介绍实践中常见的分析挖掘技术的实用技巧,并对大量的实践案例进行了全程分享展示。
    第5章,第14~19章是有关数据分析师的责任、意识、思维的培养和提升的总结与探索,以及一些有效的项目质控制度和经典的方法论。
    本书几乎每章都会用至少一个完整翔实的实战案例来进行说明、反复强化“以业务为核心,以思路为重点,以挖掘技术为辅佐”,希望能给读者留下深刻印象,因为这是数据挖掘商业实践成功的宝典。
致谢
    首先要感谢机械工业出版社华章公司的杨绣国(Lisa)编辑,没有您的首倡和持续的鼓励,我不会想到要写这样一本来自实践的书,也不会顺利地完成这本书。写作过程中,您的帮助让我对“编辑”这个职业有了新的认识,编辑就是作者背后的无名英雄。在本书出版之际,我向Lisa表达我深深的感谢和祝福。同时感谢朱秀英编辑在本书后期编辑过程中付出的辛劳,您的专业、敬业和细心使得书稿中诸多不完善之处得以修正和提高。
    作为一名30多岁才从机械工程师转行,进入数据挖掘及其商业实践的迟到者,我在数据挖掘的道路上一路走来,得到了无数贵人的帮助和提携。
    感谢我的启蒙导师,加拿大Dalhousie University的数据挖掘课程教授Tony Schellinck。他风趣幽默的授课风格,严谨扎实的专业功底,随手拈来的大量亲身经历的商业实战案例,以及对待学生的耐心和热情,让我作为一名外国学生能有效克服语言和生活环境的挑战,比较顺利地进入数据挖掘的职业发展道路。
    感谢回国后给我第一份专业工作机会的前CCG集团(Communication Central Group)商业智能应用事业部总经理Justin Jencks。中国通Justin在我们一起共事的那段日子里,果敢放手让我尝试多个跨行业的探索性商业应用项目,给了我许多宝贵的机会,使我迅速熟悉本土市场,积累了不同行业的实战案例,这些对我的专业成长非常重要。
    感谢4年前给我机会,让我得以从传统行业进入互联网行业的阿里巴巴集团ITBU事业部的前商业智能部门总监李红伟(菠萝)。进入互联网行业之后,我才深深懂得作为一名数据分析师,相比传统行业来说,互联网行业有太多的机会可以去尝试不同的项目,去亲历数不清的“一竿子插到底”的落地应用,去学习面对日新月异的需求和挑战。
    在本书的编写过程中,得到了淘宝网的商品推荐高级算法工程师陈凡(微博地址为hppt://weibo.com/bicloud)和阿里巴巴B2B的数据仓库专家蒿亮(微博地址为http://weibo.com/airjam;E-mail:airjam.hao@gmail.com)热情而专业的帮助和支持。陈凡友情编写了本书的3.11节,蒿亮友情编写了本书的1.4.1节和13.1节。
    感谢一路走来,在项目合作和交流中给我帮助和支持的各位前辈、领导、朋友和伙伴,包括:上海第一医药连经营有限公司总经理顾咏晟先生、新华信国际信息咨询北京有限公司副总裁欧万德先生(Alvin)、上海联都集团的创始人冯铁军先生、上海通方管理咨询有限公司总经理李步峰女士和总监张国安先生、鼎和保险公司的张霖霏先生、盛大文学的数据分析经理张仙鹤先生、途牛网高级运营专家焦延伍先生,以及来自阿里巴巴的数据分析团队的领导和伙伴(资深总监车品觉先生、高级专家范国栋先生、资深经理张高峰先生、数据分析专家樊宁先生、资深数据分析师曹俊杰先生、数据分析师宫尚宝先生,等等,尤其要感谢阿里巴巴数据委员会会长车品觉老师在百忙中热情地为本书作推荐序,并在序言里为广大读者分享了数据分析师当前面临的最新机遇和挑战),以及这个仓促列出的名单之外的更多前辈、领导、朋友和伙伴。
    感谢我的父母、姐姐、姐夫和外甥,他们给予了我一贯的支持和鼓励。
    我将把深深的感谢给予我的妻子王艳和女儿露璐。露璐虽然只是初中一年级的学生,但是在本书的写作过程中,她多次主动放弃外出玩耍,帮我改稿,给我提建议,给我鼓励,甚至还为本书设计了一款封面,在此向露璐同学表达我衷心的感谢!而我的妻子,则将家里的一切事情打理得井井有条,使我可以将充分的时间和精力投入本书的写作中。谨以此书献给她们!
卢辉 
中国 杭州
目  录
推荐序
前言
第1章 什么是数据化运营 / 1
1.1 现代营销理论的发展历程 / 2
1.1.1 从4P到4C / 2
1.1.2 从4C到3P3C / 3
1.2 数据化运营的主要内容 / 5
1.3 为什么要数据化运营 / 7
1.4 数据化运营的必要条件 / 8
1.4.1 企业级海量数据存储的实现 / 8
1.4.2 精细化运营的需求 / 10
1.4.3 数据分析和数据挖掘技术的有效应用 / 11
1.4.4 企业决策层的倡导与持续支持 / 11
1.5 数据化运营的新现象与新发展 / 12
1.6 关于互联网和电子商务的最新数据 / 14
第2章 数据挖掘概述 / 15
2.1 数据挖掘的发展历史 / 16
2.2 统计分析与数据挖掘的主要区别 / 16
2.3 数据挖掘的主要成熟技术以及在数据化运营中的主要应用 / 18
2.3.1 决策树 / 18
2.3.2 神经网络 / 19
2.3.3 回归 / 21
2.3.4 关联规则 / 22
2.3.5 聚类 / 23
2.3.6 贝叶斯分类方法 / 24
2.3.7 支持向量机 / 25
2.3.8 主成分分析 / 26
2.3.9 假设检验 / 27
2.4 互联网行业数据挖掘应用的特点 / 28
第3章 数据化运营中常见的数据分析项目类型 / 30
3.1 目标客户的特征分析 / 31
3.2 目标客户的预测(响应、分类)模型 / 32
3.3 运营群体的活跃度定义 / 33
3.4 用户路径分析 / 34
3.5 交叉销售模型 / 35
3.6 信息质量模型 / 37
3.7 服务保障模型 / 39
3.8 用户(买家、卖家)分层模型 / 40
3.9 卖家(买家)交易模型 / 44
3.10 信用风险模型 / 44
3.11 商品推荐模型 / 45
3.11.1 商品推荐介绍 / 45
3.11.2 关联规则 / 45
3.11.3 协同过滤算法 / 50
3.11.4 商品推荐模型总结 / 54
3.12 数据产品 / 55
3.13 决策支持 / 56
第4章 数据化运营是跨专业、跨团队的协调与合作 / 57
4.1 数据分析团队与业务团队的分工和定位 / 58
4.1.1 提出业务分析需求并且能胜任基本的数据分析 / 58
4.1.2 提供业务经验和参考建议 / 60
4.1.3 策划和执行精细化运营方案 / 60
4.1.4 跟踪运营效果、反馈和总结 / 61
4.2 数据化运营是真正的多团队、多专业的协同作业 / 62
4.3 实例示范数据化运营中的跨专业、跨团队协调合作 / 62
第5章 分析师常见的错误观念和对治的管理策略 / 67
5.1 轻视业务论 / 68
5.2 技术万能论 / 69
5.3 技术尖端论 / 71
5.4 建模与应用两段论 / 72
5.5 机器万能论 / 73
5.6 幸福的家庭都是相似的,不幸的家庭各有各的不幸 / 74
第6章 数据挖掘项目完整应用案例演示 / 76
6.1 项目背景和业务分析需求的提出 / 77
6.2 数据分析师参与需求讨论 / 78
6.3 制定需求分析框架和分析计划 / 79
6.4 抽取样本数据、熟悉数据、数据清洗和摸底 / 81
6.5 按计划初步搭建挖掘模型 / 81
6.6 与业务方讨论模型的初步结论,提出新的思路和模型优化方案 / 83
6.7 按优化方案重新抽取样本并建模,提炼结论并验证模型 / 84
6.8 完成分析报告和落地应用建议 / 86
6.9 制定具体的落地应用方案和评估方案 / 86
6.10 业务方实施落地应用方案并跟踪、评估效果 / 86
6.11 落地应用方案在实际效果评估后,不断修正完善 / 88
6.12 不同运营方案的评估、总结和反馈 / 88
6.13 项目应用后的总结和反思 / 89
第7章 数据挖掘建模的优化和限度 / 90
7.1 数据挖掘模型的优化要遵循有效、适度的原则 / 91
7.2 如何有效地优化模型 / 92
7.2.1 从业务思路上优化 / 92
7.2.2 从建模的技术思路上优化 / 94
7.2.3 从建模的技术技巧上优化 / 95
7.3 如何思考优化的限度 / 96
7.4 模型效果评价的主要指标体系 / 96
7.4.1 评价模型准确度和精度的系列指标 / 97
7.4.2 ROC曲线 / 99
7.4.3 KS值 / 100
7.4.4 Lift值 / 102
7.4.5 模型稳定性的评估 / 104
第8章 常见的数据处理技巧 / 105
8.1 数据的抽取要正确反映业务需求 / 106
8.2 数据抽样 / 107
8.3 分析数据的规模有哪些具体的要求 / 108
8.4 如何处理缺失值和异常值 / 109
8.4.1 缺失值的常见处理方法 / 109
8.4.2 异常值的判断和处理 / 111
8.5 数据转换 / 112
8.5.1 生成衍生变量 / 113
8.5.2 改善变量分布的转换 / 113
8.5.3 分箱转换 / 114
8.5.4 数据的标准化 / 115
8.6 筛选有效的输入变量 / 115
8.6.1 为什么要筛选有效的输入变量 / 116
8.6.2 结合业务经验进行先行筛选 / 116
8.6.3 用线性相关性指标进行初步筛选 / 117
8.6.4 R平方 / 118
8.6.5 卡方检验 / 119
8.6.6 IV和WOE / 120
8.6.7 部分建模算法自身的筛选功能 / 121
8.6.8 降维的方法 / 122
8.6.9 最后的准则 / 122
8.7 共线性问题 / 123
8.7.1 如何发现共线性 / 123
8.7.2 如何处理共线性 / 123
第9章 聚类分析的典型应用和技术小窍门 / 125
9.1 聚类分析的典型应用场景 / 126
9.2 主要聚类算法的分类 / 127
9.2.1 划分方法 / 127
9.2.2 层次方法 / 128
9.2.3 基于密度的方法 / 128
9.2.4 基于网格的方法 / 129
9.3 聚类分析在实践应用中的重点注意事项 / 129
9.3.1 如何处理数据噪声和异常值 / 129
9.3.2 数据标准化 / 130
9.3.3 聚类变量的少而精 / 131
9.4 聚类分析的扩展应用 / 132
9.4.1 聚类的核心指标与非聚类的业务指标相辅相成 / 132
9.4.2 数据的探索和清理工具 / 132
9.4.3 个性化推荐的应用 / 133
9.5 聚类分析在实际应用中的优势和缺点 / 134
9.6 聚类分析结果的评价体系和评价指标 / 135
9.6.1 业务专家的评估 / 135
9.6.2 聚类技术上的评价指标 / 136
9.7 一个典型的聚类分析课题的案例分享 / 137
9.7.1 案例背景 / 137
9.7.2 基本的数据摸底 / 137
9.7.3 基于用户样本的聚类分析的初步结论 / 138
第10章 预测响应(分类)模型的典型应用和技术小窍门 / 140
10.1 神经网络技术的实践应用和注意事项 / 141
10.1.1 神经网络的原理和核心要素 / 141
10.1.2 神经网络的应用优势 / 143
10.1.3 神经网络技术的缺点和注意事项 / 143
10.2 决策树技术的实践应用和注意事项 / 144
10.2.1 决策树的原理和核心要素 / 144
10.2.2 CHAID算法 / 145
10.2.3 CART算法 / 145
10.2.4 ID3算法 / 146
10.2.5 决策树的应用优势 / 146
10.2.6 决策树的缺点和注意事项 / 147
10.3 逻辑回归技术的实践应用和注意事项 / 148
10.3.1 逻辑回归的原理和核心要素 / 148
10.3.2 回归中的变量筛选方法 / 150
10.3.3 逻辑回归的应用优势 / 151
10.3.4 逻辑回归应用中的注意事项 / 151
10.4 多元线性回归技术的实践应用和注意事项 / 152
10.4.1 线性回归的原理和核心要素 / 152
10.4.2 线性回归的应用优势 / 153
10.4.3 线性回归应用中的注意事项 / 153
10.5 模型的过拟合及对策 / 154
10.6 一个典型的预测响应模型的案例分享 / 156
10.6.1 案例背景 / 156
10.6.2 基本的数据摸底 / 156
10.6.3 建模数据的抽取和清洗 / 158
10.6.4 初步的相关性检验和共线性排查 / 159
10.6.5 潜在自变量的分布转换 / 160
10.6.6 自变量的筛选 / 161
10.6.7 响应模型的搭建与优化 / 162
10.6.8 冠军模型的确定和主要的分析结论 / 162
10.6.9 基于模型和分析结论基础上的运营方案 / 164
10.6.10 模型落地应用效果跟踪反馈 / 165
第11章 用户特征分析的典型应用和技术小窍门 / 166
11.1 用户特征分析所适用的典型业务场景 / 167
11.1.1 寻找目标用户 / 167
11.1.2 寻找运营的抓手 / 168
11.1.3 用户群体细分的依据 / 169
11.1.4 新品开发的线索和依据 / 169
11.2 用户特征分析的典型分析思路和分析技术 / 170
11.2.1 3种划分的区别 / 170
11.2.2 RFM / 171
11.2.3 聚类技术的应用 / 172
11.2.4 决策树技术的应用 / 173
11.2.5 预测(响应)模型中的核心自变量 / 173
11.2.6 假设检验的应用 / 174
11.3 特征提炼后的评价体系 / 174
11.4 用户特征分析与用户预测模型的区别和联系 / 175
11.5 用户特征分析案例 / 176
第12章 运营效果分析的典型应用和技术小窍门 / 177
12.1 为什么要做运营效果分析 / 178
12.2 统计技术在数据化运营中最重要最常见的应用 / 179
12.2.1 为什么要进行假设检验 / 179
12.2.2 假设检验的基本思想 / 179
12.2.3 T检验概述 / 180
12.2.4 两组独立样本T检验的假设和检验 / 181
12.2.5 两组独立样本的非参数检验 / 182
12.2.6 配对差值的T检验 / 183
12.2.7 配对差值的非参数检验 / 184
12.2.8 方差分析概述 / 186
12.2.9 单因素方差分析 / 187
12.2.10 多个样本组的非参数检验 / 190
12.2.11 卡方检验 / 190
12.2.12 控制变量的方法 / 191
12.2.13 AB Test / 192
第13章 漏斗模型和路径分析 / 193
13.1 网络日志和布点 / 194
13.1.1 日志布点 / 195
13.1.2 日志采集 / 195
13.1.3 日志解析 / 195
13.1.4 日志分析 / 195
13.2 漏斗模型与路径分析的主要区别和联系 / 196
13.3 漏斗模型的主要应用场景 / 197
13.3.1 运营过程的监控和运营效率的分析与改善 / 197
13.3.2 用户关键路径分析 / 198
13.3.3 产品优化 / 198
13.4 路径分析的主要应用场景 / 198
13.5 路径分析的主要算法 / 199
13.5.1 社会网络分析方法 / 199
13.5.2 基于序列的关联分析 / 200
13.5.3 最朴素的遍历方法 / 201
13.6 路径分析案例的分享 / 203
13.6.1 案例背景 / 203
13.6.2 主要的分析技术介绍 / 203
13.6.3 分析所用的数据概况 / 203
13.6.4 主要的数据结论和业务解说 / 203
13.6.5 主要分析结论的落地应用跟踪 / 206
第14章 数据分析师对业务团队数据分析能力的培养 / 208
14.1 培养业务团队数据分析意识与能力的重要性 / 209
14.2 数据分析师在业务团队数据分析意识能力培养中的作用 / 210
14.3 数据分析师如何培养业务团队的数据分析意识和能力 / 210
14.4 数据分析师培养业务团队数据分析意识能力的案例分享 / 212
14.4.1  案例背景 / 212
14.4.2 过程描述 / 212
14.4.3 本项目的效果跟踪 / 214
第15章 换位思考 / 216
15.1 为什么要换位思考 / 217
15.2 从业务方的角度换位思考数据分析与挖掘 / 218
15.3 从同行的角度换位思考数据分析挖掘的经验教训 / 220
第16章 养成数据分析师的品质和思维模式 / 222
16.1 态度决定一切 / 223
16.1.1 信念 / 223
16.1.2 信心 / 224
16.1.3 热情 / 225
16.1.4 敬畏 / 226
16.1.5 感恩 / 227
16.2 商业意识是核心 / 228
16.2.1 为什么商业意识是核心 / 228
16.2.2 如何培养商业意识 / 229
16.3 一个基本的方法论 / 230
16.4 大胆假设,小心求证 / 231
16.5 20/80原理 / 233
16.6 结构化思维 / 233
16.7 优秀的数据分析师既要客观,又要主观 / 234
第17章 条条大道通罗马 / 236
17.1 为什么会条条大道通罗马 / 237
17.2 条条大道有侧重 / 238
17.3 自觉服从和积极响应 / 239
17.3.1 自觉服从 / 239
17.3.2 积极响应 / 240
17.4 具体示例 / 242
第18章 数据挖掘实践的质量保障流程和制度 / 243
18.1 一个有效的质量保障流程制度 / 244
18.1.1 业务需求的收集 / 245
18.1.2 评估小组评估需求的优先级 / 246
18.1.3 课题组的成立及前期摸底 / 247
18.1.4 向业务方提交正式课题(项目)计划书 / 247
18.1.5 数据分析挖掘的课题展开 / 248
18.1.6 向业务方提交结论报告及业务落地应用建议 / 248
18.1.7 课题(项目)的落地应用和效果监控反馈 / 248
18.2 质量保障流程制度的重要性 / 249
18.3 如何支持与强化质量保障流程制度 / 250
第19章 几个经典的数据挖掘方法论 / 251
19.1 SEMMA方法论 / 252
19.1.1 数据取样 / 253
19.1.2 数据探索 / 253
19.1.3 数据调整 / 253
19.1.4 模式化 / 254
19.1.5 评价 / 254
19.2 CRISP-DM方法论 / 254
19.2.1 业务理解 / 255
19.2.2 数据理解 / 256
19.2.3  数据准备 / 256
19.2.4 模型搭建 / 256
19.2.5 模型评估 / 256
19.2.6 模型发布 / 256
19.3 Tom Khabaza的挖掘9律 / 256
第1章
什么是数据化运营
21世纪核心的竞争就是数据的竞争,谁拥有数据,谁就拥有未来。 
—马云
1.1 现代营销理论的发展历程
1.2 数据化运营的主要内容
1.3 为什么要数据化运营
1.4 数据化运营的必要条件
1.5 数据化运营的新现象与新发展
1.6 关于互联网和电子商务的最新数据
数据化运营是当前企业管理和企业战略里非常热门的一个词汇。其实施的前提条件包括企业级海量数据存储的实现、精细化运营的需求(与传统的粗放型运营相对比)、数据分析和数据挖掘技术的有效应用等,并且还要得到企业决策层和管理层的支持及推动。
数据化运营是现代企业从粗放经营向精细化管理发展的必然要求,是大数据时代企业保持市场核心竞争力的必要手段,要进行数据化运营,必须要企业全员的参与和配合。本书讨论的数据化运营主要是指互联网行业的数据化运营,所以,除非特别申明,本书所有的“数据化运营”专指互联网数据化运营,尽管本书涉及的分析挖掘技术同样也适用于互联网行业之外的其他行业。
数据化运营来源于现代营销管理,但是在“营销”之外有着更广的含义。
1.1 现代营销理论的发展历程 
1.1.1 从4P到4C
以4P为代表的现代营销理论可以追溯到1960年出版的(《基础营销》英文书名为Basic Marketing)一书,该理论是由作者杰罗姆·麦卡锡(E.Jerome McCarthy)在该书中提出的。到了1967年,“现代营销学之父”菲利普·科特勒(Philip Kotler)在其代表作《营销管理》(Marketing Management: Application, Planning, Implementation and Control)第1版里进一步确认了以4P为核心的营销组合方法论。随后,该理论风靡世界,成为近半个世纪的现代营销核心思想,影响并左右了当时无数的企业营销战略。
4P指的是Product(产品)、Price(价格)、Place(渠道)和Promotion(促销),如图1-1所示。4P的内容简要概括如下。
Product:表示注重产品功能,强调独特卖点。
Price:指根据不同的市场定位,制定不同的价格策略。
Place:指要注重分销商的培养和销售网络的建设。
Promotion:指企业可以通过改变销售行为来刺激消费者,以短期的行为(如让利、买一送一、调动营销现场气氛等)促成消费的增长,吸引其他品牌的消费者前来消费,或者促使老主顾提前来消费,从而达到销售增长的目的。
4P理论的核心是Product(产品)。因此,以4P理论为核心营销思想的企业营销战略又可以简称为“以产品为中心”的营销战略。
随着时代的发展,商品逐渐丰富起来,市场竞争也日益激烈,尤其进入21世纪后,消费者已成为商业世界的核心。在当今这个充满个性化的商业时代,传统的4P营销组合已经无法适应时代发展的需求,营销界开始研究新的营销理论和营销要素。其中,最具代表性的理论就是4 C理论,这里的4C包括Consumer(消费者)、Cost(成本)、Convenience(方便性)和Communication(沟通交流),如图1-2所示,4C的内容简要概括如下:
消费者的需求与愿望(Customer抯 Needs and Wants)。
消费者得到满足的成本(Cost and Value to Satisfy Consumer抯 Needs and Wants)。
用户购买的方便性(Convenience to Buy)。
与用户的沟通交流(Communication with Consumer)。
4 C理论的核心是Consumer消费者。因此,以4C理论为核心营销思想的企业营销战略又可以简称为“以消费者为中心”的营销战略。
1.1.2 从4C到3P3C
4 C理论虽然成功找到了从“以产品为中心”转化为“以消费者为中心”的思路和要素,但是随着社会的进步,科技的发展,大数据时代的来临,4 C理论再次落后于时代发展的需要。大数据时代,日益白热化的市场竞争、越来越严苛的营销预算、海量的数据堆积和存储等,迫使现代企业不得不寻找更合适、更可控、更可量化、更可预测的营销思路和方法论。于是在基本思路上融合了4P理论和4C理论的nPnC形式的理论出现了。
具体到典型的互联网行业,虽然学术界对于到底是几个P和几个C仍存在着争议,没有定论,但是这并不妨碍企业积极探索并付诸实践应用,本书姑且以3P3C为例,如图1-3所示,概述互联网行业运营的典型理论探索。
图1-3 3P3C理论结构图
在3P3C理论中,数据化运营6要素的内容如下。
Probability(概率):营销、运营活动以概率为核心,追求精细化和精准率。
Product(产品):注重产品功能,强调产品卖点。
Prospects(消费者,目标用户)。
Creative (创意,包括文案、活动等)。
Channel (渠道)。
Cost/Price(成本/价格)。
而在这其中,以数据分析挖掘所支撑的目标响应概率(Probability)是核心,在此基础上将会围绕产品功能优化、目标用户细分、活动(文案)创意、渠道优化、成本的调整等重要环节和要素,共同促使数据化运营持续完善,直至成功。
需要指出的是,这里的目标响应概率(Probability)不应狭义理解为仅仅是预测响应模型之类的响应概率,它有更宽泛的含义,既可以从宏观上来理解,又可以从微观上来诠释。从宏观上来理解,概率可以是特定消费群体整体上的概率或可能性。比如,我们常见的通过卡方检验发现某个特定类别群体在某个消费行为指标上具有的显著性特征,这种显著性特征可以帮助我们进行目标市场的选择、寻找具有相似特征的潜在目标用户,制定相应的细分营销措施和运营方案等,这种方法可以有效提升运营的效率和效果;从微观上来理解,概率可以是具体到某个特定消费者的“预期响应概率”,比如我们常见的通过逻辑回归算法搭建一个预测响应模型,得到每个用户的预计响应概率,然后,根据运营计划和预算,抽取响应概率分数的消费者,进行有针对性的运营活动等,这种方法也可以有效提升运营的效率和效果。
宏观的概率更加有效,还是微观的概率更加有效,这需要结合项目的资源计划、业务背景、项目目的等多种因素来权衡,不可一概而论。虽然微观的概率常常更为精细、更加准确,但是在实践应用中,宏观的群体性概率也可以有效提升运营效果,也是属于数据化运营的思路。所以在实践过程中如何选择,要根据具体的业务场景和具体的数据分析解决方案来决定。更多延伸性的分析探讨,将在后面章节的具体项目类型分析、技术分享中详细介绍。
上述3P3C理论有效锁定了影响运营效果的主要因素、来源,可以帮助运营人员、管理人员、数据分析人员快速区分实践中的思考维度和着力点,提高思考效率和分析效率。
1.2 数据化运营的主要内容
虽然目前企业界和学术界对于“数据化运营”的定义没有达成共识,但这并不妨碍“数据化运营”思想和实践在当今企业界尤其是互联网行业如火如荼地展开。阿里巴巴集团早在2010年就已经在全集团范围内正式提出了“数据化运营”的战略方针并逐步实施数据化运营,腾讯公司也在“2012年腾讯智慧上海主题日”高调宣布“大数据化运营的黄金时期已经到来,如何整合这些数据成为未来的关键任务”。
综合业界尤其是互联网行业的数据化运营实践来看,尽管各行业对“数据化运营”的定义有所区别,但其基本要素和核心是一致的,那就是“以企业级海量数据的存储和分析挖掘应用为核心支持的,企业全员参与的,以精准、细分和精细化为特点的企业运营制度和战略”。换种思路,可以将其浅层次地理解为,在企业常规运营的基础上革命性地增添数据分析和数据挖掘的精准支持。这是从宏观意义上对数据化运营的理解,其中会涉及企业各部门,以及数据在企业中所有部门的应用。但是必须指出,本书所要分享的实战项目涉及的数据化运营,主要落实在微观意义的数据化运营上,即主要针对运营、销售、客服等部门的互联网运营的数据分析、挖掘和支持上。
注意:这种宏观和微观上的区别在本质上对于数据化运营的核心没有影响,只是在本书的技术和案例分享中更多聚焦于运营部门、销售部门、客服部门而已,特此说明。
针对互联网运营部门的数据化运营,具体包括“网站流量监控分析、目标用户行为研究、网站日常更新内容编辑、网络营销策划推广”等,并且,这些内容是在以企业级海量数据的存储、分析、挖掘和应用为核心技术支持的基础上,通过可量化、可细分、可预测等一系列精细化的方式来进行的。
数据化运营,首先是要有企业全员参与意识,要达成这种全员的数据参与意识比单纯地执行数据挖掘技术显然是要困难得多,也重要得多的。只有在达成企业全员的自觉参与意识后,才可能将其转化为企业全体员工的自觉行动,才可能真正落实到运营的具体工作中。举例来说,阿里巴巴集团正在实施的数据化运营,就要求所有部门所有岗位的员工都要贯彻此战略:从产品开发人员到用户体验部门,到产品运营团队,到客户服务部门,到销售团队和支持团队,每个人每个岗位都能真正从数据应用、数据管理和数据发现的高度经营各自的本职工作,也就类似于各个岗位的员工,都在各自的工作中自觉利用或简单或复杂的数据分析工具,进行大大小小的数据分析挖掘,这才是真正的数据化运营的场面,才是真正的从数据中发现信息财富并直接助力于企业的全方位提升。也只有这样,产品开发人员所提出的新概念才不是拍脑袋拍出来的,而是来自于用户反馈数据的提炼;产品运营人员也不再仅仅是每天被动地抄报运营的KPI指标,通过数据意识的培养,他们将在运营前的准备,运营中的把握,运营后的反馈、修正、提升上有充分的预见性和掌控力;客户服务部门不仅仅满足于为客户提供满意的服务,他们学会了从服务中有意识地发现有代表性的、有新概念价值的客户新需求;销售部门则不再只是具有吃苦耐劳的精神,他们可通过数据分析挖掘模型的实施来实现有的放矢、精准营销的销售效益最大化。而企业的数据挖掘团队也不再仅仅局限于单纯的数据挖掘技术工作及项目工作,而是肩负在企业全员中推广普及数据意识、数据运用技巧的责任,这种责任对于企业而言比单纯的一两个数据挖掘项目更有价值,更能体现一个数据挖掘团队或者一个数据挖掘职业人的水准、眼界以及胸怀,俗话说“只有能发动人民战争,才是真正的英雄”,所以只有让企业全员都参与并支持你的数据挖掘分析工作,才能够真正有效地挖掘企业的数据资源。现代企业的领导者,应该有这种远见和智慧,明白全员的数据挖掘才是企业最有价值的数据挖掘,全员的数据化运营才是现代企业的竞争新核心。
数据化运营,其次是一种常态化的制度和流程,包括企业各个岗位和工种的数据收集和数据分析应用的框架和制度等。从员工日常工作中所使用的数据结构和层次,就基本上可以判断出企业的数据应用水准和效率。在传统行业的大多数企业里,绝大多数员工在其工作中很少(甚至基本不)分析使用业务数据支持自己的工作效率,但是在互联网行业,对数据的重视和深度应用使得该行业数据化运营的能力和水平远远超过传统行业的应用水平。
数据化运营更是来自企业决策者、高层管理者的直接倡导和实质性的持续推动。由于数据化运营一方面涉及企业全员的参与,另一方面涉及企业海量数据的战略性开发和应用,同时又是真正跨多部门、多技术、多专业的整合性流程,所有这些挑战都是企业内部任何单个部门所无法独立承担的。只有来自企业决策层的直接倡导和实质性的持续推动,才可以在企业建立、推广、实施、完善真正的全员参与、跨部门跨专业、具有战略竞争意义的数据化运营。所以,我们不难发现,阿里巴巴集团也好,腾讯也罢,这些互联网行业的巨人,之所以能在大数据时代如火如荼地进行企业数据化运营,自始至终都离不开企业决策层的直接倡导与持续推动,其在各种场合中对数据的重要性、对数据化运营的核心竞争力价值的强调和分享,都证明了决策层是推动数据化运营的关键所在。2012年7月10日,阿里巴巴集团宣布设立“首席数据官”岗位(Chief Data Officer),阿里巴巴B2B公司的CEO陆兆禧出任此职位,并会向集团CEO马云直接汇报。陆兆禧将主要负责全面推进阿里巴巴集团成为“数据分享平台”的战略,其主要职责是规划和实施未来数据战略,推进支持集团各事业群的数据业务发展。“将阿里巴巴集团变成一家真正意义上的数据公司”目前已经是阿里巴巴集团的战略共识,阿里巴巴集团旗下的支付宝、淘宝、阿里金融、B2B的数据都会成为这个巨大的数据分享平台的一部分。而这个战略的核心就是如何挖掘、分析和运用这些数据,并和全社会分享。
1.3 为什么要数据化运营
数据化运营首先是现代企业竞争白热化、商业环境变成以消费者为主的“买方市场”等一系列竞争因素所呼唤的管理革命和技术革命。中国有句古语“穷则思变”,当传统的营销手段、运营方法已经被同行普遍采用,当常规的营销技术、运营方法已经很难明显提升企业的运营效率时,竞争必然呼唤革命性的改变去设法提升企业的运营效率,从而提升企业的市场竞争力。时势造英雄,生逢其时的“数据化运营”恰如及时雨,登上了大数据时代企业运营的大舞台,在互联网运营的舞台上尤其光彩夺目。
其次,数据化运营是飞速发展的数据挖掘技术、数据存储技术等诸多先进数据技术直接推动的结果。数据技术的飞速发展,使得大数据的存储、分析挖掘变得成熟、可靠,成熟的挖掘算法和技术给了现代企业足够的底气去尝试海量数据的分析、挖掘、提炼、应用。有了数据分析、数据挖掘的强有力支持,企业的运营不再盲目,可以真正做到运营流程自始至终都心中有数、有的放矢。比如,在传统行业的市场营销活动中,有一个无解又无奈的问题:“我知道广告费浪费了一半,但是我不知道到底是哪一半”。这里的无奈其实反映的恰好就是传统行业粗放型营销的缺点:无法真正细分受众,无法科学监控营销各环节,无法准确预测营销效果;但是,在大数据时代的互联网行业,这种无奈已经可以有效地降低,乃至避免,原因在于通过数据挖掘分析,广告主可以精细划分出正确的目标受众,可以及时(甚至实时)监控广告投放环节的流失量,可以针对相应的环节采取优化、提升措施,可以建立预测模型准确预测广告效果。
数据化运营更是互联网企业得天独厚的“神器”。互联网行业与生俱来的特点就是大数据,而信息时代最大的财富也正是海量的大数据。阿里巴巴集团董事局主席兼首席行政官马云曾经多次宣称,阿里巴巴集团最大的财富和今后核心竞争力的源泉,正是阿里巴巴集团(包括淘宝、支付宝、阿里巴巴等所属企业)已经产生的和今后继续积累的海量的买卖双方的交易数据、支付数据、互动数据、行为数据等。2010年3月31日,淘宝网在上海正式宣布向全球开放数据,未来电子商务的核心竞争优势来源于对数据的解读能力,以及配合数据变化的快速反应能力,而开放淘宝数据正是有效帮助企业建立数据的应用能力。2010年5月14日阿里巴巴集团在深圳举行的2010年全球股东大会上,马云进一步指出“21世纪核心的竞争就是数据的竞争”,“谁拥有数据,谁就拥有未来”。企业决策者对数据价值的高度认同,必然会首先落实在自身的企业运营实践中,这也是“因地制宜”战略思想在互联网时代的最新体现,我们也可以理解成“近水楼台先得月”在互联网时代的最新诠释。
1.4 数据化运营的必要条件
虽然从上面的分析可以看出,数据化运营有如此多的优越性,但并不是每个企业都可以采取这种新战略和新管理制度,也不是每个企业都可以从中受益。个中原因在于成功的数据化运营必须依赖几个重要的前提条件。
1.4.1 企业级海量数据存储的实现
21世纪核心的竞争就是数据的竞争,2012年3月29日,美国奥巴马政府正式宣布了“大数据的研究和发展计划”(Big Data Research and Development Initiative),该计划旨在通过提高我们从大型复杂数据集中提取知识和观点的能力,承诺帮助加快在科学和工程中探索发现的步伐,加强国家安全。从国家到企业,数据就是生产力。但是,具体到某一个企业,海量数据的存储是必须要面对的第一个挑战。数据存储技术的飞速发展,需要企业与时俱进。根据预测到2020年,全球以电子形式存储的数据量将达到35ZB,是2009年全球存储量的40倍。而在2010年年底,根据 IDC的统计,全球数据量已经达到了1 200 000PB或1.2ZB。如果将这些数据都刻录在DVD上,那么光把这些DVD盘片堆叠起来就可以从地球到月球打一个来回(单程约24万英里,即386 242.56千米)。海量的数据推动了数据存储技术的不断发展与飞跃。
我们一起来回顾一下数据存储技术的发展历程:
1951年:Univac系统使用磁带和穿孔卡片作为数据存储。
1956年:IBM公司在其Model 305 RAMAC中第一次引入了磁盘驱动器。
1961年:美国通用电气公司(General Electric)的Charles Bachman开发了第一个数据库管理系统—IDS。
1969年:E.F. Codd发明了关系数据库。
1973年:由John J.Cullinane领导的Cullinane公司开发了 IDMS—一个针对IBM主机的基于网络模型的数据库。
1976年:Honeywell公司推出了Multics Relational Data Store—第一个商用关系数据库产品。
1979年:Oracle公司引入了第一个商用SQL关系数据库管理系统。
1983年:IBM 推出了DB2数据库产品。
1985年:为Procter & Gamble系统设计的第一个商务智能系统产生。
1991年:W.H. BillInmon发表了文章《构建数据仓库》。
2012年:最新的存储技术为分布式数据仓库、海量数据存储技术和流计算的实时数据仓库技术。
回首中国企业的数据存储之路,国内的数据存储技术的发展经历了将近30年,而真正的飞速发展则是最近10年。
国内的数据存储的先驱是国有银行,在21世纪初,四大国有银行的全国数据中心项目(将分布在全国各个省行和直属一级分行的数据集中到数据中心)拉开了数据技术飞速发展的帷幕。
以发展最具代表性的中国工商银行为例,中国工商银行从2001年开始启动数据集中项目,刚开始考虑集中中国北部的数据到北京,中国南部的数据到上海,最终在2004年将全部数据集中到了上海,而北京则作为灾备中心,海外数据中心则安置在深圳。中国工商银行的数据量在当时是全中国最大的,大约每天的数据量都在TB级别。由于银行业存在一定的特殊性(性能要求低于安全和稳定要求),又因为当时业内可选的技术不多,因此中国工商银行选择了大型机+DB2的技术方案,实际上就是以关系型数据库作为数据存储的核心。
在3年的数据集中和后续5年基于主题模型(NCR金融模型)的数据仓库建设期间,中国工商银行无论在硬件网络和软件人力上都投入了巨大

标签: 0804zb4m圆形电连接器

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台