从数据到决策的过程。
1.询问:业务挑战、目标、问题
2.准备:数据生成、收集、存储、管理
3.处理:数据清洗、数据完整性
4.分析:数据探索、可视化和分析
5.分享:交流和解释结果
6.行动:将见解付诸实践解决问题
EMC Corporation 分为六个步骤:
1.发现数据
2.预处理数据
3.模型规划
4.建筑模型
5.交流结果
6.行动
EMC Corporation 现在更名为 Dell EMC。这个模型由 David Dietrich 创建反映了现实世界项目的周期性。这些阶段不是静态里程碑;每一步都连接到下一步,最后重复。关键问题可以帮助分析师测试他们是否取得了足够的成就来继续前进,并确保团队在每个阶段都花费了足够的时间,在数据准备之前不要开始建模。它与这个程序所基于的数据分析生命周期略有不同,但它有一些共同的核心思想:第一阶段是对发现和提出问题感兴趣;必须先准备好数据,然后才能对其进行分析和使用;然后应该分享调查结果并采取行动。
迭代生命周期由一个家庭命名该公司是一家领先的数据分析解决方案提供商。它可用于产生可重复、可靠和可预测的结果:
1.询问
2.准备
3.探索
4.建模
5.行动
6.事实
7.评估
SAS 模型强调模型的周期性,将其视觉化为无限符号。它们的生命周期有七个步骤,我们在其他模型中看到了很多步骤,比如 Ask、Prepare、Model 和 Act。但这个生命周期也有点不同;它包括行动阶段后的一个步骤,旨在帮助分析师评估他们的解决方案,并可能回到询问阶段。
1.识别问题
2.设计数据需求
3.预处理数据
4.执行数据分析
5.可视化数据
该数据分析项目的生命周期 Vignesh Prajapati 开发。它不包括第六阶段或我们所说的行动阶段。然而,它仍然涵盖了许多与我们描述的生命周期相同的步骤。它从识别问题开始,在分析前准备和处理数据,并以数据可视化结束。
作者 Thomas Erl、Wajid Khattak 和 Paul Buhler 大数据分析生命周期是在他们的书《大数据基础:概念、驱动程序和技术》中提出的。建议将生命周期分为九个步骤:
1.商业案例评估
2.数据识别
3.数据采集和过滤
4.数据提取
5.数据验证和清理
6.数据聚合和表示
7.数据分析
8.数据可视化
9.利用分析结果
这个生命周期似乎比以前的生命周期模型多了三到四个步骤。但事实上,他们只是把我们所说的准备和处理分解更小的步骤。它强调在分析阶段之前收集、准备和清理数据所需的任务。