写在前面
本文属于专栏100个问题解决大数据理论系统。本专栏为作者原创。请注明参考资料的来源。请在评论区指出缺点和错误。非常感谢。
本专栏目录结构及文献参考请参见100个问题
解答
一、考虑数据类型 Hadoop在处理非结构化和半结构化数据方面具有优势,特别适用于海量数据批处理等应用要求。 MPP适用于替代现有相关数据机构下的大数据处理,效率高。 二、考虑应用场景 MPP适用于多维数据自助分析、数据市场等; Hadoop适用于海量数据存储查询、批量数据ETL、非机构化数据分析(日志分析、文本分析)等。
补充
MPP DB与Hadoop结果合并(分布式计算)是将计算分布到节点中进行的,但由于理论和技术路线的不同,它们有自己的优缺点和适用范围。
对比两种技术和传统数据库技术
| 特征 | Hadoop | MPP DB | 传统数据库 |
|---|---|---|---|
| 平台开放性 | 高 | 低 | 低 |
| 运维负责度 | 高 | 中 | 中 |
| 扩展能力 | 高 | 中 | 低 |
| 拥有成本 | 低 | 中 | 高 |
| 系统和数据管理成本 | 高 | 中 | 中 |
| 应用开发维护成本 | 高 | 中 | 中 |
| SQL支持 | 中(低) | 高 | 高 |
| 数据规模 | PB级别 | 部分PB | TB级别 |
| 计算性能 | 非关系型操作效率高 | 对关系型操作效率高 | 对关系型操作效率中 |
| 数据结构 | 机构化、半结构化和非机构化数据 | 结构化数据 | 结构化数据 |
未来大数据存储和处理的趋势
用MPP处理PB高质量的结构化数据,同时为应用高质量的结构化数据SQL和事物支持能力;
用Hadoop实现半结构化和非结构化数据处理。这可以满足结构化、半结构化和非结构化数据的有效处理需求。