资讯详情

开源存储这么香,为何我们还要坚持自研?

引言

近年来,开源软件的蓬勃发展给软件产业、软件技术和软件生态的发展带来了巨大的机遇。同时,在使用开源软件的过程中,我们也必须面多存在的风险和固有的技术限制。在存储领域,以Ceph例如,作为云技术栈开源技术的重要组成部分,开源项目也面临着固有的技术限制。为了弥补开源结构的不足,也揭开了国内厂商坚持自研的面纱。

开源软件开发分析

随着云计算和移动互联网的发展,开源软件的发展得益于互联网技术的发展,OpenStack、k8s、Ceph开源技术层出不穷。这些开源项目诞生了ASF、OIF、CNCF等基金会,致力于孵化和运营开源项目。随着开源软件托管平台的普及,开源全球合作与共同创造的沟通成本急剧下降,开源项目数量不断增加。据估计,2026年全球开源项目数量将超过3亿。 在这里插入图片描述 近年来,我国开源项目爆发式增长。根据中国信通院发布的《开源生态白皮书(2021)》GitHub贡献者数量已达到世界第二。2020年,GitHub中国贡献者的数量增加了37%。Gitee根据2020年度报告数据,中国在Gitee2013年至2018年,平台项目增长率达到192%,达到1500万Gitee平台开源项目总和。 事实上,开源技术可以加速存储初创企业的诞生,也可以加快与存储相关的开源生态的发展。数据作为企业最重要的资产,用户对存储可靠性的要求往往超过计算,没有错误。因此,创新品牌不容易被用户市场接受。

开源软件面临的风险

随着国内互联网产业和软件产业的蓬勃发展,在促进经济社会的繁荣发展方面发挥了积极作用,但往往习惯于依赖基本软件的开源,这通常是Linux、OpenStack、Ceph等开源软件有所依赖。

2021年底,国家信息中心公共技术服务部王晓东在《中国开源软件行业突出风险及对策研究》一文中指出,

根据新思科技,2021年 根据开源安全与风险分析报告,84%的代码库至少有一个漏洞,近三年漏洞比例逐年增加,60%的审计代码库包含高风险漏洞。根据开源网络安全Source Check 根据工具对热门开源项目的扫描结果,53.8%的项目有超风险。 开源软件涉及源代码共享,许多配置信息涉及账户密码等敏感信息。如果不审查代码,可能会导致大量的敏感信息和数据随着代码共享而泄露。同时,如果开源软件披露的源代码包含企业数据库的访问代码,可能会导致整个数据库面临数据泄露的风险,也可能导致企业内部文件和用户信息的泄露。

开源软件涉及层层依赖关系。商业产品在开源过程中不断添加新的开源组件,可能会导致不同协议之间的冲突。因此,开源软件的使用需要关注开源软件所依赖的其他开源软件/组件。以操作系统为例,它依赖数万个软件包,包括源代码、二进制包等形式。任何环节的问题都可能影响最终产品的使用。

根据中国信通院的研究数据,2020年 2000年,中国企业用户认为技术更新迭代快,运维成本高,是开源使用风险的最高比例 60.8%,比 2019 年数增加8%;开源软件数量庞大,整体管理困难风险排名第二 56.7%,与2019 年数据较低 6.7%;安全漏洞威胁严重风险排名第三,达到43.7%,与2019 年相比降低 6.5%。

开源存储固有技术限制

开源存储软件面临的商业化挑战不能在一夜之间解决。华为、中科曙光等坚持自主研究路线的存储制造商,经过多年的培训,在今天的存储软件中积累了自主研究技术。因此,我们不得不想到,为什么开源存储如此香,我们必须为自主研究做出如此大的努力?值得一想。

基于开源模式开发的存储产品设计过程更加透明,

在众多开源存储软件中,Ceph作为软件定义存储开源项目的领导者,在市场上的知名度和曝光度都很高,ceph作为一种极其复杂的统一分布式存储系统,

Ceph实际产品化过程中的问题

Ceph运维中遇到的问题是真实的,甚至在实际运维过程中也出现了其他更复杂的问题。Ceph运维中遇到的五大问题:

扩容复杂

Ceph中数据以PG组织单位,当数据池中退出新的存储单元时(OSD)调整时间OSDMAP数据重平衡将带来。正如提到的,如果影响多个,OSD扩容可能会导致可用性PG中OSD小于min_size,从而产生PG不可用、IO堵塞状态。为了尽量避免这种情况的出现,扩容粒度只能降低,比如每次只扩容一次OSD或者一台机器或一台机柜(次要取决于存储隔离策略),但这注定会带来巨大的运行和维护工作量,甚至扩展速度也可能赶不上数据增长速度。

运维复杂

Ceph这是一个非常复杂的系统。要实现稳定的运行和维护,取决于团队是否熟悉开源软件和经验。同时,这也取决于开源社区文件的质量。厂家技术实力强,用户服务质量自然高,厂家技术实力弱,给用户带来服务质量折扣。可见,开源存储软件的每一次交付都是对开源存储制造商的技术考验。对于用户自己的运维团队,需要积累自己的运维文件。这对用户的技术积累管理、技术文档管理、核心人才流失管理都有挑战。

集群利用率低

存储成本主要取决于集群的可用性。也就是说,Ceph随着集群规模的增加,伪随机算法导致存储资源分布不平衡,磁盘利用率方差过大。

Ceph集群达到80%后,磁盘经常变满,需要管理员介入,以降低过高磁盘reweight。在磁盘使用量下降之前,更多的磁盘被填满,管理员不得不再次介入和调整reweight,Ceph到目前为止,它还没有进入稳定状态,管理员必须一直盯着集群。集群大了以后,如何清理垃圾数据,如何归档冷数据,也带来了很大的挑战。

在数据迁移过程中IO争用

在频繁数据迁移的过程中IO争论问题。当集群规模扩大时,硬盘损坏,PG数量减少可能会变得正常。

机器临时故障需要人工干预

出现机器死机等故障时,为了避免产生大量重算pg以及数据迁移,通常需要手动禁止数据恢复和重平衡,并在机器故障恢复时打开,以减少对业务的影响。如果数据恢复不是手动禁止的,而是设置较长的磁盘故障和节点故障期间可能写入的数据将无法长期恢复。它更依赖于操作和维护人员。

osd震荡

当集群压力大或集群网络故障时,会导致osd工作线程超时或osd心跳检测超时,一些集群osd状态一会为up一会为down,此时,客户端写入数据卡顿或写入过程僵化。

为什么要坚持自研?

从性能、可靠性、稳定性和安全性的角度来看,用户在选择核心业务应用场景时一直对开源存储更加谨慎。特别是用户自身的操作和维护团队相对较弱,在经验不足的情况下,必须面临一系列的技术挑战,如后续的软件维护、更新和迭代。因此,在核心业务、生产系统和大规模部署的情况下,用户的首选仍然是自主开发的存储系统。

对于用户来说,存储选择是开源产品还是自主研发产品需要考虑自身的综合成本,包括数据安全要求和运维成本、存储实际应用过程中解决问题的服务质量和响应时间。当然,数据安全、运维成本和服务质量也是任何开源存储制造商值得关注的三个问题。

结合以上,存储软件自主研发的动机如下:

  1. 政策导向。国家应倡导关键技术的自主可控性。在过去的两年里,中美贸易战针锋相对。我们不仅在芯片上G其他关键方向正在努力工作。事实上,存储、数据库和其他领域不是吗?目前,为了响应国家数据安全的需要,许多数据产品甚至需要使用国内自主研发的加密算法来本地化(必然是自主研发)。
  2. 市场需求导向。解决稳定性、性能、运维、安全、多租户等开源存储在企业级应用下的问题和痛点。真正掌握核心技术,开发具有竞争力、知名度和满足客户需求的产品,仍然是市场获胜的关键。
  3. 技术支持和保障开源的东西一般只解决一些地公共基础需求。 除此之外面对多重需求的企业,开源无法满足企业个性化按需定制。
  4. 安全能力方面。即保证系统不受外来攻击干扰,又要保证用户的数据不被人窃取、业务不会被中断。

结语

最后想说的是开源虽然很香,平台也在享受开源的红利,但开源自身的发展方向一定有取舍,新功能优先级的设定就不一定能够满足当下客户需求,这时自研就展现出它很香的地方,越来越多的客户也在享受自研的红利,自研比开源更快的适配客户需求并实际落地。

标签: 扩口连接热浸塑电缆穿线钢管

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台