您当前的位置:钢材 > 建筑钢材 > 市场分析

雅虎邮件 雅虎 PB 级云对象存储 COS 解决方案的实践与探索

来源:网络整理 作者: wujiai
分享到
关注德勤钢铁网在线:
  • 扫描二维码

    关注√

    德勤钢铁网微信

在线咨询:
  • 扫描或点击关注德勤钢铁网在线客服

Yahoo 存储了 500 亿个 EB 的数据,包括用户提交的照片、视频、电子邮件和博客文章,以及超过 2500 亿个对象。对象存储以每年 20%-25% 的速度增长,这主要是由于移动、图像、视频和用户量的增长。为此,Yahoo 选择了软件定义存储,以最大限度地提高存储成本效益,同时确保耐用性和延迟。

Yahoo 的对象存储需求

什么是对象存储?图像、照片、视频、文档、电子表格、演示文稿和电子邮件附件都是典型的对象。这类数据的典型特征是“一次写入,多次读取”。通常,雅虎会使用一些存储设备进行对象存储。然而,雅虎是许多人数字信息生活的领导者,其对对象存储的需求日益增加。此外,由于应用程序对数据访问方式、数据可靠性、数据访问延迟和数据存储成本的要求各不相同。雅虎需要考虑成本效益,同时也要考虑不同应用程序的需求。雅虎需要在对象存储需求上做出多重权衡。需要软件定义存储的灵活性来做出权衡。

为什么要选择软件定义存储?

软件定义存储的三大优势:

Cloud Store(COS)是雅虎基于商用硬件的软件定义存储解决方案。雅虎与雅虎合作,已初步部署了数PB的该解决方案。并计划在2015年将COS打造为多租户托管服务,继续支持雅虎邮箱,并将COS部门数量增加十倍。未来,COS将存储数百PB的数据!

COS 使用 Ceph

在 COS 的部署中采用了 Ceph 存储技术,在评估了开源解决方案 Swift 和 Ceph,以及一些商业解决方案之后,我们最终选择了 Ceph,因为它可以通过固有的架构将对象存储、块存储、文件存储整合到一个存储层中,同时由于它是开源的,它提供的灵活性很好地满足了雅虎的需求。

部署架构

COS 部署由模块化的 Ceph 集群组成,每个集群都被视为一个 POD。同时部署多个这样的 Ceph 集群会形成一个 COS “超级组()”,如下图所示。对象均匀分布在超级组中的所有集群中,我们使用专有的哈希机制来分配对象。哈希算法通过应用程序中嵌入的客户端库实现。

经过多次软件调整和试运行,现在每个 Ceph 集群都可以部署大约 3PB 的原始数据,并且在正常运行和故障恢复期间都能提供可预测的延迟。由于每个集群都有数十台商用服务器和数百个磁盘,因此很可能会发生故障。在故障恢复期间,由于需要重新平衡对象,磁盘和网络活动会很频繁,这最终会增加延迟。通过限制每个集群的大小,我们可以控制数据恢复期间消耗的资源并确保 SLA。

Yahoo 用户自然希望他们的图片、视频和电子邮件附件能够永久保存,并可以从世界任何地方快速访问。这首先需要对数据进行高“耐用性”保证,这通常是通过存储系统中的冗余或编码来实现的。冗余可以通过复制额外的数据副本来实现。另一方面,它可以通过简单的奇偶校验或更复杂的机制(如擦除编码)在编码中实现。擦除编码是一种将对象分解成片段并将它们存储在多个磁盘上的方法,通过一些冗余片段来容忍错误。

每个集群的可用容量取决于所使用的“耐久性”技术。我们目前使用的“纠删码”技术将每个对象拆分成八个数据和三个编码片段。这种机制称为 8/3 纠删码,可以同时承受最多三台服务器和/或磁盘故障,因为它仅消耗约 30% 的开销。这比复制的 200% 开销要低得多。

这两种持久性技术提供不同的价格点和延迟特性。复制具有较低的延迟但成本较高,而擦除编码可以降低成本(有时高达 50%)但延迟较高。我们可以通过使用不同的存储介质(例如 SSD、磁盘和 SMR 设备)提供不同级别的服务以满足不同应用程序的需求。

从技术上讲雅虎邮件,随着存储需求的增加,可以通过增加子集群的容量来扩展 COS 超级集群 ()。但是,这将导致子集群之间的数据重新平衡,这意味着长时间频繁的磁盘和网络活动,从而影响 SLA。为了扩展 COS,我们更愿意将 COS“超级集群”的添加视为添加存储场。这种方法与我们当前基于设备的存储解决方案一致。

延迟优化

COS 为 Yahoo 的众多应用提供服务,需要保证 SLA 延迟,并提供一致、高质量的用户体验。Yahoo 对 Ceph 进行了 40 项优化,平均延迟改善了 50%,99.99% 级别延迟改善了 70%。图 2 展示了 Ceph 读延迟优化前后的性能对比。

优化主要针对以下几个方面:

未来发展

以上提到的和目前使用的都是 COS 在 Yahoo 的用途,Yahoo 的其他用例有不同的工作负载模型和不同的对象存储权衡。为了让 COS 在 Yahoo 得到更广泛的应用,我们未来会针对这些方面进行开发。

原文:Yahoo Cloud Store - at Scale

责任编辑:德勤钢铁网 标签:雅虎邮件 雅虎 PB 级云对象存储 COS 解决方案的实践与探索

热门搜索

相关文章

广告
德勤钢铁网 |市场分析

雅虎邮件 雅虎 PB 级云对象存储 COS 解决方案的实践与探索

wujiai

|

Yahoo 存储了 500 亿个 EB 的数据,包括用户提交的照片、视频、电子邮件和博客文章,以及超过 2500 亿个对象。对象存储以每年 20%-25% 的速度增长,这主要是由于移动、图像、视频和用户量的增长。为此,Yahoo 选择了软件定义存储,以最大限度地提高存储成本效益,同时确保耐用性和延迟。

Yahoo 的对象存储需求

什么是对象存储?图像、照片、视频、文档、电子表格、演示文稿和电子邮件附件都是典型的对象。这类数据的典型特征是“一次写入,多次读取”。通常,雅虎会使用一些存储设备进行对象存储。然而,雅虎是许多人数字信息生活的领导者,其对对象存储的需求日益增加。此外,由于应用程序对数据访问方式、数据可靠性、数据访问延迟和数据存储成本的要求各不相同。雅虎需要考虑成本效益,同时也要考虑不同应用程序的需求。雅虎需要在对象存储需求上做出多重权衡。需要软件定义存储的灵活性来做出权衡。

为什么要选择软件定义存储?

软件定义存储的三大优势:

Cloud Store(COS)是雅虎基于商用硬件的软件定义存储解决方案。雅虎与雅虎合作,已初步部署了数PB的该解决方案。并计划在2015年将COS打造为多租户托管服务,继续支持雅虎邮箱,并将COS部门数量增加十倍。未来,COS将存储数百PB的数据!

COS 使用 Ceph

在 COS 的部署中采用了 Ceph 存储技术,在评估了开源解决方案 Swift 和 Ceph,以及一些商业解决方案之后,我们最终选择了 Ceph,因为它可以通过固有的架构将对象存储、块存储、文件存储整合到一个存储层中,同时由于它是开源的,它提供的灵活性很好地满足了雅虎的需求。

部署架构

COS 部署由模块化的 Ceph 集群组成,每个集群都被视为一个 POD。同时部署多个这样的 Ceph 集群会形成一个 COS “超级组()”,如下图所示。对象均匀分布在超级组中的所有集群中,我们使用专有的哈希机制来分配对象。哈希算法通过应用程序中嵌入的客户端库实现。

经过多次软件调整和试运行,现在每个 Ceph 集群都可以部署大约 3PB 的原始数据,并且在正常运行和故障恢复期间都能提供可预测的延迟。由于每个集群都有数十台商用服务器和数百个磁盘,因此很可能会发生故障。在故障恢复期间,由于需要重新平衡对象,磁盘和网络活动会很频繁,这最终会增加延迟。通过限制每个集群的大小,我们可以控制数据恢复期间消耗的资源并确保 SLA。

Yahoo 用户自然希望他们的图片、视频和电子邮件附件能够永久保存,并可以从世界任何地方快速访问。这首先需要对数据进行高“耐用性”保证,这通常是通过存储系统中的冗余或编码来实现的。冗余可以通过复制额外的数据副本来实现。另一方面,它可以通过简单的奇偶校验或更复杂的机制(如擦除编码)在编码中实现。擦除编码是一种将对象分解成片段并将它们存储在多个磁盘上的方法,通过一些冗余片段来容忍错误。

每个集群的可用容量取决于所使用的“耐久性”技术。我们目前使用的“纠删码”技术将每个对象拆分成八个数据和三个编码片段。这种机制称为 8/3 纠删码,可以同时承受最多三台服务器和/或磁盘故障,因为它仅消耗约 30% 的开销。这比复制的 200% 开销要低得多。

这两种持久性技术提供不同的价格点和延迟特性。复制具有较低的延迟但成本较高,而擦除编码可以降低成本(有时高达 50%)但延迟较高。我们可以通过使用不同的存储介质(例如 SSD、磁盘和 SMR 设备)提供不同级别的服务以满足不同应用程序的需求。

从技术上讲雅虎邮件,随着存储需求的增加,可以通过增加子集群的容量来扩展 COS 超级集群 ()。但是,这将导致子集群之间的数据重新平衡,这意味着长时间频繁的磁盘和网络活动,从而影响 SLA。为了扩展 COS,我们更愿意将 COS“超级集群”的添加视为添加存储场。这种方法与我们当前基于设备的存储解决方案一致。

延迟优化

COS 为 Yahoo 的众多应用提供服务,需要保证 SLA 延迟,并提供一致、高质量的用户体验。Yahoo 对 Ceph 进行了 40 项优化,平均延迟改善了 50%,99.99% 级别延迟改善了 70%。图 2 展示了 Ceph 读延迟优化前后的性能对比。

优化主要针对以下几个方面:

未来发展

以上提到的和目前使用的都是 COS 在 Yahoo 的用途,Yahoo 的其他用例有不同的工作负载模型和不同的对象存储权衡。为了让 COS 在 Yahoo 得到更广泛的应用,我们未来会针对这些方面进行开发。

原文:Yahoo Cloud Store - at Scale


市场分析