分布式存储的分类和典型应用场景
2024-03-22  472次浏览

从规模看,近三年中国分布式存储市场规模均保持30%以上的高速增长,2022年市场规模达104.2亿元

从结构看,2022年,文件存储占比最高,一体机、分布式混闪、虚拟化融合在各自领域占比较高。

从场景看,HPC在2022年中国分布式存储主要场景市场中居于重要地位

从区域看,2022年华北、华东地区占据半壁江山,京津冀、长三角市场领跑

2022年中国分布式存储市场中,领导者有华为、中科曙光、浪潮、新华三;挑战者有汉荣信息、XSKY、 SmartX、 NetApp、 Dell&EMC、焱融科技;跟随者有同有、杉岩和中国电子云;可期待者有深信服和联想。

904143c57f354dbda61f1fca393c05a6.jpeg

中科曙光在分布式存储教育科研和气象市场份额居首位,SmartX在分布式块存储金融市场居首位。

一、分布式存储是什么

传统存储面临拓展性有限、结构化/非结构化数据兼容性不佳、数据读写任务(I/O)性能与成本不经济、可靠性不高和面向新应用(如容器)支持能力有待提升等问题,用户体验不佳。在此背景下,分布式存储近年来迅速发展,一定程度上与传统存储实现了较好配合,满足了多个场景用户的个性化需求。

分布式架构:与集中式架构不同,分布式架构没有负责所有业务的中心节点,而是由多个可相互通信、协调的普通节点构成集群,对外提供服务。


软硬件协同:硬件主要由存储控制系统CPU、缓存)、硬盘/闪存盘和网络等构成,软件则是与硬件适配的存储操作系统,以及存储服务软件、管理软件、状态监控软件等应用软件。


高效网络:并不是传统的TCP/IP网络,而是采用存算分离的设计思路,不通过CPU,直接由内存传输到智能网卡完成I/O的远程直接地址访问网络(RDMA)。

1711070056561.jpg


二、分布式存储的分类

根据场景特点和需求,2022年中国分布式存储产品共有四种主要的分类方式:

按存储对象,可分为分布式块存储、分布式文件存储、分布式对象存储、分布式统一存储;

按产品形态,可分为一体机、纯硬件和纯软件;

按存储介质,可分为分布式全闪存、分布式混闪;

按部署方式,可分为虚拟化融合方式、容器融合方式和分离方式。

(一)按存储对象分类

分布式块存储:指将各存储节点的硬盘、闪存盘等存储硬件资源通过划分逻辑卷(LVM)、创建独立冗余存储阵列(Raid)、逻辑分区等方式,由物理存储资源转化为面向需求的逻辑块,提高使用效率。


分布式文件存储:指基于文件系统对各存储节点的数据进行存储,形成目录、子目录、文件,常见的分布式文件存储应用有Ceph、HDFS、GFS、 FastDFS、GridFS、mogileFS、TFS等。


分布式对象存储:指各存储节点由标识符、数据和元数据的对象数据构成。其中标识符在该存储系统中唯一,用于区分不同存储区域;元数据将提取数据特征,便于快速检索。分布式对象存储相比块存储和文件存储,数据查找和提取的效率大大提升,适用于文本、音频、视频等非结构化数据。

分布式统一存储:指各存储节点同时支持块、文件和对象三大类型数据,满足虚拟化、云平台和容器平台等新兴存储需求,为用户提供服务典型应用和计算平台的统一存储资源池。

(二)按产品形态分类

一体机:从设备层面将各节点存储资源进行融合优化,同时软硬件为同一厂商生产、一体交付,适配度高,可有效缓解单个节点或设备短板导致整体系统功能受影响等问题。扩展能力较强,且可在线增加节点,对前段业务完全透明。不足之处是价格偏高。

纯硬件:指交付形态为磁盘阵列、闪存盘集群等硬件资源的分布式存储产品,适配的软件分为自研和开源二次开发两种路线。纯硬件交付模式成本高,但可靠性较高,适用于重要敏感数据存储场景。

纯软件:指交付形态为定制化应用软件、平台授权码等的分布式存储产品,一般应用于优化存储硬件的场景,如老旧数据中心改扩建等。纯软件交付定制化空间大、成本低、交付周期短,但扩容及存储硬件兼容性问题一定程度上也会影响运行效率。

(三)按存储介质分类

分布式全闪存:指各存储节点完全由固态硬盘(SSD)构成,主流的适配接口为NVNe,每秒读写次数(IOPS)可跃升至百万级别,相比传统的机械硬盘(HDD)提升了近千倍。缺点是价格高昂,且受限于系统总线协议和其他部件,分布式全闪存性能较难完全发挥。

分布式混闪:指各存储节点由SSD、HDD等构成。尽管性能不及分布式全闪存,但可针对场景需求进行个性化定制,从而最大程度上均衡成本和性能,是目前主流的分布式存储产品。

(四)按部署方式分类

虚拟化融合:指在分布式存储(块存储为主)的架构基础上,利用服务器虚拟化的隔离机制,实现存储和服务器虚拟化在同一硬件节点上的部署。这种架构的优势在于整体架构更为简单,并且节省了硬件成本,缺点是计算和存储需要同时扩展,不适用于计算和存储应用不均衡的场景。

容器融合:面对容器化持久化存储日益增长的需求和Kubernetes特有的管理架构,专门针对此类场景的分布式存储产品也开始涌现。容器融合的分布式存储产品对 K8s集群内的存储资源进行整合与管理,不仅可以通过与容器融合部署降低成本,简化系统架构,还可以无缝融入 K8s 原生的开发和运维体系,更加符合 K8s 运维团队的使用习惯。


分离:指各存储节点资源与应用分离,虽然架构更加复杂并需要更多的硬件节点,但方案更为灵活,并适用更多场景,尤其适合大容量的数据存储,以及从裸金属、虚拟化到容器的不同计算节点的混合资源池。

三、分布式存储的优势

高可靠性:分布式存储的数据采取存放在多个存储节点中的全冗余部署,通过多时间点快照、周期增量复制两大核心技术,可实现在一定时间间隔内,对各版本数据的保存,并且同时进行恢复,可帮助分析和研究,避免类似灾难的再次发生。


高效作业:面对可划分为若干个并行运行的子任务的存储任务,分布式存储可将这些子任务分散到不同的存储节点上,使其同时运行作业,从而提高效率。另外,分布式存储系统具有任务负载平衡功能,如果某个存储节点的负载过重,则可把其中一些作业迁移到其他节点去执行,从而减轻该节点的负载,实现整体效率的提升。

高可扩展性:分布式存储横向连接了多个存储节点,可按存储容量和性能的需要,灵活横向拓展(Scale-out)新节点。新存储节点和原系统连接到同一个网络,同时业务的连续性基本不受影响,可基本实现分布式存储系统的总容量和性能无感线性扩展。新存储节点的资源将由分布式存储操作系统管理,进行分配或取消,原有数据可通过复制、镜像、同步等方式,实现在新节点的迁移。


四、分布式存储的典型应用场景

2022年,中国分布式存储充分发挥上述优势,与传统的集中式存储相比,在云原生、高性能计算(HPC)、融媒体、智能备份和分布式数据库等领域表现突出。

云原生:指“生在云上、长在云上”的政企业务场景,典型的有容器和微服务等;

高性能计算(HPC):支撑气象、基因测序等每秒百亿亿次浮点计算(EFLOPS)场景的分布式存储,通常以PB,乃至EB计量;

融媒体:指文件大且I/O延迟要求低的元宇宙、虚拟数字人和虚拟现实等场景;

智能备份:指视频监控、医疗影像和智能制造等场景;

分布式数据库:指具备分布式事务处理能力、可平滑扩展、分布于计算机网络且逻辑上统一的数据库,分布式存储是分布式数据库的核心技术之一。