哪个未来发展得更好?
一旦副本分布与机器无关,数据丢失后的恢复效率将非常高。这是因为,一旦某台机器的数据丢失,其上数据段的副本将分布在整个集群的所有机器中,而不是仅在几个副本机器中,从而可以从整个集群同时拷贝恢复数据,而集群中每台数据源机器都可以以非常低的资源做拷贝。作为恢复数据源的机器即使都限速1MB/s,若有100 台机器参与恢复,恢复速度也能达到100MB/s。 再者,副本分布与机器无关也利于集群容错。如果出现机器宕机,由于宕机机器上的副本分散于整个集群,其压力也自然分散到整个集群。 最后,副本分布与机器无关也利于集群扩展。理论上,设集群规模 为N 台机器,当加入一台新的机器时,只需从各台机器上迁移1/N – 1/N+1 比例的数据段到新机器即实现了新的负载均衡。由于是从集群中各机器迁移数据,与数据恢复同理,效率也较高。 工程中,完全按照数据段建立副本会引起需要管理的元数据的开销增大,副本维护的难度也相应增大。一种折中的做法是将某些数据段组成一个数据段分组,按数据段分组为粒度进行副本管理。这样做可以将副本粒度控制在一个较为合适的范围内。 本地化计算 在分布式系统中,数据的分布方式也深深影响着计算的分布方式。在分布式系统中计算节点和保存计算数据的存储节点可以在同一台物理机器上,也可以位于不同的物理机器。 如果计算节点和存储节点位于不同的物理机器则计算的数据需要通过网络传输,此种方式的开销很大,甚至网络带宽会成为系统的总体瓶颈。
另一种思路是,将计算尽量调度到与存储节点在同一台物理机器上的计算节点上进行,这称之为本地化计算。本地化计算是计算调度的一种重要优化,其体现了一种重要的分布式调度思想:“移动数据不如移动计算”。 使用一致性哈希的方式需要将节点在一致性哈希环上的位置作为元信息加以管理,这点比直接使用哈希分布数据的方式要复杂。然而,节点的位置信息只于集群中的机器规模相关,其元信息的量通常比按数据范围分布数据和按数据量分布数据的元信息量要小很多。 为此一种常见的改进算法是引入虚节点(virtual node)的概念,系统初始时就创建许多虚节点,虚节点的个数一般远大于未来集群中机器的个数,将虚节点均匀分布到一致性哈希值域环上,其功能与基本一致性哈希算法中的节点相同。为每个节点分配若干虚节点。 操作数据时,首先通过数据的哈希值在环上找到对应的虚节点,进而查找元数据找到对应的真实节点。使用虚节点改进有多个优点。 首先,一旦某个节点不可用,该节点将使得多个虚节点不可用,从而使得多个相邻的真实节点负载失效节点的压里。同理,一旦加入一个新节点,可以分配多个虚节点,从而使得新节点可以 负载多个原有节点的压力,从全局看,较容易实现扩容时的负载均衡。 副本与数据分布 分布式系统容错、提高可用性的基本手段就是使用副本。对于数据副本的分布方式主要影响系统的可扩展性。一种基本的数据副本策略是以机器为单位,若干机器互为副本,副本机器之间的数据完全相同。这种策略适用于上述各种数据分布方式。其优点是非常简单,其缺点是恢复数据的效率不高、可扩展性也不高。 更合适的做法不是以机器作为副本单位,而是将数据拆为较合理的数据段,以数据段为单位作为副本。 实践中,常常使得每个数据段的大小尽量相等且控制在一定的大小以内。数据段有很多不同的称谓,segment,fragment,chunk,partition 等等。数据段的选择与数据分布方式直接相关。
对于哈希分数据的方式,每个哈希分桶后的余数可以作为一个数据段,为了控制数据段的大小,常常使得分桶个数大于集群规模。一旦将数据分为数据段,则可以以数据段为单位管理副本,从而副本与机器不再硬相关,每台机器都可以负责一定数据段的副本。 (编辑:广安站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |