小道消息:
透过现象看本质 揭秘迅雷离线下载平台
发布日期:2013-09-10

下载是很多人都会用到的功能,在前面的《热点资源下载慢 是迅雷限制还是误读?》文章中,我们详细的介绍了迅雷离线下载是如何为用户提供优质资源高速下载的原理。而作为一名存储编辑,只剖析离线下载的原理显然是不够的,这篇文章将从存储的角度对迅雷离线下载存储平台进行一些解析。

    作为迅雷这么大的机房,其保密措施还是非常完善的,所以即使费了九牛二虎之力,笔者获取的机房资料仍是寥寥。所以这篇文章更多的是笔者基于迅雷离线下载的透露出的一些资料进行的推测,可能会跟具体情况略有不同,但相信对于企业机房建设还是有一定的参考意见的。


透过现象看本质 迅雷离线下载平台大猜想

    要分析迅雷离线下载的平台,首先我们需要先了解下离线下载平台的工作原理。迅雷离线下载平台的工作原理可以分为四个步骤,下面我尽量用通俗的语言跟大家讲解一下:

    第一步,用户通过迅雷的客户端或Web页面向服务器提交一个下载的请求。

    第二步,迅雷服务器在接受用户请求的时候,首先查询用户提交的下载文件是否被下载过。如果有,寻列会直接将已下载的文件(或链接)放入到用户端的离线下载文件夹中。如果没有,迅雷就会开启多线程实施下载(或用P2P方式)。

    第三步,下载完成后,用户需要登录离线文件夹,将文件下载到本地文件夹中。期间可以采用迅雷提供的P2P方式,从已下载或正在下载的相同文件的用户那里取得数据。

    离线下载业务多针对冷门资源,或资源较少的文件,相比直接下载,增加了下载资源速度,节约了时间。从上面的三个步骤我们可以推测出离线下载服务器需要三个服务器平台支持,分别为用来接受客户端或Web端请求的Web服务器,用来提供下载的离线下载服务器和用来存储数据的数据存储服务器。

    目前迅雷拥有400万用户,那么三个服务器如何能够满足要求呢?这三个平台虽然面向不同的服务,但其实挑战最大的是来自存储端,在服务器和内存方面的挑战要小很多,那么接下来我们就来看一下什么样的存储平台才能满足用户要求呢?

产品:PR6000M 宝德 服务器 回到顶部阅读

离线下载平台如何选择磁盘?

    可能有人会质疑我上文提到的存储在整个离线下载平台是最重要的说法!但不妨仔细想想,对于迅雷这样的公司,数据资源对于他们来说就是生命,同时还要为离线用户提供云存储空间,相比较而言处理器和内存的重要性就要次之了。所以在迅雷机房中,存储设备的重要性要远远大于处理器和内存。

    说到迅雷离线下载平台的存储设备,首先我们要谈论下这个平台的存储磁盘。目前市场上主流的有机械硬盘和固态硬盘,机械硬盘又可以分为SAS硬盘和SATA硬盘。可能有人会说还有磁带呢,磁带目前在存储数据的时候已经基本不会应用到了,但是在备份的时候磁带还是有应用的。所以目前主流的存储盘位:SAS硬盘、SATA硬盘和固态硬盘。


透过现象看本质 迅雷离线下载平台大猜想
如何选择磁盘?

    固态硬盘是一种新型的存储介质,简单的说SSD就是用固态电子存储芯片制成的硬盘,由于没有磁头,所以随机读取快,延迟小,性能能够达到机械硬盘的百倍,同时具有无噪音,工作范围大,体积小等等诸多优点。

    SAS硬盘和SATA硬盘都属于机械硬盘,但是二者之间还是存在着一些差别。当存储环境需要简化配置或优化成本/容量时,SATA则是最理想选择;SAS则能为带宽要求更高的主流服务器和企业级存储提供所需的高性能、高扩展性和可靠性,满足诸如网上购物和银行交易等事务性数据应用环境中对高频率和即时、随机数据存取的需求。 

    那么在迅雷的离线下载平台中?是怎么应用机械硬盘来达到性能与成本的平衡的呢?当然在离线下载平台的三种支持服务器类型中,还是要根据提供的业务不同来选择什么接口的硬盘。

    对于迅雷机房来说,固态硬盘并不适用,其成本高,最大容量低,写入寿命有限,并不适合迅雷这种需要大容量存储空间的机房。数据存储服务器在离线下载平台用更多的是来提供存储下载的资源的服务,其对硬盘的容量要求会很高,但是对硬盘的存取速度方面并没有什么特殊要求,所以这个平台的硬盘应该选择的是性价比更高,容量更大的SATA硬盘。离线下载服务器和Web服务器中,对硬盘的速度则有要求,而对容量方面的需求则要次之,毕竟用户利用离线下载主要是为了享受高速下载。所以这两个服务器平台应该选择的是SAS硬盘。

    讨论完离线下载平台的存储介质,但是部署多大容量的存储平台才能够满足用户的需求呢?相信这是用户非常感兴趣的话题,下面让我们一起来看一下。

产品:PR6000M 宝德 服务器 回到顶部阅读

重复数据删除技术缩减存储空间

    自从2009年推出离线下载业务开始,如今的已经有400万会员用户,这些用户每天都在下载成千上万的文件,日积月累,如今的迅雷机房存储的数据会多大呢?相信绝对是PB级别的,这么多的数据对于迅雷的存储成本太高了。其实对于迅雷这样的机房配置,在存储方面必然要采用一些机制来减少数据的存储空间,例如重复数据删除、分层存储等技术。

    重复数据删除大幅度缩减数据存储空间

    相信大家从这个技术的名字上也能够猜出这个技术的用处吧,其就是在存储数据的时候将重复的数据进行删除,这样就减少了存储设备、人力、电力资源等方面的开销,从而大幅降低和节约了企业的存储成本,对于像迅雷这样的公司来说可以说是必备的一项技术。


透过现象看本质 迅雷离线下载平台大猜想
重复数据删除技术是大数据时代的利器

    下面我们来看一下重复数据删除技术的工作原理,在数据存储的时候,系统会对数据进行检查和比较,是否系统中已经存储了相同的数据,如果有相同的数据则会过滤掉这部分数据,用指示符取代。这对于像迅雷这样拥有高度冗余的数据集的业务收益是巨大的,用户可以实现10:1到50:1的缩减比。让存储的成本更经济。

    目前重复数据删除的技术产品可以分为硬件和软件两种模式。软件就是在服务器上安装程序,利用服务器的运算能力来去除重复的数据,但是这种方式的缺点就是会影响服务器的性能,造成业务能力的降低。硬件方面需要安全相应的硬件,对服务器的影响会很小,但是这种一般费用较高。在迅雷存储方面,笔者估计采用的会是硬件产品来完成重复数据删除。

    重复数据删除技术会帮助企业节省不断增长的空间问题,尤其是对像迅雷这样存储密集型企业或备份和灾难恢复的业务。但是对于整个存储系统来说还是会带来一定的影响的。而且目前不同厂商之间的重复删除技术的产品相差很多,所以企业在选购冲服务器数据删除的产品的时候要谨慎,以免达不到理想的目的。

产品:PR6000M 宝德 服务器 回到顶部阅读

自动分层存储给迅雷带来价值

    重复删除技术能够为迅雷节省大量的空间,但是对于迅雷这样的下载公司来说,如果这样就用来存储还是非常巨大的。在数据存储中心中,同样适用二八法则,即在存储系统中,20%的数据占据了80%的活跃度。如何让活跃度高的数据更快的提供给迅雷下载的用户,将活跃度低的数据删除来减少空间,自动分层存储就为迅雷这样的企业带来了解决之道。

    自动分层存储给迅雷带来价值

    自动分层技术是根据数据的需求或者频率自动智能的将部分逻辑卷移动到合适的介质,这样就可以节省性能并简化了存储管理。活跃度高的会移动到特点的逻辑卷中,而不是整个逻辑卷中,并且还会根据数据的活跃度创建不同的页面池,来代表不同的活跃度层。


透过现象看本质 迅雷离线下载平台大猜想
自动分层技术

    可能有人不明白为什么要分层存储,其实分层存储的技术原理跟内存和处理器的一二三级缓存非常相像。就是将活跃度更高的数据放到最适合的位置,而将活跃度低的放到性能较低的存储中,甚至删除冷门数据来达到减少磁盘存储空间的容量。

    那么自动分层存储在迅雷的存储系统中是如何工作的呢?我们不妨来设想一下,首先,自动分层系统将活跃度高的移动到特定的存储中,而对于活跃度低的资源则放在相应的存储系统中,而长期没有访问的数据迅雷则会对其进行删除,这样不但减少了存储空间的需求,同时还改善了存储系统的整体性能,提高了利用率。

    由于自动分层技术,寻列对硬盘的需求量会减少,最大化了迅雷的整体存储性能,消除了没有访问的数据,节省了电力、空间和制冷的消耗,从而降低了存储成本。尤其是大数据时代,迅雷的数据中心的数据量呈现爆炸式增长,PB乃至ZB及的数据已经出现,自动分层技术为迅雷的机房提供了巨大的价值。

产品:PR6000M 宝德 服务器 回到顶部阅读

未来迅雷机房发展方向大猜想

    对于迅雷这样的机房,其存储系统自然也是重中之重,所以迅雷并没有对外透露其支持离线下载业务的磁盘容量,但是我们不妨从迅雷透露出的一些资料和响应的技术来推算一下迅雷机房中存储了多少数据?

    推算迅雷存储空间有多大?

    迅雷的离线下载平台从2009年开始推出,如今已经拥有400万用户,我们将会员的增长方式按等差的方式来算,迅雷为会员提供了最少1TB的离线下载存储空间,年费会员和三级以上的会员甚至达到了1PB,那么迅雷服务器总体的硬盘容量最少要400万TB?

    当然,这个400万TB的数据只是按常理来算,其实,迅雷提供会晕1TB的数据用户的离线下载并没有饱和,而据我从迅雷的内部了解到,离线用户人均下载均值大约在每人40GB,相当于800万TB的1/25,相当于160000TB。

    当然,迅雷的存储系统如果并不是对所有的数据都进行部分,利用重复数据删除技术,迅雷会删除相同的文件,只保留一份。例如,如今很多人都利用离线下载电影,但是迅雷并不是对所有的下载都进行备份,而是只备份一部。利用重复删除数据大约可将迅雷的数据压缩到原来的1/20,这样设计就剩下80PB。

    同时分层存储技术将不活跃的文件摘出来,迅雷会根据需求进行删除,但这部分并不确定,但相信迅雷删除的并不会太多,所以笔者估算,迅雷机房的数据应该在50PB-80PB之间。当然这个数据毕竟是估算,可能并不准确,希望有内部人士能够进行探讨。

    迅雷未来机房大猜想——软件定义数据中心

    作为迅雷这样高规格的机房,其发展必然会跟上时代的步伐,我们不妨来设想一下迅雷机房未来的发展形势!


透过现象看本质 迅雷离线下载平台大猜想
未来数据中心

    软件定义数据中心大家谈论比较多的一个话题,其围绕让三个数据中心的重要基础设施(服务器,网络和存储设备)变得更为灵活,更自动化,并且更少依赖基础物理硬件。这一理念就是创建一个可用的资源池,可以自动适应不断变化的工作负荷,并确保无论何时何地需要资源时它们都可被调用。用户可以通过添加服务器、存储设备以及网络来提升整个数据中心的性能。

    大猜想:未来,迅雷将不再受硬件设备的限制,只需要自己购买软件,然后部署在硬件中,就可以达到想到的机房性能。当性能不能满足需求的时候,迅雷可以根据情况自己购买硬件来添加到整个系统中,就能达到理想的需求!那么这个未来发展趋势是否会在迅雷机房实现呢?值得我们拭目以待!

热点文章
推荐文章