每天产生这么多的视频,头条的存储服务器得多大空间?会不会有存储极限?


每天产生这么多的视频,头条的存储服务器得多大空间?会不会有存储极限?

电脑的存储空间不够就加硬盘呗,头条的存储服务器也是一样的方式扩容。字节跳动在年春季招聘广告中披露:拥有42万 台服务器,每天新增存储30PB。PB是个什么概念?计算机的存储单位一般有
B、KB、MB、GB、TB、PB、EB、ZB、YB、BB,它们之间的换算关系如下:1KB=B;1MB=KB;1GB=MB;1TB=GB;1PB=TB;后面的以此类推。字节跳动基础架构部门各技术团队曾经在年初发文介绍过字节跳动的特色HDFS。从集群规模和数据量来说,字节跳动的HDFS平台已经成长为总数几万台服务器的大平台,支持了EB级别的数据量。HDFS是业界使用最广泛的开源分布式文件系统。原理和架构和谷歌的GFS基本一致。字节跳动已经应用HDFS非常长的时间了,随着抖音、今日头条、西瓜视频、火山小视频等业务的快速扩张,原来的HDFS的集群从几百台,迅速突破千台和万台的规模。可想而知字节跳动的存储压力有多大,可能正在奔着ZB级发展。传统的块存储、文件存储肯定无法满足字节跳动的需求,分布式存储结构的对象存储才能缓解字节跳动的压力,因为ZB级存储规划的重点在于如何降低存储成本。这么多的服务器集群应该放在哪里?服务器集群自然是要放在大型的数据中心。数据中心可以理解为一个超大的场所,里面塞满了机柜,而机柜里面塞满了服务器和交换机,服务器里面又塞满了硬盘。据数据显示,年年初的时候字节跳动只有2~3万台服务器,年服务器数量猛增到17万台,年就超过了42万台。早期的时候字节跳动采用的数据中心租赁的模式,但到了最后不得不自建数据中心,而且还要速度快,仅用了7个月的时间,就在张家口市怀来县建立了第一个属于字节跳动自己的数据中心。字节跳动从年9月在怀来建立数据中心以来,在怀来、上海、南通、清远、深圳等地都有数据中心增量需求以满足业务爆炸式增长。目前字节跳动有秦淮数据和中联数据这两个主要的IDC供应商。其中秦淮数据供应了字节跳动58%的IDC机柜数量。秦淮数据的成长依赖字节跳动,-年H1,秦淮数据的营收分别为.4万元、8.53亿元、8.1亿元,年总营收同比增长766%,其中年和今年的上半年,字节跳动给秦淮数据分别贡献了68.2%和81.6%的营收收入。字节跳动简直是给秦淮数据装了涡轮增压,大树底下好乘凉,秦淮数据中心也要上市了。内容是字节跳动的根基据投资人和内部消息将字节跳动的营收定在亿至亿人民币,超过了Uber、Snapchat和Twitter的综合,广告收入也超越了腾讯,仅次于阿里巴巴。在今日头条生产的众多APP中,今日头条和抖音共享了绝大多数的营收收入,它两都是基于内容,推荐给用户感兴趣的内容,而这些内容不管是以文字、短视频、视频的形式出现,都是用户自己生产的。所以我们不必担心今日头条的服务器不够用,不够用可以加,并不是加1台2台,而是加一个数据集群,再不够就加数据中心。只要有庞大的用户群,钱到位,存储就没有上限。以上个人浅见,欢迎批评指正。认同我的看法,请点个赞再走,感谢!喜欢我的,请关注我,再次感谢!

说到云服务器最早是亚马逊为了应对全球的业务,采购了大量的云服务器基本上不是所有的服务器都能满负荷的运转,于是亚马逊就产生了如何剩余的机器以及机器运行负荷不是很高的情况下获取一定的利益,这是最初云服务器最原始的需求,现在的云计算已经成为了一种核心技术,由于亚马逊这个事情做的比较早,所以在这个行业的积累最长,从全球云计算的市场份额就可以看出来,亚马逊几乎是压倒性的优势占据着市场的主导地位。微软自从盖茨离开之后一直处于不温不火的状态,自从涉足了云计算的业务直接把这个老牌企业拉到市值第一的位置,可见云计算在未来全球科技中占据多么重要的作用,谷歌也在云计算领域投入了大量的资源,国内的阿里云依靠亚太市场整体的市场份额已经能够占据到全球前三的位置,而且排名在前三的云计算都是使用的完全自主研发的技术,所以跟进速度特别的快。回到头条的存储服务器,可能和真正的云计算服务器还是存在一定的差距,依据头条的实力未来也不排除在这方面发力,头条的存储服务器在年的时候已经达到了17万台,听起来就是一个非常恐怖的数字,而且这个数字还在一直增长,随着头条业务不断的拓展未来在云上一定储备一定的技术,未来的头条的设想不但但是信息流以及短视频这么简单的事情,而且未来还将成为腾讯公司最大的竞争对手,目前的腾讯公司是国内的最大的流量企业毕竟像QQ和微信用户使用量极其的巨大。当然在实际存储过程中还会采用分布式的技术,因为不可能把所有的数据都集中在一个服务器,想要配套相应的备份服务器,虽然服务器的数量已经非常巨大,但是也需要大量的备份服务器,一个地方的服务器数据丢失了,还能继续使用别的区域的服务器,早期的头条公司经常出现服务器宕机的情况,其中很大一个原因是服务器数量不够,很快就达到负载极限,加上早期头条公司研发能力不像现在这么强大,也代表一个企业在飞速的发展。一般配置的服务器都是超标配置,如果因为数据空间不足,影响到用户的体验就会显得特别被动,所以头条在经历了快速发展期之后就开始大规模的部署服务器,当然也包括很多存储服务器,而且很多存储服务器部署在分布式已经被分割起来,最终哪天头条搞出来头条云也不要太过于惊讶,毕竟如此巨量的服务器一直放在那边,可以资源最大化的利用这应该是头条未来的一个重要的一个战略点,目前主要精力在于在全球范围内推广自己的头条产品矩阵,而且抖音的出海非常成功,未来科技企业战略点还是在于核心技术的积累,头条未来想要发展壮大必然也要走上这条道路,希望能帮到你。

淘宝、今日头条等这些互联网公司,大部分采用了分布式存储方案,存储空间可以弹性增加,自由扩展,可以说没有存储的极限。在介绍分布式存储之前,首先说一说集中存储。集中存储一个中小型公司,大部分采用了集中存储方式,也就是整个存储集中到一个系统中,为了增加系统的可靠性,可能采用了两地三中心的备份方案。集中存储并不是一个独立的设备,而是集中到一套系统中的多个设备。集中存储的架构集中存储包含了很多组件,比如控制器、磁盘阵列、交换机等,还有管理设备等辅助设备,下图显示了一个集中式存储的基本逻辑图。集中存储的核心部件是机头,包含了两个控制器,互为备份,避免硬件故障导致整个存储系统不可用。控制器分为前端端口和后端端口,前端端口为服务器提供存储服务,后端端口用户扩充存储容量,后端端口连接存储设备,形成一个非常大的存储资源池。简单来说,集中式存储最大的特点就是有一个统一的入口,所有的数据都要经过整个入口,对应存储系统的机头。分布式存储分布式存储最早由谷歌提出,目的是通过廉价的服务器提供大规模、高并发场景下的应用。下图显示了谷歌分布式存储的简化模型,整个系统将服务器分为两种类型:namenode存储管理数据(元数据),datanode负责实际数据的存储。读取过程为,首先从namenode中获取该文件的位置,然后从datanode中获取具体数据。通过横向扩展datanode的数量,就可以增加承载容量,实现了动态横向扩展的能力。无中心架构的分布式存储谷歌的分布式存储架构,仍然有中心节点,即负责管理元数据的namenode节点。Ceph存储架构的分布式存储,完全没有中心节点,客户端通过一个设备映射关系计算写入数据的位置,客户端直接与存储节点通信。Ceph存储架构如下图所示。在Ceph存储架构中,有Mon服务、OSD服务、MDS服务等。客户端访问存储设备的流程为:首先从Mon服务中读取存储资源布局信息,然后计算出期望的数据位置,包括物理服务器信息和磁盘信息,然后直接通信,读取或者写入数据。以上就是集中式存储和分布式存储的区别,大型的互联网公司通常采用了去中心化的分布式存储技术,对存储容量可以横向扩展,技术上来说“永远存不满”。如果觉得对你有帮助,可以多多点赞哦,也可以随手点个关注哦,谢谢。

很多朋友可能对于像阿里巴巴,腾讯,百度以及字节跳动这样的公司,这些公司每天存储的数据量非常庞大,可以达到TB级别。但是他们给我们的感觉是,无论我们在这些平台中产生什么样的内容,多大的数据量,他们都能够装得进去,好像他们的服务器容量是无限的。这是为什么呢?其实对于技术感兴趣的朋友可能会了解到,像这些公司他们一定使用的是一种叫做分布式存储的技术方案。分布式存储分布式存储的技术思想其实在10多年前就已经有了,这是因为当时的谷歌也面临着存储海量网页的问题,当时他们在内部试行了一套系统,后来被证实是可用的。于是他们在年,公开发表了三篇论文,分别是Googlebigtable、Googlefilesystem以及Googlemapreduce。那么这其中的Googlefilesystem就是现如今各种分布式存储方案的核心思想。这张图就展示了HDFS的一个版本,它就是一个分布式的文件存储系统。我们可以看到,中间的每个namenode都有三个箭头指向最下一层的datanode,这是什么意思呢?NameNode其实并不直接存储数据,直接存储数据的是下面的三个datenote,也就是数据分片。而且我们要查询数据的时候,也是从这些数据分片上把数据提取出来,然后进行整合反馈给我们这些用户,就这样形成了一个闭环。简单来说就是在存储数据的时候,不管是视频、图片还是文本内容等等这些数据,我们都可以把这些海量的数据,将其进行切分,然后放在不同的服务器中去存储。因为每一个datenode就代表一台服务器,而且因为整个分布式的架构又是高可用的,它可以横向的无限拓展,那么也就意味着datanote可以拓展无限个。就这样,通过分布式的一个思想,我们从技术层面解决了海量数据的存储问题。字节跳动海量数据的存储字节跳动这家公司,其实在18年,它的服务器数量已经达到了17万台,这些服务器可能分布在全国各个地方。那么发展到现在,我估计至少也有20多万台,正是由于这20对万台服务器的不断拓展,才支撑起今日头条、抖音、西瓜视频、火山小视频、悟空问答等流行社交媒体产品线上的海量数据存储。而对于我们用户来说,我们每天发视频,每天写文章上传到字节跳动的服务器,我们并没有什么感觉,原因就在这儿。所以,只要服务器能够不断的横向拓展,理论上来说,存储是可以没有上限的。赠人点赞,手留余香。我是小强Talk,欢迎大家关注我,和我一起共同成长进步!

这个问题问的太笨了,连阿里、腾讯都还没有叫喊存储服务器的存储极限,头条比他们俩互联网大佬晚成立很多年,这么点视频文件,距离“极限”还早着呢。你是不是以为头条有视频原创频道,因为都是网友自制视频上传,所以皇帝不急太监急,开始替头条担心服务器存储不够用?那么视频网站怎么玩的?谷歌旗下的YouTube也基本上都是网友上传的视频,它成立于年,迄今已经十四年了,YouTube也没有担心存储服务器会不够用啊。中国也有好几个成立很早的视频网站,优酷、六间房、腾讯视频、爱奇艺等,优酷算是其中最早的大佬,成立于年,今天的它是和土豆网合并的规模,虽然它有购买影视剧,但网友自制上传的视频应该是占比最大的,这么多年它也没有叫喊存储服务器有极限——回到问题上来,头条创建于年,迄今才七年,它的用户规模实力真正开始进入到可以叫板腾讯,可能只有
三、四年,所以我想你暂时是不需要为头条拥有的存储空间担心的,至于未来,网站存储和我们电脑存储一样,可以扩展啊,我以前只是电脑一个硬盘,最大1T、2T,可现在我购买了一个外置硬盘柜,插了四个硬盘,我现在总共有将近十个T的存储空间。网站也可以如此,可以扩展,所谓网站的数据中心,像谷歌那样的世界级互联网公司,是在全世界各地建造数据中心,尤其在北欧那里,那里寒冷,数据中心可以依靠自然界的气温进行降温,成本节省不少。中国的贵州有一阵子报道很多公司都在那里建立数据中心,据说也是那里的自然条件适合建造数据中心。所以,大体上可以这样下结论,无论个人玩电脑还是互联网公司玩网站,钞票可能有极限,存储空间不存在极限,前者靠赚,不容易,所以有极限,后者靠钞票去投入,只要有钱,你可以无限制的扩展你的数据中心。