每天產生這麼多的影片，頭條的儲存伺服器得多大空間？會不會有儲存極限？

首頁>Club>2022-01-08 21:09

每天產生這麼多的影片，頭條的儲存伺服器得多大空間？會不會有儲存極限？

回覆列表

1 # 林創雲

像這種資訊巨頭公司，儲存資料都是用成千上萬個超大規模的儲存叢集再加上一系列複雜的技術整合的一整套系統，不存在容量不夠，都是彈性伸縮。

2 # 青山不掩

每天都會增添許多新的資訊，當然需要很大的儲存器，這個問題，在開創者心目中已經有考慮，有了充足的準備，這個不勞旁人擔心。

當然，會有其他情況，比如陡然之間，迅速增添了許多資訊，而且持續不斷，幾乎爆倉。當高潮過後，儲存器迅速升級，獲得長久的解決。

這樣的情景，淘寶網的阿里巴巴也是遇到的，明年的雙十一，肯定還有更大的增長，新的超算，新的伺服器，新的儲存器，都必須更新換代，迎接挑戰。時間只有一年，一切都必須按時完成！否則，到時急切的剁手黨們，很快就會爆倉了，面對全華人民，面對熱心的老外，這樣的掉鏈子，這樣的跌份，想都不敢想！於是，科研團隊立即啟動了，果然，功夫不負有心人，臨近雙十一，一切安裝就緒，除錯成功，但是無人敢歡呼，畢竟，這不是實戰。當雙十一真的到來，成交數果然更快的翻升，隨著時間的推移，一天完結，成交數逐漸減緩，而新裝置仍然綽綽有餘，所有相關的工程人員，才爆發出經久不息的歡呼聲
3 # Geek視界

    集中儲存
    一箇中小型公司，大部分採用了集中儲存方式，也就是整個儲存集中到一個系統中，為了增加系統的可靠性，可能採用了兩地三中心的備份方案。集中儲存並不是一個獨立的裝置，而是集中到一套系統中的多個裝置。
    集中儲存的架構

    集中儲存包含了很多元件，比如控制器、磁碟陣列、交換機等，還有管理裝置等輔助裝置，下圖顯示了一個集中式儲存的基本邏輯圖。

    集中儲存的核心部件是機頭，包含了兩個控制器，互為備份，避免硬體故障導致整個儲存系統不可用。控制器分為前端埠和後端埠，前端埠為伺服器提供儲存服務，後端埠使用者擴充儲存容量，後端埠連線儲存裝置，形成一個非常大的儲存資源池。

    簡單來說，集中式儲存最大的特點就是有一個統一的入口，所有的資料都要經過整個入口，對應儲存系統的機頭。
    分散式儲存
    分散式儲存最早由谷歌提出，目的是透過廉價的伺服器提供大規模、高併發場景下的應用。下圖顯示了谷歌分散式儲存的簡化模型，整個系統將伺服器分為兩種型別：namenode儲存管理資料（元資料），datanode負責實際資料的儲存。

    讀取過程為，首先從namenode中獲取該檔案的位置，然後從datanode中獲取具體資料。透過橫向擴充套件datanode的數量，就可以增加承載容量，實現了動態橫向擴充套件的能力。
    無中心架構的分散式儲存
    谷歌的分散式儲存架構，仍然有中心節點，即負責管理元資料的namenode節點。
    Ceph儲存架構的分散式儲存，完全沒有中心節點，客戶端透過一個裝置對映關係計算寫入資料的位置，客戶端直接與儲存節點通訊。Ceph儲存架構如下圖所示。

    在Ceph儲存架構中，有Mon服務、OSD服務、MDS服務等。客戶端訪問儲存裝置的流程為：首先從Mon服務中讀取儲存資源佈局資訊，然後計算出期望的資料位置，包括物理伺服器資訊和磁碟資訊，然後直接通訊，讀取或者寫入資料。

    以上就是集中式儲存和分散式儲存的區別，大型的網際網路公司通常採用了去中心化的分散式儲存技術，對儲存容量可以橫向擴充套件，技術上來說“永遠存不滿”。

4 # 趙廣亞

理論上有極限，實際上不會輕易觸及
因為有硬體裝置的限制，所以任何伺服器都是有極限的，但是作為網際網路企業的命根子，企業絕對不會讓自己的伺服器觸及到這個極限，實際上一個業務做得大的網際網路企業，自然在伺服器資料管理方面也需要做得比較好，不然業務是沒辦法正常開展的。

比如谷歌，它的接入的是全球的資料，毫無疑問每天產生的資料量異常大，但是也也沒聽過其到達伺服器承載量上限的說法，那是因為它在全國各地分佈有資料中心，其中僅位於洛華州康斯爾布拉夫斯市的資料中心面積空間就超過115000平方英尺。
分散式資料中心
和谷歌的資料中心類似，位元組跳動等大型網際網路企業的網路一般可以分為資料中心內部網路和WAN網，它們的資料中心會分佈在全國各個城市，甚至是海外各個城市，各個資料中心又分別和運營商的網路進行對接，這樣就避免了所有的業務積壓在同一個資料中心，有效分攤了巨大的資料壓力。

根據流量的方向，我們又可以將WAN網分為內網和網路。

內網是各個資料中心之間互聯的網路，用來連線網際網路企業在地理上分佈的多個數據中心，我們可以通俗地理解為各個資料中心互聯的專屬網路。而網路則是面向網際網路使用者訪問的網路，用來提供面向使用者的各種雲服務，比如搜尋、影片、文字資訊、下載支援等等。

位元組跳動的資料中心擴張速度很快從2017年年初的2、3萬臺，到截至去年年底的17萬臺，這樣的速度和規模確實非常讓人驚訝。系列新技術的應用也為位元組跳動取得了多個國內“首個”的頭銜，國內首個大規模分散式全預製、國內首個大平層預製框架結構、國內首個整體電源模組預製、國內首個間接蒸發自然冷卻模組、國內首個計算模組一體化預製……
強大的資料分析處理能力
當然了，資料儲存只是資料服務中心的重要作用之一，位元組跳動的資料處理能力在眾多網際網路企業裡面也是名列前茅的。推薦系統和稽核系統是使位元組跳動在眾多資訊平臺中脫穎而出的關鍵，這個關鍵讓其不再只是簡單的新媒體資訊平臺，而是為其融入了更多的AI含義，這一切得益於資料中心先進的處理分析技術。

位元組跳動取得的成績，從小的方面說，豐富了我們的精神娛樂生活，從大的方面說，展現了中國網際網路發展市場的潛力，同時也意味著中國資料中心技術的進步。
5 # 太平洋電腦網

而且，越是大型的企業就會購買越多的伺服器，並且興起更多的資料中心，第一個是因為他們需求很多的資料中心來滿足企業和使用者的需求；第二個是因為他們還會做備份和後備的，一旦一個數據中心出現問題就會在幾毫秒之內自動切換到另外一個數據中心，保持企業運轉。

所以，他們有數十萬甚至更多的伺服器也是正常的。
分散式的設計
理論上即使是分散式的設計，都會存在極限的。但是這個極限非常大，幾乎沒有可能達到。

你要知道，他們採用分散式的資料中心設計，可以根據需求，興建資料中心，然後購買伺服器並且重新它的資料中心，能夠大規模的橫向增加伺服器，只有成本能夠承受得起就不用擔心伺服器不夠用的問題。

甚至有一些企業，例如百度、阿里、騰訊、華為這些甚至還會賣雲服務，他們擁有大量的雲資源可以給小企業使用。

6 # 大學生程式設計指南

說到雲伺服器最早是亞馬遜為了應對全球的業務，採購了大量的雲伺服器基本上不是所有的伺服器都能滿負荷的運轉，於是亞馬遜就產生了如何剩餘的機器以及機器執行負荷不是很高的情況下獲取一定的利益，這是最初雲伺服器最原始的需求，現在的雲計算已經成為了一種核心技術，由於亞馬遜這個事情做的比較早，所以在這個行業的積累最長，從全球雲計算的市場份額就可以看出來，亞馬遜幾乎是壓倒性的優勢佔據著市場的主導地位。
微軟自從蓋茨離開之後一直處於不溫不火的狀態，自從涉足了雲計算的業務直接把這個老牌企業拉到市值第一的位置，可見雲計算在未來全球科技中佔據多麼重要的作用，谷歌也在雲計算領域投入了大量的資源，國內的阿里雲依靠亞太市場整體的市場份額已經能夠佔據到全球前三的位置，而且排名在前三的雲計算都是使用的完全自主研發的技術，所以跟進速度特別的快。
7 # 小強Talk

很多朋友可能對於像阿里巴巴，騰訊，百度以及位元組跳動這樣的公司，這些公司每天儲存的資料量非常龐大，可以達到TB級別。但是他們給我們的感覺是，無論我們在這些平臺中產生什麼樣的內容，多大的資料量，他們都能夠裝得進去，好像他們的伺服器容量是無限的。這是為什麼呢？

其實對於技術感興趣的朋友可能會了解到，像這些公司他們一定使用的是一種叫做分散式儲存的技術方案。
分散式儲存

分散式儲存的技術思想其實在10多年前就已經有了，這是因為當時的谷歌也面臨著儲存海量網頁的問題，當時他們在內部試行了一套系統，後來被證實是可用的。於是他們在2010年，公開發表了三篇論文，分別是Google big table、Google file system以及Google mapreduce。那麼這其中的Google file system就是現如今各種分散式儲存方案的核心思想。

這張圖就展示了HDFS的一個版本，它就是一個分散式的檔案儲存系統。我們可以看到，中間的每個namenode都有三個箭頭指向最下一層的datanode，這是什麼意思呢？NameNode其實並不直接儲存資料,直接儲存資料的是下面的三個datenote，也就是資料分片。而且我們要查詢資料的時候，也是從這些資料分片上把資料提取出來，然後進行整合反饋給我們這些使用者,就這樣形成了一個閉環。
簡單來說就是在儲存資料的時候,不管是影片、圖片還是文字內容等等這些資料，我們都可以把這些海量的資料，將其進行切分，然後放在不同的伺服器中去儲存。因為每一個datenode就代表一臺伺服器，而且因為整個分散式的架構又是高可用的，它可以橫向的無限拓展，那麼也就意味著datanote可以拓展無限個。就這樣，透過分散式的一個思想，我們從技術層面解決了海量資料的儲存問題。

位元組跳動海量資料的儲存

所以，只要伺服器能夠不斷的橫向拓展，理論上來說，儲存是可以沒有上限的。

8 # 一腚溫柔

我用實驗來回答這個問題。

我們先來看看這個影片有多大？用Chrome瀏覽器開啟影片連結（防止平臺判定為廣告，我就不放連結了），按F12出現除錯模式，可以看到整個頁面裡圖片、js、css等各種元素檔案的載入情況，包括這個元素所在的伺服器IP地址、域名、型別、以及我們所關注的檔案大小。如下圖，瞅見沒？（有問題私聊我）
如上圖所示，檔案型別為media，大小為1.5MB。

至此，我們得到答案，50s的影片，大小為1.5MB。（實際上，受位元速率和時長影響可能會有波動，這裡暫且算是個平均值）

接下來看第2個問題。
影片有多少個？
在正式回答這個問題之前，先來了解一下影片的熱度。

影片有冷熱之分，遵循“28”定律，即20%的熱門影片吸引80%的使用者流量。

為了照顧使用者的訪問感知，網站方一般會把熱門影片複製多個副本，存放在多個伺服器上。想象一下，最近有個熱門電視劇《慶餘年》，如果沒有副本全國只有一個伺服器，上億的使用者都來訪問這個資源，大聲地告訴我，這個影片卡不卡頓？答案是，不僅是卡，網站肯定癱瘓，拒絕訪問。
這裡就有個關鍵點，即：熱門影片會複製多份，冷門影片可能只有1份。

那影片所佔的空間應該是：單個影片大小*副本份數。

那這個影片有幾個副本呢？同樣實驗走起：

看不懂？別急。簡單普及下，域名和IP存在對應關係，這種對應關係由DNS來完成（我的其他文章裡有普及過）。網站方的排程都是透過域名來排程的，而不是透過IP地址。為啥呢，一是IP多難記啊，一串數字；二是IP經常變，而域名穩定。

總之，記住一句話，域名是網站方排程的最小單位。

那我們來看看這個域名對應幾個伺服器？記住一個命令nslookup：

這裡我測試的網路環境是江蘇移動的網路，所以dns伺服器是移動的dns地址，數一下有多少個IP？一共13個。
至此，得出一個結論：我這個影片在江蘇行動網路內有13個副本。同樣電信可能也會有13個，大家可以自行測試。

這裡，我只想闡述一個副本數量的概念。具體容量大家可以自行估算一下。

很自然，會有第3個問題：
這些影片存放在哪兒？
同樣實驗走起，我們看看這個Chrome抓包上能發現點啥？

看見沒，有個jiangsuyidong Cdn字樣（我理解是，江蘇移動CDN）。

沒錯，影片是放在CDN網路上承載的。

這裡涉及一個CDN的概念，簡單來講就是，網站方會把影片內容複製多個副本，放在多個CDN網路節點中，在南京放一份，在蘇州也放一份。這樣一來，南京的使用者就訪問南京的節點，蘇州的使用者就訪問蘇州的節點，互不干擾，確保使用者訪問離自己最近的網路伺服器，這樣就保證了影片不卡。
除了上面提到的江蘇移動CDN，國內還有網宿、華為、七牛雲、金山雲等CDN廠家。
寫在最後
其實在我看來，儲存技術的發展，容量大小已不是關鍵問題（看看各個網盤廠家動不動就送幾個T）；頻寬問題是影響網站方成本投入的重要因素。另外，最關鍵技術是網站方的影片內容如何與CDN廠家的承載網路協同和排程。

誠邀您關注，隨手一關注，一起聊聊網際網路那些事。
9 # 趣台州

伺服器是網際網路企業的基礎保障
伺服器作為網際網路企業最基礎也是最重要的裝置。一般都採用叢集式全球部署，一方面可以提高訪問速度，另一方面為了避免出現區域性故障，而導致所有使用者宕機。

據網上資料顯示，2013年3月位元組跳動的伺服器數量只有幾十臺，12月增至一千臺，此後以上萬臺的增長。在2017年年初的時候，公司大概有2-3萬臺伺服器，2018年大概有17萬臺伺服器。目前的伺服器資料暫未找到具體數量，近兩年隨著短影片的爆發式增長，相信伺服器也是巨增不少。
▷2018騰訊貴安七星綠色資料中心施工現場

伺服器最重要的三個方面是安全、穩定、速度。

這只是騰訊眾多伺服器中的一個，可以想象下，伺服器的大小可以自行腦補了。

隨著科技的發展，伺服器的建設不僅僅考慮網路駭客的攻擊，還要考慮安防等方面的因素。有了強大的伺服器作為保障，才能有序開展各項網路業務。

計算能力

2020年6月，騰訊長三角人工智慧超算中心及產業基地在上海開工。總投資450億元，每秒1億億次以上的算力，總建築面積33萬平方米，預計將於2021年底前投入執行。

比如一個5分鐘vlog高畫質影片，就算它為500Mb，一個人每天製作2個vlog影片，一個月60個，一年720個。就按照1000來計算，一年產生500000MB=488.2Gb=0.47Tb。
各資料換算表

1 MB = 1024 KB

1 GB = 1024 MB

1 TB = 1024 GB

1 PB = 1024 TB

1 EB = 1024 PB

1 ZB = 1024 EB

1 YB = 1024 ZB

一個常規的2Tb的行動硬碟，大概體積是0.1*0.1*0.01=0.0001立方米。

再拿騰訊貴安七星綠色資料中心面積來計算，3萬平方米的空間，假設伺服器的高度位2米，那麼總體積是6萬立方米。

10 # 網路圈

世界上沒有無限大的硬碟空間
早期的硬碟容量是很小的，那時的硬碟單位都是按GB來算，再往上就是TB級，隨著大資料的發展，在海量資料的需求下對硬碟容量要求也越來越高，於是又出現了PB、EB、ZB級儲存。

但無論硬碟技術如何發展，都逃不過儲存極限的限制，世界上沒有一款硬碟可以無限量的儲存資料。
利用分散式叢集儲存技術來突破單機儲存上限
上面說到，單機儲存是存在儲存上限限制的，在面對海量資料儲存時顯然不能依靠單機儲存，那該如何把海量資料儲存下來呢？

這就得依靠“叢集儲存”技術！

所謂的“叢集”就是指根據需要動態的透過增加伺服器或儲存資源的數量來突破單機裝置的限制。在叢集儲存架構模式下，所有的資料透過統一的介面被分散到叢集各個節點中去，這樣一來單機儲存壓力就小得多了。

為便於理解舉個例子，有100斤的貨物，如果單靠一個人去搬，那會很累，但假設把這100斤的貨物分拆給50個人去搬，那這50人搬起來都很輕鬆。

另外，還可以根據業務來劃分資源儲存，比如將圖片資源是單獨的叢集來儲存，影片資源又是另一個叢集去儲存。

∧ 中秋節和大豐收的關聯？

∨ 買房子交了首付，銀行貸款貸不下來，退房開發商不退首付，怎麼辦？

熱門排行

劇多

每天產生這麼多的影片，頭條的儲存伺服器得多大空間？會不會有儲存極限？