期限 ”大數據「」已成為流行語,並被譽為許多問題的解決方案和商業的未來。但它是什麼?許多人將大數據與大型資料集混為一談。這種困惑在非技術人員中似乎很常見。大數據是更深層的東西。這不僅僅是大量的數據。這是利用這些數據來創造商業價值。

將大數據視為不同類型的「材料」——如果您是建築師,您可能擁有不同類型的材料,例如木材、鋼材或混凝土。您可以在專案中使用這些材料來建立滿足您對功能和形式需求的東西。例如,如果您想快速且經濟高效地建造庇護所,您可能會使用鋼材,因為它便宜且容易獲得。材料的選擇取決於當前的目標。

大數據如何運作?

我們可以使用小資料集來了解過去 10 年發生的事情(歷史書上的資訊類型)。然而,如果我們想要預測未來 10 年內會發生什麼,或者模擬一下在這段時間內做出的各種選擇,世界可能會發生什麼變化,那麼您需要大數據。

不幸的是,給大數據下一個準確的定義並不容易——隨著數據變得越來越複雜,其用途也在不斷發展,我們對大數據的理解也在不斷變化。最好的考慮方式是,您的專案是否需要 100 TB 的儲存容量或對 100 PB 資料的查詢時間快於 1 分鐘。你可能會稱之為大數據(沒有官方的界線;如果你看到它就知道它,那就足夠了)。

大數據本身也沒有什麼用處。它必須用來解決問題——碰巧很多問題最好用大數據來解決。例如,Google流感趨勢(谷歌趨勢)使用大數據根據搜尋某些流感相關關鍵字的人數來預測每個州的流感病例數。美國國家安全局利用大數據分析,透過掃描數萬億個電話和電子郵件來識別全球人口販運網路。 關鍵字 或可能表明即將發生的威脅的短語。

底線:大數據使我們能夠做以前做不到的事情,因為我們不具備所需的儲存容量或處理速度。基本範例可能包括開發更好的天氣預報或電影推薦。

如何處理大數據

在我們討論儲存和查詢大數據的技術方面(有很多內容要介紹)之前,討論資料倉儲及其演變至關重要。正如我們之前提到的,許多組織將「大數據」作為大量數據的總稱;這並不完全準確。資料倉儲和商業智慧(BI)工具允許整個組織(而不僅僅是資料科學家)透過從這些龐大的資料集中提取見解並以易於理解的格式(例如圖形、圖表、表格等)呈現它們來使用他們的數據。非技術員工越容易理解如何理解數據,他們就越有可能使用數據。

尋找您的所有數據

大數據的第一步是找到所有資料(它可以分佈在多個資料庫中;也可以只存在於紙面上)。雖然這聽起來很簡單,但實際上非常棘手 - 特別是當您處理 TB 或 PB 的資訊時。組織透過稱為 ETL(提取-轉換-載入)的過程來實現此目的,該過程涉及獲取大量原始資料並將其轉換為結構化表,以便 BI 工具更輕鬆地進行查詢。此過程可能會佔用大量資源,因為需要多種類型的硬體:臨時伺服器、負載平衡器、連接池。還有其他方法可以從平面文件、第三方資料庫等來源提取數據,但這是最容易實現且最常見的。

將所有資料整合到 BI 工具可以存取的中央位置後,下一步就是建立一個資料倉儲來容納您的資產以便於查詢。除了在需要時快速存取相關資訊之外,建立資料倉儲還允許團隊成員根據專家的意見對這些資料集進行協作 遠端DBA.com.

資料儲存伺服器和資料倉儲之間的區別在於,後者俱有內建工具,允許資料科學家查詢和上傳資料集以進行分析。相較之下,儲存伺服器將使他們只能存取(或許還可以暫存)部分資料。例如,Google Cloud Storage 是一個儲存伺服器,而 BigQuery 是 Google 雲端倉庫產品的一部分。

最後,是時候開始正題並開始查詢這一大堆資料了。然而,由於有多種方法可以做到這一點,並且每種方法都有其優點和缺點,因此在開始之前了解不同的方法至關重要。

資料儲存解決方案

大數據儲存解決方案附帶的最基本的查詢工具是 SQL(即結構化查詢語言),它允許用戶創建語句,使他們能夠從構建在這些平台 |LS|10|RS| 之上的資料庫檢索資訊。如果您已經熟悉SQL,那麼這種方法可能是有建設性的,因為它允許您執行JOIN、GROUP BY 等操作。但是,這種方法有一些缺點,因為並不是每個人都知道如何讀取或編寫SQL 查詢,

使用這些工具的明顯優勢是它們允許非技術員工輕鬆地「提出數據問題」。然而,這種方法有幾個缺點:               

這些工具可能會非常消耗資源,因為它們必須先將查詢轉換為 SQL,然後再針對伺服器執行它們。您必須建立單獨的架構或儲存每個新資料集以上傳到許多資料庫。如果使用者不熟悉關聯式資料庫和模式背後的複雜性,這可能會在分析過程中導致一些重大麻煩,例如,意外地在錯誤的模式下上傳不同的資料集並且不知道該怎麼做。