一份大數據學習寶典、值得收藏
在大數據的研究中,我們可以將研究分為五個主要部分:數據收集,數據傳輸,數據存儲,數據處理和數據治理。在數據收集部分中,可以分為收集數據以及收集的規則的位置。互聯網時代為我們提供了各種數據格式的數據,包括結構化數據,半結構化數據和非結構化數據。數據收集來源包括系統日志,網絡數據和傳感器。系統日志的集合主要通過瀏覽器,應用程序和用于埋地點的服務器獲得,例如用戶訪問點擊數據,接口呼叫數據等以及網絡數據主要通過爬行者等技術從網站獲得。設備數據主要通過傳感器從物理設備收集。數據收集器確認后,下一個問題是用于分配數據存儲和數據收集的規則。數據量的快速增加一直無法直接在單機系統中存儲PB級數據。有必要在分布式模式下存儲數據。數據可以通過散列分配到不同的機器,然后與路由機制配合。 ,您可以在某個機器上快速找到某個記錄。可以根據分布式帽/ ACD /堿的原理決定數據的選擇。在數據更新中,主從更新的策略,每個機器節點的同步更新以及任何節點的更新都可用于處理數據。在數據傳輸方面,通常存在可以將收集的數據發送到存儲信道的消息隊列,數據同步和其他方法。消息隊列現在應該是Internet公司最常用的方法。通過消息隊列,如Kafka和RabbitMQ,服務分離。生產者負責數據生產,消費者訂閱了對消費和業務處理需求的數據。數據同步通常用于數據倉庫中,并且在各種數據源中未處處理的數據被傳送到數據倉庫。
收集并傳輸數據后,存儲數據。在存儲方面,通常存在物理存儲,分布式對象存儲和大型數據庫存儲。物理存儲的定義是數據存儲在磁盤上。存儲類型支持文件存儲,塊存儲和對象存儲。分布式存儲主要提供多個存儲節點以實現大規模數據的存儲和方面,并支持高可用性,高性能和高可擴展性。大型數據庫存儲主要用于特定類型或離線分析,例如點擊屋,Hbase,Elasticsearch等大型數據庫,用于直接統計分析,MongoDB和其他文檔數據庫主要存儲半結構化數據。在數據處理方面,它主要使用流式計算,大規模批量計算和其他方法來處理數據以授權業務。就實時處理而言,流傳輸計算方法,例如傳遞,火花和風暴通常用于實時處理數據。大規模批量計算主要是離線分析。通過離線計算方法處理數據,例如MapReduce和Hive,適用于不需要高實時數據的業務。在數據收集,傳輸,存儲和處理階段之后,數據具有其值,可以更好地用于業務決策和操作分析。然而,隨著數據量變大,業務變得越來越復雜,數據的治理是必要的。數據治理包括三個方面:元數據管理,數據質量控制和數據安全性。元數據通常是指數據和數據之間的相關信息。通過生命周期管理和業務屬性管理,管理員可以更好地執行系統維護和管理。數據質量主要通過一些過程質量管理控制系統控制。在數據安全性方面,主要控制數據收集安全性,數據傳輸安全性,存儲安全性,應用程序安全性和其他方面。企業在用戶信息后掌握更多,我們應該做好安全管理和控制。除了上面介紹的專業內容外,大規模數據的存儲,計算,分析和治理還需要掌握分布式技術,高并發處理,高可用性處理,集群和實時計算。您需要了解微服務架構,云計算和云計算。概念,如本地,東西,5g等。
?