国产伦精品,视频三区精品中文字幕,亚洲人成无码网在线观看

初識MapReduce的應(yīng)用場景（附JAVA和Python代碼）

2019-03-01 08:34

從這篇文章開始，我會開始系統(tǒng)性地輸出在大數(shù)據(jù)踩坑過程中的積累，后面會涉及到實(shí)戰(zhàn)項(xiàng)目的具體操作，目前的規(guī)劃是按照系列來更新，力爭做到一個系列在5篇文章之內(nèi)總結(jié)出最核心的干貨，如果是涉及到理論方面的文章，會以畫圖的方式來講解，如果是涉及到操作方面，會以實(shí)際的代碼來演示。

這篇是MapReduce系列的第一篇，初識MapReduce的應(yīng)用場景，在文章后面會有關(guān)于代碼的演示。

Hadoop作為Apache旗下的一個以Java語言實(shí)現(xiàn)的分布式計(jì)算開源框架，其由兩個部分組成，一個是分布式的文件系統(tǒng)HDFS，另一個是批處理計(jì)算框架MapReduce。這篇文章作為MapReduce系列的第一篇文章，會從MapReduce的產(chǎn)生背景、框架的計(jì)算流程、應(yīng)用場景和演示Demo來講解，主要是讓大家對MapReduce的這個批計(jì)算框架有個初步的了解及簡單的部署和使用。

MapReduce的產(chǎn)生背景

MapReduce的計(jì)算流程

MapReduce的框架架構(gòu)

MapReduce的生命周期

應(yīng)用場景

演示Demo

MapReduce的產(chǎn)生背景

Google 在2004年的時候在 MapReduce： Simplified Data Processing on Large Clusters 這篇論文中提出了MapReduce 的功能特性和設(shè)計(jì)理念，設(shè)計(jì)MapReduce 的出發(fā)點(diǎn)就是為了解決如何把大問題分解成獨(dú)立的小問題，再并行解決。例如，MapReduce的經(jīng)典使用場景之一就是對一篇長文進(jìn)行詞頻統(tǒng)計(jì)，統(tǒng)計(jì)過程就是先把文章分為一句一句，然后進(jìn)行分割，最后進(jìn)行詞的數(shù)量統(tǒng)計(jì)。

MapReduce的架構(gòu)圖

MapReduce的架構(gòu)圖

這里的Client和TaskTracker我都使用一個來簡化了，在實(shí)際中是會有很個Client和TaskTracker的。

我們來講解下不同的組件作用

Client

Client的含義是指用戶使用MapReduce程序通過Client來提交任務(wù)到Job Tracker上，同時用戶也可以使用Client來查看一些作業(yè)的運(yùn)行狀態(tài)。

Job Tracker

這個負(fù)責(zé)的是資源監(jiān)控和作業(yè)調(diào)度。JobTracker會監(jiān)控著TaskTracker和作業(yè)的健康狀況，會把失敗的任務(wù)轉(zhuǎn)移到其他節(jié)點(diǎn)上，同時也監(jiān)控著任務(wù)的執(zhí)行進(jìn)度、資源使用量等情況，會把這些消息通知任務(wù)調(diào)度器，而調(diào)度器會在資源空閑的時候選擇合適的任務(wù)來使用這些資源。

任務(wù)調(diào)度器是一個可插拔的模塊，用戶可以根據(jù)自己的需要來設(shè)計(jì)相對應(yīng)的調(diào)度器。

TaskTracker

TaskTracker會周期性地通過Hearbeat來向Job Tracker匯報自己的資源使用情況和任務(wù)的運(yùn)行進(jìn)度。會接受來自于JobTaskcker的指令來執(zhí)行操作（例如啟動新任務(wù)、殺死任務(wù)之類的）。

在TaskTracker中通過的是slot來進(jìn)行等量劃分一個節(jié)點(diǎn)上資源量，只用Task獲得slot的時候才有機(jī)會去運(yùn)行。調(diào)度器的作用就是進(jìn)行將空閑的slot分配給Task使用，可以配置slot的數(shù)量來進(jìn)行限定Task上的并發(fā)度。

Task

Task分為Map Task和Reduce Task，在MapReduce中的 split 就是一個 Map Task，split 的大小可以設(shè)置的，由 mapred．max．spilt．size 參數(shù)來設(shè)置，默認(rèn)是 Hadoop中的block的大小，在Hadoop 2．x中默認(rèn)是128M，在Hadoop 1．x中默認(rèn)是64M。

在Task中的設(shè)置可以這么設(shè)置，一般來講，會把一個文件設(shè)置為一個split，如果是小文件，那么就會存在很多的Map Task，這是特別浪費(fèi)資源的，如果split切割的數(shù)據(jù)塊的量大，那么會導(dǎo)致跨節(jié)點(diǎn)去獲取數(shù)據(jù)，這樣也是消耗很多的系統(tǒng)資源的。

MapReduce的生命周期

MapReduce的生命周期

一共分為5個步驟：

作業(yè)的提交和初始化

由用戶提交作業(yè)之前，需要先把文件上傳到HDFS上，JobClient使用upload來加載關(guān)于打包好的jar包，JobClient會RPC創(chuàng)建一個JobInProcess來進(jìn)行管理任務(wù)，并且創(chuàng)建一個TaskProcess來管理控制關(guān)于每一個Task。

JobTracker調(diào)度任務(wù)

JobTracker會調(diào)度和管理任務(wù)，一發(fā)現(xiàn)有空閑資源，會按照一個策略選擇一個合適的任務(wù)來使用該資源。

任務(wù)調(diào)度器有兩個點(diǎn)：一個是保證作業(yè)的順利運(yùn)行，如果有失敗的任務(wù)時，會轉(zhuǎn)移計(jì)算任務(wù)，另一個是如果某一個Task的計(jì)算結(jié)果落后于同一個Task的計(jì)算結(jié)果時，會啟動另一個Task來做計(jì)算，最后去計(jì)算結(jié)果最塊的那個。

任務(wù)運(yùn)行環(huán)境

TaskTracker會為每一個Task來準(zhǔn)備一個獨(dú)立的JVM從而避免不同的Task在運(yùn)行過程中的一些影響，同時也使用了操作系統(tǒng)來實(shí)現(xiàn)資源隔離防止Task濫用資源。

執(zhí)行任務(wù)

每個Task的任務(wù)進(jìn)度通過RPC來匯報給TaskTracker，再由TaskTracker匯報給JobTracker。

任務(wù)結(jié)束，寫入輸出的文件到HDFS中。

MapReduce 的計(jì)算流程

先來看一張圖，系統(tǒng)地了解下 MapReduce 的運(yùn)算流程。

MapReduce的運(yùn)算流程

為了方便大家理解，重新畫了一張新的圖，演示的是關(guān)于如何進(jìn)行把一個長句進(jìn)行分割，最后進(jìn)行詞頻的統(tǒng)計(jì)（已忽略掉標(biāo)點(diǎn)符號）。

簡單的實(shí)操例子

簡單的實(shí)操例子

整個過程就是先讀取文件，接著進(jìn)行split切割，變成一個一個的詞，然后進(jìn)行 map task 任務(wù)，排列出所有詞的統(tǒng)計(jì)量，接著 sorting 排序，按照字典序來排，接著就是進(jìn)行 reduce task，進(jìn)行了詞頻的匯總，最后一步就是輸出為文件。例如圖中的 spacedong 就出現(xiàn)了兩次。

其中對應(yīng)著的是 Hadoop Mapreduce 對外提供的五個可編程組件，分別是InputFormat、Mapper、Partitioner、Reduce和OutputFormat，后續(xù)的文章會詳細(xì)講解這幾個組件。

用一句話簡單地總結(jié)就是，Mapreduce的運(yùn)算過程就是進(jìn)行拆解－排序－匯總，解決的就是統(tǒng)計(jì)的問題，使用的思想就是分治的思想。

MapReduce的應(yīng)用場景

MapReduce 的產(chǎn)生是為了把某些大的問題分解成小的問題，然后解決小問題后，大問題也就解決了。那么一般有什么樣的場景會運(yùn)用到這個呢？那可多了去，簡單地列舉幾個經(jīng)典的場景。

計(jì)算URL的訪問頻率

搜索引擎的使用中，會遇到大量的URL的訪問，所以，可以使用 MapReduce 來進(jìn)行統(tǒng)計(jì)，得出（URL，次數(shù)）結(jié)果，在后續(xù)的分析中可以使用。

倒排索引

Map 函數(shù)去分析文件格式是（詞，文檔號）的列表，Reduce 函數(shù)就分析這個（詞，文檔號），排序所有的文檔號，輸出（詞，list（文檔號）），這個就可以形成一個簡單的倒排索引，是一種簡單的算法跟蹤詞在文檔中的位置。

Top K 問題

在各種的文檔分析，或者是不同的場景中，經(jīng)常會遇到關(guān)于 Top K 的問題，例如輸出這篇文章的出現(xiàn)前5個最多的詞匯。這個時候也可以使用 MapReduce來進(jìn)行統(tǒng)計(jì)。

演示Demo

今天的代碼演示從Python和Java兩個版本的演示，Python版本的話便是不使用封裝的包，Java版本的話則是使用了Hadoop的封裝包。接下來便進(jìn)行演示一個MapReduce的簡單使用，如何進(jìn)行詞匯統(tǒng)計(jì)。

1 2 下一頁>

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號的作者撰寫，觀點(diǎn)僅代表作者本人，不代表OFweek立場。如有侵權(quán)或其他問題，請聯(lián)系舉報。

發(fā)表評論

共0條評論，0人參與

登錄登錄即可訪問所有OFweek服務(wù)

用戶名/郵箱/手機(jī)：
密碼：
忘記密碼？
用其他賬號登錄： QQ | 微信 | 新浪微博

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

暫無評論

圖片新聞