講Spark的書,常見的都是教如何寫code,先教RDD,再講operation有兩種
解釋 Spark 內部架構的文章卻不太多
但是不懂架構我不安心
找了半天,覺得Alexey Grishchenko 的這篇講得最好懂
分享一下
他解釋RDD是抽象的資料集合,也是一個interface,讓寫Spark application更容易
覺得講得很好
讓我理解了Spark的設計概念
而 Transformation 就是延續 Mapper 的概念
Action 就是 Reducer 的動作
這樣想來就更清楚了解 Spark 在架構上接續 Hadoop 的地方了