• Posts tagged "spark"
  • (Page 2)
Header
Header

Blog Archives

Spark Core核心编程之广播变量剖析

如果深入思考spark的分布式集群工作过程,就会发现有一些问题是分布式多节点需要考虑解决的。如一些变量在集群节点之间的拷贝。如我们在应用程序中编写代码,实际运行时候是将相关的代码分发个各节点进行运行,在spark中application应用程序向spark集群提交请求,申请相关运算资源;spark master节点分配好相关节点运算资源之后,在work节点启动相关的excutor以task线程来处理application中的计算任务。在一般情况下excutor中task进程中运行时所涉及的变量是独立的互不干扰的,这样就需要每一个task通过网络拷贝application中定义的相关变量(如下图绿色所示意的过程)。阅读更多

Sprak Core核心编程之深刻理解Transformation和Action

对于Action操作,在spark core框架中一般会触发一个spark job的运行,并触发这个action操作之前的transformation操作的执行。其精妙设计其实只要我们对计算机应用程序的特性认真思考就感叹,原来一切情理之中意料之外。阅读更多

spark之scala实现wordcount

在spark中使用scala来实现wordcount(统计单词出现次数模型)更加简单,相对java代码上更加简洁,其函数式编程的思维逻辑也更加直观。阅读更多