• Posts tagged "spark"
Header
Header

Blog Archives

Spark Streaming之基于HDFS数据源的实时wordCount

Spark Streaming基于HDFS的数据源进行实时计算,其主要原理是spark Streaming会监视指定的HDFS目录,并且处理出现在目录中的文件。因此注意的是:阅读更多

spark 如何读取Hbase中存储的数据(scala代码实现)

spark可以在hbase中读取数据并转化为RDD,实现对Hbase中的数据进行计算。但需要注意的是一般生产环境中Hbase是基于zookeeper的高可用集群,因此在编写代码的时候需要保障spark能连接到zookeeper集群,然后借助zookeeper访问hbase。阅读更多

Kafka与Spark Streaming整合总结

Spark代码库中的 KafkaWordCount 对于我们来说是个非常好的起点,但是这里仍然存在一些开放式问题。阅读更多

Spark操作数据库(Hbase+Mysql)踩过的坑总结

在使用Spark Streaming的过程中对于计算产生结果的进行持久化时,我们往往需要操作数据库,去统计或者改变一些值。最近一个实时消费者处理任务,在使用spark streaming进行实时的数据流处理时,我需要将计算好的数据更新到hbase和mysql中,所以本文对spark操作hbase和mysql的内容进行总结,并且对自己踩到的一些坑进行记录。阅读更多