Header
Header

Blog Archives

Spark Streaming之基于HDFS数据源的实时wordCount

Spark Streaming基于HDFS的数据源进行实时计算,其主要原理是spark Streaming会监视指定的HDFS目录,并且处理出现在目录中的文件。因此注意的是:阅读更多

基于flume-ng+kafka+spark streaming实现日志收集分析

基于flume-ng+kafka+spark streaming可以快速实现日志收集分析功能,在架构上可以划分为三个模块:日志收集模块、日志分发模块、日志分析模块,在设计上考虑模块之间无缝衔接,以及实现日志收集分析时需要保障体系架构具有分布式、高扩展性、高可靠性、实时性的特点。阅读更多

spark使用saveAsNewAPIHadoopDataset将数据保存到Hbase

在spark实际使用过程,经常会遇到需要将运算结果数据写入保存到Hbase中,具体实现思路可以使用saveAsNewAPIHadoopDataset将数据保存到Hbase。阅读更多

spark 如何读取Hbase中存储的数据(scala代码实现)

spark可以在hbase中读取数据并转化为RDD,实现对Hbase中的数据进行计算。但需要注意的是一般生产环境中Hbase是基于zookeeper的高可用集群,因此在编写代码的时候需要保障spark能连接到zookeeper集群,然后借助zookeeper访问hbase。阅读更多