2018-10-01から1ヶ月間の記事一覧

アプリケーションエンジニアのためのApache Spark入門を読む

Chapter 9 Spark MLibによるデータ分析 9-5 ユースケースに沿って、バッチ分析を行う

アプリケーションエンジニアのためのApache Spark入門を読む

Chapter 8 Spark SQLによるデータ処理 必要となるデータはここを参考に配置 atsuizo.hatenadiary.jp 8-8 データ分析

アプリケーションエンジニアのためのApache Spark入門を読む

Chapter 7 Spark Streamingによるデータ分析 (Chapter 6はうまく動作しなかったのでパス) データの集計軸の設定方法 データの集計実行 データ出力基準の変更 ウインドウ方式の変更 特定のデータのみ出力、条件にあったデータが少ないためかデータ量があまり…

アプリケーションエンジニアのためのApache Spark入門を読む

Chapter 5 Spark Streamingによるデータ処理 5-4 センサーデータのストリームデータ処理(結果出力) kafkaへのデータ送信 5-5 実際に運用に当たって考慮すべきこと UDF化

アプリケーションエンジニアのためのApache Spark入門を読む

Chapter 5 Spark Streamingによるデータ処理 5-3 センサーデータのストリーム処理(イベント単位) kafkaからのセンサデータ取得方法(05-04.py) このままではjsonの文字列を表示しているだけなのでカラムとして認識させるためパースさせた結果(05-05.py) デ…

アプリケーションエンジニアのためのApache Spark入門を読む

Chapter 5 Spark Streamingによるデータ処理 5-3 センサーデータのストリーム処理(イベント単位) センサーデータを用意して`/var/log/sensor_data/`にsensor_data.logとして保存しておく zookeeper,kafkaを起動しておく。 td-agentの`/etc/td-agent/td-age…

アプリケーションエンジニアのためのApache Spark入門を読む

Chapter 5 Spark Streamingによるデータ処理 5-1 ストリーム処理とは? データが生成されてから直後の数秒以内にレスポンスよく処理をストリーム処理と呼ぶ バッチ処理とストリーム処理の結合=マイクロバッチ処理 5-2 Spark Structured Stremingによるストリ…

アプリケーションエンジニアのためのApache Spark入門を読む

Chapter 4 Fluentd,Kafkaによるデータ収集 4-4 データ収集フローの構築 本に従ってFluentdの設定ファイル`/etc/td-agent/td-agent.conf‘を書き換え 同じく本に従ってkafka側の設定 td-agent.confを変更したのでFluentdを再起動`systemctl restart td-agent` …

アプリケーションエンジニアのためのApache Spark入門を読む

Chapter 4 Fluentd,Kafkaによるデータ収集 Chapter 4 Fluentd,Kafkaによるデータ収集 4-3 データ収集詳細 - Apache Kafka詳細 kafkaのinstall 本の通りのurlでは、何故か接続できなかったので本家に行ってdownload kafka.apache.org Zookeeperの起動 /opt/ka…