2018-10-28

アプリケーションエンジニアのためのApache Spark入門を読む

Chapter 8 Spark SQLによるデータ処理

必要となるデータはここを参考に配置

atsuizo.hatenadiary.jp

8-8 データ分析

f:id:bitop:20181028113931p:plain f:id:bitop:20181028114006p:plain f:id:bitop:20181028114013p:plain f:id:bitop:20181028114022p:plain f:id:bitop:20181028114028p:plain

2018-10-28

アプリケーションエンジニアのためのApache Spark入門を読む

Chapter 7 Spark Streamingによるデータ分析

(Chapter 6はうまく動作しなかったのでパス)
データの集計軸の設定方法 f:id:bitop:20181028080950p:plain データの集計実行 f:id:bitop:20181028081023p:plain データ出力基準の変更 f:id:bitop:20181028081104p:plain ウインドウ方式の変更 f:id:bitop:20181028081150p:plain 特定のデータのみ出力、条件にあったデータが少ないためかデータ量があまり出てこなかった。 f:id:bitop:20181028081321p:plain 複数の出力先に出力画面への出力 f:id:bitop:20181028081420p:plain kafkaへの出力 f:id:bitop:20181028081448p:plain

2018-10-27

アプリケーションエンジニアのためのApache Spark入門を読む

Chapter 5 Spark Streamingによるデータ処理

5-4 センサーデータのストリームデータ処理（結果出力）

kafkaへのデータ送信

f:id:bitop:20181027101611p:plain
f:id:bitop:20181027101623p:plain

5-5 実際に運用に当たって考慮すべきこと

UDF化

f:id:bitop:20181027101721p:plain f:id:bitop:20181027101733p:plain

2018-10-25

アプリケーションエンジニアのためのApache Spark入門を読む

Chapter 5 Spark Streamingによるデータ処理

5-3 センサーデータのストリーム処理（イベント単位）

kafkaからのセンサデータ取得方法(05-04.py) f:id:bitop:20181025182011p:plain
このままではjsonの文字列を表示しているだけなのでカラムとして認識させるためパースさせた結果(05-05.py) f:id:bitop:20181025182248p:plain
データの変換方法
f:id:bitop:20181025182418p:plain
f:id:bitop:20181025182444p:plain

表示 f:id:bitop:20181025182639p:plain
f:id:bitop:20181025182710p:plain

2018-10-25

アプリケーションエンジニアのためのApache Spark入門を読む

Chapter 5 Spark Streamingによるデータ処理

5-3 センサーデータのストリーム処理（イベント単位）

センサーデータを用意して`/var/log/sensor_data/`にsensor_data.logとして保存しておく
zookeeper,kafkaを起動しておく。
td-agentの`/etc/td-agent/td-agent.conf`をページ100の05-01.confに沿って変更する。

f:id:bitop:20181025094031p:plain
td-agentをrestartさせる。/var/log/td-agent/td-agent.logを確認して動作しているか確認する f:id:bitop:20181025094304p:plain kafkaからデータを取得する。起動させてから約１分待つ f:id:bitop:20181025094352p:plain /var/log/td-agent/pos/sensor_data.posになにが書き込まれているか確認する f:id:bitop:20181025094737p:plain

2018-10-21

アプリケーションエンジニアのためのApache Spark入門を読む

Chapter 5 Spark Streamingによるデータ処理

5-1 ストリーム処理とは？

データが生成されてから直後の数秒以内にレスポンスよく処理をストリーム処理と呼ぶ
バッチ処理とストリーム処理の結合=マイクロバッチ処理

5-2 Spark Structured Stremingによるストリーム処理

１つ目の端末でncコマンドで待機
nc -lk 8888 #本にはport番号を9999に設定してあるが、Fluentdのhttpのportと衝突するので8888に変更
もう一つの端末で
python /opt/spark-book/05-01.py　192.168.33.10 8888
を実行後 ncを立ち上げた端末で cat cat dogと入力

f:id:bitop:20181021171505p:plain f:id:bitop:20181021171523p:plain 上と同じように nc -lk 8888 python /opt/spark-book/05-02.py 192.168.33.10 を実行後ncを立ち上げてある端末でcat cat cat dogと入力 f:id:bitop:20181021171709p:plain f:id:bitop:20181021171718p:plain

2018-10-21

アプリケーションエンジニアのためのApache Spark入門を読む

Chapter 4 Fluentd,Kafkaによるデータ収集

4-4 データ収集フローの構築

本に従ってFluentdの設定ファイル`/etc/td-agent/td-agent.conf‘を書き換え
同じく本に従ってkafka側の設定

f:id:bitop:20181021120920p:plain

td-agent.confを変更したのでFluentdを再起動`systemctl restart td-agent`
kafkaの`cpnsole-consumer`を起動(既にデータを受け付けている)

f:id:bitop:20181021122653p:plain

curlでデータ(sensor-data)を送信(port=9999)

f:id:bitop:20181021122809p:plain

データはほぼ60secごとに送られてくる。変更が可能なのか調べた。
flush_intervalというパラメータを設定すればよい(デフォルトは60sec)
これを10にするとほぼ10secで送ってくる

f:id:bitop:20181021123003p:plain

4-5 実運用に向けて

Pass