アプリケーションエンジニアのためのApache Spark入門を読む

Chapter 5 Spark Streamingによるデータ処理

5-1 ストリーム処理とは?

データが生成されてから直後の数秒以内にレスポンスよく処理をストリーム処理と呼ぶ
バッチ処理とストリーム処理の結合=マイクロバッチ処理

5-2 Spark Structured Stremingによるストリーム処理

1つ目の端末でncコマンドで待機
nc -lk 8888 #本にはport番号を9999に設定してあるが、Fluentdのhttpのportと衝突するので8888に変更
もう一つの端末で
python /opt/spark-book/05-01.py 192.168.33.10 8888
を実行後 ncを立ち上げた端末で cat cat dogと入力

f:id:bitop:20181021171505p:plain f:id:bitop:20181021171523p:plain 上と同じように nc -lk 8888 python /opt/spark-book/05-02.py 192.168.33.10 を実行後ncを立ち上げてある端末でcat cat cat dogと入力 f:id:bitop:20181021171709p:plain f:id:bitop:20181021171718p:plain