「word2vecによる自然言語処理」を読む5

Wikipediaコーパスを作るのをやってみる

$ wget http://dumps.wikimedia.org/jawiki/latest/jawiki-latest-pages-articles.xml.bz2

で圧縮ファイルを落としておく。

ダウンロード開始時残り時間2時間と表示された。

ファイルの容量は2GByte。SDカードに保存できるだろうか?

結局45分かかった。RaspberryPi上でtarで展開したが空きスペースがないとのことだったのでWindows機にDownLoad、展開したところ8.5GByteもあったのでRaspberryPyでは無理とわかった。