「word2vecによる自然言語処理」を読む6

付録A：「word2vecの結果を可視化」をやってみる

インストールから

＜機械学習用ライブラリ＞

sudo apt-get install python-sklearn

最初のコマンドでは一部パッケージがインストールできなかったとメッセージがでたのでsudo apt-get updateをして再度インストールしたらエラー表示がなかったのでOKかな？

＜mycorpus＞

gitはすでに入っていた。

HOMEフォルダーで

git clone https://github.com/nishio/mycorpus.git

を実行したらmycorpusができた。なかにはREADME.rst,facebook_to_corpus.py,vis.pyが入っている。

＜IPAフォント＞

IPAフォントを入れる。http://ipafont.ipa.go.jp/fontinstall.htmlのインストールマニュアルを読んでwgetコマンドでダウンロードしようとしたができなかったのでWindows機側にダウンロードFileZilla ClientでRaspberry側にコピーした。

unzip IPAMTTC00303.zipで展開、fc-cache -fvでフォントのキャシュを更新した。

（ここでダウンロードした->http://ipafont.ipa.go.jp/fontinstall.html）

IPAMTTC00303フォルダー内のipam.ttcをmycorpusフォルダーにコピー

＜word2vec_boostpython＞

git clone https:// github.com/nishio/word2vec_boostpython

mycorpusフォルダーにword2vec_boostpythonフォルダーが作られJamroot,Makefile,readme.dm,boost-bulid.jam,debug.gdb,setup.py,test.py.tiny_corpus.txt,word2vec.cppが入っている

<boostライブラリ>

sudo apt-get install libboost-all-dev

結構な量があった

<セットアップ＞

~/mycorpus/word2vec_boostpythonに移動して

sudo python setup.py installでセットアップ

以下メッセージ

running install
running build
running build_ext
building 'word2vec_boostpython' extension
gcc -pthread -fno-strict-aliasing -DNDEBUG -g -fwrapv -O2 -Wall -Wstrict-prototypes -fPIC -I/usr/include/boost -I/usr/include/python2.7 -c word2vec.cpp -o build/temp.linux-armv6l-2.7/word2vec.o
cc1plus: warning: command line option ‘-Wstrict-prototypes’ is valid for Ada/C/ObjC but not for C++ [enabled by default]
word2vec.cpp: In function ‘PyObject* get_vectors(Data*)’:
word2vec.cpp:1085:10: error: invalid conversion from ‘long int*’ to ‘npy_intp* {aka int*}’ [-fpermissive]
/usr/include/python2.7/numpy/__ufunc_api.h: At global scope:
/usr/include/python2.7/numpy/__ufunc_api.h:226:1: warning: ‘int _import_umath()’ defined but not used [-Wunused-function]
error: command 'gcc' failed with exit status 1

メッセージ終わり

どうもエラーがでて処理が完了していないようです。