読者です 読者をやめる 読者になる 読者になる

「word2vecによる自然言語処理」を読む4

単語を分割するためMeCabをinstallしたがMeCabに日本語を入れようとしたところ文字化けする。RaspberryPi側のロケールを確認

$ locale

LANG=en_GB.UTF-8
LANGUAGE=
LC_CTYPE="en_GB.UTF-8"
LC_NUMERIC="en_GB.UTF-8"
LC_TIME="en_GB.UTF-8"
LC_COLLATE="en_GB.UTF-8"
LC_MONETARY="en_GB.UTF-8"
LC_MESSAGES="en_GB.UTF-8"
LC_PAPER="en_GB.UTF-8"
LC_NAME="en_GB.UTF-8"
LC_ADDRESS="en_GB.UTF-8"
LC_TELEPHONE="en_GB.UTF-8"
LC_MEASUREMENT="en_GB.UTF-8"
LC_IDENTIFICATION="en_GB.UTF-8"
LC_ALL=

 $ sudo raspi-config

で初期設定ツールにはいりja_JP UTF-8を設定

$ sudo reboot

$ locale

LANG=ja_JP.UTF-8
LANGUAGE=
LC_CTYPE="ja_JP.UTF-8"
LC_NUMERIC="ja_JP.UTF-8"
LC_TIME="ja_JP.UTF-8"
LC_COLLATE="ja_JP.UTF-8"
LC_MONETARY="ja_JP.UTF-8"
LC_MESSAGES="ja_JP.UTF-8"
LC_PAPER="ja_JP.UTF-8"
LC_NAME="ja_JP.UTF-8"
LC_ADDRESS="ja_JP.UTF-8"
LC_TELEPHONE="ja_JP.UTF-8"
LC_MEASUREMENT="ja_JP.UTF-8"
LC_IDENTIFICATION="ja_JP.UTF-8"
LC_ALL=

でRaspberryPi側のロケールが変更されたので

Windows機のTeraTermの設定を変更

[設定]->漢字-受信をUTF-8,漢字-送信をUTF-8にプルダウンメニューで変更

ローケール->japanese、言語コード->932はそのまま

[設定]->フォント でフォント名を「MSゴシック」 文字セットを「日本語」に設定

ここでMeCabを再度起動

$ mecab -Owakati

たとえば以下の文章を入力すると
たとえば 以下 の 文章 を 入力 する と

 

とちゃんとわかち書きしてくれる。

文字化けの件は下記を参考にした。

「Tera Term」の利用方法|情報システム課|東京経済大学