Pythonではじめる機械学習

7.7 1単語より大きい単位のBag-of-Words(n-グラム)

f:id:bitop:20191006082558p:plain
結果
f:id:bitop:20191006082910p:plain

バイグラム
f:id:bitop:20191006083057p:plain
結果
f:id:bitop:20191006083137p:plain

トリグラム
f:id:bitop:20191006084433p:plain
結果
f:id:bitop:20191006084515p:plain

TfidfVectorizerを使ったn-グラム
かなり時間がかかった、約30分
f:id:bitop:20191006094815p:plain
結果
f:id:bitop:20191006095048p:plain

7.8 より進んだトークン分割、語幹処理、見出し語化

spacyとnltkのinstallが必要
en_nlp = spacy.load('en')でエラーがでた。

teratail.com

を参考にモデルをinstall  
f:id:bitop:20191006111122p:plain
結果
f:id:bitop:20191006111206p:plain