言語処理100本ノック

37. 頻度上位10語¶ 出現頻度が高い10語とその出現頻度をグラフ（例えば棒グラフなど）で表示せよ． import re from collections import Counter sentences = [] with open("D:\\nlp100\\neko.txt.mecab",encoding="UTF-8") as fr: line = fr.readline() keit…

2016-12-30

言語処理100本ノック

36. 単語の出現頻度文章中に出現する単語とその出現頻度を求め，出現頻度の高い順に並べよ． import re from collections import Counter sentences = [] with open("D:\\nlp100\\neko.txt.mecab",encoding="UTF-8") as fr: line = fr.readline() keitaiso …

2016-12-28

言語処理100本ノック

35. 名詞の連接名詞の連接（連続して出現する名詞）を最長一致で抽出せよ import re sentences = [] with open("D:\\nlp100\\neko.txt.mecab",encoding="UTF-8") as fr: line = fr.readline() keitaiso = [] while line: if "EOS" in line: if len(keitaiso…

2016-12-27

言語処理100本ノック

34. 「AのB」 2つの名詞が「の」で連結されている名詞句を抽出せよ． import re sentences = [] with open("D:\\nlp100\\neko.txt.mecab",encoding="UTF-8") as fr: line = fr.readline() keitaiso = [] while line: if "EOS" in line: if len(keitaiso)>0: …

2016-12-24

言語処理100本ノック

33. サ変名詞サ変接続の名詞をすべて抽出せよ． import re sentences = [] with open("D:\\nlp100\\neko.txt.mecab",encoding="UTF-8") as fr: line = fr.readline() keitaiso = [] while line: if "EOS" in line: if len(keitaiso)>0: sentences.append(ke…

2016-12-23

言語処理100本ノック

32. 動詞の原形動詞の原形をすべて抽出せよ． import re sentences = [] with open("D:\\nlp100\\neko.txt.mecab",encoding="UTF-8") as fr: line = fr.readline() keitaiso = [] while line: if "EOS" in line: if len(keitaiso)>0: sentences.append(keit…

2016-12-18

言語処理100本ノック

31. 動詞動詞の表層形をすべて抽出せよ． import re sentences = [] with open("D:\\nlp100\\neko.txt.mecab",encoding="UTF-8") as fr: line = fr.readline() keitaiso = [] while line: if "EOS" in line: if len(keitaiso)>0: sentences.append(keitaiso…

2016-12-17

言語処理100本ノック

30. 形態素解析結果の読み込み形態素解析結果（neko.txt.mecab）を読み込むプログラムを実装せよ．ただし，各形態素は表層形（surface），基本形（base），品詞（pos），品詞細分類1（pos1）をキーとするマッピング型に格納し，1文を形態素（マッピング型）…

2016-12-11

言語処理100本ノック

27. 内部リンクの除去¶ 26の処理に加えて，テンプレートの値からMediaWikiの内部リンクマークアップを除去し，テキストに変換せよ（参考: マークアップ早見表）． import json import re def wiki_selection(): with open("D:\\nlp100\\jawiki-country.json"…

2016-12-10

言語処理100本ノック

26. 強調マークアップの除去 25の処理時に，テンプレートの値からMediaWikiの強調マークアップ（弱い強調，強調，強い強調のすべて）を除去してテキストに変換せよ（参考: マークアップ早見表）． import json import re def wiki_selection(): with open("D…

2016-12-04

言語処理100本ノック

25. テンプレートの抽出記事中に含まれる「基礎情報」テンプレートのフィールド名と値を抽出し，辞書オブジェクトとして格納せよ． import json import re def wiki_selection(): with open("D:\\nlp100\\jawiki-country.json",encoding="UTF-8") as fr: wi…

2016-12-03

言語処理100本ノック

24. ファイル参照の抽出記事から参照されているメディアファイルをすべて抜き出せ． import json import re def wiki_selection(): with open("D:\\nlp100\\jawiki-country.json",encoding="UTF-8") as fr: wiki_line = fr.readline() while wiki_line: wik…

2016-11-27

言語処理100本ノック

23. セクション構造記事中に含まれるセクション名とそのレベル（例えば"== セクション名 =="なら1）を表示せよ． import json import re def wiki_selection(): with open("D:\\nlp100\\jawiki-country.json",encoding="UTF-8") as fr: wiki_line = fr.read…

2016-11-26

言語処理100本ノック

21. カテゴリ名を含む行を抽出記事中でカテゴリ名を宣言している行を抽出せよ． import json import re def wiki_selection(): with open("D:\\nlp100\\jawiki-country.json",encoding="UTF-8") as fr: wiki_line = fr.readline() while wiki_line: wiki_di…

2016-11-25

言語処理100本ノック

20. JSONデータの読み込み¶ Wikipedia記事のJSONファイルを読み込み，「イギリス」に関する記事本文を表示せよ．問題21-29では，ここで抽出した記事本文に対して実行せよ. import json with open("D:\\nlp100\\jawiki-country.json",encoding="UTF-8") as fr…

2016-11-20

言語処理100本ノック

19. 各行の1コラム目の文字列の出現頻度を求め，出現頻度の高い順に並べる各行の1列目の文字列の出現頻度を求め，その高い順に並べて表示せよ．確認にはcut, uniq, sortコマンドを用いよ． from collections import Counter with open("D:\\nlp100\\hightem…

2016-11-19

言語処理100本ノック

18. 各行を3コラム目の数値の降順にソート各行を3コラム目の数値の逆順で整列せよ（注意: 各行の内容は変更せずに並び替えよ）．確認にはsortコマンドを用いよ（この問題はコマンドで実行した時の結果と合わなくてもよい）． fr = open("D:\\nlp100\\highte…

2016-11-14

言語処理100本ノック

17. １列目の文字列の異なり 1列目の文字列の種類（異なる文字列の集合）を求めよ．確認にはsort, uniqコマンドを用いよ． fr = open("D:\\nlp100\\hightemp.txt",encoding="UTF-8") list = fr.readlines() fr.close() coll = set() for i in list: coll.add…

2016-11-13

言語処理100本ノック

16. ファイルをN分割する自然数Nをコマンドライン引数などの手段で受け取り，入力のファイルを行単位でN分割せよ．同様の処理をsplitコマンドで実現せよ import sys import math n = int(sys.argv[1]) fr = open("D:\\nlp100\\hightemp.txt",encoding="UTF-…

2016-11-12

言語処理100本ノック

15. 末尾のN行を出力¶ 自然数Nをコマンドライン引数などの手段で受け取り，入力のうち末尾のN行だけを表示せよ．確認にはtailコマンドを用いよ． import sys n = int(sys.argv[1]) fr = open("D:\\nlp100\\hightemp.txt",encoding="UTF-8") list = fr.readli…

2016-11-06

言語処理100本ノック

14. 先頭からN行を出力¶ 自然数Nをコマンドライン引数などの手段で受け取り，入力のうち先頭のN行だけを表示せよ．確認にはheadコマンドを用いよ．この問題を実行するためにVisual studio2013 にPython Tools for Visual Studioをインストールした。 import…

2016-11-05

言語処理100本ノック

13. col1.txtとcol2.txtをマージ 12で作ったcol1.txtとcol2.txtを結合し，元のファイルの1列目と2列目をタブ区切りで並べたテキストファイルを作成せよ．確認にはpasteコマンドを用いよ． import csv fr1 = open('col1.txt',encoding='UTF-8') fr2 = open('…

2016-11-03

言語処理100本ノック

12. 1列目をcol1.txtに，2列目をcol2.txtに保存各行の1列目だけを抜き出したものをcol1.txtに，2列目だけを抜き出したものをcol2.txtとしてファイルに保存せよ．確認にはcutコマンドを用いよ． import csv fw1 = open("col1.txt","w",encoding='UTF-8') fw2…

2016-10-30

言語処理100本ノック

11. タブをスペースに置換タブ1文字につきスペース1文字に置換せよ．確認にはsedコマンド，trコマンド，もしくはexpandコマンドを用いよ fr = open("hightemp.txt",encoding='UTF-8') fw = open("hightempw_replace.txt","w") for line in fr: line = line.…