2016-11-01から1ヶ月間の記事一覧

言語処理100本ノック

23. セクション構造 記事中に含まれるセクション名とそのレベル(例えば"== セクション名 =="なら1)を表示せよ. import json import re def wiki_selection(): with open("D:\\nlp100\\jawiki-country.json",encoding="UTF-8") as fr: wiki_line = fr.read…

言語処理100本ノック

21. カテゴリ名を含む行を抽出 記事中でカテゴリ名を宣言している行を抽出せよ. import json import re def wiki_selection(): with open("D:\\nlp100\\jawiki-country.json",encoding="UTF-8") as fr: wiki_line = fr.readline() while wiki_line: wiki_di…

言語処理100本ノック

20. JSONデータの読み込み¶ Wikipedia記事のJSONファイルを読み込み,「イギリス」に関する記事本文を表示せよ.問題21-29では,ここで抽出した記事本文に対して実行せよ. import json with open("D:\\nlp100\\jawiki-country.json",encoding="UTF-8") as fr…

言語処理100本ノック

19. 各行の1コラム目の文字列の出現頻度を求め,出現頻度の高い順に並べる 各行の1列目の文字列の出現頻度を求め,その高い順に並べて表示せよ.確認にはcut, uniq, sortコマンドを用いよ. from collections import Counter with open("D:\\nlp100\\hightem…

言語処理100本ノック

18. 各行を3コラム目の数値の降順にソート 各行を3コラム目の数値の逆順で整列せよ(注意: 各行の内容は変更せずに並び替えよ).確認にはsortコマンドを用いよ(この問題はコマンドで実行した時の結果と合わなくてもよい). fr = open("D:\\nlp100\\highte…

言語処理100本ノック

17. 1列目の文字列の異なり 1列目の文字列の種類(異なる文字列の集合)を求めよ.確認にはsort, uniqコマンドを用いよ. fr = open("D:\\nlp100\\hightemp.txt",encoding="UTF-8") list = fr.readlines() fr.close() coll = set() for i in list: coll.add…

言語処理100本ノック

16. ファイルをN分割する 自然数Nをコマンドライン引数などの手段で受け取り,入力のファイルを行単位でN分割せよ.同様の処理をsplitコマンドで実現せよ import sys import math n = int(sys.argv[1]) fr = open("D:\\nlp100\\hightemp.txt",encoding="UTF-…

言語処理100本ノック

15. 末尾のN行を出力¶ 自然数Nをコマンドライン引数などの手段で受け取り,入力のうち末尾のN行だけを表示せよ.確認にはtailコマンドを用いよ. import sys n = int(sys.argv[1]) fr = open("D:\\nlp100\\hightemp.txt",encoding="UTF-8") list = fr.readli…

言語処理100本ノック

14. 先頭からN行を出力¶ 自然数Nをコマンドライン引数などの手段で受け取り,入力のうち先頭のN行だけを表示せよ.確認にはheadコマンドを用いよ. この問題を実行するためにVisual studio2013 にPython Tools for Visual Studioをインストールした。 import…

言語処理100本ノック

13. col1.txtとcol2.txtをマージ 12で作ったcol1.txtとcol2.txtを結合し,元のファイルの1列目と2列目をタブ区切りで並べたテキストファイルを 作成せよ.確認にはpasteコマンドを用いよ. import csv fr1 = open('col1.txt',encoding='UTF-8') fr2 = open('…

言語処理100本ノック

12. 1列目をcol1.txtに,2列目をcol2.txtに保存 各行の1列目だけを抜き出したものをcol1.txtに,2列目だけを抜き出したものをcol2.txtとしてファイルに保存せよ.確認にはcutコマンドを用いよ. import csv fw1 = open("col1.txt","w",encoding='UTF-8') fw2…