「JS+Node.jsによるWebクローラーネットエージェント」をpythonで実装

(画像ファイルを抽出してみよう)

from bs4 import BeautifulSoup
import requests
from urllib.parse import urljoin
import urllib.request
from os import path

url = "http://ja.wikipedia.org/wiki/イヌ"
r = requests.get(url)
soup = BeautifulSoup(r.text.encode(r.encoding))
imgs = soup.find_all('img')
for tag in imgs:
    src = str(tag.attrs.get('src'))
    src = urljoin(url,src)
    fn,header = urllib.request.urlretrieve(src,"D:/IPythonnotebook/BeautifulSoup/chap2/dog_data/%s" % path.basename(src))
    print(fn)
    #urllib.request.urlretrieveによって作られるテンポラリファイルを削除
    urllib.request.urlcleanup()

f:id:bitop:20160529082908p:plain

f:id:bitop:20160529082931p:plain