今回は、Webページを自動的にクロールしてデータを取得するPythonのスクレイピングをぷちスタディ。
まず、CentOS7 に Python3.6 を yum でインストール。
参考URL: CentOS7にpython3をインストールして安全に切り替える
バージョンを確認
# python -V
Python 2.7.5
Python3.6 を yum でインストール
# yum -y install https://repo.ius.io/ius-release-el7.rpm
# yum -y install openssl-devel libffi-devel bzip2-devel # yum -y groupinstall "Development Tools" --setopt=group_package_types=mandatory,default,optional # yum -y install python36u python36u-libs python36u-devel python36u-pip
バージョンを確認
# python3 -V
python 3.6.8
インストール場所を確認 # which python3 /bin/python3
python3に切り替える # python3.6 -m pip install --upgrade pip # alias python='/bin/python3' # vi .bashrc alias python='/bin/python3' # ←追記(python2で動くOSの事を考えて後で元に戻すのが吉?
バージョンを確認 # python -V
Python 3.6.8
ルートディレクトリに おっパイソンスクリプト scraping_1.py を記述します。
# vi scraping_1.py import urllib.request
import re
url = 'https://www.nikkei.com/markets/kabu'
res = urllib.request.urlopen(url)
html = res.read().decode('utf-8')
r = re.compile('<span class="mkc-stock_prices">(\d+[,.])*\d+</span>')
m = r.search(html)
s = m.group(0)
s = re.sub('<.*?>','',s)
print('日経平均株価:'+s)
scraping_1.py を実行します。
# python scraping_1.py
日経平均株価:26,107.65
日経平均株価が表示されました。
参考書籍:ビジネスPython超入門 | 中島省吾