dak ブログ

python、rubyなどのプログラミング、MySQL、サーバーの設定などの備忘録。レゴの写真も。

python で selenium を使ってクロール

2022-09-16 23:19:53 | python
python で selenium でウェブページをクロールする方法のメモ。
selenium でブラウザを使ってクロールすると、javascript も実行してくれます。

■firefox のインスト―ル
sudo yum install firefox


■gecodriver のインストール
https://github.com/mozilla/geckodriver/releases/tag/v0.31.0 から gecodriver をダウンロードします。
gtar zxvf geckodriver-v0.31.0-linux64.tar.gz
sudo cp geckodriver /usr/bin


■プログラム
import time
from selenium import webdriver
from selenium.webdriver.firefox.options import Options

opts = Options()
opts.headless = True
driver = webdriver.Firefox(options=opts)

urls = [
    'https://www.goo.ne.jp/',
    'https://news.goo.ne.jp/',
    'https://search.goo.ne.jp/',
]

for url in urls:
    print(url)
    driver.get(url)
    time.sleep(3)
    html = driver.page_source
    print(html)

driver.close()