requests+lxmlでhtmlをスクレイピングする方法のメモ。
実行結果
import sys import requests from lxml import html url = 'https://www.goo.ne.jp/' req = requests.get(url) html_obj = html.fromstring(req.text) title = html_obj.xpath("//title") og_title = html_obj.xpath("//meta[@property='og:title']") og_desc = html_obj.xpath("//meta[@property='og:description']") print("title: %s" % (title[0].text_content())) print("og_title: %s" % (og_title[0].get('content'))) print("og_description: %s" % (og_desc[0].get('content')))
実行結果
title: goo og_title: goo og_description: NTTレゾナントが運営する安心・安全のポータルサイト。使えば使うほど、あなたの興味・関心、趣味・嗜好を学習し、限られた時間で効率よく「あなた専用」のポータルサイトとして必要な情報を収集することができます。