パーソナルブログメモリ

個人的な簡易記録です。コンピュータ関連をメインでやってます。ようこそ!いらっしゃいませ。

Ruby Pythonでスクレイピング

2016年10月13日 | コンピュータ
<Rubyでのスクレイピング環境>

(1)Ruby周りのインストール
$ sudo apt install ruby
$ sudo apt install ruby-dev

(2)nokogiriのインストールに必要と思われるライブラリのインストール
$ sudo apt install linuxbrew-wrapper
$ brew tap homebrew/dupes
$ brew install libxml2 libxslt libiconv

libxsltはエラーが発生してインストールできなかったので別途インストールしました。
$ sudo apt install libxslt1-dev

(3)nokogiriのインストール
$ sudo gem install nokogiri

参考サイト
Rubyでクローラーを作る その1
nokogiri インストールするためにやったこと


<Pythonでのスクレイピング環境>

$ sudo apt install python-pip
$ pip install lxml
$ pip install requests
$ pip install cssselect

$ pip install selenium
$ sudo apt install phantomjs

参考サイト
PythonでさくっとWebスクレイピングする (JavaScript読み込みにも対応しつつ)

いずれも参考サイトのサンプルまで動かせました。

OS Ubuntu 16.04

-----以下駄文--------------------------------------------------------------------------------------------------
ネットで何かしようとするとニュースの広告がとにかく邪魔をする。
芸能界って本当に怖いな。つぶしあいが戦国時代なみにおっかない。なんでもありだな。
いかんいかん、こうして無益に時間を使ってモチベーションもさがる。

必要な情報だけ調べる方法ないものかなと調べてみるとスクレイピングという情報が引っかかる。
よし3時間で簡単な疎通ぐらいしてみようとタイマーをセットする。

30分後
調べてみてWindowsだと難しそうだなとLinuxマシンを動かす。Rubyでnokogiri使うのかふむふむ

何nokogiriのインストールは難しいのか…

2時間後
さっぱりインストールできん。ruby-develってどうやってインストールするんだ。
方向転換です。よしPythonだ。PhantomJSを使うのかふむふむ、サンプルはPyhton2か、まあPython3でも動くだろう。

print文の使い方からpython3と2って違うのか、やっぱりpython2にしよう。

2時間半後
変なエラーがでている。さっぱりエラーがとれん。

3時間後
PhantomJSってJavaScriptの実行ツールなのかなgoogleのメインページの画像をキャプチャーできたぞ!

なんか目的と違うけど、しゅうりょーう!

だいたいこんな感じ、そもそも広告をみない意志をもればいいのかとか考えている。



あまりものなんだなと思ったのでもう少し続ける。
とりあえずpythonから、あれ動いた。PhantomJSをインストールしていなかっただけ?

参考サイトをよく読んでいなかっただけでした。

よし、あとはNokogiriだ。こちらもなんとか動かせました。
インストール時にruby-devがなかったのが原因でした。ruby-develから名前が変わったのかな?
ジャンル:
ウェブログ
コメント   この記事についてブログを書く
この記事をはてなブックマークに追加
« 教科書を眺める | トップ | すでにスパコンを持っていた話 »
最近の画像もっと見る

コメントを投稿

ブログ作成者から承認されるまでコメントは反映されません。

コメント利用規約に同意の上コメント投稿を行ってください。

数字4桁を入力し、投稿ボタンを押してください。

あわせて読む

トラックバック

この記事のトラックバック  Ping-URL
ブログ作成者から承認されるまでトラックバックは反映されません。