鶏頭のプログラム

Ruby, Javascript, C言語, SQLなどのプログラミング

Webスクレイピング(imgタグのURLの相対パスについて)

Webスクレイピングしている時に
imgタグのURLを取得したい場合というのはよくあります。

ただそういう際に困るのはimgタグのsrcが下記のように相対パスで書かれている場合です。

<img src="../img/hello.png">

今時のHTMLでは普通相対パスで書くことはあまりないのですが
レガシーなシステムではよくあることです。
このように相対パスから正確なURLを取得する際になかなか面倒です。

しかしRubyの場合は下記のように一行でいけます。

require 'uri'
URI.join("http://hogepiyo.jp/path/to/index.html", "../../img/hello.png").to_s

とすると

http://hogepiyo.jp/img/hello.png

とURLを取得することが可能です。
今回は以上です。