Webスクレイピング(imgタグのURLの相対パスについて)
Webスクレイピングしている時に
imgタグのURLを取得したい場合というのはよくあります。
ただそういう際に困るのはimgタグのsrcが下記のように相対パスで書かれている場合です。
<img src="../img/hello.png">
今時のHTMLでは普通相対パスで書くことはあまりないのですが
レガシーなシステムではよくあることです。
このように相対パスから正確なURLを取得する際になかなか面倒です。
しかしRubyの場合は下記のように一行でいけます。
require 'uri' URI.join("http://hogepiyo.jp/path/to/index.html", "../../img/hello.png").to_s
とすると
http://hogepiyo.jp/img/hello.png
とURLを取得することが可能です。
今回は以上です。