Blogger Template by Blogcrowds

Ruby Google web_scraping

Rubyをつかって,Googleの検索結果のリストを作ろうと思ったのですね.
朴 芝印(Perk Ji-in)さんのpdfを参考にしました.ありがとうございます.

とりあえず,上記のモノに何行か付け加えて,以下のような形になりました.
これで1000ページ目までいくかな?と思ったのだが,930くらいで止まってしまった.
なんでだろ.
とりあえず,rubygemsとhpricotは用意して.rbで実行です.



require 'rubygems'
require 'open-uri'
require 'hpricot'
require 'cgi'

try = 0
for i in 0..100
try = i*10

#とりあえず,下のurlでごちゃごちゃする.
uri = 'http://www.google.com/search?q=Kawagoe&hl=en&lr=lang_ja&safe=active&pwst=1&start=' + try.to_s + '&sa=N&filter=0'
page = open(uri)
html = page.read
doc = Hpricot(html)
results = (doc/"//div/h2/a").map {|a|
{ :title => CGI.unescapeHTML(a.inner_text), :link => a.attributes['href'] }
}
results.each {|r|
puts "#{r[:title]} :: [#{r[:link]}]"
}

end



*追記:&fliter=0が抜けていました.

0 Comments:

Post a Comment



次の投稿 前の投稿 ホーム