Rubyをつかって,Googleの検索結果のリストを作ろうと思ったのですね.
朴 芝印(Perk Ji-in)さんのpdfを参考にしました.ありがとうございます.
とりあえず,上記のモノに何行か付け加えて,以下のような形になりました.
これで1000ページ目までいくかな?と思ったのだが,930くらいで止まってしまった.
なんでだろ.
とりあえず,rubygemsとhpricotは用意して.rbで実行です.
require 'rubygems'
require 'open-uri'
require 'hpricot'
require 'cgi'
try = 0
for i in 0..100
try = i*10
#とりあえず,下のurlでごちゃごちゃする.
uri = 'http://www.google.com/search?q=Kawagoe&hl=en&lr=lang_ja&safe=active&pwst=1&start=' + try.to_s + '&sa=N&filter=0'
page = open(uri)
html = page.read
doc = Hpricot(html)
results = (doc/"//div/h2/a").map {|a|
{ :title => CGI.unescapeHTML(a.inner_text), :link => a.attributes['href'] }
}
results.each {|r|
puts "#{r[:title]} :: [#{r[:link]}]"
}
end
*追記:&fliter=0が抜けていました.
ラベル: ruby
0 Comments:
登録:
コメントの投稿 (Atom)