好得很程序员自学网

<tfoot draggable='sEl'></tfoot>

ruby爬虫utf8编码相关

ruby爬虫utf8编码相关

http://HdhCmsTestquarkruby测试数据/2009/9/22/rails-utf-8-and-html-screen-scraping

http://HdhCmsTestrubyrailways测试数据/data-extraction-for-web-20-screen-scraping-in-rubyrails/

想弄一个网页爬虫,google了一下’ ruby 采集 web 网页’,在 http://HdhCmsTestoschina.net/project/tag /64?show=recent中找到了Spidr。Spidr是一个基于Ruby的简单易用的网页爬虫库,可以将整个网站、多个网站、某个链接完全抓取到本地。

特性:
1、可定制的浏览器属性设置
2、可定制的代理设置
3、根据主机名、端口、连接、文件扩展名来定制抓取黑名单和白名单
4、基于页面、URL、URL正则匹配的回调机制

安装:
1、Spidr需要Hpricot支持
2、gem install spidr
http://spidr.rubyforge.org/

示例:
1、抓取单个网页
Spidr.start_at(’http://tenderlovemaking测试数据/’)

2、抓取某个主机
Spidr.host(’HdhCmsTest0×000000测试数据’)

3、抓取网站
Spidr.site(’http://hackety.org/’)

4、打出已访问过的URL
Spidr.site(’http://rubyinside.org/’) do |spider|
spider.every_url { |url| puts url }
end

5、提取所有的PHP、ASP应用页面
test_later = []

Spidr.site(’http://lame.web-startup测试数据’) do |spidr|
spidr.urls_like(/\.(php|asp)/i) do |url|
test_later << url
end
end

查看更多关于ruby爬虫utf8编码相关的详细内容...

  阅读:47次