好得很程序员自学网

<tfoot draggable='sEl'></tfoot>

爬虫新方法

爬虫新方法

http://lanwen.wordpress测试数据/2009/04/18/%E6%8A%8Ayahoo-yql-%E5%BD%93%E5%81%9A-crawler-%E6%9D%A5%E4%BD%BF%E7%94%A8/

Style:





Background
Foreground
Link Color
Link Visited

  Size:




  Width:



More ▼

Open Mode
Overlay Original
Replace Original

Font
Arial
Tahoma
Verdana
Georgia
Segoe
Times
Book
Comic
Courier
Trebuchet
Palatino
Lucida Text Align
Left
Justify Text Dir
Left to Right
Right to Left Disable TidyRead
Save Settings
Print
Close

把yahoo yql 当做 crawler 来使用

四月 18, 2009 at 10:05 pm · Filed under ruby ·Tagged search , yahoo , yql

在我眼里,yahoo测试数据 是一个在技术上努力,并锐意进取的公司,从 yahoo测试数据 开放的众多服务就可以看得出来。 yahoo测试数据 的这些创意十足的技术人员是 yahoo 的最大资产,也是MS 当初对 yahoo测试数据 发出收购邀约的主要目标之一。当然yahoo.cn 就另当别论了。

yql 是 yahoo测试数据 推出的另一项重要的搜索api,yahoo测试数据 在搜索方面已经有了一些重量级的api,比如说 BOSS 以及 SearchMonkey 。 我觉得 yql 对于开发者来说则是另一个惊喜的礼物,通过 yql 的api,开发者就可以通过类似于 sql语法的对internet 上所有的网络资源进行 “查询”。 “查询”的意思就是说,internet 上的所有网络资源相当于一个超级大的数据库 ,通过 yql 的语法,你可以查询到你想要的结果。

yql 的限制非常少,public data 的 access limit 是1000 req/hour, 对于普通的应用来说已经足够了。另外可以通过 yql console 来运行 yql 的测试, yql console 也是学习和了解 yql 语法的最好的地方。

对于 yql 来说,有一个另类的做法就是把 yql 当做 crawler 来使用。任何一个website,只要它不禁止 yahoo 爬虫,那么从 yql 里面都可以得到这个website 公开的web pages。

前段时间,我想去抓 aibang测试数据 的数据,自己写了crawler,后来发现 aibang测试数据 把我的ip block掉了,于是给自己的crawler 加上了 tor proxy。这样的效果也不好, tor proxy ip 都不知道从哪来的,抓一个 aibang测试数据 页面都要 1 秒多时间。后来换成使用 yql ,省时又省力,问题轻松解决了,因为 yql 估计有一堆的服务器帮你去抓数据,aibang测试数据 还能把这一堆服务器的ip 都 block 掉? 小样。。

如果你要去抓aibang测试数据的数据,你的yql可以这样写:select * from html where url=”http://HdhCmsTestaibang测试数据”

如果你只需要网页的一部分数据,你可以给yql加上xpath 解析,比如:select * from html where url=”http://HdhCmsTestaibang测试数据” and    xpath=’//div[@id="weatherUseInMapview"]‘   。 这样就可以得到 aibang测试数据首页 的天气预报的详情了。

那么 yql 抓到的数据会不会是cached 的数据? 在我的实践中,yql 抓到的数据都是即时的数据,基本上没有cached。

yql现在已经成为我的工具箱里面的必备工具,希望它能对你也有帮助。

永久連結

查看更多关于爬虫新方法的详细内容...

  阅读:53次

CopyRight:2016-{hedonghua:year}{hedonghua:sitegs} 备案ICP:湘ICP备09009000号-16 {hedonghua:sitejym}
本站资讯不构成任何建议,仅限于个人分享,参考须谨慎!
本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。

网站内容来源于网络分享,如有侵权发邮箱到:kenbest@126.com,收到邮件我们会即时下线处理。
网站框架支持:HDHCMS   51LA统计 百度统计
Copyright © 2018-2025 「好得很程序员自学网
[ SiteMap ]