WordPress博客如何记录搜索引擎蜘蛛爬行痕迹
要统计蜘蛛爬行痕迹我们在php中使用HTTP_USER_AGENT获取用户行为信息,然后再判断是不是包括搜索引擎蜘蛛的相关参数了,如果有就是搜索引擎蜘蛛了.
WordPress博客记录搜索引擎蜘蛛爬行痕迹插件:
1、搜索引擎蜘蛛爬行记录器Spider Tracker插件可以记录百度、谷歌、雅虎、必应、搜狗、搜搜6种搜索引擎的蜘蛛爬行痕迹,并生成统计图表,可以清晰的看到,近6日的各种搜索引擎的蜘蛛数量,以及当日的哪些时间,蜘蛛来过站里,又抓取了哪些网址。
2、wp-log-robots 插件大小仅3KB,wp-log-robots是一个记录搜索引擎蜘蛛爬虫活动记录的WordPress插件,插件主文件只有一个 wp-log-robots.php,关键它的统计数据不用添加到数据库中,而是以文本文件记录下来的,比如你的博客地址是:http://HdhCmsTestphpfensi测试数据,那么机器人日志文件的存放位置是:/robots_log.txt 。我们只要把这个地址添加到搜藏夹,就可以方便的查看各个搜索引擎的抓取情况。
在博客后台插件-安装插件-搜索[wp-log-robots]-点击现在安装,然后再插件页面启用该插件,不需要设置,就会开始记录搜索引擎机器人的爬行记录, 提示 :插件刚启动的时候robots_log.txt 文件还没有建立,是个404页面,要等有搜索引擎来过之后,才会建立这个文件.)
WordPress博客记录搜索引擎蜘蛛爬行痕迹代码:
1.首先,在wordpress主题根目录建立一个robots.php文件,写入以下内容,支持搜索引擎如下,可以记录Baidu,Google,Bing,Yahoo,Soso,Sogou,Yodao爬行网站的记录!
php代码如下:
<?php function get_naps_bot() { $useragent = strtolower ( $_SERVER [ 'HTTP_USER_AGENT' ]); if ( strpos ( $useragent , 'googlebot' ) !== false){ return 'Google' ; } if ( strpos ( $useragent , 'baiduspider' ) !== false){ return 'Baidu' ; } if ( strpos ( $useragent , 'msnbot' ) !== false){ return 'Bing' ; } if ( strpos ( $useragent , 'slurp' ) !== false){ return 'Yahoo' ; } if ( strpos ( $useragent , 'sosospider' ) !== false){ return 'Soso' ; } if ( strpos ( $useragent , 'sogou spider' ) !== false){ return 'Sogou' ; } if ( strpos ( $useragent , 'yodaobot' ) !== false){ return 'Yodao' ; } return false; } function nowtime(){ $date = date ( "Y-m-d.G:i:s" ); return $date ; } $searchbot = get_naps_bot(); if ( $searchbot ) { $tlc_thispage = addslashes ( $_SERVER [ 'HTTP_USER_AGENT' ]); $url = $_SERVER [ 'HTTP_REFERER' ]; $file = "HdhCmsTestphpfensi测试数据.txt" ; $time =nowtime(); $data = fopen ( $file , "a" ); fwrite( $data , "Time:$time robot:$searchbot URL:$tlc_thispagen" ); fclose( $data ); } //http://HdhCmsTestphpfensi测试数据收集整理 ?>将其上传于你的主题目录内.
2.在Footer.php或header.php的适当位置添加以下代码调用robots.php,查看源代码打印帮助:<?php include(’robots.php’) ?>
程序原理: 通过对蜘蛛标识符(如Baiduspider、Googlebot)的判断,记录蜘蛛爬行时间,并生成日志文件robotslogs.txt于根目录.
查看更多关于WordPress博客如何记录搜索引擎蜘蛛爬行痕迹 - W的详细内容...