很多站长朋友们都不太清楚php远程采集代码,今天小编就来给大家整理php远程采集代码,希望对各位有所帮助,具体内容如下:
本文目录一览: 1、 PHP采集代码实例 2、 PHP采集网页中指定的内容 3、 怎么用php采集网站数据 4、 求php大神写段代码, 其实就是一个最简单的采集,输入一个url,然后正则表达式截取网页里的tit 5、 php采集代码是什么? 6、 PHP使用代理方法获取远程网页的代码. PHP采集代码实例<?php
function
preg_substr($start,
$end,
$str)
//
正则截取函数
{
$temp
=
preg_split($start,
$str);
$content
=
preg_split($end,
$temp[1]);
return
$content[0];
}
function
str_substr($start,
$end,
$str)
//
字符串截取函数
{
$temp
=
explode($start,
$str,
2);
$content
=
explode($end,
$temp[1],
2);
return
$content[0];
}
//
----------------
使用实例
----------------
$str
=
iconv("UTF-8",
"GB2312",
file_get_contents(""));
echo
('标题:
'
.
str_substr("<title>",
"</title>",
$str));
//
通过字符串提取标题
echo
('作者:
'
.
preg_substr("/userid=d+">/",
"/<//",
$str));
//
通过正则提取作者
echo
('内容:
'
.
str_substr('<div
class="content">',
'</div>',
$str));
//内容当然不可以少
?>
PHP采集网页中指定的内容你如果是单个页面的话不需要正规表达式,只要找到自己需要的部分看看前面和后面有什么唯一性的标识,截取出来就可以了。
怎么用php采集网站数据简单的分了几个步骤:
1、确定采集目标
2、获取目标远程页面内容(curl、file_get_contents)
3、分析页面html源码,正则匹配你需要的内容(preg_match、preg_match_all),这一步最为重要,不同页面正则匹配规则不一样
4、入库
求php大神写段代码, 其实就是一个最简单的采集,输入一个url,然后正则表达式截取网页里的tit<?php
if (! empty($_POST['url'])) {
$url = trim($_POST['url']);
$c = file_get_contents($url);
$titlepartner = preg_match_all('/<title>(.*)<\/title>/isU', $c, $matches);
}
?>
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "">
<html xmlns="" xml:lang="en">
<head>
<meta http-equiv="Content-Type" content="text/html;charset=UTF-8">
<title>Document</title>
</head>
<body>
<form method="post">
<table>
<tr>
<th>URL</th>
<td><input type="text" name="url" value="<?php echo $url; ?>">(完整的网址)</td>
<td><input type="submit" value="开始"></td>
</tr>
</table>
</form>
<?php
if (! empty($_POST['url'])) {
echo "<br />";
echo "<table border='1' width='500px' height='50px'>";
echo "<tr>";
echo "<th>TITLE</th>";
echo "<td>{$matches[1][0]}</td>";
echo "</tr>";
echo "</table>";
}
?>
</body>
</html>
简单的写了一下,主要是写正则,去匹配读取过来的html代码字符串,有什么不明白的可以私密我,纯手打,望采纳!
php采集代码是什么?采集就是把目标网站的内容通过php代码存储到自己的网站数据库中,从而把别人的变成自己的。
这样就可以省去很多自己发布信息的时间,非常快速。
但是只建议在网站建立之初进行采集,因为如果采集过多会被搜索引擎屏蔽
PHP使用代理方法获取远程网页的代码.不要用file_get_contents函数。
用snoopy的类,网上有snoopy.class.php,你自行百度查找。
snoopy的类可以设置$proxy_host参数,设置代理主机,$proxy_port是代理主机端口。你下载一个下来,网上的教程很多,看看应该明白。
关于php远程采集代码的介绍到此就结束了,不知道本篇文章是否对您有帮助呢?如果你还想了解更多此类信息,记得收藏关注本站,我们会不定期更新哦。
查看更多关于php远程采集代码 php远程采集代码是什么的详细内容...