好得很程序员自学网
  • 首页
  • 后端语言
    • C#
    • PHP
    • Python
    • java
    • Golang
    • ASP.NET
  • 前端开发
    • Angular
    • react框架
    • LayUi开发
    • javascript
    • HTML与HTML5
    • CSS与CSS3
    • jQuery
    • Bootstrap
    • NodeJS
    • Vue与小程序技术
    • Photoshop
  • 数据库技术
    • MSSQL
    • MYSQL
    • Redis
    • MongoDB
    • Oracle
    • PostgreSQL
    • Sqlite
    • 数据库基础
    • 数据库排错
  • CMS系统
    • HDHCMS
    • WordPress
    • Dedecms
    • PhpCms
    • 帝国CMS
    • ThinkPHP
    • Discuz
    • ZBlog
    • ECSHOP
  • 高手进阶
    • Android技术
    • 正则表达式
    • 数据结构与算法
  • 系统运维
    • Windows
    • apache
    • 服务器排错
    • 网站安全
    • nginx
    • linux系统
    • MacOS
  • 学习教程
    • 前端脚本教程
    • HTML与CSS 教程
    • 脚本语言教程
    • 数据库教程
    • 应用系统教程
  • 新技术
  • 编程导航
    • 区块链
    • IT资讯
    • 设计灵感
    • 建站资源
    • 开发团队
    • 程序社区
    • 图标图库
    • 图形动效
    • IDE环境
    • 在线工具
    • 调试测试
    • Node开发
    • 游戏框架
    • CSS库
    • Jquery插件
    • Js插件
    • Web框架
    • 移动端框架
    • 模块管理
    • 开发社区
    • 在线课堂
    • 框架类库
    • 项目托管
    • 云服务

当前位置:首页>CMS系统>Dedecms
<tfoot draggable='sEl'></tfoot>

php采集代码教程 php采集器

很多站长朋友们都不太清楚php采集代码教程,今天小编就来给大家整理php采集代码教程,希望对各位有所帮助,具体内容如下:

本文目录一览: 1、 php获取网页源码内容有哪些办法 2、 怎么用php采集网站数据 3、 PHP采集代码实例 php获取网页源码内容有哪些办法

可以参考以下几种方法:

方法一: file_get_contents获取

<span style="white-space:pre"> </span>$url="";

<span style="white-space:pre"> </span>$fh= file_get_contents

('');<span style="white-space:pre"> </span>echo $fh;

方法二:使用fopen获取网页源代码

<span style="white-space:pre"> </span>$url="";

<span style="white-space:pre"> </span>$handle = fopen ($url, "rb");

<span style="white-space:pre"> </span>$contents = "";

<span style="white-space:pre"> </span>while (!feof($handle)) {

<span style="white-space:pre">  </span>$contents .= fread($handle, 8192);

<span style="white-space:pre"> </span>}

<span style="white-space:pre"> </span>fclose($handle);

<span style="white-space:pre"> </span>echo $contents; //输出获取到得内容。

方法三:使用CURL获取网页源代码

$url="";

$UserAgent = 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; SLCC1; .NET CLR 2.0.50727; .NET CLR 3.0.04506; .NET CLR 3.5.21022; .NET CLR 1.0.3705; .NET CLR 1.1.4322)';

$curl = curl_init(); //创建一个新的CURL资源

curl_setopt($curl, CURLOPT_URL, $url); //设置URL和相应的选项

curl_setopt($curl, CURLOPT_HEADER, 0);  //0表示不输出Header,1表示输出

curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1); //设定是否显示头信息,1显示,0不显示。//如果成功只将结果返回,不自动输出任何内容。如果失败返回FALSE

curl_setopt($curl, CURLOPT_SSL_VERIFYPEER, false);

curl_setopt($curl, CURLOPT_SSL_VERIFYHOST, false);

curl_setopt($curl, CURLOPT_ENCODING, ''); //设置编码格式,为空表示支持所有格式的编码

//header中“Accept-Encoding: ”部分的内容,支持的编码格式为:"identity","deflate","gzip"。

curl_setopt($curl, CURLOPT_USERAGENT, $UserAgent);

curl_setopt($curl, CURLOPT_FOLLOWLOCATION, 1);

//设置这个选项为一个非零值(象 “Location: “)的头,服务器会把它当做HTTP头的一部分发送(注意这是递归的,PHP将发送形如 “Location: “的头)。

$data = curl_exec($curl);

echo $data;

//echo curl_errno($curl); //返回0时表示程序执行成功

curl_close($curl); //关闭cURL资源,并释放系统资源

拓展资料

PHP(外文名:PHP: Hypertext Preprocessor,中文名:“超文本预处理器”)是一种通用开源脚本语言。语法吸收了C语言、Java和Perl的特点,利于学习,使用广泛,主要适用于Web开发领域。PHP 独特的语法混合了C、Java、Perl以及PHP自创的语法。它可以比CGI或者Perl更快速地执行动态网页。

用PHP做出的动态页面与其他的编程语言相比,PHP是将程序嵌入到HTML(标准通用标记语言下的一个应用)文档中去执行,执行效率比完全生成HTML标记的CGI要高许多;PHP还可以执行编译后代码,编译可以达到加密和优化代码运行,使代码运行更快。

参考资料:PHP(超文本预处理器)-百度百科

怎么用php采集网站数据

简单的分了几个步骤:

1、确定采集目标

2、获取目标远程页面内容(curl、file_get_contents)

3、分析页面html源码,正则匹配你需要的内容(preg_match、preg_match_all),这一步最为重要,不同页面正则匹配规则不一样

4、入库

PHP采集代码实例

<?php

function

preg_substr($start,

$end,

$str)

//

正则截取函数

{

$temp

=

preg_split($start,

$str);

$content

=

preg_split($end,

$temp[1]);

return

$content[0];

}

function

str_substr($start,

$end,

$str)

//

字符串截取函数

{

$temp

=

explode($start,

$str,

2);

$content

=

explode($end,

$temp[1],

2);

return

$content[0];

}

//

----------------

使用实例

----------------

$str

=

iconv("UTF-8",

"GB2312",

file_get_contents(""));

echo

('标题:

'

.

str_substr("<title>",

"</title>",

$str));

//

通过字符串提取标题

echo

('作者:

'

.

preg_substr("/userid=d+">/",

"/<//",

$str));

//

通过正则提取作者

echo

('内容:

'

.

str_substr('<div

class="content">',

'</div>',

$str));

//内容当然不可以少

?>

关于php采集代码教程的介绍到此就结束了,不知道本篇文章是否对您有帮助呢?如果你还想了解更多此类信息,记得收藏关注本站,我们会不定期更新哦。

查看更多关于php采集代码教程 php采集器的详细内容...

声明:本文来自网络,不代表【好得很程序员自学网】立场,转载请注明出处:http://haodehen.cn/did169318
更新时间:2023-04-14   阅读:42次

上一篇: php商家接单减库存 php商家接单减库存怎么做

下一篇:php索引数组案例 php索引数组和关联数组

相关资讯

最新资料更新

  • 1.织梦DedeCMS缩略图失真模糊完美解决方法
  • 2.防止Dedecms入侵、漏洞问题的4点安全防范建议
  • 3.dedecms 的cn_substr_utf8字符串截取函数商榷
  • 4.Dedecms无法保存远程图片到本地服务器的解决方法
  • 5.dede如何按自己写的ID进行排序
  • 6.dedeCms批量修改文章发布时间的方法
  • 7.织梦DEDECMS提示信息提示框美化
  • 8.DEDECMS列表页文档按权重排序的实现方法
  • 9.织梦DEDECMS缓存文件时间长度的修改方法
  • 10.织梦DEDECMS文章页调用文章浏览次数优化调用代码
  • 11.织梦dedecms熊掌号落地页改造教程
  • 12.DedeCms制作谷歌xml格式网站地图的方法
  • 13.dedecms列表推荐文章默认为加粗的修改方法
  • 14.Dedecms获取登录用户名与ID号的方法
  • 15.dede调用文章第一张图片(非缩略图)的实现方法
  • 16.Dedecms去掉URL中a目录的方法
  • 17.织梦DedeCMS [field:highlight/]标签详解(小结)
  • 18.DedeCMS 5.7系统TAG标签伪静态设置
  • 19.DedeCms后台添加编辑文章空白的解决方法
  • 20.dedecms tag 标签调用方法(详细介绍)

CopyRight:2016-2025好得很程序员自学网 备案ICP:湘ICP备09009000号-16 http://haodehen.cn
本站资讯不构成任何建议,仅限于个人分享,参考须谨慎!
本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。

网站内容来源于网络分享,如有侵权发邮箱到:kenbest@126.com,收到邮件我们会即时下线处理。
网站框架支持:HDHCMS   51LA统计 百度统计
Copyright © 2018-2025 「好得很程序员自学网」
[ SiteMap ]