PHP爬虫类的并发与多线程处理技巧

php爬虫类的并发与多线程处理技巧

PHP爬虫类的并发与多线程处理技巧

引言:
随着互联网的快速发展,大量的数据信息存储在各种网站上,获取这些数据已经成为很多业务场景下的需求。而爬虫作为一种自动化获取网络信息的工具,被广泛应用于数据采集、搜索引擎、舆情分析等领域。本文将介绍一种基于PHP的爬虫类的并发与多线程处理技巧,并通过代码示例来说明其实现方式。

一、爬虫类的基本结构
在实现爬虫类的并发与多线程处理前,我们先来看一下一个基本的爬虫类的结构。

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

class Crawler {

    private $startUrl;

    public function __construct($startUrl) {

        $this->startUrl = $startUrl;

    }

    public function crawl() {

        // 获取初始页面的内容

        $content = $this->getContent($this->startUrl);

        // 解析页面内容,获取需要的信息

        $data = $this->parseContent($content);

        // 处理获取到的信息,进行业务逻辑处理或存储

        $this->processData($data);

        // 获取页面中的链接,并递归抓取

        $urls = $this->getUrls($content);

        foreach ($urls as $url) {

            $content = $this->getContent($url);

            $data = $this->parseContent($content);

            $this->processData($data);

        }

    }

    private function getContent($url) {

        // 发起HTTP请求,获取页面内容

        // ...

        return $content;

    }

    private function parseContent($content) {

        // 解析页面内容,提取需要的信息

        // ...

        return $data;

    }

    private function processData($data) {

        // 处理获取到的信息,进行逻辑处理或存储

        // ...

    }

    private function getUrls($content) {

        // 获取页面中的链接

        // ...

        return $urls;

    }

}

上述代码中,我们首先定义一个Crawler类,通过构造函数传入一个起始URL。在crawl()方法中,我们首先获取起始页面的内容,然后解析页面内容,提取需要的信息。之后,我们可以对获取到的信息进行处理,比如存储到数据库中。最后,我们获取页面中的链接,并递归抓取其他页面。

二、并发处理
通常情况下,爬虫需要处理大量的URL,而网络请求的IO操作非常耗时。如果我们采用顺序执行的方式,一个请求完毕后再请求下一个,会极大地降低我们的抓取效率。为了提高并发处理能力,我们可以采用PHP的多进程扩展来实现。

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

class ConcurrentCrawler {

    private $urls;

    public function __construct($urls) {

        $this->urls = $urls;

    }

    public function crawl() {

        $workers = [];

        $urlsNum = count($this->urls);

        $maxWorkersNum = 10; // 最大进程数

        for ($i = 0; $i < $maxWorkersNum; $i++) {

            $pid = pcntl_fork();

            if ($pid == -1) {

                die('fork failed');

            } else if ($pid == 0) {

                for ($j = $i; $j < $urlsNum; $j += $maxWorkersNum) {

                    $this->processUrl($this->urls[$j]);

                }

                exit();

            } else {

                $workers[$pid] = true;

            }

        }

        while (count($workers)) {

            $pid = pcntl_wait($status, WUNTRACED);

            if ($status == 0) {

                unset($workers[$pid]);

            } else {

                $workers[$pid] = false;

            }

        }

    }

    private function processUrl($url) {

        // 发起HTTP请求,获取页面内容

        // ...

        // 解析页面内容,获取需要的信息

        // ...

        // 处理获取到的信息,进行逻辑处理或存储

        // ...

    }

}

上述代码中,我们首先定义了一个ConcurrentCrawler类,通过构造函数传入一组需要抓取的URL。在crawl()方法中,我们使用了多进程的方式来进行并发处理。通过使用pcntl_fork()函数,在每个子进程中处理一部分URL,而父进程负责管理子进程。最后,通过pcntl_wait()函数等待所有子进程的结束。

三、多线程处理
除了使用多进程进行并发处理,我们还可以利用PHP的Thread扩展实现多线程处理。

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

class MultithreadCrawler extends Thread {

    private $url;

    public function __construct($url) {

        $this->url = $url;

    }

    public function run() {

        // 发起HTTP请求,获取页面内容

        // ...

        // 解析页面内容,获取需要的信息

        // ...

        // 处理获取到的信息,进行逻辑处理或存储

        // ...

    }

}

class Executor {

    private $urls;

    public function __construct($urls) {

        $this->urls = $urls;

    }

    public function execute() {

        $threads = [];

        foreach ($this->urls as $url) {

            $thread = new MultithreadCrawler($url);

            $thread->start();

            $threads[] = $thread;

        }

        foreach ($threads as $thread) {

            $thread->join();

        }

    }

}

上述代码中,我们首先定义了一个MultithreadCrawler类,继承自Thread类,并重写了run()方法作为线程的主体逻辑。在Executor类中,我们通过循环创建多个线程,并启动它们执行。最后,通过join()方法等待所有线程的结束。

结语:
通过对PHP爬虫类的并发与多线程处理技巧的介绍,我们可以发现并发处理和多线程处理都能够大大提高爬虫的抓取效率。不过,在实际开发过程中,我们需要根据具体的情况选择合适的处理方式。同时,为了保证多线程或多进程的安全性,我们还需要在处理过程中进行适当的同步操作。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/753114.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

unity-特效-雷达扫描效果

使用后处理方式制作 using System; using System.Collections; using System.Collections.Generic; using UnityEngine;public class GlobalScanEffect : MonoBehaviour {public float startScanRange 0;public float maxScanRange 20;public float scanWidth 3;public flo…

洁盟超声波清洗机怎么样?横向测评希亦、洁盟、苏泊尔超声波清洗机谁是实力派

生活中大多数人戴眼镜&#xff0c;但是很多人都不注意眼镜的保养&#xff0c;导致镜片越来越模糊&#xff0c;从而引发多边的状况发生&#xff0c;比如长久戴模糊不清的眼镜&#xff0c;视力会受到影响随之下降。甚至是眼镜长期不清洗&#xff0c;上面的灰尘、细菌会影响眼部健…

极限竞速地平线4卡顿?这样做快速解决地平线4卡顿问题

极限竞速地平线4全新开放式剧情的设计让玩家的每一次行动都能推动游戏的进程。时间、天气和四季的变化&#xff0c;都将在极限竞速地平线4这里得到真实的呈现。玩家将有机会在壮丽的原生4K和HDR画质下&#xff0c;欣赏到英国那湖泊、山谷、城堡和无数美景&#xff0c;体验一段从…

使用 Rustup 管理 Rust 版本

文章目录 安装 Rustup配置镜像源安装 Rustup 安装 RustVS Code插件创建项目代码示例 Rust 官网&#xff1a;https://www.rust-lang.org/zh-CN/Crates 包管理&#xff1a;https://crates.io/Rust 程序设计语言&#xff1a;https://kaisery.github.io/trpl-zh-cn/通过例子学 Rust…

docker 搭建 AI大数据模型 --- 使用GPU

docker 搭建 AI大数据模型 — 使用GPU方式 搭建本地大模型&#xff0c;最简单的方法&#xff01;效果直逼GPT 服务器GPU系统HP580 G8P40Rocky9.2 安装程序AnythingLLM前端界面Open WebUIChatOllamaollama 一、AnythingLLM 介绍 AnythingLLM 是 Mintplex Labs Inc. 开发的一…

根据后端返回的省市区重新封装树结构(省市区通过children表示)

对比图&#xff08;截取部分&#xff09;&#xff1a; 注&#xff1a;先看分步&#xff0c;最后会附上完整代码&#xff08;如果有用&#xff0c;可以给小编点个赞吗&#xff1f;十分感谢&#xff09; 1.首先将前端返回相同的省份只展示一次 const obj {}; let keyList []r…

2024HVV最新POC/EXP,目前有8000+个POC/EXP

点击"仙网攻城狮”关注我们哦~ 不当想研发的渗透人不是好运维 让我们每天进步一点点 简介 都是网上收集的POC和EXP&#xff0c;最新收集时间是2024年五月&#xff0c;需要的自取。 表里没有的可以翻翻之前的文章&#xff0c;资源比较零散没有整合起来。 文件链接&#xff…

【系统架构设计师】五、计算机网络(概念|通信技术|网络技术)

目录 一、计算机网络概念 二、通信技术 三、网络技术 3.1 局域网(LAN) 3.1.1 局域网拓扑结构 3.1.2 局域网协议 3.2 无线局域网(WLAN) 3.3 广域网(WAN) 3.4 城域网&#xff08;MAN) 3.5 移动通信网 四、组网技术 4.1 OSI七层模型 4.1.1 交换机 4.1.2 路由器 4.2…

如何修改allure测试报告的标题

在运行文件中增加修改测试报告标题代码 import json# 修改allure报告的报告标题 def set_report_title(json_file_path, key, new_value):# 读取JSON文件with open(json_file_path, r, encodingutf-8) as file:data json.load(file)# 修改特定内容data[reportName] new_valu…

Omni 动画核心运动包 - 为 Unity 游戏开发者带来卓越体验

Omni 动画核心运动包 前言资源包内容领取兑换码 前言 亲爱的 Unity 游戏开发者们&#xff0c;今天要向大家介绍一款令人瞩目的动画资源 - Omni 动画核心运动包。 这个运动包包含了多达 74 个 mocap 运动动画&#xff0c;每一个动画都是由专业演员通过我们先进的人工智能驱动动…

kafka(二)安装部署(2)windows

目录 一、前提 1、jdk 2、Zookeeper 2.1、解压 2.2、创建data文件夹 2.3、配置文件 2.4、添加环境变量 2.5、启动zk&#xff1a;zkServer 2.6、客户端 3、Scala 3.1、下载安装 3.2、配置环境变量 3.3、验证是否安装成功 二、kafka下载安装 1、下载 2、安装 2.1…

Kotlin/Android中执行HTTP请求

如何在Kotlin/Android中执行简单的HTTP请求 okhttp官网 okhttp3 github地址 打开build.gradle.kts文件加入依赖 dependencies {implementation("com.squareup.okhttp3:okhttp:4.9.0") }在IDEA的Gradle面板点击reload按钮便会自动下载jar

从零开始:视频直播美颜SDK的开发与接入详解

开发一款功能强大的美颜SDK并将其接入视频直播应用&#xff0c;成为许多开发者和企业的迫切需求。本篇文章&#xff0c;小编将详细介绍如何从零开始开发和接入视频直播美颜SDK。 一、美颜SDK的基本概念 美颜SDK是一组工具和库&#xff0c;帮助开发者在应用程序中实现美颜效果…

浅谈Mysql Innodb存储引擎

一、Mysql整体架构 二、MySQL 5.7 支持的存储引擎 类型 描述 MyISAM 拥有较高的插入、查询速度&#xff0c;但不支持事务 InnoDB 5.5版本后Mysql的默认数据库&#xff0c;5.6版本后支持全文索引&#xff0c;事务型数据库的首选引擎&#xff0c;支持ACID事务&#xff0c;支…

【Deep Learning】Meta-Learning:训练训练神经网络的神经网络

元学习&#xff1a;训练训练神经网络的神经网络 本文基于清华大学《深度学习》第12节《Beyond Supervised Learning》的内容撰写&#xff0c;既是课堂笔记&#xff0c;亦是作者的一些理解。 1 Meta-Learning 在经典监督学习中&#xff0c;给定训练数据 { ( x i , y i ) } i \{…

cython 笔记

数据类型 # bool 类型 // bool_type_ptactice.pyx cdef bint a 123 # 非0 为 真 &#xff0c; 0 为假 cdef bint b -123 cdef bint c 0 py_a a # cdef 定义的内容没法直接在python中直接引用 py_b b py_c c// main.py import pyximport pyximport.install(language_le…

超详细之IDEA上传项目到Gitee完整步骤

1. 注册gitee 账号密码&#xff0c;gitee官网地址&#xff1a;Gitee官网&#xff0c;注册完成后&#xff0c;登录。 2. 创建仓库&#xff0c;在主页左下角有新建按钮&#xff0c;点击新建后会进入到此页面填写仓库信息。 3. 创建完成后复制仓库地址 4. 打开IntelliJ IDEA新建或…

Python 语法基础一

1.变量 python 中变量很简单&#xff0c;不需要指定数据类型&#xff0c;直接使用等号定义就好。python变量里面存的是内存地址&#xff0c;也就是这个值存在内存里面的哪个地方&#xff0c;如果再把这个变量赋值给另一个变量&#xff0c;新的变量通过之前那个变量知道那个变量…

新品Coming Soon!OAK-D-SR-PoE:使用3D+AI视觉结合ToF实现箱体测量和鉴别!

OAKChina 新品&#xff1a;OAK-D SR PoE结合ToF实现箱体检测 3DAI解决方案提供商 手动测量箱体、缺陷、大小等操作可能是一项繁琐并且劳累而机械的任务&#xff0c;但OAK中国本次将提供了更好的解决方案&#xff1a;3DAI视觉处理箱体的识别和检测&#xff0c;使用了即将发布的…

在Ubuntu上安装VNC服务器教程

Ubuntu上安装VNC服务器方法&#xff1a;按照root安装TeactVnc&#xff0c;随后运行vncserver输入密码&#xff0c;安装并打开RickVNC客户端&#xff0c;输入服务器的IP&#xff0c;最后连接输入密码即可。 VNC或虚拟网络计算&#xff0c;可让您连接到远程Linux / Unix服务器的…
最新文章