分享好友 站长动态首页 网站导航

100天精通Python(爬虫篇)——第43天:爬虫入门知识

2022-06-28 10:20 · 头闻号编程技术

文章目录

每篇前言


在这里插入图片描述
在这里插入图片描述

一、爬虫概述

1. 为什么要学习爬虫

对于个人

对于爬虫工程师

2. 爬虫与Python

爬虫一定要用Python么? 非也~用Java也行,C也可以。请各位记住,编程语言只是工具.抓到数据是你的目的用什么工具去达到你的目的都是可以的。和吃饭样,可以用叉子也可以用筷子,最终的结果都是你能吃到饭。那为什么大多数人喜欢用Python呢? 答案:因为Python写爬虫简单。不理解? 问:为什么吃米饭不用刀叉? 用筷子? 因为简单好用!

而Python是众多编程语言中,小白上手最快,语法最简单,更重要的是,这货有非常多的关于爬虫能用到的第三方支持库说直白点儿就是你用筷子吃饭,我还附送你一个佣人帮你吃!这样吃的是不是更卖了。更容易了~

3. 爬虫合法吗

首先,爬虫在法律上是不被禁止的。也就是说法律是允许爬虫存在的但是,爬虫也具有违法风险的就像菜刀一样,法律是允许菜刀的存在的。但是你要是用来砍人,那对不起,没人惯着你就像王欣说过的,技术是无罪的。主要看你用它来干嘛比方说有些人就利用爬虫+一些黑客技术每秒钟对着bb撸上十万八千次那这个肯定是不被允许的。

爬虫分为善意的爬虫和恶意的爬虫

综上为了避免进橘子我们还是要安分守已时常优化自己的爬虫程序避免干扰到网站的正常运行,井且在使用爬取到的数据时,发现涉及到用户隐私和商业机密等敏感内容时,一定要及时终止爬取和传播。

4. 爬虫的矛与盾

反爬机制:门户网站,可以通过制定相应的策略或者技术手段,防止爬虫程序进行网站数据的爬取。

反反爬策略:爬虫程序可以通过制定相关的策略或者技术手段,破解门户网站中具备的反爬机制,从而可以获取户网站中相关的数据。个人建议:别强行反反爬,可能会已经涉及恶意爬虫=

robots.txt协议:君子协议,规定了网站中哪些数据可以被爬虫爬取哪些数据不可以被爬取。

在这里插入图片描述

5. 爬虫原理图 and 流程图

爬虫原理图

在这里插入图片描述

爬虫流程图

在这里插入图片描述

二、相关技术介绍

1. HTML 与 CSS

(1)HTML全称 “超文本标记语言",与程序设计语言有所区别,无逻辑结构,采用标记方式进行网页构建,使用<>将标记括起来
在这里插入图片描述

HTML标签如下

标签名说明
<p>段落标记
<a>超链接
href超链接地址
<img>图片
src图片存放路径
<span>行内标签
<li>列表项
<div>划分HTML块
<table>表格标记
<tr>行标记
<td>列标记
h1~h6标题

(2)CSS基础

CSS选择器

2. URL网址解释

案例网址https://baike.baidu.com/item/%E8%99%8E/865?fromtitle=%E8%80%81%E8%99%8E&fromid=65781

URL(网址)是Uriform Resource Locator的简写,统一资源定位符。URL由以下几部分组成

3. HTTP 与 HTTРS

HTTP协议:全称是HyperText Transfer Protocal ,中文意思是超文本传输协议,是一 种发布和接收HTML (HyperText Markuup Language)页面的方法。服务器端口号为:80

HTTPS协议:全称: Hyper Text Transfer Protocol over SecureSocket Layer,是 HTTP协议的加密版本,在HTTP下加入了SSL层, 服务器端口号是:443

更多知识点参考:图解网络协议

(1)常见请求方式

http协议规定了浏览器与服务器进行数据交互的过程中必须要选择一种交互的方式。在HTTP协议中,定义了八种请求方式,常见的有get请求与post请求。

GET请求:一般情况下,只从服务器获取数据下来,并不会对服务器资源产生任何影响的时候会使用get请求

在这里插入图片描述

POST请求:向服务器发送数据(登录)、、上传文件等,会对服务器资源产生影响的时候会使用Post请求。请求参数在 Form Data

在这里插入图片描述

(2)常见请求头

http协议中,向服务器发送-一个请求,数据分为三部分

常见的请求头参数

(3)常见请求状态码

4. Chrome浏览器分析网站

打开谷歌浏览器:右键 - 》 检查

在这里插入图片描述

5. Session与cookie

Session与cookie是用于保持HTTP长时间连接状态的技术

Session

在这里插入图片描述
cookie:是由服务端生成后发送给客户端(通常是浏览), cookie总 是保
存在客户端

cookie的基本原理

6. Ajax请求

在这里插入图片描述

三、如何让学习更加高效呢

嫌博主更新慢的小伙伴牛客网上号自行刷题

1. 编程小白选手

很多刚入门编程的小白学习了基础语法,却不知道语法的用途,不知道如何加深映像,不知道如何提升自己,这个时候每天刷自主刷一道题就非常重要(百炼成神,可以去牛客网上的编程初学者入门训练。该专题为编程入门级别,适合刚学完语法的小白练习,题目涉及编程基础语法,基本结构等,每道题带有练习模式和考试模式,可还原考试模式进行模拟,也可通过练习模式进行练习。

链接地址:牛客网 | 编程初学者入门训练
在这里插入图片描述
2. 编程进阶选手

当基础练习完已经逐步掌握了各知识要点后,这个时候去专项练习中学习数据结构、算法基础、计算机基础等。先从简单的入手,感觉上来了再做中等难度,以及较难的题目。这三样是面试中必考的知识点,我们只有坚持每日自己去多加练习,拒绝平躺持续刷题,不断提升自己才能冲击令人满意的公司。

链接地址:牛客网 | 专项练习
在这里插入图片描述
速度上号,大家一起冲击大厂,有疑问评论区留言解答

四、书籍推荐

书籍展示:《Python爬虫与反爬虫开发从入门到精通》

在这里插入图片描述


【书籍内容简介】

免责声明:本平台仅供信息发布交流之途,请谨慎判断信息真伪。如遇虚假诈骗信息,请立即举报

举报
反对 0
打赏 0
更多相关文章

评论

0

收藏

点赞