初学爬虫(1)

2021-05-31

字数统计: 729字 | 阅读时长≈ 3分

Github项目地址

1.用自带的urllib.request

# 爬虫：通过编写程序来获取到互联网上的资源
# 百度
# 需求：用程序模拟浏览器，输入一个地址，从该网志中获取到资源或者内容

from urllib.request import urlopen

url = "https://baidu.com"
res=urlopen(url)

with open("mybaidu.html", mode="w", encoding="utf-8") as f:
    f.write(res.read().decode("utf-8"))
print("over")

此处需要注意

mac默认utf-8

win默认gbk所以要加上encoding=”utf-8”

所以在windows下要写成

open("xxx", mode="abc", encoding="utf-8")

2.用引入的request包

2.1爬取百度搜索框

# 安装requests
# pip install requests

import requests
query = input("请输入想搜索的")
url=f'http://www.baidu.com/s?wd={query}'
headers ={
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.85 Safari/537.36"
}
res=requests.get(url, headers=headers)

# code为状态码，text网页源码
print(res.text)

此处

字符串前加 f

指以f或F 开头的字符串，其中以 {}包含的表达式会进行值替换

字符串前加 l

表示宽字符，unicode字符（ unicode字符集是两个字节组成的。L告示编译器使用两个字节的 unicode 字符集）如 L”我的字符串” 表示将ANSI字符串转换成unicode的字符串，就是每个字符占用两个字节。

字符串前加 r

可防止字符串转义

2.2爬取百度翻译返回值

import requests

url ="https://fanyi.baidu.com/sug"

s = input("请输入你要翻译的字符串")
dat ={
    "kw":s 
}

# 发送post请求
resp=requests.post(url,data=dat)
# 将服务器返回的内容直接处理成json() =>dict
print(resp.json())
resp.close()



# 另一种方法s
# resp.encoding=resp.apparent_encoding
# print(resp.apparent_encoding)
# # 直接resp.text会出现乱码
# print(resp.text.encode('utf-8').decode('unicode_escape'))
# resp.close()

此处因python基础薄弱发现两个问题

res.encoding = res.apparent_encoding

解决返回字符串乱码
字符串.encode(‘utf-8’).decode(‘unicode_escape’)

已经爬好的带有\u5430的字符串转为正常的中文显示字符串

3.数据解析

3.1概述

包含re解析、bs4解析和xpath解析，因为不需要整个网页的内容只需要其中一小部分。

3.2re解析

Regular Expression

在线正则表达式测试网站

. 	匹配除了换行符以外的一个任意字符
\w	字母数字下划线
\s	任意的空白符
\d	数字
\n	一个换行符
\t	一个制表符

^	字符串的开始
$	字符串的结尾

\W	非字母数字下划线
\D	非数字
\S	非空白符
a|b	字符a或字符b
()	表示一个组
[...]	字符组中的字符
[^...]	除了字符组中的所有字符

*	重复零次或者更多次
+	重复一次或更多次
?	重复零次或者一次
{n}	重复n次
{n,}重复n次或者更多次
{n,m}重复n次到m次

1 2	.* 贪婪匹配 .*? 惰性匹配

本文作者： Raphael_Li
本文链接： https://lifei-2019.github.io/crawlers1/
版权声明： 本博客所有文章除特别声明外，均采用 Apache License 2.0 许可协议。转载请注明出处！