Github项目地址
1.用自带的urllib.request
1 | # 爬虫:通过编写程序来获取到互联网上的资源 |
此处需要注意
mac默认utf-8
win默认gbk所以要加上encoding=”utf-8”
所以在windows下要写成
open("xxx", mode="abc", encoding="utf-8")
2.用引入的request包
2.1爬取百度搜索框
1 | # 安装requests |
此处
字符串前加 f
指以f
或F
开头的字符串,其中以 {}
包含的表达式会进行值替换
字符串前加 l
表示宽字符,unicode字符( unicode字符集是两个字节组成的。L告示编译器使用两个字节的 unicode 字符集) 如 L”我的字符串” 表示将ANSI字符串转换成unicode的字符串,就是每个字符占用两个字节。
字符串前加 r
可防止字符串转义
2.2爬取百度翻译返回值
1 | import requests |
此处因python基础薄弱发现两个问题
res.encoding = res.apparent_encoding
解决返回字符串乱码
字符串.encode(‘utf-8’).decode(‘unicode_escape’)
已经爬好的带有\u5430的字符串转为正常的中文显示字符串
3.数据解析
3.1概述
包含re解析、bs4解析和xpath解析,因为不需要整个网页的内容只需要其中一小部分。
3.2re解析
Regular Expression
1 | . 匹配除了换行符以外的一个任意字符 |
1 | * 重复零次或者更多次 |
1 | .* 贪婪匹配 |
- 本文作者: Raphael_Li
- 本文链接: https://lifei-2019.github.io/crawlers1/
- 版权声明: 本博客所有文章除特别声明外,均采用 Apache License 2.0 许可协议。转载请注明出处!