爬虫 – 染卷'blog

用python模拟登录网站获取cookies（urllib与requests）

2020年4月11日在 python, 程序源码标签 python登录网站, python获取cookies, 爬虫

最近在学习使用python爬取网页信息，之前也写了几篇网站爬取以及图文混排爬取到word中的例子，有兴趣的可以在本站搜索python。之前大部分是不需要登录就可以访问的资源，所以使用python爬取的时候不需要登录。但是有些网站的信息（比如论坛）必须要登录用户才能访问，使用常规的python方法就无[……]

利用python备份新浪微博（仅文字）

2020年3月31日在 python, 程序源码标签 python新浪微博, 爬虫

使用python3.7爬取新浪微博内容并保存到txt文件。如果有需要保存图片的可以参考之前的文章：网络第一篇python爬取图文到word（图文间隔混排）

本教程与之前的python系列文章不同之处在于，使用的是直接调取微博公开的开放接口，返回的是json数据，之前爬取的时候是对返回的html[……]

网络第一篇python爬取图文到word（图文间隔混排）

2020年3月29日在 python, 程序源码标签 python保存到word, python图文, 爬虫

网上关于python爬取图片及文字的教程一搜一大把，但是这些python程序都是把文字与图片单独保存的！可以说本文是将爬取到的图片及文字保存到word中的网络教程第一篇（至少我找了两天没有找到类似的教程），有些教程只是单纯地把图片堆砌到word末尾。关于网络爬虫的其他简略教程可以看我之前的几篇文章：[……]

python+BeautifulSoup爬取网易新闻到txt文件

2020年3月28日在 python, 程序源码标签 BeautifulSoup, 爬取网易新闻, 爬虫

python支持跨平台运行，但是python2.x与python3.x的源码不一定通用， python3自带的2to3功能可以将2.x的源码转换成3.x的源码，可以在网上搜下教程获取我这篇文章里看下：Python3.7使用钉钉2.x版本接口（取token发钉钉消息）

本文python代码基于p[……]