最近在简书上浏览博客时发现有人用爬虫历时30个小时拿到简书大约30万用户的活跃情况,我大为吃惊呀。先前也了解了一下关于爬虫方面的东西,但过于零碎没有形成系统体系。今日我新增这篇博客来记录我学习爬虫已经应用Python编写简单爬虫的过程和个人的一些总结,仅供大家参考,同时发布在简书平台上。我的用户名叫“靠北”,如想共同进步,请联系我。
附:学习视频地址:http://www.imooc.com/learn/563 课程可能稍有难度,建议先学习基本的Python语法、函数及正则表达式等。
- 爬虫的简介
爬虫技术用来从互联网上自动获取需要的数据。
我的理解是:爬虫是根据编写好的代码自动去执行人类工作,爬虫可以几乎能爬到人类能打开的所有网页,并根据预先设置的存储路径将需要的数据进行本地化存储,供后续使用和研究。网络搜索引擎就是一个巨大的爬虫系统。
。。。。