Osheep

时光不回头,当下最重要。

简书爬虫的功课一小览

爬虫也学了一个多月了,趁着周末把学习的内容整理一下,特别是知识点。我每爬一个,都写了一篇文,所以整理起来也不很困难。
因为文章也就是几十篇,本来想直接copy+paste题目的,可是一想,都学了爬虫了,怎么还做原始人的事情。于是老老实实爬虫。
这次和上次爬首页有点不同,是指定作者id的打开方式。如果只是用最初的url,就只有几篇文章。仔细看一下,在下拉的时候,Network的XHR会陆续显示实际的加载页面,所以简书网其实还是分类的,只是页数不直接显示而已。

url = 'http://www.jianshu.com/u/b062b6eb573b?order_by=shared_at&page='+i
《简书爬虫的功课一小览》

123.png

标题很快爬出来了。时间那里,人品很不好,直接copy同学的代码都爬不出来,反正也不是写这篇文的目的,干脆放弃。


从开始学习爬虫以来,一共写了19篇文,其中无关爬虫的3篇。一期的12篇,二期的4篇。加上这篇,大概这期完成10篇作业也还是有戏的。咔咔~

《简书爬虫的功课一小览》

111.png
《简书爬虫的功课一小览》

112.png

可以看出,其实一开始起步也是挺慢的,爬虫一期4月中开始,过了差不多10多天才开始慢慢写程序。不过后来就越来越快,掌握的技术要点也越来越多。这么回看一下,还是小有成就感的。
学到的技术大概有:

  1. xpath和bs
  2. 通过network找json包(js/xhr)
  3. 用json.loads语句摘取json里的内容
  4. def函数封装(主要是请求头函数和爬虫函数)
  5. for页数循环
  6. 写入csv文件
  7. 请求头(掌握50%吧),包括random选取浏览器,在里面加referer,data注明页数等。

不算向右老师的示范,自己一共爬了大约12个网站,差不多每一个都有向老师和大神求援的历史。特别是程工和yaung,这是多频繁的麻烦别人的经历啊。毕竟成年以后不像在学校,没有人有义务要教你什么东西,就算你有学习的欲望,也不一定有学习的机会,遇到温暖的组织(好俗),可以说真的挺幸运的。

接下来的计划:

还是,还是要学会scrapy
要学会用抓包软件
学习mysql,在sqlzoo做题的正确率达到80%以上

因为自己原来没有用开github,所以写新程序的很多时候会把简书的文章打开,直接copy里面的代码。本来是很方便的,但是文章越来越多,程序越来越长以后,打开好几篇文章就看的很辛苦。所以上周还是开始上传程序到github,以后养成更好的存档习惯。这篇就用来当检索吧!

点赞