Python写这些爬虫,批量获取还是挺简单的……不长逛P站但是写了个可以获取知乎指定收藏夹下的高赞答案的东西……
获取知乎指定收藏夹下的高赞答案
获取P站特定标签下的高赞作品
这两个需求应该是差不多的……
爬取收藏夹的代码大概是这样:
__author__ = '7sDream'
import zhihu
collection = zhihu.Collection('')
for answer in collection.answers:
if answer.upvote >= 1000:
answer.save(path=collection.name)
结果是这样:
理论上来说爬P站应该差不多……
做好cookies管理,HTML解析就差不多了。
如果Python会的差不多了看看这个知乎模块的源码应该能写出来P站的