怎么让爬虫智能的爬取网页的文章内容

2025-03-06 18:28:46
推荐回答(1个)
回答1:

将网页page source 保存到数据库(mongodb)中,每次取得新的page source 和数据库中的page source 的hash 值是不是想等,如果不等表示有更新。 这个判断有了,爬虫爬取时间策略就好办了。 自己动手实现吧。