学python 爬虫是不是一定要学会正则表达式

2024-12-22 02:19:14
推荐回答(1个)
回答1:

会的话,更好,有时候会达到事半功倍的效果。比如有些网站,比如58,它的帖子页面地址是58.com/zhaopin/1234x.shtml,1234代表帖子id,zhaopin代表类目。如果你想取得帖子id。那如果你不用正则呢,你可能需要用到python中关于字符串的一些操作,比如先按照/分割一下,然后查找x.shtml,再截取。。。。那正则表达式就是.*(\d+)x.shtml,直接就可以取出id。
而且正则并不难,你用到的时候,去查一下就好了。