爬虫练习-网页自动检索18禁网站

基本思路: 通过查询网(“https://site.ip138.com“) 获取大量域名,域名可能会有需要的网站,爬虫伪装访问网站,获取网页源码,通过字符匹配,判断是否包含18禁内容 注意,目前代码能检索的出来的,说明网站基本未做任何防爬措施,判断安全的并不一定就不是18禁网站(也许这种性质的网站希望爬虫爬到) 文件结构 代码,先运行1_get.py,再2_on.py,检索到的文件...

Posted on