📦 hjlarry / bosszhipin

BOSS直聘网爬虫

8 stars 11 forks 👁 8 watching
pa-chongpython
📥 Clone https://github.com/hjlarry/bosszhipin.git
HTTPS git clone https://github.com/hjlarry/bosszhipin.git
SSH git clone git@github.com:hjlarry/bosszhipin.git
CLI gh repo clone hjlarry/bosszhipin
hejl hejl clean file 7736042 8 years ago 📝 History
📂 master View all commits →
📁 app
📁 common
📁 migrations
📄 .DS_Store
📄 .gitignore
📄 README.md
📄 run.py
📄 README.md

Boss直聘网爬虫

介绍

项目通过celery实现分布式爬虫,使用redis去重,但BOSS直聘网通过封禁IP的策略进行了封锁影响了爬取的效率,最好另起一个单独的项目服务提供大量的代理IP,Github上有大量这样的项目。每次爬取任务的有效JD大概是30~40万,不断爬取去重后,整个的数据规模也不算很大,尝试通过不同维度的入口文件去执行爬取任务对效果的提升不大。