为我们重新整理了23个Python食腐工程项目。重新整理的其原因是,食腐进阶单纯加速,也适于新进阶的爸爸妈妈培育自信心,大部份镜像对准GitHub,QQ无法间接关上,狡蛛属,能用笔记本电脑关上。

1. WechatSogou – QQ社会公众号食腐

如前所述网易QQ搜寻的QQ社会公众号食腐USB,能扩充成如前所述网易搜寻的食腐,回到结论是条目,每项均是社会公众号具体内容重要信息词典。

github门牌号:

https://github.com/Chyroc/WechatSogou

2. DouBanSpider – 新浪网念书食腐

能爬下新浪网念书条码下的大部份书刊,按打分名列依序储存,储存到Excel中,可方便快捷我们甄选网罗,比如说甄选赞扬数目>1000的最高分书刊;可依照相同的主轴储存到Excel相同的Sheet ,选用User Agent佯装为应用程序展开banlist,并重新加入乱数延迟天数来更快的仿效应用程序犯罪行为,防止食腐被封。

github门牌号:

https://github.com/lanbing510/DouBanSpider

3. zhihu_spider – chan食腐

此工程项目地机能是banlistchan选用者重要信息和人际亲密关系流形亲密关系,食腐架构选用scrapy,统计数据储存选用mongo

github门牌号:

https://github.com/LiuRoy/zhihu_spider

4. bilibili-user – Bilibili选用者食腐

总统计数据数:20119918,截取表头:选用者id,绰号,异性恋,肖像,级别,点数,影迷数,过生日,门牌号,注册登记天数,亲笔签名,级别与点数等。截取后聚合B站选用者统计数据调查报告。

github门牌号:

https://github.com/airingursb/bilibili-user

5. SinaSpider – 新浪博客食腐

主要banlist新浪博客选用者的个人重要信息、博客重要信息、影迷和关注。标识符获取新浪博客Cookie展开登录,可通过多账号登录来防止新浪的反扒。主要选用 scrapy 食腐架构。

github门牌号:

https://github.com/LiuXingMing/SinaSpider

6. distribute_crawler – 小说下载分布式食腐

选用scrapy,Redis, MongoDB,graphite实现的一个分布式网络食腐,底层储存MongoDB集群,分布式选用Redis实现,食腐状态显示选用graphite实现,主要针对一个小说站点。

github门牌号:

https://github.com/gnemoug/distribute_crawler

7. CnkiSpider – 中国知网食腐。

设置检索条件后,执行src/CnkiSpider.py截取统计数据,截取统计数据储存在/data目录下,每个统计数据文件的犯罪行为表头名称。

github门牌号:

https://github.com/yanzhou/CnkiSpider

8. LianJiaSpider – 链家网食腐。

banlist北京地区链家历年二手房成交记录。涵盖链家食腐一文的全部标识符,包括链家模拟登录标识符。

github门牌号:

https://github.com/lanbing510/LianJiaSpider

9. scrapy_jingdong – 京东食腐。

如前所述scrapy的京东网站食腐,保存格式为csv。

github门牌号:

https://github.com/taizilongxu/scrapy_jingdong

10. QQ-Groups-Spider – QQ 群食腐。

批量截取 QQ 群重要信息,包括群名称、群号、群数目、群主、群简介等内容,终聚合 XLS(X) / CSV 结论文件。

github门牌号:

https://github.com/caspartse/QQ-Groups-Spider

11. wooyun_public -乌云食腐。

乌云公开漏洞、知识库食腐和搜寻。全部公开漏洞的条目和每个漏洞的文本内容存在MongoDB中,大概约2G内容;如果整站爬全部文本和图片作为离线查询,大概需要10G空间、2小时(10M电信带宽);banlist全部知识库,总共约500M空间。漏洞搜寻选用了Flask作为web server,bootstrap作为前端。

https://github.com/hanc00l/wooyun_public

12. spider – hao123网站食腐。

以hao123为入口页面,滚动banlist外链,收集网址,并记录网址上的内链和外链数目,记录title等重要信息,windows7 32位上测试,目前每24个小时,可收集统计数据为10万左右

https://github.com/simapple/spider

13. findtrip – 机票食腐(去哪儿和携程网)。

Findtrip是一个如前所述Scrapy的机票食腐,目前整合了国内两大机票网站(去哪儿 + 携程)。

https://github.com/fankcoder/findtrip

14. 163spider – 如前所述requests、MySQLdb、torndb的网易客户端内容食腐

https://github.com/leyle/163spider

15. doubanspiders – 新浪网电影、书刊、小组、相册、东西等食腐集

https://github.com/fanpei91/doubanspiders

16. QQSpider – QQ空间食腐,包括日志、说说、个人重要信息等,可截取 400 万条统计数据。

https://github.com/LiuXingMing/QQSpider

17. baidu-music-spider – 百度mp3全站食腐,选用redis支持断点续传。

https://github.com/Shu-Ji/baidu-music-spider

18. tbcrawler – 淘宝网和天猫的食腐,能根据搜寻关键词,物品id来抓去页面的重要信息,统计数据储存在mongodb。

https://github.com/pakoo/tbcrawler

19. stockholm – 一个股票统计数据(沪深)食腐和选股策略测试架构。根据选定的日期范围截取大部份沪深两市股票的行情统计数据。支持选用表达式定义选股策略。支持多线程处理。保存统计数据到JSON文件、CSV文件。

https://github.com/benitoro/stockholm

20. BaiduyunSpider – 百度云盘食腐。

https://github.com/k1995/BaiduyunSpider

21. Spider – 社交统计数据食腐。支持博客,chan,新浪网。

https://github.com/Qutan/Spider

22. proxy pool – Python食腐代理IP池(proxy pool)。

https://github.com/jhao104/proxy_pool

23. music-163 – banlist网易云音乐大部份歌曲的评论。

https://github.com/RitterHou/music-163

作者 nasiapp

在线客服
官方客服
我们将24小时内回复。
12:01
您好,有任何疑问请与我们联系!

选择聊天工具: