GitHub上开源了个集众多数据源于一身的爬虫工具箱——InfoSpider
国内一位开发者在 GitHub 上开源了个集众多数据源于一身的爬虫工具箱——InfoSpider,一不小心就火了!!!
文章插图
目前支持数据源包括GitHub、QQ邮箱、网易邮箱、阿里邮箱、新浪邮箱、Hotmail邮箱、Outlook邮箱、京东、淘宝、支付宝、中国移动、中国联通、中国电信、知乎、哔哩哔哩、网易云音乐、QQ好友、QQ群、生成朋友圈相册、浏览器浏览历史、12306、博客园、CSDN博客、开源中国博客、简书 。根据创建者介绍,InfoSpider 具有以下特性:
安全可靠:本项目为开源项目,代码简洁,所有源码可见,本地运行,安全可靠 。
使用简单:提供 GUI 界面,只需点击所需获取的数据源并根据提示操作即可 。
结构清晰:本项目的所有数据源相互独立,可移植性高,所有爬虫脚本在项目的 Spiders 文件下 。
数据源丰富:本项目目前支持多达24+个数据源,持续更新 。
数据格式统一:爬取的所有数据都将存储为json格式,方便后期数据分析 。
个人数据丰富:本项目将尽可能多地为你爬取个人数据,后期数据处理可根据需要删减 。
数据分析:本项目提供个人数据的可视化分析,目前仅部分支持 。
InfoSpider使用起来也非常简单,你只需要安装python3和Chrome浏览器,运行 python3 main.py,在打开的窗口点击数据源按钮, 根据提示选择数据保存路径,接着输入账号密码,就会自动爬取数据,根据下载的目录就可以查看爬下来的数据 。是不是很简单呢,如果你对InfoSpider也感兴趣,赶紧试一下 。
【GitHub上开源了个集众多数据源于一身的爬虫工具箱——InfoSpider】 责任编辑:lq
.dfma {position: relative;width: 1000px;margin: 0 auto;}.dfma a::after {position: absolute;left: 0;bottom: 0;width: 30px;line-height: 1.4;text-align: center;background-color: rgba(0, 0, 0, .5);color: #fff;font-size: 12px;content: "广告";}.dfma img {display: block;}
文章插图
推荐阅读
- 浅析历史上华为的几次自救
- CSG华晓在柔性工厂上的不断探索
- 华为上线新台式机,采用AMD的锐龙4000G APU平台
- 英唐智控拟取得上海芯石40%股权,加码SiC功率器件
- 微软GitHub项目Electron已支持苹果M1芯片
- 上海市率先试点安装公路行车安全智能保障系统 高速团雾难题破解
- 上海首套行车安全智能系统试点,减少车祸概率
- 新一代PS5将于12月18日在国内上市
- 一批半导体项目入驻上海金桥5G产业生态
- 希捷:20TB之后的硬盘才会用上HAMR技术