今天开源了一个百度云网盘爬虫项目,地址是https://github.com/callmelanmao/yunshare。
百度云分享爬虫项目
github上有好几个这样的开源项目,但是都只提供了爬虫部分,这个项目在爬虫的基础上还增加了保存数据,建立elasticsearch索引的模块,可以用在实际生产环境中,不过web模块还是需要自己开发
安装
安装node.js和pm2,node用来运行爬虫程序和索引程序,pm2用来管理node任务
安装mysql和mongodb,mysql用来保存爬虫数据,mongodb用来保存最终的百度云分享数据,这些数据是json格式的,用mongodb保存更方便。git clone https://github.com/callmelanmao/yunshare cnpm i
推荐使用cnpm命令安装npm依赖,最简单的安装方式$ npm install -g cnpm --registry=https://registry.npm.taobao.org
更多安装cnpm的命令可以去npm.taobao.org上面找。
初始化
爬虫数据(主要是url列表)都是保存在mysql数据库的,yunshare使用sequelizejs做orm映射,源文件在src/models/index.js
,默认的mysql用户名和密码都是root,数据看是yun,你需要手动创建yun数据库create database yun default charset utf8
密码根据自己需要进行修改,完成mysql配置之后就可以运行下面的命令gulp babel node dist/script/init.js
注意必须先运行gulp babel
把es6代码编译成es5,然后运行初始化脚本导入初始数据,数据文件在data/hot.json
,里面,是从页面 http://yun.baidu.com/pcloud/fr ... b%3D1 保存下来的。
启动项目
yunshare使用pm2进行nodejs进程管理,运行pm2 start process.json
启动所有的后台任务,检查任务是否正常运行可以用命令pm2 list
,正常运行的应该有4个任务。
启动elasticsearch索引
elasticsearch索引程序也已经写好了,mapping文件在data/mapping.json
,请确保你已经安装elasticsearch 5.0的版本之后才运行索引程序,命令pm2 start dist/elastic.js
。
默认的elasticsearch地址是http://localhost:9200,如果你需要修改这个地址,可以在src/ElasticWorker.js
里面修改,修改任何js源码之后记得运行gulp babel
,在重启pm2任务,不然修改是不会生效的。
在完成elasticsearch配置之后,你也可以在process.json里面添加一项elastic任务,这样就不需要单独启动索引程序了。
DEMO
哔哩搜索
下一篇接着介绍整个项目的整体设计思路和开发过程中遇到的问题。
相关推荐
ROS开源机器人控制基础-源程序-百度云链接 ROS开源机器人控制基础-源程序-百度云链接
纷析云开源财务系统-JAVA财务软件-财务软件-开源云财务,java,springbooot,vue3,永久免费财务软件,开源云财务软件,财务管理软件
The main goal behind Web-Harvest is to empower the usage of already existing extraction technologies. Its purpose is not to propose a new method, but to provide a way to easily use and combine the ...
哔哩搜索-百度网盘搜索引擎是一个以node.js进行开发的百度云分享爬虫项目。同时也是一个简单高效的nodejs爬虫模型。github上有好几个这样的开源项目,但是都只提供了爬虫部分,这个项目在爬虫的基础上还增加了保存...
[开源]Android开源项目WebSocket_async-http-client-master
狠心开源企业级舆情新闻爬虫项目:支持任意数量爬虫一键运行、爬虫定时任务、爬虫批量删除;爬虫一-NewsCrawl
Python爬虫开源项目代码分享(23个Py爬虫开源项目等)
phpQuery支持抓取网站,进行爬虫,非常强大,是一个基于PHP的服务端开源项目,它可以让PHP开发人员轻松处理DOM文档内容,比如获取某新闻网站的头条信息。更有意思的是,它采用了jQuery的思想,你可以像使用jQuery一样...
开源项目-steeve-homebrew-delve.zip,使用自制安装Delve
OpenStack开源云王者归来(016-065)
HotApp云笔记 - 精品开源demo-基于免费API(源代码+截图)HotApp云笔记 - 精品开源demo-基于免费API(源代码+截图)HotApp云笔记 - 精品开源demo-基于免费API(源代码+截图)HotApp云笔记 - 精品开源demo-基于免费API(源...
开源项目-go-ego-gse.zip,GSE v0.10.0发布,进行高效的文本分割
Python开源爬虫框架:Scrapy架构分析-为程序员服务[定义].pdf
OpenStack开源云王者归来(001-015)
开源项目-shingetsu-gou-shingetsu-gou.zip,Gou - a clone of P2P anonymous BBS shinGETsu in golang
开源GIS---java系列开源GIS---java系列开源GIS---java系列开源GIS---java系列开源GIS---java系列开源GIS---java系列开源GIS---java系列开源GIS---java系列开源GIS---java系列开源GIS---java系列开源GIS---java系列...
负载均衡开源解决方案 ppt文档 讲解很详细
开源项目-minio-minio-go.zip,minio go library,用于与amazon s3兼容的云存储。
开源项目-GoogleCloudPlatform-skaffold.zip,skaffold — easy and repeatable Kubernetes development