MR9.SP 爬虫系统

灵活的多节点分布式爬虫系统

  • 可视化的逻辑设计器
  • 支持自定义字段,可以加工多种类型的数据
  • 本地CACHE形式,可以随时修改规则更新数据
  • 支持组合多URL数据及URL发现
  • 支持二次数据处理,比如说字符组合,简繁转换等扩展
  • 可以和Mr9.AS整合一键发布
  • 多节点管理,支持Windows和Linux多平台
  • 其它如30X URL挖掘,正则通配替换,HTML清理等功能
  • 支持自定义采集节点用来处理特殊目标
  • 支持无头模式(Linux&Windows)

安装及配置

测试环境: 硬件无要求,推荐Debian X64系统,2G以上内存,50G+硬盘.

生产环境:

  • CPU无要求,正常独服的都可以.
  • 操作系统:Debian 9+ X64
  • 数据库:MongoDB
  • 内存:16G+ RAM
  • 硬盘:500G+ 普通硬盘


标准安装教程基于用户可以简单使用linux系统安装常用软件包

可选的软件:Monit,用于守护程序运行. 安装命令为:

apt install monit

 

在进行安装前,请确认已经在授权管理界面设置好服务器IP并下载程序.
如果对授权IP进行修改,需要重新下载安装程序.

 

1,解压并使用SSH上传程序.

 

解压密码即你的用户中心登录邮箱.
一般上传到home目录,如 /home/mr9spv7/
如果你的机器是多硬盘,一般将上传至你最大的硬盘分区.
除非你有足够的系统管理能力,否则请使用root用户上传.
以下过程以 /home/mr9spv7/ 为参考 .

 

2,给权限

chmod +x /home/mr9spv7/mr9sp.v7
chmod +x /home/mr9spv7/libiconv.so

 

3,试手工临时运行

/home/mr9spv7/mr9sp.v7 run

应该会出现如下提示:

2017-08-01 02:39:19 [Info] Mr9SP Started!26366
2017-08-01 02:39:19 [Info] listening on :80

如果出错,一般是数据库未安装成功,需要先检测数据库运行状态.
如果显示端口被占用,那么请自行理解,并删除apache之类占用80端口的软件.

 

如果无误,这时可以用浏览器打开后台管理界面:

http://你的服务器IP:9001/

登录邮箱和密码同你的授权管理后台.这个端口可以在配置文件里修改.

 

如果后台进入OK,那么你现在需要安装成服务.意思是机器重启就会自动在后台运行.并且会被monit守护.

先 CTRL+C 结束之前的手动运行状态,然后安装成服务.

/home/mr9spv7/mr9sp.v7 install

这时候,你使用 service mr9spv7 status 命令查看.会显示mr9spv7服务是停止状态

这里需要手动启动此服务,以后如果服务器重启会自动运行.

service mr9sp.v7 start

再次运行 service mr9sp.v7 status 查看状态,已经运行!

 

 

 

配置文件 mr9sp.v7.cfg 说明. 


[APP]
    ManageIP=""	#管理IP,默认留空
    ManagePort="9001"	#管理端口

[DB]
    ConnStr="127.0.0.1" #数据库服务器地址,默认本地
    DBNameMain="mr9spv7_main"
    DBNamePost="mr9spv7_post"
    DBNameIndex="mr9spv7_index"
    DBNameStats="mr9spv7_stats"

[FS]	#文件数据库配置,默认本地
    Mode="local"
    #local or remote
    CacheDir=
    #default .caches
    RemoteAPI=
    RemoteUID=
    RemotePWD=

 

配置文件修改过后需要重新启动服务

service mr9sp.v7 restart

 

默认数据中心没有节点.

需要在节点管理中下载对应版本的程序 ,可以运行在任意地方及任意网络. 

即你可以利用本地宽带来运行节点.