|
Project Information
Featured
Downloads
|
HiSpider(Hitask) is a fast and high performance spider with high speed严格说只能是一个spider系统的框架, 没有细化需求, 目前只是能提取URL, URL排重, 异步DNS解析, 队列化任务, 支持N机分布式下载, 支持网站定向下载(需要配置hispiderd.ini whitelist).特征和用法:
工作流程:
Require
Compile && install./configure && make && make install View running state in Browserhttp://127.0.0.1:3721/ Usagehispiderd is control center hispider is download node ./src/hispiderd -c doc/rc.hispiderd.ini ./src/hispider -c doc/rc.hispider.ini 安装和使用
文档存储格式:typedef struct _LHEADER
{
int ndate;
int nurl;
int nzdata;
int ndata;
}LHEADER;顺序存储文档的头,url,文档压缩正文, 采用zlib压缩 ndata为正常长度, nzdata为压缩 后也就是存储的实际长度. nurl为url长度实际存储为url\0 长度为nurl+1 下载地址
ChangeLog2009-12-14 *添加了SSL支持,所以使用hitask的时候要自己生成证书和私钥
私钥生成命令:openssl genrsa -out privkey.pem 4096
证书声称命令: openssl req -new -x509 -key privkey.pem -out cacert.pem -days 10000
记得生成证书以后修改hitaskd.ini 里的cacert_file 和 privkey_file 的配置选项, 如果不想使用SSL 就把 hitaskd_us_SSL 和 histore_use_SSL 两项设置为0即可。
*这个功能只要是源于sbase添加了SSL功能,所以用hitask来测试一下,另外后期的用户登陆要用SSL。
|