Libibase is a library for Search Engine which is Instant and Incremental.
hibase 是一个基于倒排索引库libibase和hispider文档抓取, libsbase为基础通信库的一套完整搜索引擎系统.
支持逆向最大匹配中文分词
支持增量在线实时索引
支持BM25检索算法
支持上下文邻近位置计算的中文短句检索
支持多字段检索(需要标记)
测试系统地址: http://www.sounos.org/
hibase主要包括hibased 和 hindexd
hibased 是用于索引和查询的一个daemon hindexd 是对spider抓取的原始文档进行信息抽取, 分词等文档处理的后台工具.
安装和配置
通信基本库: libevbase libsbase http://code.google.com/p/sbase/downloads/list
字符集识别库: libchardet http://code.google.com/p/libibase/downloads/list
文档抓取工具: hispider http://code.google.com/p/hispider/downloads/list
倒排索引库: libibase http://code.google.com/p/libibase/downloads/list
检索系统: hibase http://code.google.com/p/libibase/downloads/list
按照列表顺序下载最新版本进行安装 : ./configure --prefix=/usr && make
配置文件 hispiderd.ini 和 hibased.ini hindexd.ini
hispider 需要配置basedir也就是文档存放路径
hibased.ini 同样需要配置basedir 也就是倒排索引存储路径, 同时做文档处理需要做分词词典路径dict
hindexd.ini 需要配置hidoc位置也就是hispider的hispider.doc 的路径.
词典可以从http://code.google.com/p/libibase/downloads/list 下载words.dict.gz, 也可以加入自己的词典, 词典格式:一行一个词.
运行
运行spider
/usr/bin/hispiderd -c /etc/hispiderd.ini && /usr/bin/hispider -c /etc/hispider.ini
可通过 http://127.0.0.1:3721/ 查看抓取数据情况
hibased hindexd
/usr/bin/hibased -c /etc/hibased.ini && /usr/bin/hindexd -c /etc/hindexd.ini
可以通过 http://127.0.0.1:8081/ 查询了
有问题可以给我的mail/MSN: sounos@gmail.com