My favorites | Sign in
Project Logo
                
Code license: New BSD License
Labels: ibase, libibase, SE, SearchEngine
Feeds:
People details
Project owners:
  sounos
Project committers:
okmmno1, wilbur512, thinker.wei

Libibase is a library for Search Engine which is Instant and Incremental.

hibase 是一个基于倒排索引库libibase和hispider文档抓取, libsbase为基础通信库的一套完整搜索引擎系统.

支持逆向最大匹配中文分词

支持增量在线实时索引

支持BM25检索算法

支持上下文邻近位置计算的中文短句检索

支持多字段检索(需要标记)

测试系统地址: http://www.sounos.org/

hibase主要包括hibased 和 hindexd

hibased 是用于索引和查询的一个daemon hindexd 是对spider抓取的原始文档进行信息抽取, 分词等文档处理的后台工具.

安装和配置

通信基本库: libevbase libsbase http://code.google.com/p/sbase/downloads/list

字符集识别库: libchardet http://code.google.com/p/libibase/downloads/list

文档抓取工具: hispider http://code.google.com/p/hispider/downloads/list

倒排索引库: libibase http://code.google.com/p/libibase/downloads/list

检索系统: hibase http://code.google.com/p/libibase/downloads/list

按照列表顺序下载最新版本进行安装 : ./configure --prefix=/usr && make

配置文件 hispiderd.ini 和 hibased.ini hindexd.ini

hispider 需要配置basedir也就是文档存放路径

hibased.ini 同样需要配置basedir 也就是倒排索引存储路径, 同时做文档处理需要做分词词典路径dict

hindexd.ini 需要配置hidoc位置也就是hispider的hispider.doc 的路径.

词典可以从http://code.google.com/p/libibase/downloads/list 下载words.dict.gz, 也可以加入自己的词典, 词典格式:一行一个词.

运行

运行spider

/usr/bin/hispiderd -c /etc/hispiderd.ini && /usr/bin/hispider -c /etc/hispider.ini

可通过 http://127.0.0.1:3721/ 查看抓取数据情况

hibased hindexd

/usr/bin/hibased -c /etc/hibased.ini && /usr/bin/hindexd -c /etc/hindexd.ini

可以通过 http://127.0.0.1:8081/ 查询了

有问题可以给我的mail/MSN: sounos@gmail.com









Hosted by Google Code