
nlpbamboo
由于各种原因,该项目已经长期无人维护.如果有人对这个项目的维护感兴趣欢迎联系我
<wiki:gadget url="http://www.ohloh.net/projects/nlpbamboo/widgets/project_users.xml" height="100" border="0" />
最新更新
Bamboo 1.1.1 重要更新
Bamboo 1.1.1正式发布,请点击右侧的Feature Download进行下载。该版本修正了一些愁人的Bug。
Changelog
1.1.1: * 修正了Makefile不能指定lib路径的问题,现在64位RH机器的用户不需要手工拷贝lib到lib64了 * 修正了一个单个英文单词过长导致CRF++出错的问题 * 修正了Trie结构的一个bug,现在32位和64位系统上可以共用同一个Trie字典了。(由于字典格式的改变用户需要重新build已有的字典) * 修正了当libbamboo被当作shared library引用时,会出现symbol not found的问题 * 修正了maxforward分词方法不能正常工作的问题
特别感谢agentzh 和 杨波 在百忙之中抽出时间帮我进行测试!
1.1.0:
- 分词配置文件中use_break, use_single_combine, use_maxforward_combine选项现在可以正常工作了
- 修正了一个因为缺少字典而导致PostgreSQL崩溃的Bug
1.1.0 rc1:
- 经过weibingzheng同学的不懈努力,bamboo现在可以很好的进行命名实体的识别了。这些实体包括:人名,地名和机构名称。在此感谢weibingzheng同学的辛勤工作。
- 同时bingzheng同学还给bamboo带来的关键词抽取模块kea
- 根据ifengle同学的建议,我重构了bamboo的C++接口。新的接口使用factory模式来创建用于各种用途的解释器。包括:crf_seg(crf分词), keyword(关键词提取), crf_ner_ns(crf地名提取),.....
- 根据ifengle同学的建议,我们一起规范了所有的配置文件和文件中配置项的命名。
- 为postgresql增加了关键词抽取的接口
- prepare_processor中无法分离连续两个标点的问题被修正了(blame me!)
- 修正了trie字典不能正确处理\r的问题。(感谢bingzheng的提醒)
- perl的扩展被放到了unstable中。(我们的确需要一个了解xs的同学能帮帮我们)
- 特别感谢ifengle同学重写了许多文档,更详细地描述了bamboo的许多细节
Case
NLPBamboo Widget
如果您觉得NLPBamboo好使,我们希望您能在您的页面上加入NLPBamboo的小图标:https://www.ohloh.net/projects/nlpbamboo/widgets
如果您在使用Bamboo,请让我们知道。我们非常愿意了解您在使用中得出的意见和经验。
简介
bamboo是一个中文语言处理系统。目前包括中文分词和词性标注部分。
bamboo提供了C,PHP,PostgreSQL的编程接口。 详情请参考: * ApplicationInterface * InstallPHPExtension * TSearch2
BENCHMARK
使用Bakeoff2005工具进行测试的结果: Benchmark
Project Information
- License: New BSD License
- Content License: Creative Commons 3.0 BY
- 135 stars
- svn-based source control
Labels:
ChineseSegmentation
ChineseTokenize
NatrualLanguageProcessing
NLP
中文分词
命名实体识别
主题词提取
自然语言处理
NER
KeywordExtraction