My favorites | Sign in
Project Logo
                
Details: Show all Hide all

Last 30 days

  • Dec 06, 2009
    issue 5 (ictclas4j速度慢的问题,根本原因在于代码问题) commented on by qiangyangscu   -   上面提到的方法很好,谢谢!但是上面时候能有比较快的版本开源出现呢,等待学习之!
    上面提到的方法很好,谢谢!但是上面时候能有比较快的版本开源出现呢,等待学习之!

Earlier this year

  • Sep 25, 2009
    issue 10 (UTF-8编码造成分词不正确的问题) commented on by DingCongCS   -   好像弄成UTF8很麻烦的样子啊,他里边很多都是用了getBytes()方法,编码都是写死的。。。
    好像弄成UTF8很麻烦的样子啊,他里边很多都是用了getBytes()方法,编码都是写死的。。。
  • Sep 21, 2009
    issue 10 (UTF-8编码造成分词不正确的问题) commented on by yaoxing...@gmail.com   -   希望作者能改成UTF-8
    希望作者能改成UTF-8
  • Sep 02, 2009
    issue 10 (UTF-8编码造成分词不正确的问题) commented on by zz.zhaeng   -   自己看了一下源代码,发现问题的原因是在Utility.CC_ID方法里面,这个里面有个getBytes的方 法,直接用的系统默认的编码,改成getBytes("GB18030")后问题解决,还发现Utility里面很多 getBytes都是用的系统默认的编码,在处理中文字符时都会有问题吧,特别是不同系统下面
    自己看了一下源代码,发现问题的原因是在Utility.CC_ID方法里面,这个里面有个getBytes的方 法,直接用的系统默认的编码,改成getBytes("GB18030")后问题解决,还发现Utility里面很多 getBytes都是用的系统默认的编码,在处理中文字符时都会有问题吧,特别是不同系统下面
  • Sep 01, 2009
    issue 10 (UTF-8编码造成分词不正确的问题) reported by zz.zhaeng   -   我用0.9.1版本在eclipse下试了一下,用的UTF-8编码源代码,但分词结果不正确: 输入:浙江皕盛塑胶有限公司 输出:浙/vg 江/vg 皕/vg 盛/g 塑/g 胶/g 有/g 限/g 公/g 司/v 这个真是太奇怪了,源程序根本就没动,新建了一个test文件来掉用分词 SegTag st = new SegTag(2); SegResult sr = st.split(“浙江皕盛塑胶有限公司”); System.out.println("rawResult:"+rawResult); 这个test源文件的编码是UTF-8. 可是我如果把test文件改成GB18030的编码输出就是正确的了:浙江/ns 皕/a 盛/a 塑 胶/n 有限公司/n 这个是个bug么?大家知道怎么解决这个问题么?开始以为是编码的问题,试了好多方 法都不行,sinboy也好久没来了,不知道能不能看到,有知道的朋友帮忙解答一下, 感激不禁~~~
    我用0.9.1版本在eclipse下试了一下,用的UTF-8编码源代码,但分词结果不正确: 输入:浙江皕盛塑胶有限公司 输出:浙/vg 江/vg 皕/vg 盛/g 塑/g 胶/g 有/g 限/g 公/g 司/v 这个真是太奇怪了,源程序根本就没动,新建了一个test文件来掉用分词 SegTag st = new SegTag(2); SegResult sr = st.split(“浙江皕盛塑胶有限公司”); System.out.println("rawResult:"+rawResult); 这个test源文件的编码是UTF-8. 可是我如果把test文件改成GB18030的编码输出就是正确的了:浙江/ns 皕/a 盛/a 塑 胶/n 有限公司/n 这个是个bug么?大家知道怎么解决这个问题么?开始以为是编码的问题,试了好多方 法都不行,sinboy也好久没来了,不知道能不能看到,有知道的朋友帮忙解答一下, 感激不禁~~~
  • May 25, 2009
    issue 9 (这个分词的两大缺点) reported by koxy2008   -   1.词典的路径老是找不着,能否写成可配置的,或者干脆写成jar包,引入到classpath里,用 户引入jar包就能用是最好了。 2.词典每加载一次就在内存里加入一次词典,很占内存,怎样把它写成一个单例模式,只加载一 次就可以了?
    1.词典的路径老是找不着,能否写成可配置的,或者干脆写成jar包,引入到classpath里,用 户引入jar包就能用是最好了。 2.词典每加载一次就在内存里加入一次词典,很占内存,怎样把它写成一个单例模式,只加载一 次就可以了?
  • May 13, 2009
    issue 5 (ictclas4j速度慢的问题,根本原因在于代码问题) commented on by Programmer2.x   -   什么时候出1.0版啊?
    什么时候出1.0版啊?
  • May 13, 2009
    issue 1 (Utility.readBytes 读取提速 可把字典加载速度提高1-2倍) commented on by Programmer2.x   -   我按照你的修改了下,速度差不多提升了三分之一,哈哈。
    我按照你的修改了下,速度差不多提升了三分之一,哈哈。
  • May 13, 2009
    issue 6 (我想用ictclas4j处理用的输入信息。可是它的分词不合适我们行业的。我怎么添加词条呢?) commented on by Programmer2.x   -   好像里面有个增加词条的方法的。
    好像里面有个增加词条的方法的。
  • May 13, 2009
    issue 8 (请问什么时候出1.0版本啊?) reported by Programmer2.x   -   请问什么时候出1.0版本啊?
    请问什么时候出1.0版本啊?
  • May 12, 2009
    issue 7 (BigramDict.dct这个文件怎么打开?) reported by Programmer2.x   -   小弟学习ictclas4j,哪位大哥帮帮小弟。 BigramDict.dct这个文件怎么打开?
    小弟学习ictclas4j,哪位大哥帮帮小弟。 BigramDict.dct这个文件怎么打开?
  • May 11, 2009
    issue 4 (ictclas4j性能问题) commented on by Programmer2.x   -   大哥,小弟开始学习ictclas4j,能发些学习资料给小弟吗? 不胜感激。小弟邮箱:programmer2.x@gmail.com
    大哥,小弟开始学习ictclas4j,能发些学习资料给小弟吗? 不胜感激。小弟邮箱:programmer2.x@gmail.com

Older

  • Dec 15, 2008
    issue 6 (我想用ictclas4j处理用的输入信息。可是它的分词不合适我们行业的。我怎么添加词条呢?) reported by shiguoy...@yeah.net   -   我就是想建一个自己的词库,我怎么把我的数据放到ictclas4j能读取的地方呢? 我怎么组织那个词库呢?用什么个规则呢? 请高手指教!
    我就是想建一个自己的词库,我怎么把我的数据放到ictclas4j能读取的地方呢? 我怎么组织那个词库呢?用什么个规则呢? 请高手指教!
  • Oct 10, 2008
    issue 2 (segGraph.insert(usn, true); 会吃掉一些字) commented on by chinacang   -   应该不是segGraph.insert的错误,我发现好像是人名识别部分出错了,看这里 http://tinypig.javaeye.com/blog/250926
    应该不是segGraph.insert的错误,我发现好像是人名识别部分出错了,看这里 http://tinypig.javaeye.com/blog/250926
  • Sep 08, 2008
    issue 5 (ictclas4j速度慢的问题,根本原因在于代码问题) commented on by haishan.zhu   -   请问Sinboy大概什么时候能出1.0
    请问Sinboy大概什么时候能出1.0
 
Hosted by Google Code