My favorites
|
Sign in
ictclas4j
chinese segment system
Project Home
Downloads
Wiki
Issues
Source
Summary
|
Updates
|
People
Details:
Show all
Hide all
1 - 15
Last 30 days
Dec 06, 2009
issue 5
(ictclas4j速度慢的问题,根本原因在于代码问题) commented on by
qiangyangscu
-
上面提到的方法很好,谢谢!但是上面时候能有比较快的版本开源出现呢,等待学习之!
上面提到的方法很好,谢谢!但是上面时候能有比较快的版本开源出现呢,等待学习之!
Earlier this year
Sep 25, 2009
issue 10
(UTF-8编码造成分词不正确的问题) commented on by
DingCongCS
-
好像弄成UTF8很麻烦的样子啊,他里边很多都是用了getBytes()方法,编码都是写死的。。。
好像弄成UTF8很麻烦的样子啊,他里边很多都是用了getBytes()方法,编码都是写死的。。。
Sep 21, 2009
issue 10
(UTF-8编码造成分词不正确的问题) commented on by
yaoxing...@gmail.com
-
希望作者能改成UTF-8
希望作者能改成UTF-8
Sep 02, 2009
issue 10
(UTF-8编码造成分词不正确的问题) commented on by
zz.zhaeng
-
自己看了一下源代码,发现问题的原因是在Utility.CC_ID方法里面,这个里面有个getBytes的方 法,直接用的系统默认的编码,改成getBytes("GB18030")后问题解决,还发现Utility里面很多 getBytes都是用的系统默认的编码,在处理中文字符时都会有问题吧,特别是不同系统下面
自己看了一下源代码,发现问题的原因是在Utility.CC_ID方法里面,这个里面有个getBytes的方 法,直接用的系统默认的编码,改成getBytes("GB18030")后问题解决,还发现Utility里面很多 getBytes都是用的系统默认的编码,在处理中文字符时都会有问题吧,特别是不同系统下面
Sep 01, 2009
issue 10
(UTF-8编码造成分词不正确的问题) reported by
zz.zhaeng
-
我用0.9.1版本在eclipse下试了一下,用的UTF-8编码源代码,但分词结果不正确: 输入:浙江皕盛塑胶有限公司 输出:浙/vg 江/vg 皕/vg 盛/g 塑/g 胶/g 有/g 限/g 公/g 司/v 这个真是太奇怪了,源程序根本就没动,新建了一个test文件来掉用分词 SegTag st = new SegTag(2); SegResult sr = st.split(“浙江皕盛塑胶有限公司”); System.out.println("rawResult:"+rawResult); 这个test源文件的编码是UTF-8. 可是我如果把test文件改成GB18030的编码输出就是正确的了:浙江/ns 皕/a 盛/a 塑 胶/n 有限公司/n 这个是个bug么?大家知道怎么解决这个问题么?开始以为是编码的问题,试了好多方 法都不行,sinboy也好久没来了,不知道能不能看到,有知道的朋友帮忙解答一下, 感激不禁~~~
我用0.9.1版本在eclipse下试了一下,用的UTF-8编码源代码,但分词结果不正确: 输入:浙江皕盛塑胶有限公司 输出:浙/vg 江/vg 皕/vg 盛/g 塑/g 胶/g 有/g 限/g 公/g 司/v 这个真是太奇怪了,源程序根本就没动,新建了一个test文件来掉用分词 SegTag st = new SegTag(2); SegResult sr = st.split(“浙江皕盛塑胶有限公司”); System.out.println("rawResult:"+rawResult); 这个test源文件的编码是UTF-8. 可是我如果把test文件改成GB18030的编码输出就是正确的了:浙江/ns 皕/a 盛/a 塑 胶/n 有限公司/n 这个是个bug么?大家知道怎么解决这个问题么?开始以为是编码的问题,试了好多方 法都不行,sinboy也好久没来了,不知道能不能看到,有知道的朋友帮忙解答一下, 感激不禁~~~
May 25, 2009
issue 9
(这个分词的两大缺点) reported by
koxy2008
-
1.词典的路径老是找不着,能否写成可配置的,或者干脆写成jar包,引入到classpath里,用 户引入jar包就能用是最好了。 2.词典每加载一次就在内存里加入一次词典,很占内存,怎样把它写成一个单例模式,只加载一 次就可以了?
1.词典的路径老是找不着,能否写成可配置的,或者干脆写成jar包,引入到classpath里,用 户引入jar包就能用是最好了。 2.词典每加载一次就在内存里加入一次词典,很占内存,怎样把它写成一个单例模式,只加载一 次就可以了?
May 13, 2009
issue 5
(ictclas4j速度慢的问题,根本原因在于代码问题) commented on by
Programmer2.x
-
什么时候出1.0版啊?
什么时候出1.0版啊?
May 13, 2009
issue 1
(Utility.readBytes 读取提速 可把字典加载速度提高1-2倍) commented on by
Programmer2.x
-
我按照你的修改了下,速度差不多提升了三分之一,哈哈。
我按照你的修改了下,速度差不多提升了三分之一,哈哈。
May 13, 2009
issue 6
(我想用ictclas4j处理用的输入信息。可是它的分词不合适我们行业的。我怎么添加词条呢?) commented on by
Programmer2.x
-
好像里面有个增加词条的方法的。
好像里面有个增加词条的方法的。
May 13, 2009
issue 8
(请问什么时候出1.0版本啊?) reported by
Programmer2.x
-
请问什么时候出1.0版本啊?
请问什么时候出1.0版本啊?
May 12, 2009
issue 7
(BigramDict.dct这个文件怎么打开?) reported by
Programmer2.x
-
小弟学习ictclas4j,哪位大哥帮帮小弟。 BigramDict.dct这个文件怎么打开?
小弟学习ictclas4j,哪位大哥帮帮小弟。 BigramDict.dct这个文件怎么打开?
May 11, 2009
issue 4
(ictclas4j性能问题) commented on by
Programmer2.x
-
大哥,小弟开始学习ictclas4j,能发些学习资料给小弟吗? 不胜感激。小弟邮箱:programmer2.x@gmail.com
大哥,小弟开始学习ictclas4j,能发些学习资料给小弟吗? 不胜感激。小弟邮箱:programmer2.x@gmail.com
Older
Dec 15, 2008
issue 6
(我想用ictclas4j处理用的输入信息。可是它的分词不合适我们行业的。我怎么添加词条呢?) reported by
shiguoy...@yeah.net
-
我就是想建一个自己的词库,我怎么把我的数据放到ictclas4j能读取的地方呢? 我怎么组织那个词库呢?用什么个规则呢? 请高手指教!
我就是想建一个自己的词库,我怎么把我的数据放到ictclas4j能读取的地方呢? 我怎么组织那个词库呢?用什么个规则呢? 请高手指教!
Oct 10, 2008
issue 2
(segGraph.insert(usn, true); 会吃掉一些字) commented on by
chinacang
-
应该不是segGraph.insert的错误,我发现好像是人名识别部分出错了,看这里
http://tinypig.javaeye.com/blog/250926
应该不是segGraph.insert的错误,我发现好像是人名识别部分出错了,看这里
http://tinypig.javaeye.com/blog/250926
Sep 08, 2008
issue 5
(ictclas4j速度慢的问题,根本原因在于代码问题) commented on by
haishan.zhu
-
请问Sinboy大概什么时候能出1.0
请问Sinboy大概什么时候能出1.0
1 - 15
Hosted by