My favorites | Sign in
Project Logo
                
Details: Show all Hide all

Last 30 days

  • Dec 24, 2009
    r138 (Fix issue 12 and other number bug) committed by reno.gan   -   Fix issue 12 and other number bug
    Fix issue 12 and other number bug
  • Dec 17, 2009
    r137 (上一次修改有误,url.toUTI.getPath有可能返回null) committed by reno.gan   -   上一次修改有误,url.toUTI.getPath有可能返回null
    上一次修改有误,url.toUTI.getPath有可能返回null
  • Dec 10, 2009
    r136 (Fix issue 42 : 读取配置文件的一个Bug) committed by reno.gan   -   Fix issue 42 : 读取配置文件的一个Bug
    Fix issue 42 : 读取配置文件的一个Bug
  • Dec 10, 2009
    r135 (Fix issue 42 : 读取配置文件的一个Bug) committed by reno.gan   -   Fix issue 42 : 读取配置文件的一个Bug
    Fix issue 42 : 读取配置文件的一个Bug
  • Dec 10, 2009
    r134 (Fix issue 50: 中文数字解析问题 ) committed by reno.gan   -   Fix issue 50: 中文数字解析问题
    Fix issue 50: 中文数字解析问题
  • Dec 10, 2009
    r133 (Fix issue 48: 查找计量单位引起的高亮越界错误 ) committed by reno.gan   -   Fix issue 48: 查找计量单位引起的高亮越界错误
    Fix issue 48: 查找计量单位引起的高亮越界错误
  • Dec 07, 2009
    issue 51 (solr升级到1.4后与paoding不兼容的问题) reported by snyang...@163.com   -   solr升级到1.4后与paoding不兼容的问题现在发现以下两个,希望qieqie有时间升级一下,谢 谢! 1、首先集成就有问题,实现BaseTokenizerFactory此类的中的create()方法返回类型 TokenStream 与solr1.4的Tokenizer 不匹配,代码如下: // public TokenStream create(Reader input) { // return new PaodingTokenizer(input, PaodingMaker.make(), createTokenCollector()); // } public Tokenizer create(Reader input) { return new PaodingTokenizer(input,PaodingMaker.make(), createTokenCollector()); } 2、使用高亮功能时报错: org.apache.lucene.search.highlight.InvalidTokenOffsetsException: Token test exceeds length of provided text sized 8
    solr升级到1.4后与paoding不兼容的问题现在发现以下两个,希望qieqie有时间升级一下,谢 谢! 1、首先集成就有问题,实现BaseTokenizerFactory此类的中的create()方法返回类型 TokenStream 与solr1.4的Tokenizer 不匹配,代码如下: // public TokenStream create(Reader input) { // return new PaodingTokenizer(input, PaodingMaker.make(), createTokenCollector()); // } public Tokenizer create(Reader input) { return new PaodingTokenizer(input,PaodingMaker.make(), createTokenCollector()); } 2、使用高亮功能时报错: org.apache.lucene.search.highlight.InvalidTokenOffsetsException: Token test exceeds length of provided text sized 8
  • Dec 07, 2009
    issue 43 ("湖北石首"分词问题请教) commented on by ccnusjy   -   这个库可以cover @wengsf的case: http://smallseg.appspot.com/smallseg
    这个库可以cover @wengsf的case: http://smallseg.appspot.com/smallseg
  • Dec 06, 2009
    issue 48 (查找计量单位引起的高亮越界错误) commented on by qieqie.wang   -   能加一下我的gtalk吗? qieqie.wang@gmail.com
    能加一下我的gtalk吗? qieqie.wang@gmail.com
  • Dec 06, 2009
    issue 50 (中文数字解析问题) commented on by qieqie.wang   -   thank you; 现在paoding还没有开发大家提交patch,下一个版本我修改上去 再次感谢
    thank you; 现在paoding还没有开发大家提交patch,下一个版本我修改上去 再次感谢

Older

  • Dec 03, 2009
    issue 50 (中文数字解析问题) commented on by reno.gan   -   上面的算法在处理单个中文数字的时候还有问题,例如“一个”,所以还不能将所有数字中文都作 为孤立短语解析,得区别对待连续数字和单个数字。
    上面的算法在处理单个中文数字的时候还有问题,例如“一个”,所以还不能将所有数字中文都作 为孤立短语解析,得区别对待连续数字和单个数字。
  • Dec 03, 2009
    issue 50 (中文数字解析问题) reported by reno.gan   -   问题: 解析 “一九一五年”的结果是:"191" "五年" 这是个错误的结果,因为当用户搜索 "1915" 或者 "一九一五" 的时候是查不到结果的。 分析: Paoding先在词典里查找有没有合适的词,这时候会找到“五年”,然后将"一九一"作为 孤立短语解析成"191",这种做法对非数字中文是合理的,但是对数字中文就有问题。 解决: 修改CJKKnife::dissect()方法,将所有数字中文都作为孤立短语解析。这样“一九一 五年”的解析结果就是 "1915" "年"
    问题: 解析 “一九一五年”的结果是:"191" "五年" 这是个错误的结果,因为当用户搜索 "1915" 或者 "一九一五" 的时候是查不到结果的。 分析: Paoding先在词典里查找有没有合适的词,这时候会找到“五年”,然后将"一九一"作为 孤立短语解析成"191",这种做法对非数字中文是合理的,但是对数字中文就有问题。 解决: 修改CJKKnife::dissect()方法,将所有数字中文都作为孤立短语解析。这样“一九一 五年”的解析结果就是 "1915" "年"
  • Dec 03, 2009
    issue 49 (Lucene 3.0 兼容问题) reported by reno.gan   -   lucene 3.0 去掉了一些废弃的方法,如tokenStream.next()方法。为了让Paoding能 够在lucene 3.0环境运行,我改动了附件中的三个文件,主要是为了兼容新的 tokenStream.incrementToken()接口。
    lucene 3.0 去掉了一些废弃的方法,如tokenStream.next()方法。为了让Paoding能 够在lucene 3.0环境运行,我改动了附件中的三个文件,主要是为了兼容新的 tokenStream.incrementToken()接口。
  • Dec 03, 2009
    issue 48 (查找计量单位引起的高亮越界错误) reported by reno.gan   -   版本: paoding-analysis-2.0.4-beta 现象:高亮报错: Token 北京 exceeds length of provided text sized 7649 分析: 据查,“北京”是该文档的最后一个词,Paoding给出该词的startOffset是 7648,endOffset是7650,显然7650超出了文档的边界。 进一步分析,发现是在文档 的中间部分偏移开始算错的, ... 并非平常检讨的套话!1986年2月胡绳 ... 在"1986年"之前的Token偏移都是对的,在这之后的偏移都往后错了一位,导致最后的 Token越界。 代码问题: Debug之后,发现错误是因为"1986年"正好处于Tokenizer Buffer的末尾,在 Tokenizer处理完"1986"后,因为它是个数字,所以要继续判断它后面是否是计量单位 (参见NumberKnife::collectLimit()),正是这段代码导致了问题。它竟然查 出"1986"后面的单位是“年级”,显然这是个错误的结果,据估计应该是该段代码在查 找单位时越出了Buffer的边界,取了无效的字符。 将查找计量单位的代码注释后该问题消失。但无法确定在别处是否还有同样的问题存在。
    版本: paoding-analysis-2.0.4-beta 现象:高亮报错: Token 北京 exceeds length of provided text sized 7649 分析: 据查,“北京”是该文档的最后一个词,Paoding给出该词的startOffset是 7648,endOffset是7650,显然7650超出了文档的边界。 进一步分析,发现是在文档 的中间部分偏移开始算错的, ... 并非平常检讨的套话!1986年2月胡绳 ... 在"1986年"之前的Token偏移都是对的,在这之后的偏移都往后错了一位,导致最后的 Token越界。 代码问题: Debug之后,发现错误是因为"1986年"正好处于Tokenizer Buffer的末尾,在 Tokenizer处理完"1986"后,因为它是个数字,所以要继续判断它后面是否是计量单位 (参见NumberKnife::collectLimit()),正是这段代码导致了问题。它竟然查 出"1986"后面的单位是“年级”,显然这是个错误的结果,据估计应该是该段代码在查 找单位时越出了Buffer的边界,取了无效的字符。 将查找计量单位的代码注释后该问题消失。但无法确定在别处是否还有同样的问题存在。
  • Dec 02, 2009
    issue 47 (Nutch加载Paoding后,有些词查询结果无法显示,空白页。请帮忙啊) commented on by land-...@163.com   -   用“进行 磨损对比行驶试验”查,中间有个空格就可以。 那有什么办法可以解决吗? 谢谢 QieQie.
    用“进行 磨损对比行驶试验”查,中间有个空格就可以。 那有什么办法可以解决吗? 谢谢 QieQie.
  • Dec 02, 2009
    issue 47 (Nutch加载Paoding后,有些词查询结果无法显示,空白页。请帮忙啊) commented on by qieqie.wang   -   用“进行的 磨损对比行驶试验”可以? 入股是的话,可以理解为为 QueryParser的特点。 QueryParser对中文进行解析时候,认为你要查询的是包含这些关键字,并且是紧挨着的文本。
    用“进行的 磨损对比行驶试验”可以? 入股是的话,可以理解为为 QueryParser的特点。 QueryParser对中文进行解析时候,认为你要查询的是包含这些关键字,并且是紧挨着的文本。
  • Dec 02, 2009
    issue 47 (Nutch加载Paoding后,有些词查询结果无法显示,空白页。请帮忙啊) reported by land-...@163.com   -   Hi, QieQie 我在Nutch中通过参考 http://hi.baidu.com/zhumulangma/blog/item/a27284b161d4b35c0823021a.html已经 将Paoding加载上去了。通过Luke都能查看到是按中文索引了。可是在查询“进行的磨损对比行 驶试验”的时候,查不出来,去掉“进行的”就能查询出来,像这样的词有很多都查不出来,直 接空白页,也不报错。不知道应该怎么配置或修改。谢谢你啊,这个折腾有好久。
    Hi, QieQie 我在Nutch中通过参考 http://hi.baidu.com/zhumulangma/blog/item/a27284b161d4b35c0823021a.html已经 将Paoding加载上去了。通过Luke都能查看到是按中文索引了。可是在查询“进行的磨损对比行 驶试验”的时候,查不出来,去掉“进行的”就能查询出来,像这样的词有很多都查不出来,直 接空白页,也不报错。不知道应该怎么配置或修改。谢谢你啊,这个折腾有好久。
  • Nov 27, 2009
    issue 45 (启动字典动态转载/卸载检测器 内存泄漏问题) commented on by qqibook   -   PermSize确实有效. 不过,我想解决的是在异常发生在Detector.java:105行时,词典的动态探测,线程还能继续工作. 可惜,在Detector.java:105行发生异常后"启动字典动态转载/卸载"功能失效了,try/catch 也没用. 这个问题是否是java线程相关 类public class Detector implements Runnable public void run() { if (interval <= 0) throw new IllegalArgumentException( "should set a interval(>0) for the detection."); // try { while (alive) { sleep(); forceDetecting(); } // } catch (Exception e) { // System.out.println("重新启动词典守护线程吗? alive ="+alive); // e.printStackTrace(); // if(alive){ // start(true); // } // } }
    PermSize确实有效. 不过,我想解决的是在异常发生在Detector.java:105行时,词典的动态探测,线程还能继续工作. 可惜,在Detector.java:105行发生异常后"启动字典动态转载/卸载"功能失效了,try/catch 也没用. 这个问题是否是java线程相关 类public class Detector implements Runnable public void run() { if (interval <= 0) throw new IllegalArgumentException( "should set a interval(>0) for the detection."); // try { while (alive) { sleep(); forceDetecting(); } // } catch (Exception e) { // System.out.println("重新启动词典守护线程吗? alive ="+alive); // e.printStackTrace(); // if(alive){ // start(true); // } // } }
  • Nov 27, 2009
    issue 46 (Sun Solaris 上运行Paoding 2.0.4问题。) commented on by qieqie.wang   -   谢谢 TornadoSava
    谢谢 TornadoSava
  • Nov 27, 2009
    issue 46 (Sun Solaris 上运行Paoding 2.0.4问题。) reported by TornadoSava   -   由于Paoding没有在Sun Solaris上测试过。由于Sun Solaris的文件结构个普通的linux机器 不一样。环境变量也有所不一样。例如在普通linux上查看系统环境变量 可以用命 令/usr/bin/printenv 但在Sun Solaris上 printenv 不在该路径下。造成报如下错误 [net.paoding.analysis.knife.PaodingMaker]-[WARN] unable to read env from os?/usr/bin/printenv: not 临时修改方法: 修改如下代码net.paoding.analysis.knife.PaodingMaker.java 第594行 //cmd = "/usr/bin/printenv"; //用于修改使用Sun Solaris cmd = "printenv"; 就可以了 仅供参考 有相关问题可以直接与我联系msn:savagert@163.com
    由于Paoding没有在Sun Solaris上测试过。由于Sun Solaris的文件结构个普通的linux机器 不一样。环境变量也有所不一样。例如在普通linux上查看系统环境变量 可以用命 令/usr/bin/printenv 但在Sun Solaris上 printenv 不在该路径下。造成报如下错误 [net.paoding.analysis.knife.PaodingMaker]-[WARN] unable to read env from os?/usr/bin/printenv: not 临时修改方法: 修改如下代码net.paoding.analysis.knife.PaodingMaker.java 第594行 //cmd = "/usr/bin/printenv"; //用于修改使用Sun Solaris cmd = "printenv"; 就可以了 仅供参考 有相关问题可以直接与我联系msn:savagert@163.com
  • Nov 26, 2009
    issue 45 (启动字典动态转载/卸载检测器 内存泄漏问题) commented on by qieqie.wang   -   是permsize,google下
    是permsize,google下
  • Nov 26, 2009
    issue 45 (启动字典动态转载/卸载检测器 内存泄漏问题) commented on by qqibook   -   不会重复启动, 可以分词,只是没有更新词典的效果. perm -Xms 200m -Xmx 500m 还需要更大? 试试.谢谢
    不会重复启动, 可以分词,只是没有更新词典的效果. perm -Xms 200m -Xmx 500m 还需要更大? 试试.谢谢
  • Nov 26, 2009
    issue 45 (启动字典动态转载/卸载检测器 内存泄漏问题) commented on by qieqie.wang   -   不断地重复启动,还是只是正常的?把perm调大点
    不断地重复启动,还是只是正常的?把perm调大点
  • Nov 26, 2009
    issue 45 (启动字典动态转载/卸载检测器 内存泄漏问题) commented on by qieqie.wang   -   不断地重复启动,还是只是正常的?把perm调大点
    不断地重复启动,还是只是正常的?把perm调大点
  • Nov 26, 2009
    issue 45 (启动字典动态转载/卸载检测器 内存泄漏问题) reported by qqibook   -   使用版本是code.google的paoding-analysis-2.0.4-beta. 我想充分使用"启动字典动态转载/卸载检测器". 但是现在的定时器方式启动字典动态转载/卸载策略会引发内存泄漏问题. 导致字典没有更新成功(dic/.compiled目录没有重新创建) 我将DIC_DETECTOR_INTERVAL_DEFAULT 设置为 "30"会比"60"更容易发生下面的异常 运行参数-Xms 200m -Xmx 500m 2009-11-27 11:34:46 net.paoding.analysis.knife.FileDictionaries loadAllWordsIfNecessary 信息: loaded success! Exception in thread "Thread-1" java.lang.OutOfMemoryError: Java heap space at java.util.HashMap.addEntry(Unknown Source) at java.util.HashMap.put(Unknown Source) at net.paoding.analysis.dictionary.HashBinaryDictionary.addSubDictionary(HashBinaryDictionary.java:132) at net.paoding.analysis.dictionary.HashBinaryDictionary.createSubDictionaries(HashBinaryDictionary.java:106) at net.paoding.analysis.dictionary.HashBinaryDictionary.<init>(HashBinaryDictionary.java:84) at net.paoding.analysis.dictionary.HashBinaryDictionary.createSubDictionary(HashBinaryDictionary.java:141) at net.paoding.analysis.dictionary.HashBinaryDictionary.addSubDictionary(HashBinaryDictionary.java:129) at net.paoding.analysis.dictionary.HashBinaryDictionary.createSubDictionaries(HashBinaryDictionary.java:106) at net.paoding.analysis.dictionary.HashBinaryDictionary.<init>(HashBinaryDictionary.java:84) at net.paoding.analysis.dictionary.HashBinaryDictionary.<init>(HashBinaryDictionary.java:72) at net.paoding.analysis.knife.FileDictionaries.getVocabularyDictionary(FileDictionaries.java:199) at net.paoding.analysis.knife.CJKKnife.setDictionaries(CJKKnife.java:48) at net.paoding.analysis.knife.PaodingMaker.setDictionaries(PaodingMaker.java:521) at net.paoding.analysis.knife.PaodingMaker.access$2(PaodingMaker.java:515) at net.paoding.analysis.knife.PaodingMaker$1.run(PaodingMaker.java:391) at net.paoding.analysis.knife.PaodingMaker$1$1.on(PaodingMaker.java:413) at net.paoding.analysis.dictionary.support.detection.Detector.forceDetecting(Detector.java:114) at net.paoding.analysis.dictionary.support.detection.Detector.run(Detector.java:105) at java.lang.Thread.run(Unknown Source) 也许是要改变"启动字典动态转载/卸载检测器"的策略,用侦听dic目录的变化是否能避 免这个? 另外,这个异常和paodingHolder的paoding管理有关吗? 谢谢
    使用版本是code.google的paoding-analysis-2.0.4-beta. 我想充分使用"启动字典动态转载/卸载检测器". 但是现在的定时器方式启动字典动态转载/卸载策略会引发内存泄漏问题. 导致字典没有更新成功(dic/.compiled目录没有重新创建) 我将DIC_DETECTOR_INTERVAL_DEFAULT 设置为 "30"会比"60"更容易发生下面的异常 运行参数-Xms 200m -Xmx 500m 2009-11-27 11:34:46 net.paoding.analysis.knife.FileDictionaries loadAllWordsIfNecessary 信息: loaded success! Exception in thread "Thread-1" java.lang.OutOfMemoryError: Java heap space at java.util.HashMap.addEntry(Unknown Source) at java.util.HashMap.put(Unknown Source) at net.paoding.analysis.dictionary.HashBinaryDictionary.addSubDictionary(HashBinaryDictionary.java:132) at net.paoding.analysis.dictionary.HashBinaryDictionary.createSubDictionaries(HashBinaryDictionary.java:106) at net.paoding.analysis.dictionary.HashBinaryDictionary.<init>(HashBinaryDictionary.java:84) at net.paoding.analysis.dictionary.HashBinaryDictionary.createSubDictionary(HashBinaryDictionary.java:141) at net.paoding.analysis.dictionary.HashBinaryDictionary.addSubDictionary(HashBinaryDictionary.java:129) at net.paoding.analysis.dictionary.HashBinaryDictionary.createSubDictionaries(HashBinaryDictionary.java:106) at net.paoding.analysis.dictionary.HashBinaryDictionary.<init>(HashBinaryDictionary.java:84) at net.paoding.analysis.dictionary.HashBinaryDictionary.<init>(HashBinaryDictionary.java:72) at net.paoding.analysis.knife.FileDictionaries.getVocabularyDictionary(FileDictionaries.java:199) at net.paoding.analysis.knife.CJKKnife.setDictionaries(CJKKnife.java:48) at net.paoding.analysis.knife.PaodingMaker.setDictionaries(PaodingMaker.java:521) at net.paoding.analysis.knife.PaodingMaker.access$2(PaodingMaker.java:515) at net.paoding.analysis.knife.PaodingMaker$1.run(PaodingMaker.java:391) at net.paoding.analysis.knife.PaodingMaker$1$1.on(PaodingMaker.java:413) at net.paoding.analysis.dictionary.support.detection.Detector.forceDetecting(Detector.java:114) at net.paoding.analysis.dictionary.support.detection.Detector.run(Detector.java:105) at java.lang.Thread.run(Unknown Source) 也许是要改变"启动字典动态转载/卸载检测器"的策略,用侦听dic目录的变化是否能避 免这个? 另外,这个异常和paodingHolder的paoding管理有关吗? 谢谢
  • Oct 13, 2009
    issue 44 (paoding 能进行拼写检查么?) reported by xyy....@126.com   -   请问那种中文的拼写检查或者建议搜索paoding能实现么? 比如: 我输入“周杰轮” 提示:您是否搜索的是“周杰伦”“周杰”等等。。。
    请问那种中文的拼写检查或者建议搜索paoding能实现么? 比如: 我输入“周杰轮” 提示:您是否搜索的是“周杰伦”“周杰”等等。。。
  • Sep 14, 2009
    issue 43 ("湖北石首"分词问题请教) commented on by qieqie.wang   -   以目前的分词算法,这个问题的确比较困难。 我会在一定时间之后出3版本。我想改变一下算法。
    以目前的分词算法,这个问题的确比较困难。 我会在一定时间之后出3版本。我想改变一下算法。
  • Sep 14, 2009
    issue 43 ("湖北石首"分词问题请教) commented on by qieqie.wang   -   以目前的分词算法,这个问题的确比较困难。 我会在一定时间之后出3版本。我想改变一下算法。
    以目前的分词算法,这个问题的确比较困难。 我会在一定时间之后出3版本。我想改变一下算法。
  • Sep 14, 2009
    issue 43 ("湖北石首"分词问题请教) reported by wengsf   -   您好,我在使用庖丁进行中文分词中,遇到一个问题。 以下四个短语,分词的效果不是很理想。请问有什么好办法嘛? “湖北省石首市” “湖北石首” “蒋介石首次发表了” “钻石首饰” 非常感谢您的帮助。 我同时在您的Project Home中留言了。谢谢。
    您好,我在使用庖丁进行中文分词中,遇到一个问题。 以下四个短语,分词的效果不是很理想。请问有什么好办法嘛? “湖北省石首市” “湖北石首” “蒋介石首次发表了” “钻石首饰” 非常感谢您的帮助。 我同时在您的Project Home中留言了。谢谢。
  • Sep 03, 2009
    issue 42 (读取配置文件的一个Bug) reported by qiongju   -   最近一个项目,用到了paoding分词。 词典存放,我采用了放在src目录下的方法。但却在启动服务器的时候抛出 net.paoding.analysis.exception.PaodingAnalysisException: dic home should not be a file, but a directory! 而用junit测试却可以通过。在网上搜索到一个类似的问题(只有baidu缓存页) http://cache.baidu.com/c?m=9f65cb4a8c8507ed4fece7631043973b5e16c1743ca085482281cd1f84642c101a39feee677f5746ce872f3a57f41509f7a0762f724277a09cbcce109decc17e32ce7d74274fd05c46841aa99f1574952bc651bdab1ce1bde477ceee84dc9d070e9c08592f97f0fa4d7012dd1e830341e4b1ee4e025e60ad9c30728f5c6059e83430b2&p=8b2a910086cc46fb06f7d6201e&user=baidu 当中叙述是在PaodingMaker.getFile()方法中采用了老版本的 java.net.URL.getFile()。不能够识别中文或者空格,只有采用 URL.toURI().getPath()才能识别汉字与空格,请问作者能否考虑修复这个bug
    最近一个项目,用到了paoding分词。 词典存放,我采用了放在src目录下的方法。但却在启动服务器的时候抛出 net.paoding.analysis.exception.PaodingAnalysisException: dic home should not be a file, but a directory! 而用junit测试却可以通过。在网上搜索到一个类似的问题(只有baidu缓存页) http://cache.baidu.com/c?m=9f65cb4a8c8507ed4fece7631043973b5e16c1743ca085482281cd1f84642c101a39feee677f5746ce872f3a57f41509f7a0762f724277a09cbcce109decc17e32ce7d74274fd05c46841aa99f1574952bc651bdab1ce1bde477ceee84dc9d070e9c08592f97f0fa4d7012dd1e830341e4b1ee4e025e60ad9c30728f5c6059e83430b2&p=8b2a910086cc46fb06f7d6201e&user=baidu 当中叙述是在PaodingMaker.getFile()方法中采用了老版本的 java.net.URL.getFile()。不能够识别中文或者空格,只有采用 URL.toURI().getPath()才能识别汉字与空格,请问作者能否考虑修复这个bug
  • Aug 27, 2009
    issue 41 (log4j:ERROR Error occured while converting date.) reported by xiangzhouwang   -   What steps will reproduce the problem? 1. start app in server What is the expected output? What do you see instead? new exception output What version of the product are you using? On what operating system? paoding-analysis-2.0.4-beta common logging:1.0.4 Please provide any additional information below. 严重: log4j:ERROR Error occured while converting date. 严重: java.lang.NullPointerException 严重: at java.lang.System.arraycopy(Native Method) 严重: at java.lang.AbstractStringBuilder.getChars (AbstractStringBuilder.java:328) 严重: at java.lang.StringBuffer.getChars(StringBuffer.java:201) 严重: at org.apache.log4j.helpers.ISO8601DateFormat.format (ISO8601DateFormat.java:128) 严重: at java.text.DateFormat.format(DateFormat.java:316) 严重: at org.apache.log4j.helpers.PatternParser$DatePatternConverter.convert (PatternParser.java:444) 严重: at org.apache.log4j.helpers.PatternConverter.format (PatternConverter.java:64) 严重: at org.apache.log4j.PatternLayout.format(PatternLayout.java:503) 严重: at org.apache.log4j.WriterAppender.subAppend (WriterAppender.java:301) 严重: at org.apache.log4j.WriterAppender.append(WriterAppender.java:159) 严重: at org.apache.log4j.AppenderSkeleton.doAppend (AppenderSkeleton.java:230) 严重: at org.apache.log4j.helpers.AppenderAttachableImpl.appendLoopOnAppenders (AppenderAttachableImpl.java:65) 严重: at org.apache.log4j.Category.callAppenders(Category.java:203) 严重: at org.apache.log4j.Category.forcedLog(Category.java:388) 严重: at org.apache.log4j.Category.log(Category.java:853) 严重: at org.apache.commons.logging.impl.Log4JLogger.error (Log4JLogger.java:257) 严重: at net.paoding.analysis.dictionary.support.detection.Detector.forceDetecting (Detector.java:119) 严重: at net.paoding.analysis.dictionary.support.detection.Detector.run (Detector.java:105) 严重: at java.lang.Thread.run(Thread.java:619) 信息: 553079 [net.paoding.analysis.dictionary.support.detection.Detector :: ERROR ] java.lang.NullPointerException at org.apache.commons.logging.LogFactory.getCachedFactory (LogFactory.java:979) at org.apache.commons.logging.LogFactory.getFactory (LogFactory.java:435) at org.apache.commons.logging.LogFactory.getLog (LogFactory.java:685) at net.paoding.analysis.knife.FileDictionaries.<init> (FileDictionaries.java:55) at net.paoding.analysis.knife.PaodingMaker.readUnCompiledDictionaries (PaodingMaker.java:509) at net.paoding.analysis.knife.PaodingMaker.access$100 (PaodingMaker.java:52) at net.paoding.analysis.knife.PaodingMaker$1.run (PaodingMaker.java:389) at net.paoding.analysis.knife.PaodingMaker$1$1.on (PaodingMaker.java:413) at net.paoding.analysis.dictionary.support.detection.Detector.forceDetecting (Detector.java:114) at net.paoding.analysis.dictionary.support.detection.Detector.run (Detector.java:105) at java.lang.Thread.run(Thread.java:619)
    What steps will reproduce the problem? 1. start app in server What is the expected output? What do you see instead? new exception output What version of the product are you using? On what operating system? paoding-analysis-2.0.4-beta common logging:1.0.4 Please provide any additional information below. 严重: log4j:ERROR Error occured while converting date. 严重: java.lang.NullPointerException 严重: at java.lang.System.arraycopy(Native Method) 严重: at java.lang.AbstractStringBuilder.getChars (AbstractStringBuilder.java:328) 严重: at java.lang.StringBuffer.getChars(StringBuffer.java:201) 严重: at org.apache.log4j.helpers.ISO8601DateFormat.format (ISO8601DateFormat.java:128) 严重: at java.text.DateFormat.format(DateFormat.java:316) 严重: at org.apache.log4j.helpers.PatternParser$DatePatternConverter.convert (PatternParser.java:444) 严重: at org.apache.log4j.helpers.PatternConverter.format (PatternConverter.java:64) 严重: at org.apache.log4j.PatternLayout.format(PatternLayout.java:503) 严重: at org.apache.log4j.WriterAppender.subAppend (WriterAppender.java:301) 严重: at org.apache.log4j.WriterAppender.append(WriterAppender.java:159) 严重: at org.apache.log4j.AppenderSkeleton.doAppend (AppenderSkeleton.java:230) 严重: at org.apache.log4j.helpers.AppenderAttachableImpl.appendLoopOnAppenders (AppenderAttachableImpl.java:65) 严重: at org.apache.log4j.Category.callAppenders(Category.java:203) 严重: at org.apache.log4j.Category.forcedLog(Category.java:388) 严重: at org.apache.log4j.Category.log(Category.java:853) 严重: at org.apache.commons.logging.impl.Log4JLogger.error (Log4JLogger.java:257) 严重: at net.paoding.analysis.dictionary.support.detection.Detector.forceDetecting (Detector.java:119) 严重: at net.paoding.analysis.dictionary.support.detection.Detector.run (Detector.java:105) 严重: at java.lang.Thread.run(Thread.java:619) 信息: 553079 [net.paoding.analysis.dictionary.support.detection.Detector :: ERROR ] java.lang.NullPointerException at org.apache.commons.logging.LogFactory.getCachedFactory (LogFactory.java:979) at org.apache.commons.logging.LogFactory.getFactory (LogFactory.java:435) at org.apache.commons.logging.LogFactory.getLog (LogFactory.java:685) at net.paoding.analysis.knife.FileDictionaries.<init> (FileDictionaries.java:55) at net.paoding.analysis.knife.PaodingMaker.readUnCompiledDictionaries (PaodingMaker.java:509) at net.paoding.analysis.knife.PaodingMaker.access$100 (PaodingMaker.java:52) at net.paoding.analysis.knife.PaodingMaker$1.run (PaodingMaker.java:389) at net.paoding.analysis.knife.PaodingMaker$1$1.on (PaodingMaker.java:413) at net.paoding.analysis.dictionary.support.detection.Detector.forceDetecting (Detector.java:114) at net.paoding.analysis.dictionary.support.detection.Detector.run (Detector.java:105) at java.lang.Thread.run(Thread.java:619)
  • Aug 12, 2009
    issue 40 (分词结果 提示分 52537803个词, 控制台只显示了500个) commented on by Lau.Khan   -   知道原因了. print默认=50
    知道原因了. print默认=50
  • Aug 11, 2009
    issue 40 (分词结果 提示分 52537803个词, 控制台只显示了500个) reported by Lau.Khan   -   What steps will reproduce the problem? 1. 我对一个280m的文本文件进行分词, 输出显示 分词器net.paoding.analysis.analyzer.PaodingAnalyzer 内容长度 175154215字符, 分 52537803个词 分词耗时 109219ms 但是控制台只输出了500个, 我想问剩下的这些词怎么导出 What is the expected output? What do you see instead? 没有异常 What version of the product are you using? On what operating system? paoding-analysis-2.0.4-beta windows xp Please provide any additional information below.
    What steps will reproduce the problem? 1. 我对一个280m的文本文件进行分词, 输出显示 分词器net.paoding.analysis.analyzer.PaodingAnalyzer 内容长度 175154215字符, 分 52537803个词 分词耗时 109219ms 但是控制台只输出了500个, 我想问剩下的这些词怎么导出 What is the expected output? What do you see instead? 没有异常 What version of the product are you using? On what operating system? paoding-analysis-2.0.4-beta windows xp Please provide any additional information below.
  • Aug 11, 2009
    issue 13 (請問我能夠加入開發嗎) commented on by virus.warnning   -   阿... 我不要統戰啦 XD 在下只是地球人而已的說 不然我開高達去吉翁軍好了
    阿... 我不要統戰啦 XD 在下只是地球人而已的說 不然我開高達去吉翁軍好了
  • Aug 11, 2009
    issue 13 (請問我能夠加入開發嗎) commented on by riverflorence   -   paoding作者,应该支持此举,这有利于两岸尽快统一.
    paoding作者,应该支持此举,这有利于两岸尽快统一.
  • Aug 09, 2009
    issue 39 (如何获取paoding系统内置的词库中的中英文词) reported by riverflorence   -   请问,如何我的系统基于spring web server程序,如何获取paoding系统内置的词库中的中英文 词? 谢谢.
    请问,如何我的系统基于spring web server程序,如何获取paoding系统内置的词库中的中英文 词? 谢谢.
  • Jul 23, 2009
    issue 38 (出现Type mismatch时是怎么一回事呢???) reported by 867078...@qq.com   -   当我运行第一小例子时,出现以下问题: Exception in thread "main" java.lang.Error: Unresolved compilation problem: Type mismatch: cannot convert from PaodingAnalyzer to Analyzer at gzu.lyq.luceneAnalyzer.PaodingAnalyzer.main (PaodingAnalyzer.java:17) 这和什么有关系呢???请专业人士给予指点!Thank you very very much!
    当我运行第一小例子时,出现以下问题: Exception in thread "main" java.lang.Error: Unresolved compilation problem: Type mismatch: cannot convert from PaodingAnalyzer to Analyzer at gzu.lyq.luceneAnalyzer.PaodingAnalyzer.main (PaodingAnalyzer.java:17) 这和什么有关系呢???请专业人士给予指点!Thank you very very much!
  • Jul 06, 2009
    issue 37 (writerMode无法使用报错) commented on by qieqie.wang   -   应该没有writeMode和queryMode,已经被@Deprecated了吧。 不要在bug系统做使用的交互,到论坛吧
    应该没有writeMode和queryMode,已经被@Deprecated了吧。 不要在bug系统做使用的交互,到论坛吧
  • Jul 06, 2009
    issue 37 (writerMode无法使用报错) commented on by zhangfan...@163.com   -   我更换了lucene版本到2.3.2 writerMode分词效果为:"中华 华人 人民 共和 共和国" queryMode分词效果为:"中华 华人 人民 共和国" 没有出现“中华人民共和国”,这是什么原因 “中华人民共和国”这个词是出现在nation.dic中的 麻烦了
    我更换了lucene版本到2.3.2 writerMode分词效果为:"中华 华人 人民 共和 共和国" queryMode分词效果为:"中华 华人 人民 共和国" 没有出现“中华人民共和国”,这是什么原因 “中华人民共和国”这个词是出现在nation.dic中的 麻烦了
  • Jul 06, 2009
    issue 37 (writerMode无法使用报错) commented on by zhangfan...@163.com   -   我使用的是 lucene-core-2.0.0.jar 您觉得使用lucene哪个版本最合适? 庖丁与lucene对应的版本您的推荐是?
    我使用的是 lucene-core-2.0.0.jar 您觉得使用lucene哪个版本最合适? 庖丁与lucene对应的版本您的推荐是?
  • Jul 06, 2009
    issue 37 (writerMode无法使用报错) Status changed by qieqie.wang   -   "Cannot inherit from final class" 确认Token不是final的,否则把lucene的版本升级一下
    Status: Invalid
    "Cannot inherit from final class" 确认Token不是final的,否则把lucene的版本升级一下
    Status: Invalid
  • Jul 06, 2009
    issue 37 (writerMode无法使用报错) reported by zhangfan...@163.com   -   我使用的是 paoding-analysis-2[1].0.4-beta.zip 代码如下: Paoding paoding = PaodingMaker.make(); Analyzer queryAnalyzer = PaodingAnalyzer.queryMode(paoding); queryMode、maxMode 可以使用但是效果不好 “中华 华人 人民 共和国” defaultMode、writerMode 无法使用 报错为:java.lang.VerifyError: Cannot inherit from final class 麻烦帮忙看看
    我使用的是 paoding-analysis-2[1].0.4-beta.zip 代码如下: Paoding paoding = PaodingMaker.make(); Analyzer queryAnalyzer = PaodingAnalyzer.queryMode(paoding); queryMode、maxMode 可以使用但是效果不好 “中华 华人 人民 共和国” defaultMode、writerMode 无法使用 报错为:java.lang.VerifyError: Cannot inherit from final class 麻烦帮忙看看
  • Jun 08, 2009
    issue 35 (用poading 对“万科金御华府”进行分词(问题一)) commented on by seal_bir...@sohu.com   -   还请 qieqie 能不能多考滤一下啊,谢谢你为大家开发了一个这样的好分词系统,还有一个问题分词中能不能 加入消歧的一些功能
    还请 qieqie 能不能多考滤一下啊,谢谢你为大家开发了一个这样的好分词系统,还有一个问题分词中能不能 加入消歧的一些功能
  • Jun 08, 2009
    issue 35 (用poading 对“万科金御华府”进行分词(问题一)) commented on by seal_bir...@sohu.com   -   像“万科金御华府”我把“府”字删除掉,就能分“金御”出来了,而多一个“府”就分不出来,要是类似这 种情况能分出来多好啊,这样就不会出现有些文档找不出来了
    像“万科金御华府”我把“府”字删除掉,就能分“金御”出来了,而多一个“府”就分不出来,要是类似这 种情况能分出来多好啊,这样就不会出现有些文档找不出来了
  • Jun 08, 2009
    issue 35 (用poading 对“万科金御华府”进行分词(问题一)) commented on by seal_bir...@sohu.com   -   像万科金御华我把府字删除掉,就能分金御出来了
    像万科金御华我把府字删除掉,就能分金御出来了
  • Jun 08, 2009
    issue 35 (用poading 对“万科金御华府”进行分词(问题一)) commented on by seal_bir...@sohu.com   -   但可能有好多这些未在词库中出现的词(未登陆词),而又想能够分词出来,这种想法可行吗
    但可能有好多这些未在词库中出现的词(未登陆词),而又想能够分词出来,这种想法可行吗
  • Jun 08, 2009
    issue 36 (用poading 对“万科管理合同”进行分词_高亮问题(问题二) ) commented on by seal_bir...@sohu.com   -   谢谢 qieqie
    谢谢 qieqie
  • Jun 08, 2009
    issue 35 (用poading 对“万科金御华府”进行分词(问题一)) commented on by qieqie.wang   -   把“金御”纳入词库才能成。
    把“金御”纳入词库才能成。
  • Jun 08, 2009
    issue 35 (用poading 对“万科金御华府”进行分词(问题一)) commented on by seal_bir...@sohu.com   -   环境 词库中有 “万科金御华府”,“万科”“华府” 分词结果 万科 华府 万科金御华府 就是金御未能成词,我希望的结果包括 万科/华府/金御/万科金御华府,不知这样描述是否可以明白
    环境 词库中有 “万科金御华府”,“万科”“华府” 分词结果 万科 华府 万科金御华府 就是金御未能成词,我希望的结果包括 万科/华府/金御/万科金御华府,不知这样描述是否可以明白
  • Jun 08, 2009
    issue 36 (用poading 对“万科管理合同”进行分词_高亮问题(问题二) ) commented on by qieqie.wang   -   看看这里说的方法是否有效? http://blog.csdn.net/vstree/archive/2009/02/07/3868053.aspx
    看看这里说的方法是否有效? http://blog.csdn.net/vstree/archive/2009/02/07/3868053.aspx
 
Hosted by Google Code