| Projects on Google Code | Results 1 - 10 of 10 |
System of adaptive segment analysis.
Currently system consist of kernel and 6 functionality modules:<br>
<ul>
<li> Module image statistic analysis </li>
<li> Module filtering of images</li>
<li> Module "Segment fill"</li>
<li> Module "Snail fill"</li>
<li> Module assessing the quality of ...
ictclas4j中文分词系统是sinboy在中科院张华平和刘群老师的研制的FreeICTCLAS的基础上完成的一个java开源分词项目,简化了原分词程序的复杂度,旨在为广大的中文分词爱好者一个更好的学习机会。
关于ICTCLAS分词系统的讨论,请访问google group关于ictclas分词系统的讨论组http://groups.google.com/group/ictclas
No..................
基于python的中文分词项目。
第一个版本实现了基于的[http://technology.chtsai.org/mmseg/ MMSEG中文分词算法]Python实现。MMSEG实际上是一个正向最大匹配+多个规则的分词算法。链接给出的几个网站写的很清楚了。在开发过程中我增加了一个规则来处理原来的算法中有可能出现的冲突问题。当所有的规则都无法唯一的确定一个chunk时,优先选择后面比较长的词。开发过程中参照了[http://www.solol.org/projects/mmseg/ MMSEG的Java实现]和[http://rmmseg.rubyforge.org/ ruby实现]。...
Symulacja restoracji segmentu w sieci ATM
A simple program segment chinese Sentence to words
1.由于google code 的svn host很不稳定,hyer代码现在放到github托管。在github的主页是
http://github.com/xurenlu/hyer/tree/master
理所当然地,代码采用git进行版本管理。
SegWord是一个开放项目 ,由其小组成员进行开发维护,稳定版本软件(包括程序与文档)将公开在网络上供参考与交流。下面是其简单介绍:
SegWord为一个分词系统,满足:
(1)分词
(2)获得义性分布
(3)词表自调整
三个目的。 其中
(1)表明该系统可对汉语文本进行分词;这是这个系统的基本属性之一。但是,设计者认为不能为分词而分词,故本系统的研究重点为目的(2)和(3)。
(2)更广泛的看,分词的实质是“组合”,即由小结构组合为大结构并对结构的属性同时进行组合与变换。也就是说,分词不仅要给出词的分割,也应给出这种结构所对应的属性,例如语...
EasyXSpider 是一个简单的Linux下的爬虫程序。
包括了爬虫多线程同时抓取N个网站页面,倒排序索引制作,多条件检索,分词(英文及中文二元法切词),以及Google PageRank算法的实现。
欲了解更多信息,请访问http://www.shootsoft.net
32bits Operating System