| Projects on Google Code | Results 1 - 10 of 16 |
ahkimkoo search engine.基于python的垂直搜索引擎
Email/MSN:successage@gmail.com
QQ:419117039
imdict-chinese-analyzer 是 [http://www.imdict.net/ imdict智能词典] 的智能中文分词模块,算法基于隐马尔科夫模型(Hidden Markov Model, HMM),是中国科学院计算技术研究所的[http://ictclas.org/ ictclas]中文分词程序的重新实现(基于Java),可以直接为lucene搜索引擎提供*简体中文*分词支持。
=Apache Lucene的中文分词=
[http://lucene.apache.org Apache Lucene]是java实现的一个高效的文本搜索引擎软件,它适用于几乎所有要求全...
信息检索
= 信景智能检索提示及纠错源码说明 =
智能检索提示是指当用户在浏览器的搜索栏中输入关键词的前部分内容时,服务器便对其可能的完整输入内容进行猜测,并显示在搜索栏下以便用户快速选择;同时,如果用户的输入存在错误,程序也会在允许范围内尝试纠错,最终返回给用户可能的正确结果。智能提示和纠错已经是一款成功的商业搜索引擎不可或缺的重要功能。本源码由广州信景技术有限公司开发发布,实现了智能检索提示的基本功能。在*_Source_*中您可以下载到整套工程原码,在*_Downloads_*中还有配套组件可供下载。了解更多更丰富的产品请登录:http://www.infoscape.com.cn/
...
=注:最新的分词系统 HTTPCWS 已经发布,用来取代 PHPCWS。=
=请点击以下网址下载 HTTPCWS:=
=http://code.google.com/p/httpcws=
=原来的 PHPCWS 停止更新。=
----
==Introduction in English==
PHPCWS is a open-source PHP Extension for Chinese Word Segmentation, using ICTCLAS Chinese word segmentation algorithms and Reverse maxi...
php,
expansion,
chinese,
word,
segmentation,
phpcws,
ICTCLAS,
中文分词,
分词,
PHP扩展,
汉语分词,
搜索引擎,
全文索引,
china,
CJK
分布式互联网搜索引擎——垂直搜索引擎:
开发人员:陈宇新、侯俊洁、叶龙波
指导老师:许昊、王敏
开发工具:Microsoft Visual Studio 2005、
Microsoft SQL Server 2005、
Microsoft Office Visio 2003等
版权所属,广东轻工职业技术学院信息071班所有
==Introduction in English==
HTTPCWS is a open-source Chinese Word Segmentation System Based on the HTTP protocol, using ICTCLAS Chinese word segmentation algorithms.
ICTCLAS is a Chinese lexical analysis system, which is able to make Chinese word segmentation, Part-Of-Speech tagging, word ...
php,
expansion,
chinese,
word,
segmentation,
phpcws,
httpcws,
ICTCLAS,
中文分词,
分词,
汉语分词,
搜索引擎,
全文索引,
china,
CJK
Caokun.com Chinese Search Engine
==基于ICTCLAS的中文分词程序MyCLAS和用户词典管理程序MyDict==
===1. 介绍:===
1) 中科院计算所开发的中文分词和词性标注程序*ICTCLAS*,在性能和准确性上都较优;但是由于使用C语言开发,因此如果需要在Web应用程序使用ICTCLAS分词结果的话,将不是很方便。
为了解决该问题,我借助于共享版ICTCLAS提供的API使用C语言开发了简易的中文分词和词性标注程序: *MyClas* 。
它可以从标准输入中获取要处理的字符串,然后进行分词和词性标注,并将结果输出到标准输出中。
这样,假如需要在PHP编写的Web应用程序中对一个字符...
基于linkNum/textNum比例的网页去噪
==1. 介绍:==
===1) xpspider===
对于一个非hub页,除了正文之外,在周边通常存在一些链接或者广告等"噪声"信息。通过编写正则表达式可以方便且准确地对正文进行抽取(例如工具:[http://code.google.com/p/xpspider/ xpspider]),但是需要具备正则表达式知识。
===2) 本工具采用了一种基于统计学的新方法:===
> 首先对获取的HTML代码创建DOM树;
> 然后深度优先遍历DOM树,对每个结点统计其包含的链接数目linkNum和包含的非连接的文字个数t...