My favorites | Sign in
Project Home Downloads Wiki Issues Source
Search
for
VimimDirectorydata  
VimIM 支持海量词库,不耗内存/CPU
Updated Aug 25, 2011 by maxiangjiang

VimIM 全新推出并鼎立支持〖目录词库〗(updated on Jan 30, 2011)

有一种说法,玩拼音输入,其实就是玩词库。
没有海量词库,拼音水平再高也可能无用武之地。

搜狗的所谓细胞词库之所以红旗飘飘,就是因为找到了正确的方向。
问题是,细胞词库既不开源,也不是文本文件,不折腾根本就打不开。

虽说拼音词库太小不实用,但并不是越大越好。
理想的拼音词库是又大又精,适合自己的打字要求。

不过,大有大的难处。难处之一是耗启动时间。难处之二是耗内存。

理想的拼音输入法是支持海量词库,但不耗内存/CPU,更不占启动时间。
理想中文输入法自然应该支持中文搜索。
理想的中文输入法并不是不存在。


- VimIM〖目录词库〗慨述:

 (1) 目录词库可以作为 VimIM 独立的后端。
 (2) 词库只占磁盘,不占内存,不耗CPU
 (3) 词库大小无限制,不影响Vim/VimIM的操作。
 (4) 词库格式简单朴素:文件名就是键码,文件内容就是词库。
 (5) 输入中文,搜索中文,VimIM访问的仅仅是所敲的键码文件。
 (6) 目录词库也可以自己做。VimIM自带批量生产目录词库的工具。
 (7) 目录词库可以随意扩展。需要备份的只是一个私人词库文本文件。
 (8) 词库存储管理归操作系统全权负责。

- 〖目录词库〗的代价 —— 有得必有失

 (1) 占磁盘空间。
 (2) 占磁盘空间。
 (3) 占磁盘空间。
 (4) 展开压缩文件也费时间。

- 〖目录词库〗的代价的理解:

 (1) 虽说占磁盘空间,但丝毫不影响Vim的正常操作。
 (2) VimIM根本不用启动整个词库。
 (3) 权当是一个DVD. 反正磁盘闲着也是闲着。
 (4) 目录词库可以下载,词库弄丢了也不可惜。

- 〖目录词库〗使用方式:【注】插上的是文件夹

 (1) 文本程式:$VIM/vimfiles/plugin/vimim.vim
 (2) 拼音目录词库:$VIM/vimfiles/plugin/pinyin/
 (3) 目录词库测试:$VIM/vimfiles/plugin/pinyin/pinyin 是文本文件
 (4) 目录词库位置可以随意设置: :let g:vimim_data_directory='/pinyin/'

- 〖目录词库〗下载网址:

 + http://vimim-data.googlecode.com/svn/trunk/data/pinyin.bz2

- 〖目录词库〗压缩文件的展开方式:【注】费时间, 打完球回来再看结果。

 + tar -xvjf pinyin.bz2

- 【小技巧】在不同电脑之间复制【目录词库】

 (1) 【目录词库】动辙好几个GB, 压缩后其实只有十几个MB
 (2) 【目录词库】复制貌似不现实,其实非常简单,只需 nc 和 tar
 (3) 如有兴趣,可以研究一下 nc.  笔者用的命令如下:
      (3.1) 电脑甲:tar cjf - /home/vimim | nc -v -l -p 1111
      (3.2) 电脑乙:nc -v 192.168.1.103 1111 | tar xjvf -
 (4)  几个命令,融入unix诸多智慧。在微软视窗下,可以用cygwin


- 拼音〖目录词库〗的大小:

 (1) 总字条和词条:二百六十五万 -- (2,658,521 words in Chinese)
 (2) 原始文本文件:43MB on disk -- vimim.pinyin.txt
 (3) 文本压缩文件:14MB on disk -- vimim.pinyin.txt.bz2
 (4) 目录压缩文件:17MB on disk -- pinyin.bz2
 (5) 目录展开大小: 5GB on disk -- pinyin/  (1,335,991 files)

- 〖目录词库〗的来源以及制作方式:

 $ mkdir $VIM/vimfiles/plugin/vimim
 $ cd    $VIM/vimfiles/plugin/vimim/
 $ wget http://pimcloud.googlecode.com/hg/server/quanpin2.txt
 $ wget http://pimcloud.googlecode.com/hg/server/quanpin3.txt
 $ wget http://pimcloud.googlecode.com/hg/server/quanpin4.txt
 $ wget http://vimim-data.googlecode.com/svn/trunk/data/pinyin1234.txt
 $ cat  quanpin*.txt pinyin1234.txt > vimim.pinyin.txt
 $ vim  -E -n -c ":call g:vimim_tool_one_line_per_key()" -c "x" vimim.pinyin.txt
 $ http://vimim.googlecode.com/svn/vimim/vimim.html#utility
 $ g:vimim_tool_one_line_per_key(file_in, file_out)

欢迎批评指正。

【实验器材】 vimim.vim
 
vimim
电脑:Windows32_builtin_gui 
版本:vimim.vim=6952  gvim.exe=703 
编码:utf-8 ucs-bom,utf8,chinese 
字体:YaHei_Consolas_Hybrid,NSimSun-18030 
环境:English_United States.1252 
风格:Tab_as_OneKey_NonStop 
词库:标准字库:/home/xma/hjkl/vimim.cjk.txt 
词库:英文词库:/home/xma/hjkl/vimim.txt 
词库:目录词库:/home/vimim/pinyin/ 
输入:点石成金 拼音 VimIM 
搜狗:想云就云 
设置: 
:let g:vimim_data_directory='/home/vimim/pinyin/' 
:let g:vimim_hjkl_directory='/home/xma/hjkl/' 
:let g:vimim_digit_4corner=1 
:let g:vimim_onekey_is_tab=2 
:let g:vimim_onekey_hit_and_run=0 

Comment by nswut...@gmail.com, Jan 1, 2011

windows上,不行啊。。有目录词库就打开不了gvim了。。而且打开那个目录explorer也会卡死。。

Comment by l...@163.com, May 11, 2011

用linux吧,windows处理大文件本来就低效,几G不卡才怪呢。用windows的没理由不知道。

Comment by monkey.t...@gmail.com, May 23, 2011

额,在Linux用目录词库的时候也是死了……vi根本打不开……

Comment by rongyi.c...@gmail.com, Nov 17, 2011

额,那个词库本人下不下来阿!


Sign in to add a comment
Powered by Google Project Hosting