ПередісторіяІсторично склалося так, що існує два українських словника для ispell та два для aspell причому обидва варіанти останнім часом майже не супроводжувалися. Першим джерелом орфографії вільного ПЗ був словник ispell-uk, який після кропіткої роботи на початку 2000-х років отримав дуже розвинену систему афіксів, що давало декілька переваг через нормалізацію словника: - Генерація 10-20 словоформ при додаванні одного слова і декількох прапорців афіксів
- Зменшення байтового розміру словника майже на порядок
- З'явилися додаткові можливості автоматизовного манипулювання словником за допомогою скриптів
Тоді само словник було декілька раз перевірено іншими програмами перевірки орфографії для відшліфовки правил та очищення словарного запасу. В той же час почав активно розвиватися aspell, який не підтримував систему афіксів і таким чином для якого напрацювання ispell могли бути використані лише частково, тобто як набір слів. Оскільки розробники ispell-uk не виявили зацікавленості в програмі, яка не могла використати їх роботу, іншою командою було створено альтернативний aspell-uk, в який окрім бази з ispell-uk було додано багато інших слів з різних джерел, а також було створено альтернативний ispell-uk (ispell-uk-a) на цій розширеній базі, але без розвиненої системи правил афіксів. Пізніше команда ispell-uk також вирішила додати підтримку aspell і словник ispell-uk отримав підгілку aspell-uk-a. Через деякі непорозуміння та суперечку щодо джерел для словників та підходах до розробки одидві команди деякий час працювали окремо, та з часом обидва проекти уповільнилися майже до нуля. Причому обидва прокти (ispell-uk + aspell-uk-a та aspell-uk + ispell-uk-a) не мали своїх веб-сторінок, що ще більш ускладнювало вибір для користувачів. Наслідком стало те, що різні дистрибутиви та пакунки ПО використовують різні словники правопису. Іще однією відмінністю словника ispell-uk на відміну від інших проектів була його ціль: "знаходити якомога більше помилок, а не налічувати якомога більше слів". Витоки.Оскільки aspell версії 0.60 почав підтримувати афікси, а розробка ispell практично зупинилася, виникла ідея взяти за основу більш досконалий словник ispell-uk, зконвертувати його під новий aspell, спробувати об'єднати всі зусилля та продовжити розробку одного словника всіма зацікавленими, пропонуючи уніфіковану базу словника та єдине місце розробки і веб-сторінку. Спочатку було запропоновано облишити ispell, щоб не утримувати два різних проекти, але був написаний скрипт, який дозволяє створювати правила афіксів для ispell з формату правил для aspell. Крім того початкові файли були переведені в utf-8 і, оскільки ispell підтримує лише 8-бітні кодування та й деякі платформи не мають підтримки utf-8 з українською локаллю, ((Encodings in perl without locales| була створена можливість генерувати інші кодування)). Щоб не тягнути старі ганчірки, та дещо спростити проект, було вирішено перегенерувати його заново і залишити старий ispell-uk на старому місці, можливо, обмеживши доступ до нього в режимі тільки для читання. Поточний стан.Таким чином, на поточний момент проект aspell-uk може генерувати три типи словників: - aspell-uk
- myspell-uk / hunspell-uk
- ispell-uk
в майже будь-якому вихідному кодуванню (UTF-8, KOI8-U, CP1251 ...). Словник налічує (на 2007.07.29) близько 90,000 слів або близько 1,000,000 словоформ. Оскільки останні ispell-uk, aspell-uk та myspell-uk мали версії 0.7, 0.50 та 1.0.2, щоб синхронізувати версію було взято "1.1" за початкову версію об'днаного проекту. Найближчі цілі.- Протестувати систему генерування пакунків rpm (та, можливо, інших), та створити їх для інших платформ
- Інтергрувати словник перенесення слів з myspell/OO
- Створити кращі умови для інтеграції в OpenOffice та Mozilla Firefox і Thunderbird
- Нормалізувати та додати нові слова з інших іcнуючих словників, якщо це не суперечить ліцензіям.
- Завершити роботу над правилами: залишилось декілька випадків іменників та декілька варіантів дієслів, що не підпадають під поточні правила
- Додавати нові слова.
Віддалені цілі.- Створити, наскільки це можливо, автоматизований механізм для перевірки та нормалізації нових слів
Стратегічні правила.- Ліцензійна чистота вжитих словників (власне, враховуючи, що з інших словників буде братися невелика частина, яка відсутня в aspell-uk, а нові слова будуть проходити досить сильну обробку через перевірку та нормалізацію, це не має бути сильною проблемою).
- Висока нормалізація словника.
- Притримуватися правила „знаходити якомога більше помилок, а не налічувати якомога більше слів“, якщо є непевність, краще залишити слово поза словником, ніж його додати.
|