
tesseract-polish
This project aims to develop high quality data files for Polish language support for Tesseract OCR.
Included are the sources for sample documents, utilities to process and prepare dictionary data for compilation into DAWG format etc.
If you simply want the latest working Polish data files for Tesseract, grab them from respective SVN directory here: http://tesseract-polish.googlecode.com/svn/trunk/tessdata/
If you want to participate in the training process, see the README first.
Ten projekt ma na celu opracowanie wysokiej jakości plików danych języka Polskiego dla programu Tesseract OCR.
Projekt obejmuje źródła dokumentów użytych do treningu OCR-a, narzędzie służące do przetwarzania danych słownikowych i przygotowania ich do kompilacji do formatu DAWG itd.
Jeśli chcesz po prostu pobrać najnowsze działające pliki danych dla języka Polskiego do Tesseract-a, znajdziesz je w odpowiednim katalogu w repozytorium SVN: http://tesseract-polish.googlecode.com/svn/trunk/tessdata/
Jeśli chcesz przyłączyć się do prac nad danymi, przeczytaj najpierw plik README.
Instrukcje jak pomóc w rozwoju projektu można znaleźć na tej stronie Wiki: TrainingPl
Project Information
- License: Apache License 2.0
- 12 stars
- svn-based source control
Labels:
OCR
Utility
tesseract
boxfile
opticalcharacterrecognition
characterrecognition
Linguistics