Tesseract (software)

Tesseract
	Tesseract 4.1.1 reading an image.
Original author(s)	Ray Smith, Hewlett-Packard
Developer(s)	Google and others
Stable release	5.5.0 / 10 November 2024
Repository	github.com/tesseract-ocr/tesseract.git ;
Written in	C and C++
Operating system	Linux, Windows, and macOS
Available in	Interface: English ; Recognition: Afrikaans, Albanian, Arabic, Azerbaijani, Basque, Belarusian, Bengali, Bulgarian, Catalan, Czech, Cherokee, Croatian, Danish, Dutch, English, Esperanto, Estonian, Finnish, French, Galician, German, Greek, Hindi, Hebrew, Hungarian, Indonesian, Italian, Japanese, Kannada, Korean, Latvian, Lithuanian, Malayalam, Macedonian, Maltese, Malay, Norwegian, Polish, Portuguese, Romanian, Russian, Serbian, Slovak, Slovenian, Spanish, Swahili, Swedish, Tagalog, Tamil, Telugu, Thai, Turkish, Ukrainian, Vietnamese (more can be added using included training files)
Type	Optical character recognition
License	Apache License 2.0
Website	github.com/tesseract-ocr

Tesseract is an optical character recognition engine for various operating systems.^[5] It is free software, released under the Apache License.^[1]^[6]^[7] Originally developed by Hewlett-Packard as proprietary software in the 1980s, it was released as open source in 2005 and development was sponsored by Google in 2006.^[8]

In 2006, Tesseract was considered one of the most accurate open-source OCR engines available.^[7]^[9]

^ ^a ^b Google (2008). "tesseract-ocr". GitHub. Retrieved 8 March 2016.
^ "Release 5.5.0 · tesseract-ocr/tesseract". Retrieved 11 November 2024.
^ "Languages supported in different versions of Tesseract". Archived from the original on 8 August 2022. Retrieved 21 November 2022.
^ "Tesseract documentation – Traineddata files ... – Language data files for Tesseract". Archived from the original on 5 September 2022. Retrieved 21 November 2022.
^ Kay, Anthony (July 2007). "Tesseract: an Open-Source Optical Character Recognition Engine". Linux Journal. Retrieved 28 September 2011.
^ Vincent, Luc (August 2006). "Announcing Tesseract OCR". Archived from the original on 26 October 2006. Retrieved 26 June 2008.
^ ^a ^b Canonical Ltd. (February 2011). "OCR". Retrieved 11 February 2011.
^ Announcing Tesseract OCR - The official Google blog
^ Willis, Nathan (September 2006). "Google's Tesseract OCR engine is a quantum leap forward". Archived from the original on 28 May 2022. Retrieved 18 July 2008.

Tesseract 4.1.1 reading an image.
Original author(s)	Ray Smith, Hewlett-Packard^[1]
Developer(s)	Google and others

Stable release	5.5.0^[2] / 10 November 2024

Repository	github.com/tesseract-ocr/tesseract.git
Written in	C and C++
Operating system	Linux, Windows, and macOS
Available in	Interface: English Recognition: Afrikaans, Albanian, Arabic, Azerbaijani, Basque, Belarusian, Bengali, Bulgarian, Catalan, Czech, Cherokee, Croatian, Danish, Dutch, English, Esperanto, Estonian, Finnish, French, Galician, German, Greek, Hindi, Hebrew, Hungarian, Indonesian, Italian, Japanese, Kannada, Korean, Latvian, Lithuanian, Malayalam, Macedonian, Maltese, Malay, Norwegian, Polish, Portuguese, Romanian, Russian, Serbian, Slovak, Slovenian, Spanish, Swahili, Swedish, Tagalog, Tamil, Telugu, Thai, Turkish, Ukrainian, Vietnamese ^[3] (more can be added using included training files)^[4]
Type	Optical character recognition
License	Apache License 2.0
Website	github.com/tesseract-ocr