INDIHU OCR

Badatelé se často setkávají se zajímavou informací obsaženou v digitalizovaných dokumentech, se kterou by potřebovali dále pracovat v textové podobě. Proto byl v rámci projektu INDIHU integrován open source OCR mechanismus do snad použitelného webového rozhraní, které umožní transformaci digitálního obrazového obsahu do formy, která by umožnila full-textové vyhledávání a další práci jako s běžným textovým souborem. V současné době umožňuje nástroj INDIHU OCR rozpoznávat texty z latiny, češtiny, ruštiny, němčiny, angličtiny, slovenštiny a francouzštiny.

Online verze k volnému využití: https://ocr.indihu.cz/

Technické informace: https://github.com/LIBCAS/INDIHU-OCR/wiki

Projekt je součástí platformy INDIHU

Jedním z viditelných trendů v oblasti sociálních a humanitních věd je digitalizace sbírek v paměťových institucích i na vědeckých pracovištích. Otázky, které jsou spojené s dostupností digitálních sbírek pro badatele a studenty a s jejich dalším využitím pro badatelské využití řeší vznikající platforma INDIHU, která je vyvíjena v rámci projektu financovaného z programu MK ČR NAKI II. V jednotném online webovém vyhledávacím rozhraní budou dostupné doposud izolované digitální sbírky institucí zapojených do projektu. Badatelé tak budou moci jednoduše procházet sbírkami archeologů, etnografů, sbírkami umění apod. Součástí portálu budou také další nástroje, které vznikají v rámci projektu INDIHU umožňující vytváření virtuálních výstav, osobní znalostní bázi a provádění OCR ve webovém rozhraní.

Více informací naleznete na stránce projektu: https://indihu.cz/