OCR Report
Datei | Beschreibung | Größe | Format | |
---|---|---|---|---|
WeSIS_Technical_Papers_No 07_Skitalinskaya et al.pdf | 1.63 MB | Adobe PDF | Anzeigen |
Autor/Autorin: | Skitalinskaya, Gabriella Düpont, Nils |
Herausgeber: | SFB Globale Entwicklungsdynamiken von Sozialpolitik (SFB 1342) | Zusammenfassung: | Many social science researchers face the challenge of dealing with textual data that is only available on actual paper or ill-scanned PDF files, and require knowledge of image processing techniques and optical character recognition (OCR) software to obtain satisfactory results to enable further automated text post-processing. Based on sample scans of researches at the Collaborative Research Center “Global Dynamics of Social Policy” (SFB 1342), we compare the results of several open-source and commercial tools available for OCR. We evaluate each tool’s performance across three tasks, namely extracting plain text, recognizing the text style and its structure (hOCR), and extracting tables focusing not only the ability to accurately retrieve data from each cell but also the ability to properly capture the table layout. In this report, we summarize our findings and give recommendations for consideration when planning OCR projects. |
Schlagwort: | optical character recognition; computational social sciences; software tools | Veröffentlichungsdatum: | Feb-2021 | Projekt: | SFB Globale Entwicklungsdynamiken von Sozialpolitik (SFB 1342) | Sponsor / Fördernde Einrichtung: | Deutsche Forschungsgemeinschaft (DFG) | Projektnummer: | 374666841 | Serie: | Wesis - technical papers | Band: | 7 | Dokumenttyp: | Bericht, Report | Zweitveröffentlichung: | no | DOI: | 10.26092/elib/1517 | URN: | urn:nbn:de:gbv:46-elib59127 | Institution: | Universität Bremen | Fachbereich: | Zentrale Wissenschaftliche Einrichtungen und Kooperationen | Institut: | SFB Globale Entwicklungsdynamiken von Sozialpolitik (SFB 1342) |
Enthalten in den Sammlungen: | Forschungsdokumente |
Seitenansichten
275
checked on 27.11.2024
Download(s)
183
checked on 27.11.2024
Google ScholarTM
Prüfe
Diese Ressource wurde unter folgender Copyright-Bestimmung veröffentlicht: Lizenz von Creative Commons