Till startsida
Webbkarta
Till innehåll Läs mer om hur kakor används på gu.se

A test platform for OCR-production

Seminarium

2017 utvecklade Kungliga biblioteket (KB) tillsammans med det norska mjukvaruföretaget Zissor en testplattform för OCR-produktion. KB och Språkbanken har nu beviljats finansiering från Riksbankens jubileumsfond för att genomföra en utvärdering och föreslå områden för vidareutveckling av denna modul i ett projekt som börjar 2019. Välkommen på ett seminarium där Zissors VD Ove Dirdal tillsammans med Lars Björk och Torsten Johansson från KB demonstrerar OCR-modulen och diskutera dess funktionalitet.

In 2017 the National Library of Sweden (KB) together with the Norwegian software company Zissor (www.zissor.com) developed a test platform for OCR-production (the OCR-module). KB and Språkbanken was granted funding from Riksbankens Jubileumsfond for carrying out evaluation and propose areas for further development of this module in a project starting 2019.

The underlying principle of the OCR-module is to utilise the individual differences in capacity of two commonly used OCR-programs: ABBYY FineReader (https://www.abbyy.com/en-eu/) and Tesseract (https://github.com/tesseract-ocr/) by processing the image-file with the two programs, comparing the results (on the word level) and choosing the word that has the highest validity according to a scoring system. This process is performed for each word in the text, resulting in three Aalto-files; one for each OCR-program and a third with the combined result. The OCR-module is based on one of Zissor's commercial products – Zissor Content System – an article segmentation application that allows for a high level control of the segmentation and zoning process.

The three files have identical coordinates for each individual word, thereby enabling a robust link between the word as print and the word as XML. This makes it possible to closely monitor the effects on the performance/error rate caused by adjusting dictionaries, parameters relating to language use and features in the typography and lay-out of the newspapers being processed. The module will also produce statistics for each processed page as to error on word level.

At this seminar Ove Dirdal, CEO at Zissor, will demonstrate the OCR-module and discuss its functionality, he will be accompanied by Lars Björk (Program manager for digitisation) and Torsten Johansson (Head of Division for Newspaper, Radio and TV), both at KB.

Föreläsare: Ove Dirdal, VD på Zissor, Lars Björk och Torsten Johansson från Kungliga biblioteket

Datum: 2018-12-13

Tid: 13:15 - 15:00

Kategorier: Humaniora, Språk

Arrangör: Institutionen för svenska språket

Plats: Lennart Torstenssonsgatan 6-8
L307

Kontaktperson: Dana Dannélls

Sidansvarig: |Sidan uppdaterades: 2018-10-03
Dela:

På Göteborgs universitet använder vi kakor (cookies) för att webbplatsen ska fungera på ett bra sätt för dig. Genom att surfa vidare godkänner du att vi använder kakor.  Vad är kakor?