kiosterakis.gr +

ΕΝΗΜΕΡΩΣΗ-ΨΥΧΑΓΩΓΙΑ-ΕΚΠΑΙΔΕΥΣΗ

ΜΕ ΜΙΑ ΑΛΛΗ ΜΑΤΙΑ...

Οπτική Επεξεργασία και Ανάλυση Ιστορικών Εγγράφων

Η/Υ και βιβλίαΤο Ετήσιο Βραβείο από το Ινστιτούτο Πληροφορικής και Τηλεματικής (ΙΠΤΗΛ) του Εθνικού Κέντρου Έρευνας και Τεχνολογικής Ανάπτυξης για την καλύτερη διδακτορική διατριβή του 2011 δόθηκε στις 25 Απριλίου στον 28χρονο Νικόλαο Σταματόπουλο, ερευνητή του Εργαστηρίου Υπολογιστικής Ευφυΐας του Ινστιτούτου Πληροφορικής και Τηλεπικοινωνιών του ΕΚΕΦΕ «Δημόκριτος».

Το θέμα της βραβευμένης εργασίας είναι η «Οπτική Επεξεργασία και Ανάλυση Ιστορικών Εγγράφων», μια έρευνα που ανοίγει νέους δρόμους για την ψηφιοποίηση ανεκτίμητων ιστορικών συγγραμμάτων, χειρόγραφων και μη, που αποτελούν έναν από τους βασικούς πυλώνες της πολιτιστικής μας κληρονομιάς.

Τα νέα ευρήματα εκτιμάται ότι θα λύσουν τα χέρια βιβλιοθηκονόμων και ιστορικών που για χρόνια έψαχναν ανάμεσα σε εκατοντάδες χιλιάδες τόμους, για να βρουν την πληροφορία που τους αφορούσε.

Αν τέτοιες τεχνολογίες εφαρμοστούν ευρέως, με ένα και μόνο κλικ σε μια εύχρηστη μηχανή αναζήτησης, ο καθένας μας θα μπορεί να περιηγηθεί στα άδυτα των ιστορικών αρχείων της Ελλάδας και του εξωτερικού ακόμα και από το σπίτι του.

Θα πούμε αντίο στις λίστες αναμονής των βιβλιοθηκών, αφού χιλιάδες χρήστες θα μπορούν να έχουν πρόσβαση στην πολύτιμη πληροφορία ταυτόχρονα, ενώ την ίδια στιγμή θα διατηρούνται σε καλή κατάσταση τα εύθραυστα και ιστορικής αξίας κειμήλια.

Πως όμως γίνεται αυτό στην πράξη;

Ενώ διαβάζετε αυτές τις λέξεις στην οθόνη του υπολογιστή σας, τα μάτια και το μυαλό σας αναγνωρίζουν τους χαρακτήρες χωρίς καν να το αντιλαμβάνεστε.

 

Τα μάτια σας αιχμαλωτίζουν την εναλλαγή φωτός-σκότους από τα οποία αποτελούνται τα γράμματα, τα νούμερα και τα σημεία στίξης, ενώ το μυαλό σας χρησιμοποιεί αυτή την πληροφορία για να καταλάβει τι προσπαθώ να σας εξηγήσω, άλλες φορές διαβάζοντας επιμέρους χαρακτήρες, αλλά συνήθως σαρώνοντας ολόκληρη την λέξη ή ομάδες λέξεων μονομιάς.

Οι υπολογιστές μπορούν να κάνουν το ίδιο, αλλά γι' αυτούς η παραπάνω αβίαστη διαδικασία είναι μια πολύ δύσκολη δουλειά. Το πρώτο πρόβλημα έγκειται στο ότι ο υπολογιστής δεν έχει μάτια, οπότε για να «δει» τη σελίδα ενός βιβλίου πρέπει αυτή να σαρωθεί ή να φωτογραφηθεί.

Έτσι, είτε αυτή η εικόνα εμπεριέχει κείμενο είτε είναι η φωτογραφία της Ακρόπολης, με μια πρώτη ματιά ο υπολογιστής την εκλαμβάνει ως ένα ανούσιο συνονθύλευμα από pixel, τις μικροσκοπικές εκείνες τελείες και τετράγωνα που συνθέτουν κάθε φωτογραφία σε ηλεκτρονική μορφή.

Αδυνατεί λοιπόν να «διαβάσει» τις λέξεις του κειμένου όπως μπορούν τα μάτια μας. Η Οπτική Αναγνώριση Χαρακτήρων ή OCR είναι μια διαδικασία μετατροπής της φωτογραφίας ενός εγγράφου -τυπωμένου ή ακόμα και χειρόγραφου- σε αρχείο κείμενου (αρχείο TXT ή DOC).

Αυτό βέβαια δεν είναι κάτι καινούργιο. Αν διαθέτεις ένα εκθαμβωτικά καθαρό χαρτί Α4, μη βιβλιοδετημένο, με ευδιάκριτους μοντέρνους χαρακτήρες, χωρίς περίτεχνα περιθώρια ή σχέδια, τότε μπορείς να χρησιμοποιήσεις ένα λογισμικό OCR του εμπορίου και με κάποιες μικρές δυσκολίες, διορθώσεις και καθυστερήσεις να καταφέρεις να ψηφιοποιήσεις το κείμενο με επιτυχία.

Τι γίνεται όμως στην περίπτωση «δύσκολων αποστολών», όπως στην επεξεργασία ιστορικών κειμένων ή παλιών χειρογράφων με πυκνή γραφή, αποτυπωμένων σε λεπτό και φθαρμένο χαρτί όπου εναλλάσονται αλφάβητα και γραμματοσειρές;

Λόγω αυτών των δυσκολιών ένας μεγάλος αριθμός ιστορικών συγγραμμάτων και χειρογράφων δεν έχει μελετηθεί ακόμα και η πληροφορία που κρύβουν αυτά τα βαριά σκονισμένα βιβλία παραμένει ανεκμετάλλευτη.

Σε αυτή την πρόκληση ήρθε να δώσει λύσεις η βραβευμένη έρευνα του Καποδιστριακού Πανεπιστημίου Αθηνών και του Ινστιτούτου Πληροφορικής και Τηλεπικοινωνιών του ΕΚΕΦΕ «Δημόκριτος» που διεξήγαγε ο Δρ Σταματόπουλος.

Με επιβλέποντα τον κύριο ερευνητή του «Δημόκριτου» Δρ. Βασίλειο Γάτο, ο Δρ Σταματόπουλος μελέτησε ένα-ένα τα καθοριστικά στάδια που προηγούνται της διαδικασίας ψηφιοποίησης του ιστορικού κειμένου.

Συγκεκριμένα, το μοντέλο που ανέπτυξε εξάλειψε τα «τυπογραφικά» λάθη που εμφανίζονται με τα συνηθισμένα OCR προγράμματα και οφείλονται στην καμπυλότητα των σελίδων σκληρόδετων πολυσέλιδων συγγραμμάτων όσο και στα περίτεχνα περιθώρια και διαχωριστικά των σελίδων. Βελτίωσε τους μηχανισμούς αναγνώρισης διακριτών σειρών και χαρακτήρων, ειδικότερα στις περιπτώσεις χειρόγραφων κειμένων.

Τέλος παρουσίασε μια μέθοδο που διευκολύνει την άμεση ψηφιοποίηση εγγράφων που αποτελούνται από κείμενο και εικόνα.

Ο Δρ Σταματόπουλος σπούδασε Πληροφορική στο Τμήμα Πληροφορικής και Τηλεπικοινωνιών του Εθνικού Καποδιστριακού Πανεπιστημίου Αθηνών, από όπου και έλαβε τον διδακτορικό του τίτλο το 2011.

Με τα ευρήματα της διδακτορικής του διατριβής ανοίγει πόρτα στη διάδοση και αξιοποίηση της ιστορικής γνώσης και την πνευματική καλλιέργεια των Ελλήνων κάνοντας εύκολη και γρήγορη τη μελέτη ιστορικών κειμένων και σπάνιων χειρογράφων.

Ο Δρ Σταματόπουλος θα παραλάβει το Ετήσιο Βραβείο Καλύτερης Διδακτορικής Διατριβής από το Ινστιτούτο Πληροφορικής και Τηλεματικής, αξίας 600 ευρώ, σε εκδήλωση που θα πραγματοποιηθεί το Φθινόπωρο του 2012.

Σχετικά links:

Ιστοσελίδα Εργαστηρίου:

http://cil.iit.demokritos.gr/index.php?option=com_content&view=article&id=7&Itemid=6&lang=el

Διδακτορική διατριβή Δρ. Σταματόπουλου:

http://users.iit.demokritos.gr/~nstam/page_files/Dissertation_greek.pdf

Περίληψη διδακτορικής διατριβής στα αγγλικά:

http://users.iit.demokritos.gr/~nstam/page_files/Dissertation_abstract_en.pdf

Για το Ε.Κ.Ε.Φ.Ε. «Δημόκριτος»

Το Εθνικό Κέντρο Έρευνας Φυσικών Επιστημών (Ε.Κ.Ε.Φ.Ε.) «Δημόκριτος» είναι το μεγαλύτερο, πολυκλαδικό ερευνητικό κέντρο της χώρας, με σημαντικές ερευνητικές, τεχνολογικές και εκπαιδευτικές δραστηριότητες στους τομείς: Υγεία, Βιολογία & Βιοτεχνολογία, Νέα Υλικά, Μικροηλεκτρονική & Νανοτεχνολογία, Περιβάλλον - Ενέργεια & Βιώσιμη Ανάπτυξη, Πληροφορική & Τηλεπικοινωνίες, Πυρηνική Φυσική & Φυσική Στοιχειωδών Σωματιδίων, Πυρηνική Τεχνολογία & Ακτινοπροστασία, Πολιτιστική Κληρονομιά.

Για περισσότερες πληροφορίες:

Ε.Κ.Ε.Φ.Ε. "Δημόκριτος"

Γραφείο Δημοσίων Σχέσεων και Τύπου

Τηλ. 210-650-3002, 3040

Fax: 210-650-3260

E-mail: Αυτή η διεύθυνση ηλεκτρονικού ταχυδρομείου προστατεύεται από τους αυτοματισμούς αποστολέων ανεπιθύμητων μηνυμάτων. Χρειάζεται να ενεργοποιήσετε τη JavaScript για να μπορέσετε να τη δείτε.

Σχετικά άρθρα

Online Επισκέπτες

Αυτήν τη στιγμή επισκέπτονται τον ιστότοπό μας 177 guests και κανένα μέλος

Πολιτική απορρήτου...

Ο ιστότοπος αυτός, χρησιμοποιεί μικρά αρχεία που λέγονται cookies τα οποία βοηθούν να βελτιωθεί η περιήγησή σας. Αν συνεχίσετε να χρησιμοποιείτε αυτόν τον ιστότοπο, θα υποθέσουμε ότι συμφωνείτε με αυτή την πολιτική...