Μια ευφυής πλατφόρμα τεχνητής νοημοσύνης που έχει ως αποστολή την ψηφιακή απεικόνιση και διαχείριση των κειμένων ιστορικών ελληνικών βιβλίων, γραμμένων στο πολυτονικό σύστημα, ανέπτυξε η ομάδα Ψηφιακής Επεξεργασίας Εγγράφων του Εργαστηρίου Υπολογιστικής Νοημοσύνης του Εθνικού Κέντρου Φυσικών Ερευνών «Δημόκριτος». Η εφαρμογή θα παρουσιαστεί στο πλαίσιο του «Athens Science Festival», που θα πραγματοποιηθεί έως αύριο Κυριακή 21 Απριλίου, στην Τεχνόπολη του δήμου Αθηναίων.
Η πλατφόρμα δημιουργήθηκε στο πλαίσιο του έργου «reBook», το οποίο υλοποιείται σε συνεργασία με τον Σύνδεσμο Διανομής Χρήσιμων Βιβλίων (SÓB) και το Innews, στο πλαίσιο του ΕΣΠΑ 2014-2020. Στόχος του έργου είναι η ανάπτυξη νέων τεχνικών και μεθοδολογιών για την αναγνώριση κειμένων, κυρίως γραμμένων στο πολυτονικό σύστημα, για σκοπούς επιστημονικής τεκμηρίωσης της πολιτιστικής κληρονομιάς.
Χρησιμοποιώντας την εφαρμογή, οι ερευνητές του Δημόκριτου ψηφιοποιούν και αναδημοσιεύουν ψηφιακά περίπου 100 βιβλία από τα αρχεία του SOB που χρονολογούνται από τις αρχές του 20ου αιώνα. Αυτά περιλαμβάνουν τη συλλογή Επιστολαί των Πρωτοψαλτών του Αδαμάντιου Κοραή, που εκδόθηκε το 1911 και επανεκδόθηκε το 1959, και το βιβλίο Η Ελληνικότητα των Νομών Προυσίας και Σμύρνης του Παντελή Κοντογιάννη, που πρωτοεκδόθηκε το 1919.
Οι εικόνες των σαρωμένων βιβλίων αποστέλλονται στην εφαρμογή και, στη συνέχεια, με τη χρήση τεχνητής νοημοσύνης, αναγνωρίζεται το κείμενο κάθε εικόνας, ακόμα κι αν είναι γραμμένο σε σύστημα πολλαπλών τόνων. Επιπλέον, κατά το στάδιο προεπεξεργασίας κάθε εικόνας, η εφαρμογή διορθώνει τυχόν προβλήματα που μπορεί να προκύψουν με την εικόνα του βιβλίου, από τη λοξή σάρωση έως τη διόρθωση ξεθωριασμένων σελίδων.
«Υπάρχει ένας τεράστιος αριθμός βιβλίων που δεν είναι διαθέσιμα ψηφιακά και θέλουμε να τα κάνουμε διαθέσιμα και να φέρουμε στην επιφάνεια έγγραφα που βρίσκονται σε ντουλάπια και στα ράφια της βιβλιοθήκης. Στόχος μας, λοιπόν, είναι να φέρουμε τα βιβλία ιστορίας στο ευρύ κοινό και τους ερευνητές». , εξηγεί στο ΑΠΕ-ΜΠΕ η Κατερίνα Χριστοπούλου, διδάκτωρ οικολογίας τοπίου και επιστημονική συνεργάτης της «Δημοκρίτου».
Εξηγώντας την αξία της εφαρμογής, η κ. Χριστοπούλου επισημαίνει ότι «δεν βλέπουμε απλώς ένα αρχείο PDF με εικόνα της σελίδας, αλλά πίσω από την εικόνα υπάρχει οπτική αναγνώριση χαρακτήρων (OCR), ώστε ο αναγνώστης να μπορεί να χρησιμοποιήσει μέρη του αρχείο ή αναζήτηση σε αυτό το αρχείο.” Όμως η μεγάλη διαφορά στην εφαρμογή είναι «διαβάζοντας το πολυτονικό σύστημα».
Δεν είναι η πρώτη φορά που το Εργαστήριο Υπολογιστικής Νοημοσύνης του Δημοκρίτειου Ινστιτούτου Πληροφορικής και Τηλεπικοινωνιών ασχολείται με την επεξεργασία και την αναγνώριση ιστορικών εγγράφων. Στο πλαίσιο σχετικού έργου, που πραγματοποίησε σε συνεργασία με το Πανεπιστήμιο Κύπρου, άρχισε να ψηφιοποιεί πολυτονικά κείμενα από περίπου 150 εκδόσεις έργων του Σαίξπηρ στα ελληνικά με την ίδια μέθοδο. Πρόκειται για μεταφράσεις που υπογράφουν σπουδαίοι συγγραφείς όπως ο Κωνσταντίνος Καβάφης, ο Κωνσταντίνος Θεοτόκης και ο Δημήτριος Βικέλας και προέρχονται μεταξύ άλλων από από τις συλλογές της Βιβλιοθήκης της Βουλής, της Εθνικής Βιβλιοθήκης και του Ελληνικού Λογοτεχνικού και Ιστορικού Αρχείου.
Ένα από τα στοιχήματα που έχει βάλει το Εργαστήριο είναι η ψηφιακή έκθεση χειρογράφων. «Η ταύτιση των χειρογράφων στα σύγχρονα κείμενα έχει προχωρήσει πολύ. Αυτό που δεν έχει γίνει στο παρελθόν είναι ένα εργαλείο αναγνώρισης παλαιών χειρογράφων, ιδιαίτερα ελληνικών πολυτονικών χειρογράφων», εξηγεί το ΑΠΕ, επικεφαλής του Εργαστηρίου, Βασίλης Γάτος. MPE.
Επί του παρόντος, σε συνεργασία με την Τράπεζα της Ελλάδος, εκτελείται έργο εντοπισμού και επεξεργασίας, πάλι με τη βοήθεια τεχνητής νοημοσύνης, χειρόγραφων πρακτικών του Διοικητικού Συμβουλίου της Τράπεζας της περιόδου 1928–1988. Τα αρχεία ανέρχονται σε περίπου 30.000 σελίδες. «Αυτό είναι ένα πολύ δύσκολο χειρόγραφο πρόβλημα, αλλά αυτό που μας βοηθά σε αυτή την περίπτωση είναι ότι οι γραφείς είναι συγκεκριμένοι με τα χρόνια, επομένως έχουμε χιλιάδες σελίδες για κάθε γραφέα, κάτι που μας βοηθά να εκπαιδεύσουμε το σύστημα», τονίζει ο κ. Γάτα.
Σε ένα προηγούμενο έργο, η ομάδα συνεργάστηκε με το Mount Sinai Monastery Foundation για την ανάπτυξη τεχνολογιών που θα μπορούσαν να αναζητήσουν πληροφορίες απευθείας από εικόνες μοναστηριακών χειρογράφων. Το έργο ανέλυσε και εντόπισε πάνω από 100.000 σελίδες ιστορικών χειρογράφων.
Να σημειωθεί ότι στο «Athens Science Festival» θα παρουσιαστεί η εργασία άλλης ερευνητικής ομάδας από το ίδιο Δημοκρίτειο Εργαστήριο. Η ομάδα «AI4GEO» θα εξηγήσει πώς η παρατήρηση της Γης με χρήση εφαρμογών τεχνητής νοημοσύνης «μετατρέπεται» σε ένα γιγάντιο άγρυπνο μάτι που μας βοηθά να ανακαλύψουμε πετρώματα και κοιτάσματα, να καταγράψουμε φυσικές καταστροφές και να παρακολουθήσουμε τις εξελισσόμενες ανθρωπιστικές κρίσεις.