Development of language models for the mycenaean linear B script and their application in the restoration of tablets
语言学
计算机科学
自然语言处理
哲学
作者
Αικατερίνη Παπαβασιλείου
标识
DOI:10.12681/eadd/55013
摘要
Η Μυκηναϊκή Γραμμική Β είναι μια αρχαία γραφή που χρησιμοποιήθηκε για τη συγγραφή του αρχαιότερου σταδίου της ελληνικής γλώσσας, τη Μυκηναϊκή ελληνική. Χρησιμοποιήθηκε κυρίως κατά την Ύστερη Εποχή του Χαλκού, συγκεκριμένα από τον 15ο έως τον 13ο αιώνα π.Χ. Η παρούσα διατριβή διερευνά το πρόβλημα της αποκατάστασης των μυκηναϊκών πινακίδων της Γραμμικής Β με τη χρήση μεθόδων συμπλήρωσης κειμένου που βασίζονται σε μοντέλα μηχανικής μάθησης. Για να συλλάβουμε τη στατιστική δομή των Μυκηναϊκών εγγράφων παρουσιάζουμε ένα σύνολο δεδομένων από Μυκηναϊκές ακολουθίες εστιάζοντας στις Μυκηναϊκές κατηγορίες D και ΑΒ . Προτείνουμε τη μεγέθυνση του συνόλου δεδομένων με μεθόδους επαύξησης δεδομένων που λαμβάνουν υπόψη τη δομή των Μυκηναϊκών πινακίδων. Ερευνούμε διάφορες αρχιτεκτονικές επαναλαμβανόμενων νευρωνικών δικτύων και συγκρίνουμε τα αποτελέσματά τους τόσο σε τεχνητά όσο και σε πραγματικά κενά.Για να αντιμετωπίσουμε περαιτέρω το πρόβλημα της έλλειψης δεδομένων, διερευνούμε την περίπτωση μεταφοράς γνώσης μεταξύ μοντέλων που έχουν εκπαιδευτεί σε διαφορετικές κατηγορίες, εφαρμόζοντας διαφορετικές παραμετροποιήσεις μεταφοράς μάθησης. Παρέχουμε ποσοτικά αποτελέσματα τόσο σε συνθετικές όσο και σε πραγματικές περιπτώσεις κατεστραμμένων ακολουθιών και συγκρίνουμε με τις απόψεις των ειδικών με πολλά υποσχόμενα αποτελέσματα. Τα αποτελέσματα μπορούν να επεκταθούν για να χειριστούν παρόμοια προβλήματα στη Γραμμική Β, ή άλλες αρχαίες γραφές, όπως η αποκρυπτογράφηση, η αναγνώριση θέσης ή η αναγνώριση γραφέων. Αυτή είναι η πρώτη εργασία αυτού του είδους για τη Μυκηναϊκή Γραμμική Β, η οποία ελπίζουμε να φέρει πιο κοντά τις κοινότητες των ειδικών της μηχανικής μάθησης, των αρχαιολόγων και των γλωσσολόγων.