Αν έχετε ποτέ κυκλοφορήσει ένα μοντέλο που εντυπωσίασε σε φορητό υπολογιστή, αλλά δυσκολεύτηκε στην παραγωγή, γνωρίζετε ήδη το μυστικό: ο τρόπος μέτρησης της απόδοσης της τεχνητής νοημοσύνης δεν είναι ένα μαγικό μέτρο. Είναι ένα σύστημα ελέγχων που συνδέεται με πραγματικούς στόχους. Η ακρίβεια είναι χαριτωμένη. Η αξιοπιστία, η ασφάλεια και ο επιχειρηματικός αντίκτυπος είναι καλύτερα.
Άρθρα που ίσως σας ενδιαφέρουν μετά από αυτό:
🔗 Πώς να μιλήσετε με την Τεχνητή Νοημοσύνη
Οδηγός για αποτελεσματική επικοινωνία με την Τεχνητή Νοημοσύνη για σταθερά καλύτερα αποτελέσματα.
🔗 Τι είναι η προτροπή της Τεχνητής Νοημοσύνης
Εξηγεί πώς τα μηνύματα προτροπής διαμορφώνουν τις απαντήσεις της Τεχνητής Νοημοσύνης και την ποιότητα του αποτελέσματος.
🔗 Τι είναι η επισήμανση δεδομένων τεχνητής νοημοσύνης
Επισκόπηση της ανάθεσης ακριβών ετικετών σε δεδομένα για μοντέλα εκπαίδευσης.
🔗 Τι είναι η ηθική της Τεχνητής Νοημοσύνης
Εισαγωγή στις ηθικές αρχές που καθοδηγούν την υπεύθυνη ανάπτυξη και εφαρμογή της Τεχνητής Νοημοσύνης.
Τι κάνει την Τεχνητή Νοημοσύνη καλή την απόδοση; ✅ Τι κάνει την Τεχνητή Νοημοσύνη καλή;
Σύντομη εκδοχή: καλή απόδοση τεχνητής νοημοσύνης σημαίνει ότι το σύστημά σας είναι χρήσιμο, αξιόπιστο και επαναλήψιμο υπό ακατάστατες, μεταβαλλόμενες συνθήκες. Συγκεκριμένα:
-
Ποιότητα εργασίας - λαμβάνει τις σωστές απαντήσεις για τους σωστούς λόγους.
-
Βαθμονόμηση - οι βαθμολογίες εμπιστοσύνης ευθυγραμμίζονται με την πραγματικότητα, ώστε να μπορείτε να αναλάβετε έξυπνες δράσεις.
-
Ανθεκτικότητα - αντέχει σε μετατόπιση, ακμές και αντιφατικό θάμπωμα.
-
Ασφάλεια και δικαιοσύνη - αποφεύγει την επιβλαβή, προκατειλημμένη ή μη συμμορφούμενη συμπεριφορά.
-
Αποδοτικότητα - είναι αρκετά γρήγορο, αρκετά φθηνό και αρκετά σταθερό για να λειτουργεί σε μεγάλη κλίμακα.
-
Επιχειρηματικός αντίκτυπος - στην πραγματικότητα μεταβάλλει τον KPI που σας ενδιαφέρει.
Αν θέλετε ένα επίσημο σημείο αναφοράς για την ευθυγράμμιση των μετρήσεων και των κινδύνων, το Πλαίσιο Διαχείρισης Κινδύνων Τεχνητής Νοημοσύνης του NIST είναι ένας σταθερός βόρειος αστέρας για την αξιόπιστη αξιολόγηση συστημάτων. [1]

Η συνταγή υψηλού επιπέδου για το πώς να μετρήσετε την απόδοση της Τεχνητής Νοημοσύνης 🍳
Σκεφτείτε σε τρία επίπεδα :
-
Μετρήσεις εργασίας - ορθότητα για τον τύπο εργασίας: ταξινόμηση, παλινδρόμηση, κατάταξη, δημιουργία, έλεγχος κ.λπ.
-
Μετρήσεις συστήματος - καθυστέρηση, απόδοση, κόστος ανά κλήση, ποσοστά αστοχίας, συναγερμοί απόκλισης, SLAs χρόνου λειτουργίας.
-
Μετρήσεις αποτελεσμάτων - τα αποτελέσματα για την επιχείρηση και τους χρήστες που πραγματικά θέλετε: μετατροπή, διατήρηση, περιστατικά ασφαλείας, φόρτος μη αυτόματου ελέγχου, όγκος αιτημάτων.
Ένα εξαιρετικό σχέδιο μέτρησης συνδυάζει σκόπιμα και τα τρία. Διαφορετικά, θα έχετε έναν πύραυλο που δεν θα φύγει ποτέ από την εξέδρα εκτόξευσης.
Βασικές μετρήσεις ανά τύπο προβλήματος - και πότε να χρησιμοποιήσετε ποιο 🎯
1) Ταξινόμηση
-
Ακρίβεια, Ανάκληση, F1 - το τρίο της πρώτης ημέρας. Το F1 είναι ο αρμονικός μέσος όρος της ακρίβειας και της ανάκλησης. Χρήσιμο όταν οι κλάσεις είναι ανισορροπημένες ή το κόστος είναι ασύμμετρο. [2]
-
ROC-AUC - κατάταξη ταξινομητών ανεξάρτητα από το όριο· όταν τα θετικά είναι σπάνια, ελέγξτε επίσης το PR-AUC . [2]
-
Ισορροπημένη ακρίβεια - μέσος όρος ανάκλησης σε όλες τις κλάσεις· βολικό για ασύμμετρες ετικέτες. [2]
Παρακολούθηση παγίδας: η ακρίβεια από μόνη της μπορεί να είναι εξαιρετικά παραπλανητική με ανισορροπία. Εάν το 99% των χρηστών είναι νόμιμοι, ένα ανόητο μοντέλο που είναι πάντα νόμιμο βαθμολογείται με 99% και απογοητεύει την ομάδα απάτης σας πριν από το μεσημεριανό γεύμα.
2) Παλινδρόμηση
-
MAE για σφάλματα αναγνώσιμα από τον άνθρωπο· RMSE όταν θέλετε να τιμωρήσετε μεγάλα λάθη· R² για επεξήγηση της διακύμανσης. Στη συνέχεια, κατανομές ελέγχου λογικής και διαγράμματα υπολειμμάτων. [2]
(Χρησιμοποιήστε μονάδες φιλικές προς τον τομέα, ώστε τα ενδιαφερόμενα μέρη να μπορούν πραγματικά να αντιληφθούν το σφάλμα.)
3) Κατάταξη, ανάκτηση, συστάσεις
-
nDCG - νοιάζεται για τη θέση και τη βαθμολογημένη συνάφεια· πρότυπο για την ποιότητα αναζήτησης.
-
MRR - εστιάζει στο πόσο γρήγορα εμφανίζεται το πρώτο σχετικό στοιχείο (ιδανικό για εργασίες «εύρεσης μιας καλής απάντησης»).
(Οι αναφορές υλοποίησης και τα επεξεργασμένα παραδείγματα βρίσκονται σε βασικές βιβλιοθήκες μετρήσεων.) [2]
4) Δημιουργία και σύνοψη κειμένου
-
ΜΠΛΕ και ΡΟΟΥΖ - κλασικές μετρήσεις επικάλυψης· χρήσιμες ως γραμμές βάσης.
-
Οι μετρήσεις που βασίζονται στην ενσωμάτωση (π.χ., BERTScore ) συχνά συσχετίζονται καλύτερα με την ανθρώπινη κρίση. Συνδυάζονται πάντα με ανθρώπινες αξιολογήσεις για στυλ, πιστότητα και ασφάλεια. [4]
5) Απάντηση σε ερωτήσεις
-
Η Ακριβής Αντιστοίχιση και το F1 σε επίπεδο διακριτικού είναι κοινά για την εξορυκτική διασφάλιση ποιότητας. Εάν οι απαντήσεις πρέπει να αναφέρουν πηγές, μετρήστε επίσης τη γείωση (έλεγχοι υποστήριξης απαντήσεων).
Βαθμονόμηση, σιγουριά και ο φακός Brier 🎚️
Οι βαθμολογίες εμπιστοσύνης είναι το σημείο όπου πολλά συστήματα βρίσκονται σιωπηλά. Θέλετε πιθανότητες που αντικατοπτρίζουν την πραγματικότητα, ώστε οι χειριστές να μπορούν να ορίσουν όρια, διαδρομή προς τους ανθρώπους ή να τιμολογήσουν τον κίνδυνο.
-
Καμπύλες βαθμονόμησης - οπτικοποίηση της προβλεπόμενης πιθανότητας έναντι της εμπειρικής συχνότητας.
-
Βαθμολογία Brier - ένας σωστός κανόνας βαθμολόγησης για πιθανοτική ακρίβεια. Όσο χαμηλότερη τόσο καλύτερη. Είναι ιδιαίτερα χρήσιμος όταν σας ενδιαφέρει η ποιότητα της πιθανότητας, όχι μόνο η κατάταξη. [3]
Σημείωση πεδίου: μια ελαφρώς «χειρότερη» F1 αλλά πολύ καλύτερη βαθμονόμηση μπορεί να σημαντικά την διαλογή - επειδή οι άνθρωποι μπορούν επιτέλους να εμπιστευτούν τις βαθμολογίες.
Ασφάλεια, προκατάληψη και δικαιοσύνη - μετρήστε ό,τι έχει σημασία 🛡️⚖️
Ένα σύστημα μπορεί να είναι ακριβές συνολικά και παρόλα αυτά να βλάπτει συγκεκριμένες ομάδες. Παρακολούθηση ομαδοποιημένων μετρήσεων και κριτηρίων δίκαιης μεταχείρισης:
-
Δημογραφική ισοτιμία - ίσα θετικά ποσοστά μεταξύ των ομάδων.
-
Ισοσταθμισμένες πιθανότητες / Ίσες ευκαιρίες - ίσα ποσοστά σφάλματος ή πραγματικά θετικά ποσοστά μεταξύ ομάδων· χρησιμοποιήστε τα για την ανίχνευση και τη διαχείριση συμβιβασμών, όχι ως σφραγίδες επιτυχίας-αποτυχίας μίας μόνο προσπάθειας. [5]
Πρακτική συμβουλή: ξεκινήστε με πίνακες ελέγχου που χωρίζουν τις βασικές μετρήσεις ανά βασικά χαρακτηριστικά και, στη συνέχεια, προσθέστε συγκεκριμένες μετρήσεις δικαιοσύνης, όπως απαιτούν οι πολιτικές σας. Ακούγεται περίπλοκο, αλλά είναι φθηνότερο από ένα περιστατικό.
Μεταπτυχιακά Νομικής (LLM) και RAG - ένα εγχειρίδιο μέτρησης που πραγματικά λειτουργεί 📚🔍
Η μέτρηση των γενετικών συστημάτων είναι… περίπλοκη. Κάντε το εξής:
-
Ορίστε τα αποτελέσματα ανά περίπτωση χρήσης: ορθότητα, χρησιμότητα, αβλαβότητα, προσήλωση στο στυλ, προσανατολισμός στην επωνυμία, αιτιολόγηση παραπομπών, ποιότητα άρνησης.
-
Αυτοματοποιήστε τις αξιολογήσεις γραμμής βάσης με ισχυρά πλαίσια (π.χ., εργαλεία αξιολόγησης στη στοίβα σας) και διατηρήστε τις ενημερωμένες εκδόσεις με τα σύνολα δεδομένων σας.
-
Προσθέστε σημασιολογικές μετρήσεις (βασισμένες σε ενσωμάτωση) καθώς και μετρήσεις επικάλυψης (ΜΠΛΕ/ΡΟΥΖ) για λόγους λογικής. [4]
-
Γείωση οργάνου σε RAG: ρυθμός ανάκτησης, ακρίβεια/ανάκληση πλαισίου, επικάλυψη απάντησης-υποστήριξης.
-
Ανθρώπινη αξιολόγηση με συμφωνία - μετρήστε τη συνέπεια του αξιολογητή (π.χ., κ του Cohen ή κ του Fleiss) ώστε οι ετικέτες σας να μην είναι δονήσεις.
Μπόνους: καταγραφή ποσοστιαίων ποσοστών καθυστέρησης και κόστους συμβολαίου ή υπολογισμού ανά εργασία. Κανείς δεν αγαπά μια ποιητική απάντηση που φτάνει την επόμενη Τρίτη.
Ο συγκριτικός πίνακας - εργαλεία που σας βοηθούν να μετρήσετε την απόδοση της Τεχνητής Νοημοσύνης 🛠️📊
(Ναι, είναι λίγο ακατάστατο επίτηδες - οι πραγματικές νότες είναι ακατάστατες.)
| Εργαλείο | Καλύτερο κοινό | Τιμή | Γιατί λειτουργεί - γρήγορη συμβουλή |
|---|---|---|---|
| μετρήσεις scikit-learn | επαγγελματίες Μηχανικής Μάθησης | Δωρεάν | Κανονικές υλοποιήσεις για ταξινόμηση, παλινδρόμηση, κατάταξη· εύκολη ενσωμάτωση σε δοκιμές. [2] |
| Αξιολόγηση MLflow / GenAI | Επιστήμονες δεδομένων, MLOps | Δωρεάν + επί πληρωμή | Κεντρικές εκτελέσεις, αυτοματοποιημένες μετρήσεις, κριτές LLM, προσαρμοσμένοι βαθμολογητές· καταγράφει με σαφήνεια τα αντικείμενα. |
| Προφανώς | Ομάδες που θέλουν γρήγορα dashboards | OSS + cloud | 100+ μετρήσεις, αναφορές απόκλισης και ποιότητας, σημεία παρακολούθησης - ωραία γραφικά σε άμεση ανάγκη. |
| Βάρη & Προκαταλήψεις | Οργανισμοί με έντονη πειραματική δραστηριότητα | Δωρεάν βαθμίδα | Οι συγκρίσεις δίπλα-δίπλα, τα σύνολα δεδομένων αξιολόγησης, οι κριτές. Οι πίνακες και τα ίχνη είναι κάπως τακτοποιημένα. |
| ΛανγκΣμιθ | Δημιουργοί εφαρμογών LLM για LLM | Εμμισθος | Παρακολουθήστε κάθε βήμα, συνδυάστε την ανθρώπινη αναθεώρηση με αξιολογητές κανόνων ή LLM. Ιδανικό για RAG. |
| TruLens | Λάτρεις της αξιολόγησης LLM ανοιχτού κώδικα | Λειτουργικό Σύστημα Λογισμικού (OSS) | Συναρτήσεις ανατροφοδότησης για την αξιολόγηση της τοξικότητας, της γειωσιμότητας, της συνάφειας· ενσωμάτωση οπουδήποτε. |
| Μεγάλες Προσδοκίες | Οργανισμοί που δίνουν προτεραιότητα στην ποιότητα των δεδομένων | Λειτουργικό Σύστημα Λογισμικού (OSS) | Τυποποιήστε τις προσδοκίες σχετικά με τα δεδομένα - επειδή τα κακά δεδομένα καταστρέφουν ούτως ή άλλως κάθε μετρική. |
| Βαθείς έλεγχοι | Δοκιμές και CI/CD για ML | OSS + cloud | Περιλαμβάνονται μπαταρίες, έλεγχος για διακύμανση δεδομένων, προβλήματα μοντέλου και παρακολούθηση· καλά προστατευτικά κιγκλιδώματα. |
Οι τιμές αλλάζουν - ελέγξτε τα έγγραφα. Και ναι, μπορείτε να τα αναμίξετε χωρίς να εμφανιστεί η αστυνομία εργαλείων.
Κατώτατα όρια, κόστος και καμπύλες αποφάσεων - η μυστική συνταγή 🧪
Κάτι παράξενο αλλά αληθινό: δύο μοντέλα με το ίδιο ROC-AUC μπορεί να έχουν πολύ διαφορετική επιχειρηματική αξία ανάλογα με το όριο και τους λόγους κόστους .
Γρήγορο φύλλο για κατασκευή:
-
Ορίστε το κόστος ενός ψευδώς θετικού έναντι ενός ψευδώς αρνητικού αποτελέσματος σε χρήματα ή χρόνο.
-
Υπολογισμός κατωφλίων σάρωσης και υπολογισμός του αναμενόμενου κόστους ανά 1.000 αποφάσεις.
-
Επιλέξτε το ελάχιστο αναμενόμενο όριο κόστους και, στη συνέχεια, κλειδώστε το με παρακολούθηση.
Χρησιμοποιήστε καμπύλες PR όταν τα θετικά είναι σπάνια, καμπύλες ROC για γενικό σχήμα και καμπύλες βαθμονόμησης όταν οι αποφάσεις βασίζονται σε πιθανότητες. [2][3]
Μικρή περίπτωση: ένα μοντέλο διαλογής με βάση την υποστήριξη με μέτριο F1 αλλά εξαιρετική βαθμονόμηση που περιόρισε τις χειροκίνητες επαναδρομολογήσεις μετά την αλλαγή των λειτουργιών από ένα αυστηρό όριο σε μια κλιμακωτή δρομολόγηση (π.χ., «αυτόματη επίλυση», «αναθεώρηση από τον άνθρωπο», «κλιμάκωση») συνδεδεμένη με βαθμονομημένες ζώνες βαθμολογίας.
Ηλεκτρονική παρακολούθηση, μετατόπιση και ειδοποίηση 🚨
Οι αξιολογήσεις εκτός σύνδεσης είναι η αρχή, όχι το τέλος. Στην παραγωγή:
-
Παρακολουθήστε την απόκλιση εισόδου , την απόκλιση εξόδου και την φθίνουσα απόδοση ανά τμήμα.
-
Ορίστε ελέγχους κιγκλιδωμάτων - μέγιστο ποσοστό παραισθήσεων, όρια τοξικότητας, δέλτα δικαιοσύνης.
-
Προσθέστε πίνακες ελέγχου Canary για την καθυστέρηση p95, τα χρονικά όρια και το κόστος ανά αίτημα.
-
Χρησιμοποιήστε ειδικά κατασκευασμένες βιβλιοθήκες για να επιταχύνετε αυτό. Προσφέρουν μετατόπιση, ποιότητα και πρωτόγονα παρακολούθησης αμέσως μόλις το χρησιμοποιήσετε.
Μικρή ελαττωματική μεταφορά: σκεφτείτε το μοντέλο σας σαν ένα προζύμι - δεν ψήνετε απλώς μία φορά και φεύγετε. Ταΐζετε, παρακολουθείτε, μυρίζετε και μερικές φορές ξεκινάτε από την αρχή.
Ανθρώπινη αξιολόγηση που δεν καταρρέει 🍪
Όταν οι άνθρωποι βαθμολογούν τα αποτελέσματα, η διαδικασία έχει μεγαλύτερη σημασία από ό,τι νομίζετε.
-
Γράψτε αυστηρές ρουμπρίκες με παραδείγματα επιτυχίας, οριακής βαθμολογίας και αποτυχίας.
-
Τυχαιοποιήστε και τυφλά δείγματα όποτε μπορείτε.
-
Μετρήστε τη συμφωνία μεταξύ των αξιολογητών (π.χ., κ του Cohen για δύο αξιολογητές, κ του Fleiss για πολλούς) και ανανεώστε τις ρουμπρίκες εάν η συμφωνία δεν είναι σωστή.
Αυτό εμποδίζει τις ανθρώπινες ετικέτες σας να αλλάζουν ανάλογα με τη διάθεση ή την προμήθεια καφέ.
Βαθιά βουτιά: πώς να μετρήσετε την απόδοση της Τεχνητής Νοημοσύνης για LLM στο RAG 🧩
-
Ποιότητα ανάκτησης - recall@k, precision@k, nDCG· κάλυψη χρυσών δεδομένων. [2]
-
Πιστότητα απαντήσεων - έλεγχοι αναφοράς και επαλήθευσης, βαθμολογίες θεμελίωσης, έρευνες αντιπαράθεσης.
-
Ικανοποίηση χρήστη - αντίχειρες, ολοκλήρωση εργασίας, απόσταση επεξεργασίας από προτεινόμενα προσχέδια.
-
Ασφάλεια - τοξικότητα, διαρροή PII, συμμόρφωση με την πολιτική.
-
Κόστος & καθυστέρηση - διακριτικά, επισκέψεις στην προσωρινή μνήμη, καθυστερήσεις p95 και p99.
Συνδέστε τα αυτά με επιχειρηματικές ενέργειες: εάν η προσγείωση πέσει κάτω από ένα όριο, δρομολογήστε αυτόματα σε αυστηρή λειτουργία ή σε μη αυτόματη αναθεώρηση.
Ένα απλό εγχειρίδιο για να ξεκινήσετε σήμερα 🪄
-
Ορίστε την εργασία - γράψτε μία πρόταση: τι πρέπει να κάνει η Τεχνητή Νοημοσύνη και για ποιον.
-
Επιλέξτε 2–3 μετρήσεις εργασιών - συν βαθμονόμηση και τουλάχιστον ένα κομμάτι δικαιοσύνης. [2][3][5]
-
Αποφασίστε τα όρια χρησιμοποιώντας το κόστος - μην κάνετε εικασίες.
-
Δημιουργήστε ένα μικροσκοπικό σύνολο αξιολογήσεων - 100–500 παραδείγματα με ετικέτες που αντικατοπτρίζουν το μείγμα παραγωγής.
-
Αυτοματοποιήστε τις αξιολογήσεις σας - μεταφέρετε την αξιολόγηση/παρακολούθηση στο CI, ώστε κάθε αλλαγή να εκτελεί τους ίδιους ελέγχους.
-
Παρακολούθηση στο προϊόν - μετατόπιση, καθυστέρηση, κόστος, σημαίες συμβάντων.
-
Ελέγξτε τις μετρήσεις σε μηνιαία βάση - κόψτε μετρήσεις που δεν χρησιμοποιεί κανείς και προσθέστε μετρήσεις που απαντούν σε πραγματικές ερωτήσεις.
-
Καταγράψτε τις αποφάσεις - έναν ζωντανό πίνακα αποτελεσμάτων που διαβάζει πραγματικά η ομάδα σας.
Ναι, αυτό είναι κυριολεκτικά όλο. Και λειτουργεί.
Συνηθισμένα λάθη και πώς να τα αποφύγετε 🕳️🐇
-
Υπερπροσαρμογή σε μία μόνο μέτρηση - χρησιμοποιήστε ένα καλάθι μετρήσεων που ταιριάζει με το πλαίσιο απόφασης. [1][2]
-
Αγνοώντας τη βαθμονόμηση - η εμπιστοσύνη χωρίς βαθμονόμηση είναι απλώς αλαζονεία. [3]
-
Χωρίς τμηματοποίηση - πάντα τμηματοποίηση ανά ομάδες χρηστών, γεωγραφική περιοχή, συσκευή, γλώσσα. [5]
-
Απροσδιόριστο κόστος - αν δεν κάνετε σφάλματα τιμολόγησης, θα επιλέξετε λάθος όριο.
-
Απόκλιση ανθρώπινης αξιολόγησης - συμφωνία μέτρησης, ανανέωση ρουμπρίκων, επανεκπαίδευση κριτών.
-
Δεν υπάρχουν όργανα ασφαλείας - προσθέστε τώρα ελέγχους δικαιοσύνης, τοξικότητας και πολιτικής, όχι αργότερα. [1][5]
Η φράση για την οποία ήρθες: πώς να μετρήσεις την απόδοση της Τεχνητής Νοημοσύνης - το "Too Long, I Didn't Read It" 🧾
-
Ξεκινήστε με σαφή αποτελέσματα και, στη συνέχεια, στοιβάζετε εργασιών , συστήματος και επιχείρησης . [1]
-
Χρησιμοποιήστε τις σωστές μετρήσεις για την εργασία - F1 και ROC-AUC για ταξινόμηση· nDCG/MRR για κατάταξη· επικάλυψη + σημασιολογικές μετρήσεις για παραγωγή (σε συνδυασμό με ανθρώπους). [2][4]
-
Βαθμονομήστε τις πιθανότητες και τιμολογήστε τα σφάλματά σας για να επιλέξετε όρια. [2][3]
-
Προσθέστε δικαιοσύνης με group slices και διαχειριστείτε ρητά τους συμβιβασμούς. [5]
-
Αυτοματοποιήστε τις αξιολογήσεις και την παρακολούθηση , ώστε να μπορείτε να επαναλαμβάνετε χωρίς φόβο.
Ξέρεις πώς είναι τα πράγματα - μετρήστε ό,τι έχει σημασία, αλλιώς θα καταλήξετε να βελτιώσετε ό,τι δεν έχει.
Αναφορές
[1] NIST. Πλαίσιο Διαχείρισης Κινδύνων Τεχνητής Νοημοσύνης (AI RMF). διαβάστε περισσότερα
[2] scikit-learn. Αξιολόγηση μοντέλου: ποσοτικοποίηση της ποιότητας των προβλέψεων (Οδηγός Χρήστη). διαβάστε περισσότερα
[3] scikit-learn. Βαθμονόμηση πιθανότητας (καμπύλες βαθμονόμησης, βαθμολογία Brier). διαβάστε περισσότερα
[4] Papineni et al. (2002). BLEU: μια μέθοδος για την αυτόματη αξιολόγηση της μηχανικής μετάφρασης. ACL. διαβάστε περισσότερα
[5] Hardt, Price, Srebro (2016). Ισότητα Ευκαιριών στην Εποπτευόμενη Μάθηση. NeurIPS. διαβάστε περισσότερα