Η προεπεξεργασία με τεχνητή νοημοσύνη είναι όλα όσα κάνετε στα ακατέργαστα δεδομένα πριν (και μερικές φορές κατά τη διάρκεια) της εκπαίδευσης ή της εξαγωγής συμπερασμάτων, ώστε ένα μοντέλο να μπορεί πραγματικά να μάθει από αυτά. Όχι απλώς «καθαρισμός». Είναι καθαρισμός, διαμόρφωση, κλιμάκωση, κωδικοποίηση, αύξηση και συσκευασία δεδομένων σε μια συνεπή αναπαράσταση που δεν θα προκαλέσει σφάλμα στο μοντέλο σας αργότερα. [1]
Άρθρα που ίσως σας ενδιαφέρουν μετά από αυτό:
🔗 Πώς να δοκιμάσετε μοντέλα τεχνητής νοημοσύνης για απόδοση σε πραγματικό κόσμο
Πρακτικές μέθοδοι για την γρήγορη αξιολόγηση της ακρίβειας, της ευρωστίας και της μεροληψίας.
🔗 Είναι η Τεχνητή Νοημοσύνη (AI) μετατροπής κειμένου σε ομιλία και πώς λειτουργεί;
Εξηγεί τα βασικά του TTS, τις βασικές χρήσεις και τους κοινούς περιορισμούς σήμερα.
🔗 Μπορεί η Τεχνητή Νοημοσύνη να διαβάσει με ακρίβεια την καλλιγραφία σήμερα;
Καλύπτει προκλήσεις αναγνώρισης, τα καλύτερα εργαλεία και συμβουλές ακρίβειας.
🔗 Πόσο ακριβής είναι η Τεχνητή Νοημοσύνη σε κοινές εργασίες
Αναλύει τους παράγοντες ακρίβειας, τα σημεία αναφοράς και την αξιοπιστία στον πραγματικό κόσμο.
Προεπεξεργασία τεχνητής νοημοσύνης σε απλή γλώσσα (και τι δεν είναι) 🤝
Η προεπεξεργασία με τεχνητή νοημοσύνη είναι ο μετασχηματισμός των ακατέργαστων εισροών (πίνακες, κείμενο, εικόνες, αρχεία καταγραφής) σε χαρακτηριστικά έτοιμα για μοντέλο. Εάν τα ακατέργαστα δεδομένα είναι ένα ακατάστατο γκαράζ, η προεπεξεργασία είναι η τοποθέτηση ετικετών στα κουτιά, η ρίψη σπασμένων άχρηστων αντικειμένων και η στοίβαξη πραγμάτων ώστε να μπορείτε να περάσετε χωρίς τραυματισμό.
Δεν είναι το ίδιο το μοντέλο. Είναι τα στοιχεία που καθιστούν δυνατό το μοντέλο:
-
μετατροπή κατηγοριών σε αριθμούς (μονοψήφιοι, διατακτικοί, κ.λπ.) [1]
-
κλιμάκωση μεγάλων αριθμητικών εύρων σε λογικά εύρη (τυποποίηση, ελάχιστο-μέγιστο, κ.λπ.) [1]
-
μετατροπή κειμένου σε αναγνωριστικά εισόδου (και συνήθως σε μάσκα προσοχής) [3]
-
αλλαγή μεγέθους/περικοπή εικόνων και κατάλληλη εφαρμογή ντετερμινιστικών έναντι τυχαίων μετασχηματισμών [4]
-
κατασκευή επαναλήψιμων αγωγών, ώστε η εκπαίδευση και οι εισροές στην «πραγματική ζωή» να μην αποκλίνουν με ανεπαίσθητους τρόπους [2]
Μια μικρή πρακτική σημείωση: η «προεπεξεργασία» περιλαμβάνει ό,τι συμβαίνει με συνέπεια πριν το μοντέλο δει την είσοδο . Ορισμένες ομάδες το χωρίζουν σε «μηχανική χαρακτηριστικών» έναντι «καθαρισμού δεδομένων», αλλά στην πραγματική ζωή αυτά τα όρια είναι θολά.

Γιατί η προεπεξεργασία της Τεχνητής Νοημοσύνης έχει μεγαλύτερη σημασία από ό,τι παραδέχεται ο κόσμος 😬
Ένα μοντέλο είναι ένας μηχανισμός αντιστοίχισης μοτίβων, όχι ένας μηχανισμός ανάγνωσης μυαλού. Εάν τα δεδομένα που εισάγετε είναι ασυνεπή, το μοντέλο μαθαίνει ασυνεπείς κανόνες. Αυτό δεν είναι φιλοσοφικό, είναι οδυνηρά κυριολεκτικό.
Η προεπεξεργασία σας βοηθά να:
-
Βελτιώστε τη σταθερότητα της μάθησης τοποθετώντας χαρακτηριστικά σε αναπαραστάσεις που οι εκτιμητές μπορούν να χρησιμοποιήσουν αξιόπιστα (ειδικά όταν εμπλέκεται κλιμάκωση/κωδικοποίηση). [1]
-
Μειώστε τον θόρυβο κάνοντας την ακατάστατη πραγματικότητα να μοιάζει με κάτι από το οποίο ένα μοντέλο μπορεί να γενικεύσει (αντί να απομνημονεύσει παράξενα αντικείμενα).
-
Αποτρέψτε τις αθόρυβες λειτουργίες αστοχίας, όπως η διαρροή και οι αναντιστοιχίες εκπαίδευσης/εξυπηρέτησης (αυτές που φαίνονται «εκπληκτικές» στην επικύρωση και στη συνέχεια στις προσωπικές προσαρμογές στην παραγωγή). [2]
-
Επιταχύνετε την επανάληψη επειδή οι επαναλήψιμοι μετασχηματισμοί είναι πιο γρήγοροι από τους συνηθισμένους σε σημειωματάρια κάθε μέρα της εβδομάδας.
Επίσης, από εκεί προέρχεται στην πραγματικότητα μεγάλο μέρος της «απόδοσης του μοντέλου». Δηλαδή... παραδόξως πολύ. Μερικές φορές μοιάζει άδικο, αλλά αυτή είναι η πραγματικότητα 🙃
Τι κάνει μια διαδικασία προεπεξεργασίας τεχνητής νοημοσύνης καλή ✅
Μια «καλή έκδοση» προεπεξεργασίας συνήθως έχει τα εξής χαρακτηριστικά:
-
Αναπαραγώγιμο : ίδια είσοδος → ίδια έξοδος (καμία μυστηριώδης τυχαιότητα εκτός αν πρόκειται για σκόπιμη αύξηση).
-
Συνέπεια στην εξυπηρέτηση της εκπαίδευσης : οτιδήποτε κάνετε κατά τον χρόνο εκπαίδευσης εφαρμόζεται με τον ίδιο τρόπο κατά τον χρόνο συμπερασμάτων (ίδιες προσαρμοσμένες παράμετροι, ίδιοι χάρτες κατηγορίας, ίδια διαμόρφωση tokenizer, κ.λπ.). [2]
-
Ασφαλές έναντι διαρροών : τίποτα στην αξιολόγηση/δοκιμή δεν επηρεάζει κανένα
προσαρμογής. (Περισσότερα για αυτήν την παγίδα σε λίγο.) [2] -
Παρατηρήσιμο : μπορείτε να ελέγξετε τι άλλαξε (στατιστικά χαρακτηριστικά, ελλείψεις, αριθμός κατηγοριών), επομένως η διόρθωση σφαλμάτων δεν βασίζεται σε vibes.
Αν η προεπεξεργασία σας είναι μια στοίβα από κελιά σημειωματάριου που ονομάζονται final_v7_really_final_ok ... ξέρετε πώς είναι. Λειτουργεί μέχρι να σταματήσει 😬
Βασικά δομικά στοιχεία της προεπεξεργασίας της Τεχνητής Νοημοσύνης 🧱
Σκεφτείτε την προεπεξεργασία ως ένα σύνολο δομικών στοιχείων που συνδυάζετε σε μια σωλήνωση.
1) Καθαρισμός και επικύρωση 🧼
Τυπικές εργασίες:
-
κατάργηση διπλότυπων
-
χειρισμός τιμών που λείπουν (αφαίρεση, καταλογισμός ή ρητή αναπαράσταση ελλείψεων)
-
επιβολή τύπων, μονάδων και εύρους
-
εντοπισμός λανθασμένων εισόδων
-
τυποποίηση μορφών κειμένου (κενά, κανόνες πεζών-κεφαλαίων, ιδιορρυθμίες Unicode)
Αυτό το κομμάτι δεν είναι λαμπερό, αλλά αποτρέπει εξαιρετικά χαζά λάθη. Το λέω με αγάπη.
2) Κωδικοποίηση κατηγορικών δεδομένων 🔤
Τα περισσότερα μοντέλα δεν μπορούν να χρησιμοποιήσουν απευθείας ακατέργαστες συμβολοσειρές όπως "red" ή "premium_user" .
Κοινές προσεγγίσεις:
-
Κωδικοποίηση μίας φοράς (κατηγορία → δυαδικές στήλες) [1]
-
Τακτική κωδικοποίηση (κατηγορία → ακέραιο ID) [1]
Το κλειδί δεν είναι ποιον κωδικοποιητή επιλέγετε - είναι η αντιστοίχιση να παραμένει συνεπής και να μην «αλλάζει σχήμα» μεταξύ εκπαίδευσης και συμπερασμάτων. Έτσι καταλήγετε σε ένα μοντέλο που φαίνεται μια χαρά εκτός σύνδεσης και συμπεριφέρεται σαν στοιχειωμένο στο διαδίκτυο. [2]
3) Κλιμάκωση και ομαλοποίηση χαρακτηριστικών 📏
Η κλιμάκωση έχει σημασία όταν τα χαρακτηριστικά βρίσκονται σε εντελώς διαφορετικά εύρη.
Δύο κλασικά:
-
Τυποποίηση : αφαίρεση μέσου όρου και κλιμάκωση σε μονάδα διακύμανσης [1]
-
Ελάχιστη-μέγιστη κλιμάκωση : κλιμάκωση κάθε χαρακτηριστικού σε ένα καθορισμένο εύρος [1]
Ακόμα και όταν χρησιμοποιείτε μοντέλα που «ανταποκρίνονται ως επί το πλείστον», η κλιμάκωση συχνά καθιστά ευκολότερο τον συλλογισμό σχετικά με τους αγωγούς - και πιο δύσκολο το να σπάσουν κατά λάθος.
4) Μηχανική χαρακτηριστικών (γνωστή και ως χρήσιμη απάτη) 🧪
Εδώ είναι που διευκολύνετε την εργασία του μοντέλου δημιουργώντας καλύτερα σήματα:
-
αναλογίες (κλικ / εμφανίσεις)
-
κυλιόμενα παράθυρα (τελευταίες N ημέρες)
-
μετρήσεις (συμβάντα ανά χρήστη)
-
μετασχηματισμοί λογαρίθμου για κατανομές βαριάς ουράς
Υπάρχει μια τέχνη εδώ. Μερικές φορές δημιουργείς ένα αφιέρωμα, νιώθεις περήφανος... και δεν κάνει τίποτα. Ή, ακόμα χειρότερα, πληγώνει. Αυτό είναι φυσιολογικό. Μην δένεσαι συναισθηματικά με τα αφιέρωμα - δεν σε αγαπούν κι αυτά 😅
5) Σωστός διαχωρισμός δεδομένων ✂️
Αυτό ακούγεται προφανές μέχρι να μην είναι:
-
τυχαίες διαιρέσεις για δεδομένα iid
-
διαχωρισμοί βάσει χρόνου για χρονοσειρές
-
ομαδοποιημένες διαιρέσεις όταν επαναλαμβάνονται οντότητες (χρήστες, συσκευές, ασθενείς)
Και το πιο σημαντικό: διαχωρίστε πριν από την προσαρμογή της προεπεξεργασίας που μαθαίνει από δεδομένα . Εάν το βήμα προεπεξεργασίας σας «μαθαίνει» παραμέτρους (όπως μέσα, λεξιλόγια, χάρτες κατηγοριών), πρέπει να τις μάθει μόνο από την εκπαίδευση. [2]
Προεπεξεργασία τεχνητής νοημοσύνης ανά τύπο δεδομένων: σε μορφή πίνακα, κείμενο, εικόνες 🎛️
Η προεπεξεργασία αλλάζει σχήμα ανάλογα με το τι τροφοδοτείτε το μοντέλο.
Δεδομένα σε μορφή πίνακα (υπολογιστικά φύλλα, αρχεία καταγραφής, βάσεις δεδομένων) 📊
Συνήθη βήματα:
-
στρατηγική ελλείπουσας αξίας
-
κατηγορική κωδικοποίηση [1]
-
κλιμάκωση αριθμητικών στηλών [1]
-
χειρισμός ακραίων τιμών (οι κανόνες τομέα υπερτερούν των «τυχαίων αποκοπών» τις περισσότερες φορές)
-
παράγωγα χαρακτηριστικά (συγκεντρώσεις, καθυστερήσεις, κυλιόμενα στατιστικά στοιχεία)
Πρακτικές συμβουλές: ορίστε ρητά τις ομάδες στηλών (αριθμητικές έναντι κατηγορικών έναντι αναγνωριστικών). Ο μελλοντικός σας εαυτός θα σας ευγνωμονεί.
Δεδομένα κειμένου (NLP) 📝
Η προεπεξεργασία κειμένου συχνά περιλαμβάνει:
-
μετατροπή σε διακριτικά/υπολέξεις
-
μετατροπή σε αναγνωριστικά εισόδου
-
συμπλήρωση/περικοπή
-
κατασκευή μασκών προσοχής για παρτίδες [3]
Μικρός κανόνας που σας γλιτώνει από τον κόπο: για ρυθμίσεις που βασίζονται σε μετασχηματιστές, ακολουθήστε τις αναμενόμενες ρυθμίσεις tokenizer του μοντέλου και μην κάνετε freestyle εκτός αν έχετε κάποιο λόγο. Το freestyle είναι ο τρόπος με τον οποίο καταλήγετε στο «εκπαιδεύεται αλλά είναι περίεργο»
Εικόνες (όραση υπολογιστή) 🖼️
Τυπική προεπεξεργασία:
-
αλλαγή μεγέθους / περικοπή σε ομοιόμορφα σχήματα
-
ντετερμινιστικοί μετασχηματισμοί για αξιολόγηση
-
τυχαίοι μετασχηματισμοί για την ενίσχυση της εκπαίδευσης (π.χ., τυχαία περικοπή) [4]
Μια λεπτομέρεια που οι άνθρωποι παραβλέπουν: οι «τυχαίοι μετασχηματισμοί» δεν είναι απλώς μια ατμόσφαιρα - κυριολεκτικά λαμβάνουν δείγματα παραμέτρων κάθε φορά που καλούνται. Ιδανικό για την εκπαίδευση της ποικιλομορφίας, απαίσιο για την αξιολόγηση αν ξεχάσετε να απενεργοποιήσετε την τυχαιότητα. [4]
Η παγίδα στην οποία πέφτουν όλοι: διαρροή δεδομένων 🕳️🐍
Η διαρροή είναι όταν πληροφορίες από δεδομένα αξιολόγησης εισέρχονται κρυφά στην εκπαίδευση - συχνά μέσω προεπεξεργασίας. Μπορεί να κάνει το μοντέλο σας να φαίνεται μαγικό κατά την επικύρωση και στη συνέχεια να σας απογοητεύσει στον πραγματικό κόσμο.
Συνήθη μοτίβα διαρροών:
-
κλιμάκωση χρησιμοποιώντας στατιστικά στοιχεία πλήρους συνόλου δεδομένων (αντί μόνο εκπαίδευσης) [2]
-
Χάρτες κατηγοριών κτιρίων χρησιμοποιώντας τρένο+δοκιμή μαζί [2]
-
οποιοδήποτε
fit()ήfit_transform()που «βλέπει» το σύνολο δοκιμών [2]
Εμπειρικός κανόνας (απλός, σκληρός, αποτελεσματικός):
-
Οτιδήποτε έχει κατάλληλο βήμα θα πρέπει να είναι κατάλληλο μόνο κατά την προπόνηση.
-
Στη συνέχεια, τον μετασχηματισμό χρησιμοποιώντας αυτόν τον προσαρμοσμένο μετασχηματιστή. [2]
Και αν θέλετε ένα «πόσο άσχημο μπορεί να είναι;» έλεγχος: τα έγγραφα του scikit-learn δείχνουν ένα παράδειγμα διαρροής όπου μια λανθασμένη σειρά προεπεξεργασίας αποδίδει ακρίβεια περίπου 0,76 σε τυχαίους στόχους - και στη συνέχεια μειώνεται ξανά στο ~ 0,5 μόλις διορθωθεί η διαρροή. Τόσο πειστικά λανθασμένη μπορεί να φαίνεται μια διαρροή. [2]
Ένταξη της προεπεξεργασίας στην παραγωγή χωρίς χάος 🏗️
Πολλά μοντέλα αποτυγχάνουν στην παραγωγή όχι επειδή το μοντέλο είναι «κακό», αλλά επειδή αλλάζει η πραγματικότητα των εισροών - ή αλλάζει η ροή εργασίας σας.
Η προεπεξεργασία με επίκεντρο την παραγωγή συνήθως περιλαμβάνει:
-
Αποθηκευμένα αντικείμενα (αντιστοιχίσεις κωδικοποιητή, παράμετροι κλιμάκωσης, διαμόρφωση tokenizer) έτσι ώστε η συμπερασματική ανάλυση να χρησιμοποιεί τους ίδιους ακριβώς μαθημένους μετασχηματισμούς [2]
-
Αυστηρές συμβάσεις εισόδου (αναμενόμενες στήλες/τύποι/εύρη)
-
Παρακολούθηση για ασυμμετρία και μετατόπιση , επειδή τα δεδομένα παραγωγής θα αποκλίνουν [5]
Αν θέλετε συγκεκριμένους ορισμούς: Το Vertex AI Model Monitoring της Google διακρίνει την ασυμμετρία μεταξύ εκπαίδευσης και εξυπηρέτησης (η κατανομή παραγωγής αποκλίνει από την εκπαίδευση) και την απόκλιση συμπερασμάτων (η κατανομή παραγωγής αλλάζει με την πάροδο του χρόνου) και υποστηρίζει την παρακολούθηση τόσο για κατηγορικά όσο και για αριθμητικά χαρακτηριστικά. [5]
Επειδή οι εκπλήξεις είναι ακριβές. Και όχι οι διασκεδαστικές.
Συγκριτικός πίνακας: κοινά εργαλεία προεπεξεργασίας + παρακολούθησης (και για ποιον προορίζονται) 🧰
| Εργαλείο / βιβλιοθήκη | Καλύτερο για | Τιμή | Γιατί λειτουργεί (και λίγη ειλικρίνεια) |
|---|---|---|---|
| προεπεξεργασία scikit-learn | Πινακοποιημένες διοχετεύσεις ML | Δωρεάν | Κωδικοποιητές στερεάς κατάστασης + κλιμακωτές (OneHotEncoder, StandardScaler, κ.λπ.) και προβλέψιμη συμπεριφορά [1] |
| Διακριτικά Αγκαλιαστικού Προσώπου | Προετοιμασία εισαγωγής NLP | Δωρεάν | Παράγει αναγνωριστικά εισόδου + μάσκες προσοχής με συνέπεια σε όλες τις εκτελέσεις/μοντέλα [3] |
| μετασχηματισμοί TorchVision | Μετασχηματισμός + ενίσχυση της όρασης | Δωρεάν | Καθαρός τρόπος ανάμειξης ντετερμινιστικών και τυχαίων μετασχηματισμών σε μία σωλήνωση [4] |
| Παρακολούθηση μοντέλου AI Vertex | Ανίχνευση απόκλισης/ασυμμετρίας στο προϊόν | Πληρωμένο (cloud) | Οι οθόνες διαθέτουν ασύμμετρη/μετατόπιση και ειδοποιήσεις όταν υπερβαίνουν τα όρια [5] |
(Ναι, ο πίνακας έχει ακόμα απόψεις. Αλλά τουλάχιστον είναι ειλικρινείς απόψεις 😅)
Μια πρακτική λίστα ελέγχου προεπεξεργασίας που μπορείτε πραγματικά να χρησιμοποιήσετε 📌
Πριν από την προπόνηση
-
Ορισμός σχήματος εισόδου (τύποι, μονάδες, επιτρεπόμενα εύρη)
-
Έλεγχος τιμών που λείπουν και διπλότυπων
-
Διαχωρίστε τα δεδομένα με τον σωστό τρόπο (τυχαία / χρονικά / ομαδοποιημένα)
-
Προεπεξεργασία προσαρμογής μόνο κατά την εκπαίδευση (
η προσαρμογή/η μετατροπή_κατάστασηςπαραμένει στην εκπαίδευση) [2] -
Αποθήκευση τεχνουργημάτων προεπεξεργασίας, ώστε η εξαγωγή συμπερασμάτων να μπορεί να τα επαναχρησιμοποιήσει [2]
Κατά τη διάρκεια της εκπαίδευσης
-
Εφαρμόστε τυχαία αύξηση μόνο όπου είναι απαραίτητο (συνήθως μόνο διαχωρισμός εκπαίδευσης) [4]
-
Διατήρηση της προεπεξεργασίας αξιολόγησης ως ντετερμινιστική [4]
-
Παρακολουθήστε τις αλλαγές προεπεξεργασίας, όπως οι αλλαγές στο μοντέλο (επειδή είναι)
Πριν από την ανάπτυξη
-
Βεβαιωθείτε ότι η συμπερασματική διαδικασία χρησιμοποιεί την ίδια διαδρομή προεπεξεργασίας και τα ίδια αντικείμενα [2]
-
Ρύθμιση παρακολούθησης απόκλισης/ασυμμετρίας (ακόμα και οι βασικοί έλεγχοι κατανομής χαρακτηριστικών είναι σημαντικοί) [5]
Βαθιά βουτιά: συνηθισμένα λάθη προεπεξεργασίας (και πώς να τα αποφύγετε) 🧯
Λάθος 1: «Θα τα ομαλοποιήσω όλα γρήγορα» 😵
Αν υπολογίζετε παραμέτρους κλιμάκωσης σε ολόκληρο το σύνολο δεδομένων, διαρρέετε πληροφορίες αξιολόγησης. Προσαρμόστε στην αμαξοστοιχία, μετασχηματίστε τα υπόλοιπα. [2]
Λάθος 2: κατηγορίες που παρασύρονται στο χάος 🧩
Εάν η αντιστοίχιση κατηγοριών σας μετατοπίζεται μεταξύ εκπαίδευσης και συμπερασμάτων, το μοντέλο σας μπορεί να ερμηνεύσει σιωπηλά τον κόσμο λανθασμένα. Διατηρήστε τις αντιστοιχίσεις διορθωμένες μέσω αποθηκευμένων τεχνουργημάτων. [2]
Λάθος 3: τυχαία αύξηση που εισχωρεί στην αξιολόγηση 🎲
Οι τυχαίοι μετασχηματισμοί είναι εξαιρετικοί στην εκπαίδευση, αλλά δεν θα πρέπει να είναι «κρυφά ενεργοποιημένοι» όταν προσπαθείτε να μετρήσετε την απόδοση. (Τυχαίο σημαίνει τυχαίο.) [4]
Τελικές παρατηρήσεις 🧠✨
Η προεπεξεργασία της Τεχνητής Νοημοσύνης είναι η πειθαρχημένη τέχνη της μετατροπής της ακατάστατης πραγματικότητας σε συνεπή δεδομένα εισόδου μοντέλου. Καλύπτει τον καθαρισμό, την κωδικοποίηση, την κλιμάκωση, την μετατροπή σε διακριτικά, τους μετασχηματισμούς εικόνας και -το πιο σημαντικό- τις επαναλήψιμες διοχετεύσεις και τα τεχνουργήματα.
-
Κάντε την προεπεξεργασία σκόπιμα, όχι τυχαία. [2]
-
Διαχωρισμός πρώτα, προσαρμογή μετασχηματισμών μόνο κατά την εκπαίδευση, αποφυγή διαρροής. [2]
-
Χρησιμοποιήστε προεπεξεργασία κατάλληλη για κάθε τρόπο επεξεργασίας (tokenizers για κείμενο, μετασχηματισμοί για εικόνες). [3][4]
-
Παρακολουθήστε την ασυμμετρία/απόκλιση παραγωγής, ώστε το μοντέλο σας να μην εκτρέπεται σιγά σιγά σε ανοησίες. [5]
Και αν ποτέ κολλήσετε, αναρωτηθείτε:
«Θα είχε ακόμα νόημα αυτό το βήμα προεπεξεργασίας αν το έτρεχα αύριο σε ολοκαίνουργια δεδομένα;»
Αν η απάντηση είναι «εεε... ίσως;», αυτή είναι η ένδειξη που χρειάζεστε 😬
Αναφορές
[1] scikit-learn API:
sklearn.preprocessing (κωδικοποιητές, κλιμακωτές, κανονικοποίηση) [2] scikit-learn: Συνήθεις παγίδες - Διαρροή δεδομένων και πώς να την αποφύγετε
[3] Έγγραφα Hugging Face Transformers: Tokenizers (ID εισόδου, μάσκες προσοχής)
[4] Έγγραφα PyTorch Torchvision: Μετασχηματισμοί (Αλλαγή μεγέθους/Κανονικοποίηση + τυχαίοι μετασχηματισμοί)
[5] Έγγραφα Google Cloud Vertex AI: Επισκόπηση παρακολούθησης μοντέλου (ασυμμετρία και μετατόπιση χαρακτηριστικών)