Τι είναι ένα σύνολο δεδομένων τεχνητής νοημοσύνης;

Τι είναι ένα σύνολο δεδομένων τεχνητής νοημοσύνης;

Αν κατασκευάζετε, αγοράζετε ή ακόμα και απλώς αξιολογείτε συστήματα Τεχνητής Νοημοσύνης, θα αντιμετωπίσετε μια παραπλανητικά απλή ερώτηση: τι είναι ένα σύνολο δεδομένων Τεχνητής Νοημοσύνης και γιατί έχει τόσο μεγάλη σημασία; Σύντομη εκδοχή: είναι το καύσιμο, το βιβλίο μαγειρικής και μερικές φορές η πυξίδα για το μοντέλο σας. 

Άρθρα που ίσως σας ενδιαφέρουν μετά από αυτό:

🔗 Πώς η Τεχνητή Νοημοσύνη προβλέπει τις τάσεις
Εξερευνά πώς η Τεχνητή Νοημοσύνη αναλύει μοτίβα για την πρόβλεψη μελλοντικών γεγονότων και συμπεριφορών.

🔗 Πώς να μετρήσετε την απόδοση της Τεχνητής Νοημοσύνης
Μετρήσεις και μέθοδοι για την αξιολόγηση της ακρίβειας, της αποτελεσματικότητας και της αξιοπιστίας του μοντέλου.

🔗 Πώς να μιλήσετε με την Τεχνητή Νοημοσύνη
Οδηγίες για τη δημιουργία καλύτερων αλληλεπιδράσεων για τη βελτίωση των απαντήσεων που παράγονται από την Τεχνητή Νοημοσύνη.

🔗 Τι είναι η προτροπή της Τεχνητής Νοημοσύνης
Επισκόπηση του τρόπου με τον οποίο οι προτροπές διαμορφώνουν τα αποτελέσματα της Τεχνητής Νοημοσύνης και τη συνολική ποιότητα επικοινωνίας.


Τι είναι ένα σύνολο δεδομένων τεχνητής νοημοσύνης; Ένας γρήγορος ορισμός 🧩

Τι είναι ένα σύνολο δεδομένων Τεχνητής Νοημοσύνης; Είναι μια συλλογή παραδειγμάτων από τα οποία μαθαίνει το μοντέλο σας ή από τα οποία αξιολογείται. Κάθε παράδειγμα έχει:

  • Είσοδοι - χαρακτηριστικά που βλέπει το μοντέλο, όπως αποσπάσματα κειμένου, εικόνες, ήχος, γραμμές σε μορφή πίνακα, μετρήσεις αισθητήρων, γραφήματα.

  • Στόχοι - ετικέτες ή αποτελέσματα που θα πρέπει να προβλέπει το μοντέλο, όπως κατηγορίες, αριθμοί, διαστήματα κειμένου, ενέργειες ή μερικές φορές τίποτα απολύτως.

  • Μεταδεδομένα - περιβάλλον όπως πηγή, μέθοδος συλλογής, χρονικές σημάνσεις, άδειες χρήσης, πληροφορίες συναίνεσης και σημειώσεις σχετικά με την ποιότητα.

Σκεφτείτε το σαν ένα προσεκτικά συσκευασμένο κουτί φαγητού για το μοντέλο σας: συστατικά, ετικέτες, διατροφικές πληροφορίες και ναι, το αυτοκόλλητο σημείωμα που λέει «μην φάτε αυτό το μέρος». 🍱

Για εποπτευόμενες εργασίες, θα δείτε εισόδους σε συνδυασμό με σαφείς ετικέτες. Για μη εποπτευόμενες εργασίες, θα δείτε εισόδους χωρίς ετικέτες. Για ενισχυτική μάθηση, τα δεδομένα συχνά μοιάζουν με επεισόδια ή τροχιές με καταστάσεις, ενέργειες, ανταμοιβές. Για πολυτροπική εργασία, τα παραδείγματα μπορούν να συνδυάσουν κείμενο + εικόνα + ήχο σε μία μόνο εγγραφή. Ακούγεται φανταχτερό. Είναι κυρίως υδραυλικό.

Χρήσιμα εισαγωγικά στοιχεία και πρακτικές: η των Φύλλων Δεδομένων για Σύνολα Δεδομένων βοηθά τις ομάδες να εξηγήσουν τι υπάρχει μέσα και πώς πρέπει να χρησιμοποιείται [1], και οι Κάρτες Μοντέλων συμπληρώνουν την τεκμηρίωση δεδομένων από την πλευρά του μοντέλου [2].

 

Σύνολο δεδομένων τεχνητής νοημοσύνης

Τι κάνει ένα καλό σύνολο δεδομένων τεχνητής νοημοσύνης ✅

Ας είμαστε ειλικρινείς, πολλά μοντέλα πετυχαίνουν επειδή το σύνολο δεδομένων δεν ήταν απαίσιο. Ένα «καλό» σύνολο δεδομένων είναι:

  • Αντιπροσωπευτικό πραγματικών περιπτώσεων χρήσης, όχι μόνο εργαστηριακών συνθηκών.

  • Ακριβώς επισημασμένο , με σαφείς οδηγίες και περιοδική αξιολόγηση. Οι μετρήσεις συμφωνίας (π.χ., μετρήσεις τύπου κάπα) βοηθούν στον έλεγχο της συνέπειας.

  • πλήρες και ισορροπημένο ώστε να αποφεύγεται η σιωπηλή αποτυχία σε μακριές ουρές. Η ανισορροπία είναι φυσιολογική· η αμέλεια όχι.

  • Σαφής προέλευση , με τεκμηριωμένη συγκατάθεση, άδεια και άδειες. Η βαρετή γραφειοκρατία αποτρέπει τις συναρπαστικές αγωγές.

  • Καλά τεκμηριωμένο με χρήση καρτών δεδομένων ή δελτίων δεδομένων που καθορίζουν την προβλεπόμενη χρήση, τα όρια και τους γνωστούς τρόπους αστοχίας [1]

  • Διέπεται από τη διαχείριση εκδόσεων, τα αρχεία καταγραφής αλλαγών και τις εγκρίσεις. Εάν δεν μπορείτε να αναπαράγετε το σύνολο δεδομένων, δεν μπορείτε να αναπαράγετε το μοντέλο. Οι οδηγίες από το Πλαίσιο Διαχείρισης Κινδύνων Τεχνητής Νοημοσύνης του NIST αντιμετωπίζουν την ποιότητα και την τεκμηρίωση των δεδομένων ως ζητήματα πρώτης κατηγορίας [3].


Τύποι συνόλων δεδομένων τεχνητής νοημοσύνης, ανάλογα με τις δραστηριότητές σας 🧰

Ανά εργασία

  • Ταξινόμηση - π.χ., ανεπιθύμητο περιεχόμενο έναντι μη ανεπιθύμητου περιεχομένου, κατηγορίες εικόνων.

  • Παλινδρόμηση - πρόβλεψη μιας συνεχούς τιμής όπως η τιμή ή η θερμοκρασία.

  • Ετικετοποίηση ακολουθίας - ονομασμένες οντότητες, μέρη του λόγου.

  • Γενεά - σύνοψη, μετάφραση, λεζάντες εικόνων.

  • Σύσταση - χρήστης, στοιχείο, αλληλεπιδράσεις, συμφραζόμενα.

  • Ανίχνευση ανωμαλιών - σπάνια συμβάντα σε χρονοσειρές ή αρχεία καταγραφής.

  • Ενισχυτική μάθηση - κατάσταση, δράση, ανταμοιβή, ακολουθίες επόμενης κατάστασης.

  • Ανάκτηση - έγγραφα, ερωτήματα, κρίσεις συνάφειας.

Με τρόπο

  • Πίνακας - στήλες όπως ηλικία, εισόδημα, απώλεια πελατών. Υποτιμημένο, εξαιρετικά αποτελεσματικό.

  • Κείμενο - έγγραφα, συνομιλίες, κώδικας, αναρτήσεις φόρουμ, περιγραφές προϊόντων.

  • Εικόνες - φωτογραφίες, ιατρικές σαρώσεις, δορυφορικά πλακίδια· με ή χωρίς μάσκες, κουτιά, βασικά σημεία.

  • Ήχος - κυματομορφές, μεταγραφές, ετικέτες ηχείων.

  • Βίντεο - καρέ, χρονικές σχολιασμοί, ετικέτες ενεργειών.

  • Γράφοι - κόμβοι, ακμές, χαρακτηριστικά.

  • Χρονοσειρές - αισθητήρες, χρηματοοικονομικά, τηλεμετρία.

Με επίβλεψη

  • Με ετικέτα (χρυσό, ασήμι, αυτόματη ετικέτα), ελαφρώς ετικέτα , χωρίς ετικέτα , συνθετικό . Το μείγμα για κέικ που αγοράζεται από το κατάστημα μπορεί να είναι αξιοπρεπές - αν διαβάσετε προσεκτικά το πλαίσιο.


Μέσα στο κουτί: δομή, διαχωρισμοί και μεταδεδομένα 📦

Ένα ισχυρό σύνολο δεδομένων συνήθως περιλαμβάνει:

  • Σχήμα - πληκτρολογημένα πεδία, μονάδες, επιτρεπόμενες τιμές, χειρισμός null.

  • Διαχωρισμοί - εκπαίδευση, επικύρωση, δοκιμή. Κρατήστε τα δεδομένα των δοκιμών σφραγισμένα - αντιμετωπίστε τα σαν το τελευταίο κομμάτι σοκολάτας.

  • Σχέδιο δειγματοληψίας - πώς αντλήσατε παραδείγματα από τον πληθυσμό· αποφύγετε τα δείγματα ευκολίας από μία περιοχή ή συσκευή.

  • Επαυξήσεις - αναστροφές, περικοπές, θόρυβος, παραφράσεις, μάσκες. Καλό όταν είναι ειλικρινές· επιβλαβές όταν εφευρίσκουν μοτίβα που δεν συμβαίνουν ποτέ στην άγρια ​​φύση.

  • Δημιουργία εκδόσεων - σύνολο δεδομένων v0.1, v0.2… με αρχεία καταγραφής αλλαγών που περιγράφουν τα delta.

  • Άδειες χρήσης και συγκατάθεση - δικαιώματα χρήσης, αναδιανομή και ροές διαγραφής. Οι εθνικές ρυθμιστικές αρχές προστασίας δεδομένων (π.χ., το ICO του Ηνωμένου Βασιλείου) παρέχουν πρακτικές λίστες ελέγχου για νόμιμη επεξεργασία [4].


Ο κύκλος ζωής του συνόλου δεδομένων, βήμα προς βήμα 🔁

  1. Ορίστε την απόφαση - τι θα αποφασίσει το μοντέλο και τι θα συμβεί εάν είναι λάθος.

  2. Χαρακτηριστικά και ετικέτες πεδίου εφαρμογής - μετρήσιμα, παρατηρήσιμα, ηθικά ως προς τη συλλογή.

  3. Πηγή δεδομένων - όργανα, αρχεία καταγραφής, έρευνες, δημόσια σώματα κειμένων, συνεργάτες.

  4. Συγκατάθεση και νομικά - ειδοποιήσεις απορρήτου, εξαιρέσεις, ελαχιστοποίηση δεδομένων. Δείτε τις οδηγίες των ρυθμιστικών αρχών για το «γιατί» και το «πώς» [4].

  5. Συλλογή και αποθήκευση - ασφαλής αποθήκευση, πρόσβαση βάσει ρόλων, διαχείριση PII.

  6. Ετικέτα - εσωτερικοί σχολιαστές, crowdsourcing, ειδικοί· διαχείριση ποιότητας με χρυσές εργασίες, ελέγχους και μετρήσεις συμφωνιών.

  7. Καθαρισμός και ομαλοποίηση - αφαίρεση διπλότυπων, διαχείριση ελλείψεων, τυποποίηση μονάδων, διόρθωση κωδικοποίησης. Βαρετή, ηρωική δουλειά.

  8. Διαχωρισμός και επικύρωση - αποφυγή διαρροών· διαστρωμάτωση όπου είναι απαραίτητο· προτίμηση διαχωρισμών με επίγνωση του χρόνου για χρονικά δεδομένα· και προσεκτική χρήση διασταυρούμενης επικύρωσης για αξιόπιστες εκτιμήσεις [5].

  9. Έγγραφο - φύλλο δεδομένων ή κάρτα δεδομένων· προβλεπόμενη χρήση, προειδοποιήσεις, περιορισμοί [1].

  10. Παρακολούθηση και ενημέρωση - ανίχνευση απόκλισης, ρυθμός ανανέωσης, σχέδια λήξης. Το RMF τεχνητής νοημοσύνης του NIST πλαισιώνει αυτόν τον συνεχιζόμενο βρόχο διακυβέρνησης [3].

Γρήγορη, ρεαλιστική συμβουλή: οι ομάδες συχνά «κερδίζουν την επίδειξη», αλλά δυσκολεύονται στην παραγωγή επειδή το σύνολο δεδομένων τους μετατοπίζεται αθόρυβα - νέες σειρές προϊόντων, ένα μετονομασμένο πεδίο ή μια αλλαγή πολιτικής. Ένα απλό αρχείο καταγραφής αλλαγών + περιοδική επανασχολιασμός αποτρέπει το μεγαλύτερο μέρος αυτού του πόνου.


Ποιότητα και αξιολόγηση δεδομένων - όχι τόσο βαρετό όσο ακούγεται 🧪

Η ποιότητα είναι πολυδιάστατη:

  • Ακρίβεια - είναι σωστές οι ετικέτες; Χρησιμοποιήστε μετρήσεις συμφωνίας και περιοδική αξιολόγηση.

  • Πληρότητα - καλύψτε τα πεδία και τις κατηγορίες που πραγματικά χρειάζεστε.

  • Συνέπεια - αποφύγετε αντιφατικές ετικέτες για παρόμοια δεδομένα εισόδου.

  • Επικαιρότητα - τα παρωχημένα δεδομένα απολιθώνουν τις υποθέσεις.

  • Δικαιοσύνη και μεροληψία - κάλυψη σε δημογραφικά στοιχεία, γλώσσες, συσκευές, περιβάλλοντα. Ξεκινήστε με περιγραφικούς ελέγχους και στη συνέχεια με δοκιμές αντοχής. Οι πρακτικές που δίνουν προτεραιότητα στην τεκμηρίωση (φύλλα δεδομένων, κάρτες μοντέλων) καθιστούν ορατούς αυτούς τους ελέγχους [1] και τα πλαίσια διακυβέρνησης τους δίνουν έμφαση ως ελέγχους κινδύνου [3].

Για την αξιολόγηση του μοντέλου, χρησιμοποιήστε κατάλληλες διαιρέσεις και παρακολουθήστε τόσο τις μέσες μετρήσεις όσο και τις μετρήσεις της χειρότερης ομάδας. Ένας λαμπερός μέσος όρος μπορεί να κρύψει έναν κρατήρα. Τα βασικά της διασταυρούμενης επικύρωσης καλύπτονται καλά στα τυπικά έγγραφα εργαλείων ML [5].


Δεοντολογία, ιδιωτικότητα και αδειοδότηση - τα προστατευτικά κιγκλιδώματα 🛡️

Τα ηθικά δεδομένα δεν είναι μια ατμόσφαιρα, είναι μια διαδικασία:

  • Συγκατάθεση και περιορισμός σκοπού - να είστε σαφείς σχετικά με τις χρήσεις και τις νομικές βάσεις [4].

  • Διαχείριση ΠΠ - ελαχιστοποίηση, ψευδωνυμοποίηση ή ανωνυμοποίηση, ανάλογα με την περίπτωση. Εξετάστε το ενδεχόμενο χρήσης τεχνολογίας ενίσχυσης της ιδιωτικότητας όταν οι κίνδυνοι είναι υψηλοί.

  • Αναφορά προέλευσης και άδειες χρήσης - σεβαστείτε τους περιορισμούς κοινής χρήσης και εμπορικής χρήσης.

  • Προκατάληψη και βλάβη - έλεγχος για ψευδείς συσχετίσεις (το «φως της ημέρας = ασφάλεια» θα είναι πολύ συγκεχυμένο τη νύχτα).

  • Διόρθωση - μάθετε πώς να αφαιρείτε δεδομένα κατόπιν αιτήματος και πώς να επαναφέρετε μοντέλα που έχουν εκπαιδευτεί σε αυτά (καταγράψτε το στο φύλλο δεδομένων σας) [1].


Πόσο μεγάλο είναι ένα αρκετά μεγάλο μέγεθος; Μέγεθος και λόγος σήματος προς θόρυβο 📏

Εμπειρικός κανόνας: περισσότερα παραδείγματα συνήθως βοηθούν αν είναι σχετικά και όχι σχεδόν διπλότυπα. Αλλά μερικές φορές είναι καλύτερα να έχετε λιγότερα, πιο καθαρά και καλύτερα επισημασμένα δείγματα παρά βουνά από ακατάστατα.

Προσέξτε για:

  • Καμπύλες μάθησης - απεικονίστε την απόδοση σε σχέση με το μέγεθος του δείγματος για να δείτε εάν είστε δεσμευμένοι σε δεδομένα ή σε μοντέλο.

  • Μακροχρόνια κάλυψη - οι σπάνιες αλλά κρίσιμες κατηγορίες συχνά χρειάζονται στοχευμένη συλλογή, όχι απλώς μεγαλύτερη ποσότητα.

  • Ετικέτα θορύβου - μετρήστε και μετά μειώστε. λίγος θόρυβος είναι ανεκτός, ένα παλιρροϊκό κύμα όχι.

  • Μετατόπιση κατανομής - τα δεδομένα εκπαίδευσης από μια περιοχή ή κανάλι ενδέχεται να μην γενικεύονται σε άλλο· επικυρώστε τα σε δεδομένα δοκιμών τύπου στόχου [5].

Σε περίπτωση αμφιβολίας, εκτελέστε μικρά πιλοτικά προγράμματα και επεκτείνετε. Είναι σαν να προσθέτετε καρυκεύματα - προσθέστε, δοκιμάστε, προσαρμόστε, επαναλάβετε.


Πού να βρείτε και να διαχειριστείτε σύνολα δεδομένων 🗂️

Δημοφιλείς πόροι και εργαλεία (δεν χρειάζεται να απομνημονεύσετε διευθύνσεις URL αυτή τη στιγμή):

  • Σύνολα δεδομένων Hugging Face - προγραμματιστική φόρτωση, επεξεργασία, κοινή χρήση.

  • Αναζήτηση συνόλου δεδομένων Google - μετα-αναζήτηση σε ολόκληρο τον ιστό.

  • Αποθετήριο UCI ML - επιμελημένα κλασικά για βασικές γραμμές και διδασκαλία.

  • OpenML - εργασίες + σύνολα δεδομένων + εκτελέσεις με προέλευση.

  • AWS Open Data / Google Cloud Public Datasets - φιλοξενούμενα, μεγάλης κλίμακας σώματα δεδομένων.

Συμβουλή από ειδικό: μην κάνετε απλώς λήψη. Διαβάστε την άδεια χρήσης και το φύλλο δεδομένων και, στη συνέχεια, τεκμηριώστε το δικό σας αντίγραφο με αριθμούς έκδοσης και προέλευση [1].


Ετικετοποίηση και σχολιασμός - όπου η αλήθεια αποτελεί αντικείμενο διαπραγμάτευσης ✍️

Η σχολιασμός είναι το σημείο όπου ο θεωρητικός οδηγός ετικετών σας παλεύει με την πραγματικότητα:

  • Σχεδιασμός εργασίας - γράψτε σαφείς οδηγίες με παραδείγματα και αντιπαραδείγματα.

  • Εκπαίδευση σχολιαστή - προσθήκη χρυσών απαντήσεων, εκτέλεση γύρων βαθμονόμησης.

  • Έλεγχος ποιότητας - χρήση μετρήσεων συμφωνίας, μηχανισμών συναίνεσης και περιοδικών ελέγχων.

  • Εργαλεία - επιλέξτε εργαλεία που επιβάλλουν την επικύρωση σχήματος και τις ουρές αναθεώρησης. Ακόμη και τα υπολογιστικά φύλλα μπορούν να λειτουργήσουν με κανόνες και ελέγχους.

  • Βρόχοι ανατροφοδότησης - καταγράψτε σημειώσεις σχολιασμού και μοντελοποιήστε λάθη για να βελτιώσετε τον οδηγό.

Αν σου φαίνεται σαν να επεξεργάζεσαι ένα λεξικό με τρεις φίλους που διαφωνούν για τα κόμματα... αυτό είναι φυσιολογικό. 🙃


Τεκμηρίωση δεδομένων - κάνοντας την έμμεση γνώση σαφή 📒

Ένα ελαφρύ φύλλο δεδομένων ή μια κάρτα δεδομένων θα πρέπει να καλύπτει:

  • Ποιος το συνέλεξε, πώς και γιατί.

  • Προβλεπόμενες χρήσεις και χρήσεις εκτός πεδίου εφαρμογής.

  • Γνωστά κενά, μεροληψίες και τρόποι αστοχίας.

  • Πρωτόκολλο επισήμανσης, βήματα διασφάλισης ποιότητας και στατιστικά στοιχεία συμφωνίας.

  • Άδεια, συγκατάθεση, επικοινωνία για προβλήματα, διαδικασία αφαίρεσης.

Πρότυπα και παραδείγματα: Τα φύλλα δεδομένων για σύνολα δεδομένων και κάρτες μοντέλων αποτελούν ευρέως χρησιμοποιούμενα σημεία εκκίνησης [1].

Γράψτε το ενώ δημιουργείτε, όχι μετά. Η μνήμη είναι ένα ασταθές μέσο αποθήκευσης.


Πίνακας σύγκρισης - μέρη για εύρεση ή φιλοξενία συνόλων δεδομένων τεχνητής νοημοσύνης 📊

Ναι, αυτό είναι λίγο προσωπολατρικό. Και η διατύπωση είναι ελαφρώς άνιση σκόπιμα. Δεν πειράζει.

Εργαλείο / Αποθετήριο Ακροατήριο Τιμή Γιατί λειτουργεί στην πράξη
Σύνολα δεδομένων αγκαλιάς προσώπου Ερευνητές, μηχανικοί Ελεύθερη βαθμίδα Γρήγορη φόρτωση, ροή, σενάρια κοινότητας· εξαιρετικά έγγραφα· σύνολα δεδομένων με συγκεκριμένες εκδόσεις
Αναζήτηση συνόλου δεδομένων Google Καθένας Δωρεάν Μεγάλη επιφάνεια· ιδανικό για ανακάλυψη· μερικές φορές όμως τα μεταδεδομένα είναι ασυνεπή
Αποθετήριο ML της UCI Φοιτητές, εκπαιδευτικοί Δωρεάν Επιλεγμένα κλασικά έργα. Μικρά αλλά τακτοποιημένα. Κατάλληλα για βασικές γραμμές και διδασκαλία.
OpenML Ερευνητές αναπαραγωγής Δωρεάν Εργασίες + σύνολα δεδομένων + εκτελέσεις μαζί· ωραία ίχνη προέλευσης
Μητρώο Ανοικτών Δεδομένων AWS Μηχανικοί δεδομένων Κυρίως δωρεάν Φιλοξενία σε κλίμακα Petabyte· πρόσβαση στο cloud· κόστος εξόδου από το ρολόι
Σύνολα δεδομένων Kaggle Επαγγελματίες Δωρεάν Εύκολη κοινή χρήση, σενάρια, διαγωνισμοί. Τα σήματα κοινότητας βοηθούν στο φιλτράρισμα του θορύβου.
Δημόσια σύνολα δεδομένων Google Cloud Αναλυτές, ομάδες Δωρεάν + cloud Φιλοξενείται κοντά σε υπολογιστικά συστήματα. Ενσωμάτωση BigQuery. Προσοχή με την χρέωση
Ακαδημαϊκές πύλες, εργαστήρια Ειδικοί σε εξειδικευμένες αγορές Ποικίλλει Υψηλή εξειδίκευση· μερικές φορές ελλιπώς τεκμηριωμένο· αξίζει τον κόπο να το ψάξετε

(Αν ένα κελί φαίνεται φλύαρο, αυτό είναι σκόπιμο.)


Φτιάχνοντας το πρώτο σας - ένα πρακτικό κιτ εκκίνησης 🛠️

Θέλετε να μεταβείτε από το "τι είναι ένα σύνολο δεδομένων AI" στο "Έφτιαξα ένα, λειτουργεί". Δοκιμάστε αυτήν την ελάχιστη διαδρομή:

  1. Γράψτε την απόφαση και τη μέτρηση - π.χ., μειώστε τις λανθασμένες δρομολογήσεις εισερχόμενης υποστήριξης προβλέποντας τη σωστή ομάδα. Μετρική: μακρο-F1.

  2. Αναφέρετε 5 θετικά και 5 αρνητικά παραδείγματα - πάρτε δείγματα πραγματικών εισιτηρίων· μην τα κατασκευάζετε.

  3. Συντάξτε έναν οδηγό ετικετών - μία σελίδα· σαφείς κανόνες συμπερίληψης/αποκλεισμού.

  4. Συλλέξτε ένα μικρό, πραγματικό δείγμα - μερικές εκατοντάδες εισιτήρια σε όλες τις κατηγορίες. Αφαιρέστε τα προσωπικά σας στοιχεία (PII) που δεν χρειάζεστε.

  5. Διαχωρισμός με ελέγχους διαρροής - διατηρήστε όλα τα μηνύματα από τον ίδιο πελάτη σε μία διαίρεση· χρησιμοποιήστε διασταυρούμενη επικύρωση για την εκτίμηση της απόκλισης [5].

  6. Σχολιασμός με QA - δύο σχολιαστές σε ένα υποσύνολο· επίλυση διαφωνιών· ενημέρωση του οδηγού.

  7. Εκπαιδεύστε μια απλή γραμμή βάσης - πρώτα η εφοδιαστική (π.χ., γραμμικά μοντέλα ή συμπαγείς μετασχηματιστές). Το θέμα είναι να δοκιμάσετε τα δεδομένα, όχι να κερδίσετε μετάλλια.

  8. Ελέγξτε τα σφάλματα - πού αποτυγχάνει και γιατί· ενημερώστε το σύνολο δεδομένων, όχι μόνο το μοντέλο.

  9. Έγγραφο - μικροσκοπικό φύλλο δεδομένων: πηγή, σύνδεσμος οδηγού ετικετών, διαχωρισμοί, γνωστά όρια, άδεια χρήσης [1].

  10. Προγραμματίστε ανανέωση - νέες κατηγορίες, νέα αργκό, νέα domains έρχονται· προγραμματίστε μικρές, συχνές ενημερώσεις [3].

Θα μάθεις περισσότερα από αυτόν τον βρόχο παρά από χίλιες πρόχειρες λήψεις. Επίσης, κράτα αντίγραφα ασφαλείας. Σε παρακαλώ.


Συνήθεις παγίδες που κρύβονται στις ομάδες 🪤

  • Διαρροή δεδομένων - η απάντηση κρύβεται στις λειτουργίες (π.χ., χρήση πεδίων μετά την επίλυση για την πρόβλεψη αποτελεσμάτων). Μοιάζει με απάτη, επειδή είναι.

  • Μικρή ποικιλομορφία - μια γεωγραφική περιοχή ή μια συσκευή μεταμφιέζεται σε παγκόσμια. Οι δοκιμές θα αποκαλύψουν την ανατροπή της πλοκής.

  • Μετατόπιση ετικετών - τα κριτήρια αλλάζουν με την πάροδο του χρόνου, αλλά ο οδηγός ετικετών όχι. Καταγράψτε και εκδώστε την οντολογία σας.

  • Υποπροσδιορισμένοι στόχοι - αν δεν μπορείτε να ορίσετε μια κακή πρόβλεψη, ούτε τα δεδομένα σας θα μπορέσουν.

  • Ακατάστατες άδειες χρήσης - η απόξεση τώρα και η συγγνώμη αργότερα δεν είναι στρατηγική.

  • Υπερβολική αύξηση - συνθετικά δεδομένα που διδάσκουν μη ρεαλιστικά αντικείμενα, όπως η εκπαίδευση ενός σεφ σε πλαστικά φρούτα.


Σύντομες συχνές ερωτήσεις σχετικά με την ίδια τη φράση ❓

  • Είναι το «Τι είναι ένα σύνολο δεδομένων τεχνητής νοημοσύνης;» απλώς θέμα ορισμού; Ως επί το πλείστον, αλλά είναι επίσης ένα σημάδι ότι σας ενδιαφέρουν τα βαρετά σημεία που καθιστούν τα μοντέλα αξιόπιστα.

  • Χρειάζομαι πάντα ετικέτες; Όχι. Οι μη επιβλεπόμενες, οι αυτοεπιβλεπόμενες και οι ρυθμίσεις RL συχνά παραλείπουν τις σαφείς ετικέτες, αλλά η επιμέλεια εξακολουθεί να έχει σημασία.

  • Μπορώ να χρησιμοποιήσω δημόσια δεδομένα για οτιδήποτε; Όχι. Σεβαστείτε τις άδειες χρήσης, τους όρους της πλατφόρμας και τις υποχρεώσεις απορρήτου [4].

  • Μεγαλύτερο ή καλύτερο; Και τα δύο, ιδανικά. Αν πρέπει να διαλέξεις, διάλεξε πρώτα καλύτερο.


Τελικές παρατηρήσεις - Τι μπορείτε να καταγράψετε στιγμιότυπα οθόνης 📌

Αν κάποιος σας ρωτήσει τι είναι ένα σύνολο δεδομένων τεχνητής νοημοσύνης , πείτε: είναι μια επιμελημένη, τεκμηριωμένη συλλογή παραδειγμάτων που διδάσκουν και δοκιμάζουν ένα μοντέλο, τυλιγμένο σε διακυβέρνηση, ώστε οι άνθρωποι να μπορούν να εμπιστεύονται τα αποτελέσματα. Τα καλύτερα σύνολα δεδομένων είναι αντιπροσωπευτικά, καλά επισημασμένα, νομικά καθαρά και συντηρούνται συνεχώς. Τα υπόλοιπα είναι λεπτομέρειες - σημαντικές λεπτομέρειες - σχετικά με τη δομή, τους διαχωρισμούς και όλα αυτά τα μικρά προστατευτικά κιγκλιδώματα που εμποδίζουν τα μοντέλα να περιπλανώνται στην κυκλοφορία. Μερικές φορές η διαδικασία μοιάζει με κηπουρική με υπολογιστικά φύλλα, μερικές φορές με συγκέντρωση pixel. Σε κάθε περίπτωση, επενδύστε στα δεδομένα και τα μοντέλα σας θα συμπεριφέρονται λιγότερο περίεργα. 🌱🤖


Αναφορές

[1] Φύλλα δεδομένων για σύνολα δεδομένων - Gebru et al., arXiv. Σύνδεσμος
[2] Κάρτες μοντέλων για την αναφορά μοντέλων - Mitchell et al., arXiv. Σύνδεσμος
[3] Πλαίσιο διαχείρισης κινδύνων τεχνητής νοημοσύνης NIST (AI RMF 1.0) . Σύνδεσμος
[4] Οδηγίες και πόροι GDPR Ηνωμένου Βασιλείου - Γραφείο Επιτρόπου Πληροφοριών (ICO). Σύνδεσμος
[5] Διασταυρούμενη επικύρωση: αξιολόγηση της απόδοσης του εκτιμητή - Οδηγός χρήστη scikit-learn. Σύνδεσμος


Βρείτε την τελευταία λέξη της Τεχνητής Νοημοσύνης στο επίσημο κατάστημα βοηθών τεχνητής νοημοσύνης

Σχετικά με εμάς

Επιστροφή στο ιστολόγιο