Τα νευρωνικά δίκτυα ακούγονται μυστηριώδη μέχρι να μην ακούγονται. Αν έχετε αναρωτηθεί ποτέ τι είναι ένα Νευρωνικό Δίκτυο στην Τεχνητή Νοημοσύνη; και αν είναι απλώς μαθηματικά με φανταχτερό καπέλο, βρίσκεστε στο σωστό μέρος. Θα το κρατήσουμε πρακτικό, θα προσθέσουμε μικρές παρακάμψεις και, ναι, μερικά emoji. Θα φύγετε γνωρίζοντας τι είναι αυτά τα συστήματα, γιατί λειτουργούν, πού αποτυγχάνουν και πώς να μιλήσετε γι' αυτά χωρίς να κουνάτε το χέρι σας.
Άρθρα που ίσως σας ενδιαφέρουν μετά από αυτό:
🔗 Τι είναι η προκατάληψη της Τεχνητής Νοημοσύνης
Κατανόηση της προκατάληψης στα συστήματα και τις στρατηγικές Τεχνητής Νοημοσύνης για τη διασφάλιση της δικαιοσύνης.
🔗 Τι είναι η προγνωστική τεχνητή νοημοσύνη
Πώς η προγνωστική τεχνητή νοημοσύνη χρησιμοποιεί μοτίβα για την πρόβλεψη μελλοντικών αποτελεσμάτων.
🔗 Τι είναι ένας εκπαιδευτής Τεχνητής Νοημοσύνης
Διερεύνηση του ρόλου και των ευθυνών των επαγγελματιών που εκπαιδεύουν την Τεχνητή Νοημοσύνη.
🔗 Τι είναι η υπολογιστική όραση στην Τεχνητή Νοημοσύνη
Πώς η Τεχνητή Νοημοσύνη ερμηνεύει και αναλύει οπτικά δεδομένα μέσω της υπολογιστικής όρασης.
Τι είναι ένα Νευρωνικό Δίκτυο στην Τεχνητή Νοημοσύνη; Η απάντηση των 10 δευτερολέπτων ⏱️
Ένα νευρωνικό δίκτυο είναι μια στοίβα απλών μονάδων υπολογισμού που ονομάζονται νευρώνες και οι οποίοι μεταβιβάζουν αριθμούς προς τα εμπρός, προσαρμόζουν την ισχύ της σύνδεσής τους κατά την εκπαίδευση και μαθαίνουν σταδιακά μοτίβα στα δεδομένα. Όταν ακούτε βαθιά μάθηση , αυτό συνήθως σημαίνει ένα νευρωνικό δίκτυο με πολλά στοιβαγμένα επίπεδα, όπου μαθαίνουν χαρακτηριστικά αυτόματα αντί να τα κωδικοποιείτε εσείς χειροκίνητα. Με άλλα λόγια: πολλά μικροσκοπικά μαθηματικά κομμάτια, έξυπνα διατεταγμένα, εκπαιδευμένα σε δεδομένα μέχρι να είναι χρήσιμα [1].
Τι κάνει ένα Νευρωνικό Δίκτυο χρήσιμο; ✅
-
Δύναμη αναπαράστασης : Με την κατάλληλη αρχιτεκτονική και μέγεθος, τα δίκτυα μπορούν να προσεγγίσουν εξαιρετικά πολύπλοκες συναρτήσεις (βλ. Θεώρημα Παγκόσμιας Προσέγγισης) [4].
-
Ολοκληρωμένη μάθηση : Αντί να επεξεργάζεται χαρακτηριστικά χειροκίνητα, το μοντέλο τα ανακαλύπτει [1].
-
Γενίκευση : Ένα καλά κανονικοποιημένο δίκτυο δεν απλώς απομνημονεύει - λειτουργεί με νέα, μη ορατά δεδομένα [1].
-
Επεκτασιμότητα : Τα μεγαλύτερα σύνολα δεδομένων και τα μεγαλύτερα μοντέλα συχνά βελτιώνουν συνεχώς τα αποτελέσματα... μέχρι πρακτικά όρια, όπως η υπολογιστική ισχύς και η ποιότητα των δεδομένων [1].
-
Μεταβιβασιμότητα : Χαρακτηριστικά που μαθαίνονται σε μια εργασία μπορούν να βοηθήσουν μια άλλη (μεταφορά μάθησης και βελτίωση) [1].
Μικρή σημείωση πεδίου (ενδεικτικό σενάριο): Μια μικρή ομάδα ταξινόμησης προϊόντων αντικαθιστά χειροποίητα χαρακτηριστικά με ένα συμπαγές CNN, προσθέτει απλές επαυξήσεις (αναστροφές/περικοπές) και παρακολουθεί την πτώση των σφαλμάτων επικύρωσης - όχι επειδή το δίκτυο είναι «μαγικό», αλλά επειδή έμαθε περισσότερα χρήσιμα χαρακτηριστικά απευθείας από τα pixel.
«Τι είναι ένα Νευρωνικό Δίκτυο στην Τεχνητή Νοημοσύνη;» σε απλά αγγλικά, με μια αμφίβολη μεταφορά 🍞
Φανταστείτε μια γραμμή αρτοποιίας. Τα υλικά μπαίνουν, οι εργαζόμενοι τροποποιούν τη συνταγή, οι δοκιμαστές γεύσεων παραπονιούνται και η ομάδα ενημερώνει ξανά τη συνταγή. Σε ένα δίκτυο, οι είσοδοι ρέουν μέσω στρώσεων, η συνάρτηση απώλειας βαθμολογεί την έξοδο και οι διαβαθμίσεις ωθούν τα βάρη να αποδίδουν καλύτερα την επόμενη φορά. Δεν είναι τέλειο ως μεταφορά - το ψωμί δεν είναι διαφορίσιμο - αλλά κολλάει [1].
Η ανατομία ενός νευρωνικού δικτύου 🧩
-
Νευρώνες : Μικροσκοπικές αριθμομηχανές που εφαρμόζουν ένα σταθμισμένο άθροισμα και μια συνάρτηση ενεργοποίησης.
-
Βάρη & πόλωση : Ρυθμιζόμενα κουμπιά που καθορίζουν τον τρόπο με τον οποίο συνδυάζονται τα σήματα.
-
Επίπεδα : Το επίπεδο εισόδου λαμβάνει δεδομένα, τα κρυφά επίπεδα τα μετασχηματίζουν και το επίπεδο εξόδου κάνει την πρόβλεψη.
-
Συναρτήσεις ενεργοποίησης : Οι μη γραμμικές αναστροφές όπως οι ReLU, sigmoid, tanh και softmax καθιστούν τη μάθηση ευέλικτη.
-
Συνάρτηση απώλειας : Βαθμολογία του πόσο λανθασμένη είναι η πρόβλεψη (διασταυρούμενη εντροπία για ταξινόμηση, MSE για παλινδρόμηση).
-
Βελτιστοποιητής : Αλγόριθμοι όπως ο SGD ή ο Adam χρησιμοποιούν διαβαθμίσεις για την ενημέρωση των βαρών.
-
Κανονικοποίηση : Τεχνικές όπως η απόρριψη ή η μείωση βάρους για να αποτραπεί η υπερπροσαρμογή του μοντέλου.
Αν θέλετε την επίσημη επεξεργασία (αλλά και να είναι ευανάγνωστη), το ανοιχτό εγχειρίδιο Deep Learning καλύπτει ολόκληρη τη συλλογή: μαθηματικά θεμέλια, βελτιστοποίηση και γενίκευση [1].
Λειτουργίες ενεργοποίησης, σύντομα αλλά χρήσιμα ⚡
-
ReLU : Μηδέν για αρνητικά, γραμμικό για θετικά. Απλό, γρήγορο, αποτελεσματικό.
-
Σιγμοειδές : Συμπιέζει τιμές μεταξύ 0 και 1 - χρήσιμο αλλά μπορεί να προκαλέσει κορεσμό.
-
Tanh : Σαν σιγμοειδές αλλά συμμετρικό γύρω από το μηδέν.
-
Softmax : Μετατρέπει τις ακατέργαστες βαθμολογίες σε πιθανότητες σε όλες τις κλάσεις.
Δεν χρειάζεται να απομνημονεύσετε κάθε σχήμα καμπύλης - απλώς να γνωρίζετε τους συμβιβασμούς και τις συνήθεις προεπιλογές [1, 2].
Πώς συμβαίνει στην πραγματικότητα η μάθηση: με φόντο, αλλά όχι τρομακτικό 🔁
-
Προώθηση : Τα δεδομένα ρέουν στρώση προς στρώση για να παράγουν μια πρόβλεψη.
-
Υπολογισμός απώλειας : Συγκρίνετε την πρόβλεψη με την αλήθεια.
-
Οπισθοδιάδοση : Υπολογίστε τις διαβαθμίσεις της απώλειας ως προς κάθε βάρος χρησιμοποιώντας τον κανόνα της αλυσίδας.
-
Ενημέρωση : Το Optimizer αλλάζει λίγο τα βάρη.
-
Επανάληψη : Πολλές εποχές. Το μοντέλο μαθαίνει σταδιακά.
Για μια πρακτική εμπειρία με γραφικά και επεξηγήσεις που σχετίζονται με τον κώδικα, ανατρέξτε στις κλασικές σημειώσεις του CS231n σχετικά με το backprop και τη βελτιστοποίηση [2].
Οι κύριες οικογένειες νευρωνικών δικτύων, με μια ματιά 🏡
-
Δίκτυα εμπρόσθιας ανάδρασης (MLP) : Το απλούστερο είδος. Τα δεδομένα κινούνται μόνο προς τα εμπρός.
-
Συνελικτικά Νευρωνικά Δίκτυα (CNN) : Ιδανικά για εικόνες χάρη στα χωρικά φίλτρα που ανιχνεύουν ακμές, υφές, σχήματα [2].
-
Επαναλαμβανόμενα Νευρωνικά Δίκτυα (RNN) και παραλλαγές : Κατασκευασμένα για ακολουθίες όπως κείμενο ή χρονοσειρές διατηρώντας μια αίσθηση τάξης [1].
-
Μετασχηματιστές : Δώστε προσοχή στη μοντελοποίηση σχέσεων μεταξύ θέσεων σε μια ακολουθία ταυτόχρονα· κυρίαρχη στη γλώσσα και πέρα από αυτήν [3].
-
Νευρωνικά Δίκτυα Γραφημάτων (GNN) : Λειτουργούν σε κόμβους και ακμές ενός γραφήματος - χρήσιμο για μόρια, κοινωνικά δίκτυα, σύσταση [1].
-
Αυτόματοι κωδικοποιητές και VAE : Μάθετε συμπιεσμένες αναπαραστάσεις και δημιουργήστε παραλλαγές [1].
-
Γενετικά μοντέλα : Από GAN έως μοντέλα διάχυσης, που χρησιμοποιούνται για εικόνες, ήχο, ακόμη και κώδικα [1].
Οι σημειώσεις CS231n είναι ιδιαίτερα φιλικές προς τα CNN, ενώ το χαρτί Transformer είναι η κύρια πηγή για μοντέλα που βασίζονται στην προσοχή [2, 3].
Συγκριτικός πίνακας: συνηθισμένοι τύποι νευρωνικών δικτύων, για ποιον προορίζονται, τιμές κόστους και γιατί λειτουργούν 📊
| Εργαλείο / Τύπος | Ακροατήριο | Ακριβό | Γιατί λειτουργεί |
|---|---|---|---|
| Προώθηση ανάδρασης (MLP) | Αρχάριοι, αναλυτές | Χαμηλή-μέτρια | Απλές, ευέλικτες, αξιοπρεπείς γραμμές βάσης |
| CNN | Ομάδες οράματος | Μέσον | Τοπικά μοτίβα + κοινή χρήση παραμέτρων |
| RNN / LSTM / GRU | Ακολουθία ανθρώπων | Μέσον | Χρονική μνήμη... αποτυπώνει την τάξη |
| Μετασχηματιστής | NLP, πολυτροπική | Μέτρια-υψηλή | Η προσοχή εστιάζεται σε σχετικές σχέσεις |
| GNN | Επιστήμονες, recsys | Μέσον | Η μετάδοση μηνυμάτων σε γραφήματα αποκαλύπτει δομή |
| Αυτόματος κωδικοποιητής / VAE | Ερευνητές | Χαμηλή-μέτρια | Μαθαίνει συμπιεσμένες αναπαραστάσεις |
| GAN / Διάχυση | Δημιουργικά εργαστήρια | Μέτρια-υψηλή | Αντιθετική ή επαναληπτική μαγεία αποθορυβοποίησης |
Σημειώσεις: Η τιμολόγηση έχει να κάνει με τους υπολογισμούς και τον χρόνο. Τα χιλιόμετρα ποικίλλουν. Ένα ή δύο κινητά είναι σκόπιμα φλυαρά.
«Τι είναι ένα Νευρωνικό Δίκτυο στην Τεχνητή Νοημοσύνη;» έναντι κλασικών αλγορίθμων Μηχανικής Μάθησης ⚖️
-
Μηχανική χαρακτηριστικών : Η κλασική μηχανική μάθηση συχνά βασίζεται σε χειροκίνητες λειτουργίες. Τα νευρωνικά δίκτυα μαθαίνουν χαρακτηριστικά αυτόματα - μια μεγάλη νίκη για τα σύνθετα δεδομένα [1].
-
Έλλειψη δεδομένων : Τα δίκτυα συχνά ξεχωρίζουν με περισσότερα δεδομένα. Τα μικρά δεδομένα μπορεί να ευνοούν απλούστερα μοντέλα [1].
-
Υπολογισμός : Τα δίκτυα λατρεύουν τους επιταχυντές όπως οι GPU [1].
-
Όριο απόδοσης : Για μη δομημένα δεδομένα (εικόνες, ήχος, κείμενο), τα βαθιά δίκτυα τείνουν να κυριαρχούν [1, 2].
Η ροή εργασίας εκπαίδευσης που λειτουργεί στην πράξη 🛠️
-
Ορίστε τον στόχο : Ταξινόμηση, παλινδρόμηση, κατάταξη, δημιουργία - επιλέξτε μια απώλεια που ταιριάζει.
-
Επεξεργασία δεδομένων : Διαχωρισμός σε train/validation/test. Κανονικοποίηση χαρακτηριστικών. Ισορροπία κλάσεων. Για εικόνες, εξετάστε το ενδεχόμενο αύξησης όπως αναστροφές, περικοπές, μικρός θόρυβος.
-
Επιλογή αρχιτεκτονικής : Ξεκινήστε απλά. Προσθέστε χωρητικότητα μόνο όταν χρειάζεται.
-
Βρόχος εκπαίδευσης : Μαζική επεξεργασία των δεδομένων. Προώθηση δεδομένων. Υπολογισμός της απώλειας. Προώθηση δεδομένων. Ενημέρωση. Καταγραφή μετρήσεων.
-
Κανονικοποίηση : Διακοπή της σίτισης, μείωση βάρους, πρόωρη διακοπή.
-
Αξιολόγηση : Χρησιμοποιήστε το σύνολο επικύρωσης για υπερπαραμέτρους. Κρατήστε ένα σύνολο δοκιμών για τον τελικό έλεγχο.
-
Αποστολή προσεκτικά : Παρακολουθήστε την απόκλιση, ελέγξτε για μεροληψία, σχεδιάστε τις επαναφορές.
Για ολοκληρωμένα, προσανατολισμένα στον κώδικα σεμινάρια με στέρεη θεωρία, το ανοιχτό εγχειρίδιο και οι σημειώσεις του CS231n αποτελούν αξιόπιστες άγκυρες [1, 2].
Υπερβολική προσαρμογή, γενίκευση και άλλα γκρέμλιν 👀
-
Υπερπροσαρμογή : Το μοντέλο απομνημονεύει τις ιδιορρυθμίες εκπαίδευσης. Διορθώστε με περισσότερα δεδομένα, ισχυρότερη κανονικοποίηση ή απλούστερες αρχιτεκτονικές.
-
Υποπροσαρμογή : Το μοντέλο είναι πολύ απλό ή η προπόνηση είναι πολύ δειλή. Αυξήστε την ικανότητα ή προπονηθείτε για περισσότερο χρόνο.
-
Διαρροή δεδομένων : Πληροφορίες από το σύνολο δοκιμών εισέρχονται κρυφά στην εκπαίδευση. Ελέγξτε τριπλά τους διαχωρισμούς σας.
-
Κακή βαθμονόμηση : Ένα μοντέλο που είναι σίγουρο αλλά κάνει λάθος είναι επικίνδυνο. Εξετάστε το ενδεχόμενο βαθμονόμησης ή διαφορετικής στάθμισης απώλειας.
-
Μετατόπιση κατανομής : Μετακινήσεις δεδομένων στον πραγματικό κόσμο. Παρακολούθηση και προσαρμογή.
Για τη θεωρία πίσω από τη γενίκευση και την κανονικοποίηση, βασιστείτε στις τυπικές αναφορές [1, 2].
Ασφάλεια, ερμηνευσιμότητα και υπεύθυνη ανάπτυξη 🧭
Τα νευρωνικά δίκτυα μπορούν να λαμβάνουν αποφάσεις υψηλού ρίσκου. Δεν αρκεί να έχουν καλή απόδοση σε έναν πίνακα κατάταξης. Χρειάζονται βήματα διακυβέρνησης, μέτρησης και μετριασμού σε όλο τον κύκλο ζωής. Το Πλαίσιο Διαχείρισης Κινδύνων Τεχνητής Νοημοσύνης του NIST περιγράφει πρακτικές λειτουργίες - ΔΙΑΒΙΒΑΣΗ, ΧΑΡΤΟΓΡΑΦΗΣΗ, ΜΕΤΡΗΣΗ, ΔΙΑΧΕΙΡΙΣΗ - για να βοηθήσει τις ομάδες να ενσωματώσουν τη διαχείριση κινδύνου στο σχεδιασμό και την ανάπτυξη [5].
Μερικές γρήγορες υποδείξεις:
-
Έλεγχοι προκατάληψης : Αξιολόγηση σε όλα τα δημογραφικά τμήματα όπου είναι σκόπιμο και νόμιμο.
-
Ερμηνευσιμότητα : Χρησιμοποιήστε τεχνικές όπως η εξέχουσα θέση ή οι αποδόσεις χαρακτηριστικών. Είναι ατελείς, αλλά χρήσιμες.
-
Παρακολούθηση : Ορίστε ειδοποιήσεις για ξαφνικές πτώσεις μετρήσεων ή απόκλιση δεδομένων.
-
Ανθρώπινη εποπτεία : Κρατήστε τους ανθρώπους ενήμερους για αποφάσεις που έχουν μεγάλο αντίκτυπο. Χωρίς ηρωισμούς, μόνο υγιεινή.
Συχνές ερωτήσεις που είχατε κρυφά 🙋
Είναι ένα νευρωνικό δίκτυο ουσιαστικά ένας εγκέφαλος;
Εμπνευσμένο από τον εγκέφαλο, ναι - αλλά απλοποιημένο. Οι νευρώνες στα δίκτυα είναι μαθηματικές συναρτήσεις. Οι βιολογικοί νευρώνες είναι ζωντανά κύτταρα με πολύπλοκη δυναμική. Παρόμοιες δονήσεις, πολύ διαφορετική φυσική [1].
Πόσες στρώσεις χρειάζομαι;
Ξεκινήστε με μικρά ποσά. Αν δεν γυμνάζεστε σωστά, προσθέστε πλάτος ή βάθος. Αν δεν γυμνάζεστε σωστά, τακτοποιήστε ή μειώστε την χωρητικότητα. Δεν υπάρχει μαγικός αριθμός. Υπάρχουν απλώς καμπύλες επικύρωσης και υπομονή [1].
Χρειάζομαι πάντα GPU;
Όχι πάντα. Μικρά μοντέλα σε μέτρια δεδομένα μπορούν να εκπαιδευτούν σε CPU, αλλά για εικόνες, μεγάλα μοντέλα κειμένου ή μεγάλα σύνολα δεδομένων, οι επιταχυντές εξοικονομούν πολύ χρόνο [1].
Γιατί λένε οι άνθρωποι ότι η προσοχή είναι ισχυρή;
Επειδή η προσοχή επιτρέπει στα μοντέλα να εστιάζουν στα πιο σχετικά μέρη μιας εισόδου χωρίς να ακολουθούν αυστηρά τη σειρά. Καταγράφει τις παγκόσμιες σχέσεις, κάτι που είναι σημαντικό για τη γλώσσα και τις πολυτροπικές εργασίες [3].
Διαφέρει το «Τι είναι ένα Νευρωνικό Δίκτυο στην Τεχνητή Νοημοσύνη» από το «τι είναι η βαθιά μάθηση»;
Η βαθιά μάθηση είναι η ευρύτερη προσέγγιση που χρησιμοποιεί βαθιά νευρωνικά δίκτυα. Έτσι, το να ρωτάς τι είναι ένα νευρωνικό δίκτυο στην τεχνητή νοημοσύνη είναι σαν να ρωτάς για τον πρωταγωνιστή. Η βαθιά μάθηση είναι ολόκληρη η ταινία [1].
Πρακτικές, ελαφρώς υποστηρικτικές συμβουλές 💡
-
Προτιμήστε απλές γραμμές βάσης . Ακόμα και ένα μικρό πολυστρωματικό perceptron μπορεί να σας πει εάν τα δεδομένα είναι εκμάθησιμα.
-
Διατηρήστε τη ροή δεδομένων σας αναπαραγώγιμη . Εάν δεν μπορείτε να την εκτελέσετε ξανά, δεν μπορείτε να την εμπιστευτείτε.
-
Ο ρυθμός εκμάθησης έχει μεγαλύτερη σημασία από όσο νομίζετε. Δοκιμάστε ένα πρόγραμμα. Η προθέρμανση μπορεί να βοηθήσει.
-
αντισταθμίσεις ως προς το μέγεθος της παρτίδας . Οι μεγαλύτερες παρτίδες σταθεροποιούν τις διαβαθμίσεις, αλλά ενδέχεται να γενικεύονται διαφορετικά.
-
Όταν μπερδεύεστε, σχεδιάστε καμπύλες απώλειας και νόρμες βάρους . Θα εκπλαγείτε με το πόσο συχνά η απάντηση βρίσκεται στα γραφήματα.
-
Υποθέσεις εγγράφων. Μέλλον - ξεχνάς πράγματα - γρήγορα [1, 2].
Μια εις βάθος παράκαμψη: ο ρόλος των δεδομένων, ή γιατί τα σκουπίδια στην είσοδο εξακολουθούν να σημαίνουν σκουπίδια έξω 🗑️➡️✨
Τα νευρωνικά δίκτυα δεν διορθώνουν μαγικά τα ελαττωματικά δεδομένα. Οι ασύμμετρες ετικέτες, τα λάθη σχολιασμού ή η περιορισμένη δειγματοληψία θα αντικατοπτρίζονται σε όλο το μοντέλο. Επιμεληθείτε, ελέγξτε και αυξήστε. Και αν δεν είστε σίγουροι αν χρειάζεστε περισσότερα δεδομένα ή ένα καλύτερο μοντέλο, η απάντηση είναι συχνά ενοχλητικά απλή: και τα δύο - αλλά ξεκινήστε με την ποιότητα των δεδομένων [1].
«Τι είναι ένα Νευρωνικό Δίκτυο στην Τεχνητή Νοημοσύνη;» - σύντομοι ορισμοί που μπορείτε να επαναχρησιμοποιήσετε 🧾
-
Ένα νευρωνικό δίκτυο είναι ένας προσεγγιστής πολυεπίπεδων συναρτήσεων που μαθαίνει σύνθετα μοτίβα προσαρμόζοντας τα βάρη χρησιμοποιώντας σήματα κλίσης [1, 2].
-
Είναι ένα σύστημα που μετατρέπει τις εισόδους σε εξόδους μέσω διαδοχικών μη γραμμικών βημάτων, εκπαιδευμένο να ελαχιστοποιεί την απώλεια [1].
-
Πρόκειται για μια ευέλικτη προσέγγιση μοντελοποίησης που βασίζεται σε δεδομένα και ευδοκιμεί σε μη δομημένα δεδομένα εισόδου όπως εικόνες, κείμενο και ήχο [1, 2, 3].
Πολύ μακροσκελές, δεν το διάβασα και τελικές παρατηρήσεις 🎯
Αν κάποιος σας ρωτήσει « Τι είναι ένα Νευρωνικό Δίκτυο στην Τεχνητή Νοημοσύνη;», ακολουθεί η σύντομη περιγραφή: ένα νευρωνικό δίκτυο είναι μια στοίβα απλών μονάδων που μετασχηματίζουν τα δεδομένα βήμα προς βήμα, μαθαίνοντας τον μετασχηματισμό ελαχιστοποιώντας την απώλεια και ακολουθώντας τις διαβαθμίσεις. Είναι ισχυρά επειδή κλιμακώνονται, μαθαίνουν χαρακτηριστικά αυτόματα και μπορούν να αναπαραστήσουν πολύπλοκες συναρτήσεις [1, 4]. Είναι επικίνδυνα αν αγνοήσετε την ποιότητα των δεδομένων, τη διακυβέρνηση ή την παρακολούθηση [5]. Και δεν είναι μαγικά. Απλώς μαθηματικά, υπολογιστική και καλή μηχανική - με μια δόση γούστου.
Περαιτέρω ανάγνωση, προσεκτικά επιλεγμένη (επιπλέον υλικό χωρίς παραπομπές)
-
Σημειώσεις Stanford CS231n - προσιτές και πρακτικές: https://cs231n.github.io/
-
DeepLearningBook.org - κανονική αναφορά: https://www.deeplearningbook.org/
-
Πλαίσιο Διαχείρισης Κινδύνων Τεχνητής Νοημοσύνης NIST - Οδηγίες για την υπεύθυνη Τεχνητή Νοημοσύνη: https://www.nist.gov/itl/ai-risk-management-framework
-
«Η προσοχή είναι το μόνο που χρειάζεσαι» - η εργασία για το Transformer: https://arxiv.org/abs/1706.03762
Αναφορές
[1] Goodfellow, I., Bengio, Y., & Courville, A. Βαθιά Μάθηση . MIT Press. Δωρεάν ηλεκτρονική έκδοση: διαβάστε περισσότερα
[2] Stanford CS231n. Συνελικτικά Νευρωνικά Δίκτυα για Οπτική Αναγνώριση (σημειώσεις μαθήματος): διαβάστε περισσότερα
[3] Vaswani, A., Shazeer, N., Parmar, N., κ.ά. (2017). Η προσοχή είναι το μόνο που χρειάζεστε . NeurIPS. arXiv: διαβάστε περισσότερα
[4] Cybenko, G. (1989). Προσέγγιση με υπερθέσεις μιας σιγμοειδούς συνάρτησης . Μαθηματικά Ελέγχου, Σημάτων και Συστημάτων , 2, 303–314. Springer: διαβάστε περισσότερα
[5] NIST. Πλαίσιο Διαχείρισης Κινδύνων Τεχνητής Νοημοσύνης (AI RMF) : διαβάστε περισσότερα