Πώς ανιχνεύει η Τεχνητή Νοημοσύνη ανωμαλίες;

Η ανίχνευση ανωμαλιών είναι ο ήσυχος ήρωας των λειτουργιών δεδομένων - ο ανιχνευτής καπνού που ψιθυρίζει πριν πιάσουν φωτιά τα πράγματα.

Με απλά λόγια: Η Τεχνητή Νοημοσύνη μαθαίνει πώς μοιάζει το «φυσιολογικό», δίνει στα νέα συμβάντα μια βαθμολογία ανωμαλίας και στη συνέχεια αποφασίζει αν θα στείλει μήνυμα σε έναν άνθρωπο (ή αν θα το μπλοκάρει αυτόματα) με βάση ένα όριο . Το πρόβλημα βρίσκεται στον τρόπο που ορίζετε το «φυσιολογικό» όταν τα δεδομένα σας είναι εποχιακά, ακατάστατα, ασταθή και περιστασιακά σας λένε ψέματα. [1]

Άρθρα που ίσως σας ενδιαφέρουν μετά από αυτό:

🔗 Γιατί η Τεχνητή Νοημοσύνη μπορεί να είναι επιβλαβής για την κοινωνία
Εξετάζει τους ηθικούς, οικονομικούς και κοινωνικούς κινδύνους της ευρείας υιοθέτησης της Τεχνητής Νοημοσύνης.

🔗 Πόσο νερό χρησιμοποιούν στην πραγματικότητα τα συστήματα τεχνητής νοημοσύνης;
Εξηγεί την ψύξη του κέντρου δεδομένων, τις απαιτήσεις εκπαίδευσης και τις περιβαλλοντικές επιπτώσεις στο νερό.

🔗 Τι είναι ένα σύνολο δεδομένων Τεχνητής Νοημοσύνης και γιατί είναι σημαντικό;
Ορίζει τα σύνολα δεδομένων, την επισήμανση, τις πηγές και τον ρόλο τους στην απόδοση του μοντέλου.

🔗 Πώς η Τεχνητή Νοημοσύνη προβλέπει τάσεις από σύνθετα δεδομένα
Καλύπτει την αναγνώριση προτύπων, τα μοντέλα μηχανικής μάθησης και τις χρήσεις πρόβλεψης στον πραγματικό κόσμο.

«Πώς ανιχνεύει η Τεχνητή Νοημοσύνη ανωμαλίες;»

Μια καλή απάντηση θα πρέπει να κάνει περισσότερα από το να απαριθμεί αλγόριθμους. Θα πρέπει να εξηγεί τους μηχανισμούς και πώς μοιάζουν όταν τους εφαρμόζετε σε πραγματικά, ατελή δεδομένα. Οι καλύτερες εξηγήσεις:

Δείξτε τα βασικά συστατικά: χαρακτηριστικά , γραμμές βάσης , βαθμολογίες και όρια . [1]
Συγκρίνετε πρακτικές οικογένειες: απόσταση, πυκνότητα, μία τάξη, απομόνωση, πιθανοτική, ανακατασκευή. [1]
Χειριστείτε τις ιδιορρυθμίες των χρονοσειρών: το «κανονικό» εξαρτάται από την ώρα της ημέρας, την ημέρα της εβδομάδας, τις κυκλοφορίες και τις αργίες. [1]
Αντιμετωπίστε την αξιολόγηση σαν έναν πραγματικό περιορισμό: οι ψευδείς συναγερμοί δεν είναι απλώς ενοχλητικοί - καίνε την εμπιστοσύνη. [4]
Συμπεριλάβετε την ερμηνευσιμότητα + την ανθρώπινη παρουσία, επειδή το «είναι περίεργο» δεν είναι η βασική αιτία. [5]

Οι Βασικοί Μηχανισμοί: Βασικές Γραμμές, Σκορ, Κατώφλια 🧠

Τα περισσότερα συστήματα ανωμαλιών - φανταχτερά ή όχι - καταλήγουν σε τρία κινούμενα μέρη:

1) Αναπαράσταση (γνωστή και ως: τι βλέπει )

Τα ακατέργαστα σήματα σπάνια επαρκούν. Είτε σχεδιάζετε χαρακτηριστικά (κυλιόμενα στατιστικά, αναλογίες, υστερήσεις, εποχιακά δέλτα) είτε μαθαίνετε αναπαραστάσεις (ενσωματώσεις, υποχώρους, ανακατασκευές). [1]

2) Βαθμολογία (γνωστός και ως: πόσο «περίεργο» είναι αυτό;)

Συνήθεις ιδέες βαθμολόγησης περιλαμβάνουν:

Βάσει απόστασης : μακριά από τους γείτονες = ύποπτο. [1]
Με βάση την πυκνότητα : χαμηλή τοπική πυκνότητα = ύποπτη (το LOF είναι το παιδί-αφίσα). [1]
Όρια μίας κατηγορίας : μάθετε «φυσιολογικό», επισημάνετε τι εμπίπτει εκτός. [1]
Πιθανοτική : χαμηλή πιθανότητα υπό προσαρμοσμένο μοντέλο = ύποπτη. [1]
Σφάλμα ανακατασκευής : εάν ένα μοντέλο που έχει εκπαιδευτεί σε κανονική λειτουργία δεν μπορεί να το ανακατασκευάσει, πιθανότατα είναι λάθος. [1]

3) Κατώφλι (γνωστό και ως: πότε να χτυπήσει το κουδούνι)

Τα όρια μπορούν να είναι σταθερά, να βασίζονται σε ποσοστιαία βάση, ανά τμήμα ή να είναι ευαίσθητα στο κόστος - αλλά θα πρέπει να βαθμονομούνται σε σχέση με τους προϋπολογισμούς ειδοποιήσεων και το κόστος κατάντη, όχι με βάση τα vibes. [4]

Μια πολύ πρακτική λεπτομέρεια: οι ανιχνευτές ακραίων τιμών/καινοτομίας του scikit-learn εκθέτουν τις ακατέργαστες βαθμολογίες και στη συνέχεια εφαρμόζουν ένα όριο (που συχνά ελέγχεται μέσω μιας υπόθεσης τύπου μόλυνσης) για να μετατρέψουν τις βαθμολογίες σε αποφάσεις για εσωτερικές/εκτεταμένες τιμές. [2]

Γρήγοροι ορισμοί που αποτρέπουν τον πόνο αργότερα 🧯

Δύο διακρίσεις που σας γλιτώνουν από ανεπαίσθητα λάθη:

Ανίχνευση ακραίων τιμών : τα δεδομένα εκπαίδευσής σας ενδέχεται να περιλαμβάνουν ήδη ακραίες τιμές. Ο αλγόριθμος προσπαθεί ούτως ή άλλως να μοντελοποιήσει την «πυκνή κανονική περιοχή».
Ανίχνευση καινοτομίας : τα δεδομένα εκπαίδευσης θεωρούνται καθαρά. κρίνετε εάν οι νέες παρατηρήσεις ταιριάζουν με το μαθημένο κανονικό μοτίβο. [2]

Επίσης: η ανίχνευση καινοτομίας συχνά πλαισιώνεται ως ταξινόμηση μίας κατηγορίας - μοντελοποιώντας το φυσιολογικό επειδή τα μη φυσιολογικά παραδείγματα είναι σπάνια ή απροσδιόριστα. [1]

Ανωμαλίες Τεχνητής Νοημοσύνης που παρουσιάζουν σφάλματα

Μη επιβλεπόμενα εργαλεία εργασίας που θα χρησιμοποιήσετε πραγματικά 🧰

Όταν οι ετικέτες είναι σπάνιες (κάτι που ουσιαστικά συμβαίνει πάντα), αυτά είναι τα εργαλεία που εμφανίζονται σε πραγματικές αγωγές:

Isolation Forest : μια ισχυρή προεπιλογή σε πολλές περιπτώσεις σε μορφή πίνακα, χρησιμοποιείται ευρέως στην πράξη και εφαρμόζεται στο scikit-learn. [2]
Μονοκλασική SVM : μπορεί να είναι αποτελεσματική αλλά είναι ευαίσθητη σε συντονισμό και υποθέσεις. Το scikit-learn επισημαίνει ρητά την ανάγκη για προσεκτική συντονισμό υπερπαραμέτρων. [2]
Τοπικός Παράγοντας Ακραίας Απόκλισης (LOF) : κλασική βαθμολόγηση βάσει πυκνότητας· ιδανική όταν το «κανονικό» δεν είναι μια άμορφη κηλίδα. [1]

Μια πρακτική λύση που οι ομάδες ανακαλύπτουν ξανά κάθε εβδομάδα: Το LOF συμπεριφέρεται διαφορετικά ανάλογα με το αν κάνετε ανίχνευση ακραίων τιμών στο σύνολο εκπαίδευσης έναντι ανίχνευσης καινοτομίας σε νέα δεδομένα - το scikit-learn απαιτεί ακόμη και novelty=True για να σκοράρει με ασφάλεια αθέατους πόντους. [2]

Μια ισχυρή βάση που εξακολουθεί να λειτουργεί όταν τα δεδομένα είναι περίεργα 🪓

Αν βρίσκεστε σε κατάσταση «χρειαζόμαστε απλώς κάτι που δεν μας οδηγεί στη λήθη», τα ισχυρά στατιστικά στοιχεία υποτιμώνται.

Η τροποποιημένη z-score χρησιμοποιεί τη διάμεση τιμή και την MAD (διάμεση απόλυτη απόκλιση) για να μειώσει την ευαισθησία σε ακραίες τιμές. Το εγχειρίδιο EDA του NIST τεκμηριώνει την τροποποιημένη μορφή z-score και σημειώνει έναν συνήθως χρησιμοποιούμενο εμπειρικό κανόνα «πιθανής ακραίας τιμής» σε απόλυτη τιμή άνω του 3,5 . [3]

Αυτό δεν θα λύσει κάθε πρόβλημα ανωμαλίας - αλλά συχνά αποτελεί μια ισχυρή πρώτη γραμμή άμυνας, ειδικά για θορυβώδεις μετρήσεις και παρακολούθηση σε πρώιμο στάδιο. [3]

Πραγματικότητα Χρονοσειρών: Το «Κανονικό» Εξαρτάται από το Πότε ⏱️📈

Οι ανωμαλίες στις χρονοσειρές είναι περίπλοκες, επειδή το όλο θέμα είναι το πλαίσιο: μια κορύφωση το μεσημέρι μπορεί να αναμένεται. Η ίδια κορύφωση στις 3 π.μ. μπορεί να σημαίνει ότι κάτι καίγεται. Πολλά πρακτικά συστήματα, επομένως, μοντελοποιούν την κανονικότητα χρησιμοποιώντας χαρακτηριστικά που λαμβάνουν υπόψη τον χρόνο (υστερήσεις, εποχιακά δέλτα, κυλιόμενα παράθυρα) και βαθμολογούν τις αποκλίσεις σε σχέση με το αναμενόμενο μοτίβο. [1]

Αν θυμάστε μόνο έναν κανόνα: τμηματοποιήστε τη γραμμή βάσης (ώρα/ημέρα/περιοχή/επίπεδο υπηρεσίας) προτού δηλώσετε τη μισή επισκεψιμότητά σας ως «ανώμαλη». [1]

Αξιολόγηση: Η παγίδα των σπάνιων συμβάντων 🧪

Η ανίχνευση ανωμαλιών είναι συχνά «βελόνα στα άχυρα», γεγονός που καθιστά την αξιολόγηση περίεργη:

Οι καμπύλες ROC μπορεί να φαίνονται παραπλανητικά καλές όταν τα θετικά είναι σπάνια.
Οι προβολές ακριβούς ανάκλησης είναι συχνά πιο κατατοπιστικές για μη ισορροπημένες ρυθμίσεις, επειδή εστιάζουν στην απόδοση στην θετική κλάση. [4]
Λειτουργικά, χρειάζεστε επίσης έναν προϋπολογισμό ειδοποιήσεων : πόσες ειδοποιήσεις ανά ώρα μπορούν οι άνθρωποι να αξιολογήσουν χωρίς να σταματήσουν την οργή τους; [4]

Ο εκ των υστέρων έλεγχος σε κυλιόμενα παράθυρα σάς βοηθά να εντοπίσετε την κλασική λειτουργία αποτυχίας: «λειτουργεί υπέροχα... στην κατανομή του προηγούμενου μήνα». [1]

Ερμηνευσιμότητα & Βασική Αιτία: Δείξτε την Εργασία σας 🪄

Το να ειδοποιείς χωρίς εξήγηση είναι σαν να λαμβάνεις μια μυστηριώδη καρτ ποστάλ. Χρήσιμο, αλλά απογοητευτικό.

Τα εργαλεία ερμηνευσιμότητας μπορούν να βοηθήσουν επισημαίνοντας ποια χαρακτηριστικά συνέβαλαν περισσότερο σε μια βαθμολογία ανωμαλίας ή δίνοντας εξηγήσεις στυλ «τι θα έπρεπε να αλλάξει για να φαίνεται αυτό φυσιολογικό;». Το Interpretable Machine Learning είναι ένας αξιόπιστος, κριτικός οδηγός για κοινές μεθόδους (συμπεριλαμβανομένων των αποδόσεων τύπου SHAP) και τους περιορισμούς τους. [5]

Ο στόχος δεν είναι απλώς η άνεση των ενδιαφερόμενων μερών - είναι η ταχύτερη διαλογή και λιγότερα επαναλαμβανόμενα περιστατικά.

Ανάπτυξη, Μετατόπιση και Βρόχοι Ανατροφοδότησης 🚀

Τα μοντέλα δεν ζουν σε διαφάνειες. Ζουν σε αγωγούς.

Μια συνηθισμένη ιστορία «πρώτου μήνα στην παραγωγή»: ο ανιχνευτής κυρίως επισημαίνει την ανάπτυξη, τις μαζικές εργασίες και τα ελλείποντα δεδομένα... κάτι που εξακολουθεί να είναι χρήσιμο επειδή σας αναγκάζει να διαχωρίσετε τα «περιστατικά ποιότητας δεδομένων» από τις «επιχειρηματικές ανωμαλίες».

Στην πράξη:

Παρακολουθήστε την απόκλιση και επανεκπαιδεύστε/επαναβαθμονομήστε καθώς αλλάζει η συμπεριφορά. [1]
Καταγραφή εισροών βαθμολογίας + έκδοση μοντέλου , ώστε να μπορείτε να αναπαράγετε γιατί έχει σελιδοποιηθεί κάτι. [5]
Καταγράψτε την ανθρώπινη ανατροφοδότηση (χρήσιμες έναντι θορυβωδών ειδοποιήσεων) για να ρυθμίσετε τα όρια και τα τμήματα με την πάροδο του χρόνου. [4]

Γωνία ασφαλείας: IDS και Αναλυτική συμπεριφορά 🛡️

Οι ομάδες ασφαλείας συχνά συνδυάζουν ιδέες για ανωμαλίες με ανίχνευση που βασίζεται σε κανόνες: γραμμές βάσης για «φυσιολογική συμπεριφορά κεντρικού υπολογιστή», καθώς και υπογραφές και πολιτικές για γνωστά κακά μοτίβα. Το SP 800-94 (Τελικό) του NIST παραμένει ένα ευρέως αναφερόμενο πλαίσιο για ζητήματα συστημάτων ανίχνευσης και πρόληψης εισβολών. Σημειώνει επίσης ότι ένα προσχέδιο «Rev. 1» του 2012 δεν έγινε ποτέ οριστικό και αργότερα αποσύρθηκε. [3]

Μετάφραση: χρησιμοποιήστε τη Μηχανική Μάθηση όπου βοηθάει, αλλά μην πετάτε τους βαρετούς κανόνες - είναι βαρετοί επειδή λειτουργούν.

Συγκριτικός Πίνακας: Δημοφιλείς Μέθοδοι με μια Ματιά 📊

Εργαλείο / Μέθοδος	Ιδανικό για	Γιατί λειτουργεί (στην πράξη)
Ισχυρές / τροποποιημένες z-βαθμολογίες	Απλές μετρήσεις, γρήγορες βασικές γραμμές	Ισχυρό πρώτο πέρασμα όταν χρειάζεστε «αρκετά καλό» και λιγότερους ψευδείς συναγερμούς. [3]
Δάσος Απομόνωσης	Πινακοποιημένα, μικτά χαρακτηριστικά	Στερεά προεπιλεγμένη υλοποίηση και ευρέως χρησιμοποιούμενη στην πράξη. [2]
SVM μίας κατηγορίας	Συμπαγείς «κανονικές» περιοχές	Ανίχνευση καινοτομίας βάσει ορίων· η ρύθμιση έχει μεγάλη σημασία. [2]
Τοπικός Παράγοντας Ακραίας Τιμής	Κανονικά φαινόμενα πολλαπλής μορφολογίας	Η αντίθεση πυκνότητας έναντι των γειτόνων εντοπίζει την τοπική παραδοξότητα. [1]
Σφάλμα ανακατασκευής (π.χ., στυλ αυτόματου κωδικοποιητή)	μοτίβα υψηλής διάστασης	Εκπαιδεύστε κανονικά. Τα μεγάλα σφάλματα ανακατασκευής μπορούν να επισημάνουν αποκλίσεις. [1]

Κώδικας εξαπάτησης: ξεκινήστε με ισχυρές γραμμές βάσης + μια βαρετή μη επιβλεπόμενη μέθοδο και, στη συνέχεια, προσθέστε πολυπλοκότητα μόνο εκεί που αποδίδει.

Ένα μικρό εγχειρίδιο: Από το μηδέν στις ειδοποιήσεις 🧭

Ορίστε τον όρο «περίεργο» λειτουργικά (καθυστέρηση, κίνδυνος απάτης, παραβίαση της CPU, κίνδυνος αποθέματος).
Ξεκινήστε με μια βασική γραμμή (ισχυρά στατιστικά στοιχεία ή τμηματοποιημένα όρια). [3]
Επιλέξτε ένα μη επιβλεπόμενο μοντέλο ως πρώτο πέρασμα (Isolation Forest / LOF / One-Class SVM). [2]
Ορίστε όρια με έναν προϋπολογισμό ειδοποιήσεων και αξιολογήστε με τρόπο που να θυμίζει δημόσιες σχέσεις, εάν τα θετικά αποτελέσματα είναι σπάνια. [4]
Προσθέστε εξηγήσεις + καταγραφή , ώστε κάθε ειδοποίηση να είναι αναπαραγώγιμη και να μπορεί να εντοπιστεί σφάλματα. [5]
Δοκιμή εκ των υστέρων, αποστολή, εκμάθηση, επαναβαθμονόμηση - η απόκλιση είναι φυσιολογική. [1]

Μπορείς σίγουρα να το κάνεις αυτό σε μια εβδομάδα... υποθέτοντας ότι οι χρονικές σας σημάνσεις δεν είναι κολλημένες με ταινία και ελπίδα. 😅

Τελικές παρατηρήσεις - Πολύ μακροσκελές, δεν το διάβασα🧾

Η Τεχνητή Νοημοσύνη ανιχνεύει ανωμαλίες μαθαίνοντας μια πρακτική εικόνα του «φυσιολογικού», βαθμολογώντας τις αποκλίσεις και επισημαίνοντας τι ξεπερνά ένα όριο. Τα καλύτερα συστήματα δεν κερδίζουν επειδή είναι φανταχτερά, αλλά επειδή είναι βαθμονομημένα : τμηματοποιημένες γραμμές βάσης, προϋπολογισμοί ειδοποιήσεων, ερμηνεύσιμα αποτελέσματα και ένας βρόχος ανατροφοδότησης που μετατρέπει τους θορυβώδεις συναγερμούς σε αξιόπιστο σήμα. [1]

Αναφορές

Pimentel et al. (2014) - Μια ανασκόπηση της ανίχνευσης καινοτομίας (PDF, Πανεπιστήμιο της Οξφόρδης) διαβάστε περισσότερα
Τεκμηρίωση scikit-learn - Ανίχνευση Καινοτομίας και Ακραίων Πραγμάτων διαβάστε περισσότερα
Ηλεκτρονικό εγχειρίδιο NIST/SEMATECH - Ανίχνευση ακραίων τιμών διαβάστε περισσότερα και NIST CSRC - SP 800-94 (Τελικό): Οδηγός για συστήματα ανίχνευσης και πρόληψης εισβολών (IDPS) διαβάστε περισσότερα
Saito & Rehmsmeier (2015) - Το διάγραμμα ακριβείας-ανάκλησης είναι πιο ενημερωτικό από το διάγραμμα ROC κατά την αξιολόγηση δυαδικών ταξινομητών σε μη ισορροπημένα σύνολα δεδομένων (PLOS ONE) διαβάστε περισσότερα
Molnar - Ερμηνεύσιμη Μηχανική Μάθηση (διαδικτυακό βιβλίο) διαβάστε περισσότερα

Βρείτε την τελευταία λέξη της Τεχνητής Νοημοσύνης στο επίσημο κατάστημα βοηθών τεχνητής νοημοσύνης

Σχετικά με εμάς

Επιστροφή στο ιστολόγιο

Χώρα/περιοχή