Πώς λειτουργεί η αναβάθμιση μέσω τεχνητής νοημοσύνης

Πώς λειτουργεί η αναβάθμιση με τεχνητή νοημοσύνη;

Σύντομη απάντηση: Η αναβάθμιση με τεχνητή νοημοσύνη λειτουργεί εκπαιδεύοντας ένα μοντέλο σε ζεύγη εικόνων χαμηλής και υψηλής ανάλυσης και στη συνέχεια χρησιμοποιώντας τες για να προβλέψει πιστευτά επιπλέον pixel κατά την αναβάθμιση. Εάν το μοντέλο έχει δει παρόμοιες υφές ή πρόσωπα στην εκπαίδευση, μπορεί να προσθέσει πειστικές λεπτομέρειες. Εάν όχι, μπορεί να «παραισθησιάσει» αντικείμενα όπως φωτοστέφανα, κηρώδες δέρμα ή τρεμόπαιγμα στο βίντεο.

Βασικά συμπεράσματα:

Πρόβλεψη : Το μοντέλο παράγει εύλογες λεπτομέρειες, όχι μια εγγυημένη ανακατασκευή της πραγματικότητας.

Επιλογή μοντέλου : Τα CNN τείνουν να είναι πιο σταθερά. Τα GAN μπορούν να φαίνονται πιο ευκρινή, αλλά υπάρχει ο κίνδυνος να εφεύρουν χαρακτηριστικά.

Έλεγχοι τεχνουργημάτων : Προσέξτε για φωτοστέφανα, επαναλαμβανόμενες υφές, «σχεδόν γράμματα» και πλαστικά πρόσωπα.

Σταθερότητα βίντεο : Χρησιμοποιήστε χρονικές μεθόδους, διαφορετικά θα δείτε λαμπυρίσματα και μετατόπιση από καρέ σε καρέ.

Χρήση υψηλού διακυβεύματος : Εάν η ακρίβεια έχει σημασία, αποκαλύψτε την επεξεργασία και αντιμετωπίστε τα αποτελέσματα ως ενδεικτικά.

Πώς λειτουργεί η αναβάθμιση με τεχνητή νοημοσύνη; Πληροφοριακό γράφημα.

Πιθανότατα το έχετε δει: μια μικροσκοπική, τραγανή εικόνα μετατρέπεται σε κάτι αρκετά καθαρό για να το εκτυπώσετε, να το μεταδώσετε μέσω streaming ή να το βάλετε σε μια παρουσίαση χωρίς να ανησυχείτε. Μοιάζει με απάτη. Και - με τον καλύτερο τρόπο - κάπως έτσι είναι 😅

Έτσι, ο τρόπος λειτουργίας της αναβάθμισης με τεχνητή νοημοσύνη καταλήγει σε κάτι πιο συγκεκριμένο από το «ο υπολογιστής βελτιώνει τις λεπτομέρειες» (χειρόγραφο) και πιο κοντά στο «ένα μοντέλο προβλέπει μια εύλογη δομή υψηλής ανάλυσης με βάση μοτίβα που έμαθε από πολλά παραδείγματα» ( Deep Learning for Image Super-resolution: A Survey ). Αυτό το βήμα πρόβλεψης είναι όλο το παιχνίδι - και αυτός είναι ο λόγος για τον οποίο η αναβάθμιση με τεχνητή νοημοσύνη μπορεί να φαίνεται εκπληκτική... ή λίγο πλαστική... ή σαν η γάτα σας να μεγάλωσε με επιπλέον μουστάκια.

Άρθρα που ίσως σας ενδιαφέρουν μετά από αυτό:

🔗 Πώς λειτουργεί η Τεχνητή Νοημοσύνη
Μάθετε τα βασικά των μοντέλων, των δεδομένων και της συμπερασματολογίας στην Τεχνητή Νοημοσύνη.

🔗 Πώς μαθαίνει η Τεχνητή Νοημοσύνη
Δείτε πώς τα δεδομένα εκπαίδευσης και η ανατροφοδότηση βελτιώνουν την απόδοση του μοντέλου με την πάροδο του χρόνου.

🔗 Πώς η Τεχνητή Νοημοσύνη ανιχνεύει ανωμαλίες
Κατανοήστε τις βασικές γραμμές μοτίβων και πώς η Τεχνητή Νοημοσύνη επισημαίνει γρήγορα ασυνήθιστη συμπεριφορά.

🔗 Πώς η Τεχνητή Νοημοσύνη προβλέπει τις τάσεις
Εξερευνήστε μεθόδους πρόβλεψης που εντοπίζουν σήματα και προβλέπουν τη μελλοντική ζήτηση.

Πώς λειτουργεί η αναβάθμιση τεχνητής νοημοσύνης: η βασική ιδέα, με απλά λόγια 🧩

Αναβάθμιση σημαίνει αύξηση της ανάλυσης: περισσότερα pixel, μεγαλύτερη εικόνα. Η παραδοσιακή αναβάθμιση (όπως η δικυβική) ουσιαστικά τεντώνει τα pixel και εξομαλύνει τις μεταβάσεις ( δικυβική παρεμβολή ). Είναι μια χαρά, αλλά δεν μπορεί να εφεύρει νέες λεπτομέρειες - απλώς παρεμβάλλει.

Η αναβάθμιση της τεχνητής νοημοσύνης δοκιμάζει κάτι πιο τολμηρό (γνωστό και ως «υπερ-ανάλυση» στον κόσμο της έρευνας) ( Deep Learning for Image Super-resolution: A Survey ):

Εξετάζει την είσοδο χαμηλής ανάλυσης
Αναγνωρίζει μοτίβα (άκρες, υφές, χαρακτηριστικά προσώπου, πινελιές κειμένου, ύφανση υφάσματος…)
θα πρέπει να μοιάζει μια έκδοση υψηλότερης ανάλυσης
Δημιουργεί επιπλέον δεδομένα pixel που ταιριάζουν σε αυτά τα μοτίβα

Όχι «αποκατάσταση της πραγματικότητας τέλεια», μάλλον «κάνε μια εξαιρετικά πιστευτή εικασία» ( Image Super-Resolution Using Deep Convolutional Networks (SRCNN) ). Αν αυτό ακούγεται λίγο ύποπτο, δεν κάνεις λάθος - αλλά αυτός είναι και ο λόγος που λειτουργεί τόσο καλά 😄

Και ναι, αυτό σημαίνει ότι η αναβάθμιση μέσω τεχνητής νοημοσύνης είναι ουσιαστικά ελεγχόμενη παραίσθηση... αλλά με έναν παραγωγικό τρόπο που σέβεται τα pixel.

Τι κάνει μια αναβάθμιση τεχνητής νοημοσύνης (AI) καλή; ✅🛠️

Αν κρίνετε ένα upscaler AI (ή μια προεπιλογή ρύθμισης), να τι έχει τη μεγαλύτερη σημασία:

Ανάκτηση λεπτομερειών χωρίς υπερβολικό ψήσιμο.
Η καλή αναβάθμιση προσθέτει τραγανότητα και δομή, όχι τραγανό θόρυβο ή ψεύτικους πόρους.
Πειθαρχία στις άκρες.
Οι καθαρές γραμμές παραμένουν καθαρές. Τα κακά μοντέλα κάνουν τις άκρες να ταλαντεύονται ή να βγάζουν φωτοστέφανα.
Ρεαλισμός υφής.
Τα μαλλιά δεν πρέπει να γίνονται πινελιές. Το τούβλο δεν πρέπει να γίνεται σφραγίδα με επαναλαμβανόμενο μοτίβο.
Χειρισμός θορύβου και συμπίεσης
Πολλές καθημερινές εικόνες υποβάλλονται σε πλήρη επεξεργασία σε μορφή JPEG. Ένα καλό upscaler δεν ενισχύει αυτή τη ζημιά ( Real-ESRGAN ).
Επίγνωση προσώπου και κειμένου
Τα πρόσωπα και το κείμενο είναι τα πιο εύκολα σημεία για να εντοπίσετε λάθη. Τα καλά μοντέλα τα αντιμετωπίζουν με προσοχή (ή έχουν εξειδικευμένες λειτουργίες).
Συνέπεια σε όλα τα καρέ (για βίντεο)
Αν η λεπτομέρεια τρεμοπαίζει από καρέ σε καρέ, τα μάτια σας θα ουρλιάζουν. Η αναβάθμιση βίντεο ζει ή πεθαίνει από τη χρονική σταθερότητα ( BasicVSR (CVPR 2021) ).
Στοιχεία ελέγχου που έχουν νόημα.
Θέλετε ρυθμιστικά που αντιστοιχούν σε πραγματικά αποτελέσματα: αποθορυβοποίηση, αφαίρεση θολώματος, αφαίρεση τεχνουργημάτων, διατήρηση κόκκων, ακόνισμα... τα πρακτικά πράγματα.

Ένας ήρεμος κανόνας που ισχύει: η «καλύτερη» αναβάθμιση είναι συχνά αυτή που μόλις και μετά βίας προσέχεις. Απλώς φαίνεται ότι είχες μια καλύτερη κάμερα εξαρχής 📷✨

Πίνακας σύγκρισης: δημοφιλείς επιλογές αναβάθμισης AI (και σε τι χρησιμεύουν) 📊🙂

Παρακάτω ακολουθεί μια πρακτική σύγκριση. Οι τιμές είναι σκόπιμα ασαφείς, επειδή τα εργαλεία ποικίλλουν ανάλογα με την άδεια χρήσης, τα πακέτα, το κόστος υπολογισμού και όλα αυτά τα διασκεδαστικά πράγματα.

Εργαλείο / Προσέγγιση	Καλύτερο για	Ατμόσφαιρα τιμής	Γιατί λειτουργεί (περίπου)
Αναβαθμιστές επιφάνειας εργασίας σε στυλ Topaz ( Topaz Photo , Topaz Video )	Φωτογραφίες, βίντεο, εύκολη ροή εργασίας	Πληρωμένο	Ισχυρά γενικά μοντέλα + πολλές βελτιώσεις, τείνουν να «απλώς λειτουργούν»... ως επί το πλείστον
Χαρακτηριστικά τύπου Adobe «Super Resolution» ( Adobe Enhance > Super Resolution )	Φωτογράφοι που βρίσκονται ήδη σε αυτό το οικοσύστημα	Συνδρομή-y	Στερεά ανακατασκευή λεπτομερειών, συνήθως συντηρητική (λιγότερο δραματική)
Παραλλαγές Real-ESRGAN / ESRGAN ( Real-ESRGAN , ESRGAN )	DIY, προγραμματιστές, μαζικές εργασίες	Δωρεάν (αλλά χρονοβόρο)	Εξαιρετικό στις λεπτομέρειες της υφής, μπορεί να είναι πικάντικο στα πρόσωπα αν δεν είστε προσεκτικοί
Λειτουργίες αναβάθμισης με βάση τη διάχυση ( SR3 )	Δημιουργική εργασία, στυλιζαρισμένα αποτελέσματα	Μικτός	Μπορεί να δημιουργήσει υπέροχες λεπτομέρειες - μπορεί επίσης να εφεύρει ανοησίες, οπότε... ναι
Αναβαθμίσεις παιχνιδιών (τύπου DLSS/FSR) ( NVIDIA DLSS , AMD FSR 2 )	Παιχνίδια και απόδοση σε πραγματικό χρόνο	Ομαδοποιημένο	Χρησιμοποιεί δεδομένα κίνησης και προγενέστερα δεδομένα που έχουν μαθευτεί - ομαλή απόδοση 🕹️
Υπηρεσίες αναβάθμισης cloud	Ευκολία, γρήγορες νίκες	Πληρωμή ανά χρήση	Γρήγορο + επεκτάσιμο, αλλά ανταλλάσσετε έλεγχο και μερικές φορές λεπτότητα
Αναβαθμίσεις Τεχνητής Νοημοσύνης με επίκεντρο το βίντεο ( BasicVSR , Topaz Video )	Παλιά πλάνα, anime, αρχεία	Πληρωμένο	Χρονικά κόλπα για τη μείωση του τρεμοπαίγματος + εξειδικευμένα μοντέλα βίντεο
Αναβάθμιση «έξυπνου» τηλεφώνου/gallery	Περιστασιακή χρήση	Συμπεριλαμβανομένος	Ελαφριά μοντέλα ρυθμισμένα για ευχάριστο αποτέλεσμα, όχι για τελειότητα (εξακολουθούν να είναι εύχρηστα)

Ομολογία περίεργης μορφοποίησης: Το "Paid-ish" κάνει πολλή δουλειά σε αυτόν τον πίνακα. Αλλά καταλαβαίνετε τι εννοώ 😅

Το μεγάλο μυστικό: τα μοντέλα μαθαίνουν μια αντιστοίχιση από χαμηλή σε υψηλή ανάλυση 🧠➡️🖼️

Στην καρδιά των περισσότερων αναβαθμίσεων τεχνητής νοημοσύνης βρίσκεται μια εποπτευόμενη ρύθμιση μάθησης ( Image Super-Resolution Using Deep Convolutional Networks (SRCNN) ):

Ξεκινήστε με εικόνες υψηλής ανάλυσης (η «αλήθεια»)
Υποδειγματοληψία σε εκδόσεις χαμηλής ανάλυσης (η «είσοδος»)
Εκπαιδεύστε ένα μοντέλο για να ανακατασκευάσει την αρχική υψηλή ανάλυση από τη χαμηλή ανάλυση

Με την πάροδο του χρόνου, το μοντέλο μαθαίνει συσχετίσεις όπως:

«Αυτό το είδος θολώματος γύρω από ένα μάτι συνήθως οφείλεται στις βλεφαρίδες»
«Αυτό το σύμπλεγμα pixel συχνά υποδεικνύει κείμενο serif»
«Αυτή η κλίση των άκρων μοιάζει με γραμμή στέγης, όχι με τυχαίο θόρυβο»

Δεν είναι απομνημόνευση συγκεκριμένων εικόνων (με την απλή έννοια), είναι εκμάθηση στατιστικής δομής ( Deep Learning for Image Super-resolution: A Survey ). Σκεφτείτε το σαν να μαθαίνετε τη γραμματική των υφών και των ακμών. Όχι γραμματική ποίησης, μάλλον σαν... γραμματική εγχειριδίου IKEA 🪑📦 (αδέξια μεταφορά, αλλά αρκετά κοντά).

Τα βασικά: τι συμβαίνει κατά την εξαγωγή συμπερασμάτων (όταν αναβαθμίζετε) ⚙️✨

Όταν τροφοδοτείτε μια εικόνα σε ένα πρόγραμμα αναβάθμισης AI, υπάρχει συνήθως μια διαδικασία όπως αυτή:

Προεπεξεργασία
- Μετατροπή χρωματικού χώρου (μερικές φορές)
- Κανονικοποίηση τιμών pixel
- Χωρίστε την εικόνα σε κομμάτια αν είναι μεγάλη (έλεγχος πραγματικότητας VRAM 😭) ( Αποθετήριο Real-ESRGAN (επιλογές πλακιδίων) )
Εξαγωγή χαρακτηριστικών
- Τα πρώιμα επίπεδα ανιχνεύουν άκρες, γωνίες, κλίσεις
- Βαθύτερα στρώματα ανιχνεύουν μοτίβα: υφές, σχήματα, στοιχεία του προσώπου
Ανοικοδόμηση
- Το μοντέλο δημιουργεί έναν χάρτη χαρακτηριστικών υψηλότερης ανάλυσης
- Στη συνέχεια, το μετατρέπει σε πραγματική έξοδο pixel
Μετα-επεξεργασία
- Προαιρετικό ακόνισμα
- Προαιρετική αποθόρυξη
- Προαιρετική καταστολή τεχνουργημάτων (κουδούνισμα, φωτοστέφανα, μπλοκάρισμα)

Μια ανεπαίσθητη λεπτομέρεια: πολλά εργαλεία αναβαθμίζουν τα πλακίδια και στη συνέχεια αναμειγνύουν τις ραφές. Τα εξαιρετικά εργαλεία κρύβουν τα όρια των πλακιδίων. Τα εργαλεία Me αφήνουν αχνά σημάδια πλέγματος αν μισοκλείσετε τα μάτια σας. Και ναι, θα μισοκλείσετε τα μάτια σας, επειδή οι άνθρωποι λατρεύουν να εξετάζουν μικροσκοπικές ατέλειες με ζουμ 300% σαν μικρά γκρέμλιν 🧌

Οι κύριες οικογένειες μοντέλων που χρησιμοποιούνται για αναβάθμιση τεχνητής νοημοσύνης (και γιατί φαίνονται διαφορετικές) 🤖📚

1) Υπερανάλυση βασισμένη στο CNN (το κλασικό εργαλείο)

Τα συνελικτικά νευρωνικά δίκτυα είναι εξαιρετικά σε τοπικά μοτίβα: ακμές, υφές, μικρές δομές ( Υπερανάλυση εικόνας χρησιμοποιώντας βαθιά συνελικτικά δίκτυα (SRCNN) ).

Πλεονεκτήματα: γρήγορο, σταθερό, λιγότερες εκπλήξεις
Μειονεκτήματα: μπορεί να φαίνεται λίγο «επεξεργασμένο» αν πιεστεί πολύ

2) Αναβάθμιση βασισμένη σε GAN (τύπου ESRGAN) 🎭

Τα GAN (Generative Adversarial Networks - Γενετικά Αντιφατικά Δίκτυα) εκπαιδεύουν μια γεννήτρια να παράγει εικόνες υψηλής ανάλυσης που ένας διακριτής δεν μπορεί να διακρίνει από τις πραγματικές ( Γενετικά Αντιφατικά Δίκτυα ).

Πλεονεκτήματα: έντονη λεπτομέρεια, εντυπωσιακή υφή
Μειονεκτήματα: μπορεί να εφεύρει λεπτομέρειες που δεν υπήρχαν - μερικές φορές λανθασμένες, μερικές φορές παράξενες ( SRGAN , ESRGAN )

Ένα GAN μπορεί να σας δώσει αυτή την ευκρίνεια που σας κόβει την ανάσα. Μπορεί επίσης να δώσει στο θέμα του πορτρέτου σας ένα επιπλέον φρύδι. Οπότε... επιλέξτε τις μάχες σας 😬

3) Αναβάθμιση βασισμένη στη διάχυση (το δημιουργικό wildcard) 🌫️➡️🖼️

Τα μοντέλα διάχυσης αποθορυβοποιούνται βήμα προς βήμα και μπορούν να καθοδηγηθούν για την παραγωγή λεπτομερειών υψηλής ανάλυσης ( SR3 ).

Πλεονεκτήματα: μπορεί να είναι εξαιρετικά καλός στις εύλογες λεπτομέρειες, ειδικά για δημιουργική εργασία
Μειονεκτήματα: μπορεί να απομακρυνθεί από την αρχική ταυτότητα/δομή εάν οι ρυθμίσεις είναι επιθετικές ( SR3 )

Εδώ είναι που η «αναβάθμιση» αρχίζει να συνδυάζεται με την «επαναπροσδιορισμό». Μερικές φορές αυτό ακριβώς θέλετε. Άλλες φορές όχι.

4) Αναβάθμιση βίντεο με χρονική συνέπεια 🎞️

Η αναβάθμιση βίντεο συχνά προσθέτει λογική με επίγνωση κίνησης:

Χρησιμοποιεί γειτονικά καρέ για σταθεροποίηση λεπτομερειών ( BasicVSR (CVPR 2021) )
Προσπαθεί να αποφύγει το τρεμόπαιγμα και τα αντικείμενα που σέρνονται
Συχνά συνδυάζει την υπερ-ανάλυση με την αποθόρυβη λειτουργία και την αποπλεξη ( Topaz Video )

Αν η αναβάθμιση εικόνας είναι σαν την αποκατάσταση ενός πίνακα, η αναβάθμιση βίντεο είναι σαν την αποκατάσταση ενός flipbook χωρίς να αλλάζει σχήμα η μύτη του χαρακτήρα σε κάθε σελίδα. Το οποίο είναι... πιο δύσκολο από ό,τι ακούγεται.

Γιατί η αναβάθμιση μέσω τεχνητής νοημοσύνης μερικές φορές φαίνεται ψεύτικη (και πώς να την εντοπίσετε) 👀🚩

Η αναβάθμιση μέσω τεχνητής νοημοσύνης αποτυγχάνει με αναγνωρίσιμους τρόπους. Μόλις μάθετε τα μοτίβα, θα τα βλέπετε παντού, όπως όταν αγοράζετε ένα καινούργιο αυτοκίνητο και ξαφνικά παρατηρείτε αυτό το μοντέλο σε κάθε δρόμο 😵💫

Το κοινό λέει:

Αποτρίχωση με κερί σε πρόσωπα (υπερβολική αποθορυβοποίηση + λείανση)
Υπερβολικά ακονισμένα φωτοστέφανα γύρω από τις άκρες (κλασική περιοχή «υπερβολής») ( Δικυβική παρεμβολή )
Επαναλαμβανόμενες υφές (οι τοίχοι από τούβλα γίνονται μοτίβα αντιγραφής-επικόλλησης)
Τραγανά μικρο-αντίθεση που φωνάζει «αλγόριθμος»
Παραμόρφωση κειμένου όπου τα γράμματα γίνονται σχεδόν γράμματα (το χειρότερο είδος)
Μετατόπιση λεπτομερειών όπου μικρά χαρακτηριστικά αλλάζουν ανεπαίσθητα, ειδικά στις ροές εργασίας διάχυσης ( SR3 )

Το δύσκολο κομμάτι: μερικές φορές αυτά τα αντικείμενα φαίνονται «καλύτερα» με την πρώτη ματιά. Ο εγκέφαλός σας αγαπά την ευκρίνεια. Αλλά μετά από λίγο, νιώθει... περίεργα.

Μια καλή τακτική είναι να κάνετε σμίκρυνση και να ελέγξετε αν φαίνεται φυσικό σε κανονική απόσταση θέασης. Αν φαίνεται καλό μόνο με ζουμ 400%, αυτό δεν είναι νίκη, είναι χόμπι 😅

Πώς λειτουργεί η αναβάθμιση τεχνητής νοημοσύνης: η πλευρά της εκπαίδευσης, χωρίς τον πονοκέφαλο των μαθηματικών 📉🙂

Η εκπαίδευση μοντέλων υπερανάλυσης συνήθως περιλαμβάνει:

Ζευγαρωμένα σύνολα δεδομένων (είσοδος χαμηλής ανάλυσης, στόχος υψηλής ανάλυσης) ( Εικόνα Υπερ-Ανάλυσης Χρησιμοποιώντας Βαθιά Συνελικτικά Δίκτυα (SRCNN) )
Συναρτήσεις απώλειας που τιμωρούν λανθασμένες ανακατασκευές ( SRGAN )

Τυπικοί τύποι απωλειών:

Απώλεια pixel (L1/L2)
Ενθαρρύνει την ακρίβεια. Μπορεί να παράγει ελαφρώς αδύναμα αποτελέσματα.
Η αντιληπτική απώλεια
συγκρίνει βαθύτερα χαρακτηριστικά (όπως «μήπως μοιάζει ») αντί για ακριβή εικονοστοιχεία ( Αντιληπτικές Απώλειες (Johnson et al., 2016) ).
Η αντιφατική απώλεια (GAN)
ενθαρρύνει τον ρεαλισμό, μερικές φορές εις βάρος της κυριολεκτικής ακρίβειας ( SRGAN , Γενετικά Αντιφατικά Δίκτυα ).

Υπάρχει μια συνεχής διελκυστίνδα:

Κάντε το πιστό στο πρωτότυπο
vs.
Κάντε το οπτικά ευχάριστο

Διαφορετικά εργαλεία καταλήγουν σε διαφορετικά σημεία σε αυτό το φάσμα. Και μπορεί να προτιμάτε ένα ανάλογα με το αν αποκαθιστάτε οικογενειακές φωτογραφίες ή προετοιμάζετε μια αφίσα όπου η «όμορφη εμφάνιση» έχει μεγαλύτερη σημασία από την εγκληματολογική ακρίβεια.

Πρακτικές ροές εργασίας: φωτογραφίες, παλιές σαρώσεις, anime και βίντεο 📸🧾🎥

Φωτογραφίες (πορτρέτα, τοπία, φωτογραφίες προϊόντων)

Η βέλτιστη πρακτική είναι συνήθως:

Ήπια αποθορυβοποίηση πρώτα (εάν χρειάζεται)
Αναβαθμισμένο με συντηρητικά περιβάλλοντα
Προσθέστε ξανά κόκκους αν τα πράγματα φαίνονται πολύ λεία (ναι, πραγματικά)

Το σιτηρό είναι σαν το αλάτι. Η υπερβολική ποσότητα καταστρέφει το δείπνο, αλλά τίποτα απολύτως δεν μπορεί να έχει λίγο άγευστη γεύση 🍟

Παλιές σαρώσεις και εικόνες με μεγάλη συμπίεση

Αυτά είναι πιο δύσκολα επειδή το μοντέλο μπορεί να αντιμετωπίσει τα μπλοκ συμπίεσης ως «υφή».
Δοκιμάστε:

Αφαίρεση ή απομπλοκάρισμα τεχνουργημάτων
Στη συνέχεια, αναβαθμίστε
Μετά, ελαφρύ ακόνισμα (όχι υπερβολικό... το ξέρω, όλοι το λένε αυτό, αλλά παρόλα αυτά)

Anime και γραμμική τέχνη

Τα γραμμικά σχέδια ωφελούνται από:

Μοντέλα που διατηρούν καθαρές άκρες
Μειωμένη παραίσθηση υφής.
Η αναβάθμιση anime συχνά φαίνεται υπέροχη επειδή τα σχήματα είναι πιο απλά και ομοιόμορφα. (Τυχερό.)

Βίντεο

Το βίντεο προσθέτει επιπλέον βήματα:

Αποθόρυξη
Αποπλεξή (για ορισμένες πηγές)
Πολυτελές
Χρονική εξομάλυνση ή σταθεροποίηση ( BasicVSR (CVPR 2021) )
Προαιρετική επανεισαγωγή κόκκων για συνοχή

Αν παραλείψετε τη χρονική συνέπεια, θα παρατηρήσετε αυτό το λαμπυρίζον τρεμόπαιγμα της λεπτομέρειας. Μόλις το προσέξετε, δεν μπορείτε να το ξεπεράσετε. Σαν μια τριζόμενη καρέκλα σε ένα ήσυχο δωμάτιο 😖

Επιλέγοντας ρυθμίσεις χωρίς να μαντεύετε υπερβολικά (ένα μικρό φύλλο με συμβουλές) 🎛️😵💫

Ιδού μια καλή αρχική νοοτροπία:

Αν τα πρόσωπα φαίνονται πλαστικά
, μειώστε τον θόρυβο, μειώστε την ευκρίνεια ή δοκιμάστε ένα μοντέλο ή λειτουργία διατήρησης προσώπου.
Εάν οι υφές φαίνονται πολύ έντονες,
χαμηλώστε τα ρυθμιστικά «βελτίωσης λεπτομέρειας» ή «ανάκτησης λεπτομέρειας» και προσθέστε διακριτικούς κόκκους μετά.
Εάν οι άκρες λάμπουν,
μειώστε την ακόνισμα και ελέγξτε τις επιλογές καταστολής της φωτοστέφανο.
Αν η εικόνα φαίνεται υπερβολικά «τεχνητή νοημοσύνη»,
κάντε μια πιο συντηρητική κίνηση. Μερικές φορές η καλύτερη κίνηση είναι απλώς… λιγότερη.

Επίσης: μην αναβαθμίζετε 8x μόνο και μόνο επειδή μπορείτε. Ένα καθαρό 2x ή 4x είναι συχνά το ιδανικό σημείο. Πέρα από αυτό, ζητάτε από το μοντέλο να γράψει fanfiction για τα pixel σας 📖😂

Ηθική, αυθεντικότητα και το αμήχανο ερώτημα της «αλήθειας» 🧭😬

Η αναβάθμιση με τεχνητή νοημοσύνη θολώνει τα όρια:

Η αποκατάσταση συνεπάγεται την ανάκτηση όσων υπήρχαν
Η βελτίωση συνεπάγεται την προσθήκη αυτού που δεν υπήρχε

Με τις προσωπικές φωτογραφίες, συνήθως είναι μια χαρά (και όμορφη). Με τη δημοσιογραφία, τα νομικά στοιχεία, την ιατρική απεικόνιση ή οτιδήποτε έχει σημασία η πιστότητα... πρέπει να είστε προσεκτικοί ( OSAC/NIST: Πρότυπος Οδηγός για τη Διαχείριση Ψηφιακών Εικόνων Εγκληματολογικής , Οδηγίες SWGDE για την Ανάλυση Εικόνων Εγκληματολογικής Έρευνας ).

Ένας απλός κανόνας:

Εάν τα διακυβεύματα είναι υψηλά, αντιμετωπίστε την αναβάθμιση της τεχνητής νοημοσύνης ως ενδεικτική και όχι ως οριστική.

Επίσης, η αποκάλυψη έχει σημασία σε επαγγελματικά πλαίσια. Όχι επειδή η Τεχνητή Νοημοσύνη είναι κακή, αλλά επειδή το κοινό αξίζει να γνωρίζει εάν οι λεπτομέρειες ανακατασκευάστηκαν ή καταγράφηκαν. Αυτό είναι απλώς... σεβαστό.

Τελικές σημειώσεις και μια γρήγορη ανακεφαλαίωση 🧡✅

Λοιπόν, ο τρόπος λειτουργίας της αναβάθμισης με τεχνητή νοημοσύνη είναι ο εξής: τα μοντέλα μαθαίνουν πώς οι λεπτομέρειες υψηλής ανάλυσης τείνουν να σχετίζονται με μοτίβα χαμηλής ανάλυσης και στη συνέχεια προβλέπουν πιστευτά επιπλέον pixel κατά την αναβάθμιση ( Deep Learning for Image Super-resolution: A Survey ). Ανάλογα με την οικογένεια μοντέλων (CNN, GAN, diffusion, video-temporal), αυτή η πρόβλεψη μπορεί να είναι συντηρητική και πιστή... ή τολμηρή και κατά καιρούς ασυνάρτητη 😅

Γρήγορη ανακεφαλαίωση

Η παραδοσιακή αναβάθμιση τεντώνει τα pixel ( Δικυβική παρεμβολή )
Η αναβάθμιση της τεχνητής νοημοσύνης προβλέπει τις λεπτομέρειες που λείπουν χρησιμοποιώντας μοτίβα που έχουν μαθευτεί ( Υπερανάλυση εικόνας χρησιμοποιώντας βαθιά συνελικτικά δίκτυα (SRCNN) )
Τα εξαιρετικά αποτελέσματα προέρχονται από το σωστό μοντέλο + συγκράτηση
Παρακολουθήστε για φωτοστέφανα, κηρώδη πρόσωπα, επαναλαμβανόμενες υφές και τρεμόπαιγμα στο βίντεο ( BasicVSR (CVPR 2021) )
Η αναβάθμιση είναι συχνά «εύλογη ανακατασκευή» και όχι η τέλεια αλήθεια ( SRGAN , ESRGAN )

Αν θέλεις, πες μου τι αναβαθμίζεις (πρόσωπα, παλιές φωτογραφίες, βίντεο, anime, σαρώσεις κειμένου) και θα σου προτείνω μια στρατηγική ρυθμίσεων που τείνει να αποφεύγει τις συνηθισμένες παγίδες της «εμφάνισης τεχνητής νοημοσύνης» 🎯🙂

Συχνές ερωτήσεις

Αναβάθμιση Τεχνητής Νοημοσύνης και πώς λειτουργεί

Η αναβάθμιση με τεχνητή νοημοσύνη (συχνά αποκαλούμενη «υπερ-ανάλυση») αυξάνει την ανάλυση μιας εικόνας προβλέποντας τις λεπτομέρειες υψηλής ανάλυσης που λείπουν από τα μοτίβα που έχουν αποκτηθεί κατά την εκπαίδευση. Αντί να απλώς τεντώνει τα pixel όπως η δικυβική παρεμβολή, ένα μοντέλο μελετά τις άκρες, τις υφές, τα πρόσωπα και τις πινελιές που μοιάζουν με κείμενο και στη συνέχεια δημιουργεί νέα δεδομένα pixel που συνάδουν με αυτά τα μοτίβα που έχουν μαθευτεί. Είναι λιγότερο «αποκατάσταση της πραγματικότητας» και περισσότερο «κάνω μια πιστευτή εικασία» που εκλαμβάνεται ως φυσική.

Αναβάθμιση με τεχνητή νοημοσύνη έναντι δικυβικής ή παραδοσιακής αλλαγής μεγέθους

Οι παραδοσιακές μέθοδοι αναβάθμισης (όπως η bicubic) παρεμβάλλουν κυρίως μεταξύ υπαρχόντων pixel, εξομαλύνοντας τις μεταβάσεις χωρίς να δημιουργούν πραγματικά νέες λεπτομέρειες. Η αναβάθμιση με τεχνητή νοημοσύνη στοχεύει στην ανακατασκευή εύλογης δομής αναγνωρίζοντας οπτικά σημάδια και προβλέποντας πώς τείνουν να μοιάζουν οι εκδόσεις υψηλής ανάλυσης αυτών των σημείων. Αυτός είναι ο λόγος για τον οποίο τα αποτελέσματα της τεχνητής νοημοσύνης μπορούν να φαίνονται δραματικά πιο ευκρινή και επίσης γιατί μπορούν να εισάγουν αντικείμενα ή να «εφευρίσκουν» λεπτομέρειες που δεν υπήρχαν στην πηγή.

Γιατί τα πρόσωπα μπορεί να φαίνονται κηρώδη ή υπερβολικά λεία

Οι κηρώδεις επιφάνειες συνήθως προέρχονται από επιθετική αποθορυβοποίηση και εξομάλυνση σε συνδυασμό με ακόνισμα που αφαιρεί τη φυσική υφή του δέρματος. Πολλά εργαλεία αντιμετωπίζουν τον θόρυβο και τη λεπτή υφή με παρόμοιο τρόπο, επομένως ο «καθαρισμός» μιας εικόνας μπορεί να σβήσει τους πόρους και τις ανεπαίσθητες λεπτομέρειες. Μια συνηθισμένη προσέγγιση είναι η μείωση της αποθορυβοποίησης και της ακόνισμα, η χρήση μιας λειτουργίας διατήρησης προσώπου, εάν είναι διαθέσιμη, και στη συνέχεια η επαναφορά μιας πινελιάς κόκκων, ώστε το αποτέλεσμα να φαίνεται λιγότερο πλαστικό και πιο φωτογραφικό.

Συνηθισμένα αντικείμενα αναβάθμισης τεχνητής νοημοσύνης που πρέπει να προσέξετε

Τυπικές ενδείξεις περιλαμβάνουν φωτοστέφανα γύρω από τις άκρες, επαναλαμβανόμενα μοτίβα υφής (όπως τούβλα αντιγραφής-επικόλλησης), τραγανή μικροαντίθεση και κείμενο που μετατρέπεται σε "σχεδόν γράμματα". Σε ροές εργασίας που βασίζονται στη διάχυση, μπορείτε επίσης να δείτε μετατόπιση λεπτομερειών όπου μικρά χαρακτηριστικά αλλάζουν ανεπαίσθητα. Για βίντεο, το τρεμόπαιγμα και η ανίχνευση λεπτομερειών στα καρέ είναι μεγάλα προειδοποιητικά σημάδια. Αν φαίνεται καλό μόνο σε ακραίο ζουμ, οι ρυθμίσεις είναι πιθανώς πολύ επιθετικές.

Πώς οι εταιρείες αναβάθμισης GAN, CNN και διάχυσης τείνουν να διαφέρουν στα αποτελέσματα

Η υπερ-ανάλυση που βασίζεται στο CNN τείνει να είναι πιο σταθερή και πιο προβλέψιμη, αλλά μπορεί να φαίνεται «επεξεργασμένη» αν πιεστεί έντονα. Οι επιλογές που βασίζονται στο GAN (τύπου ESRGAN) συχνά παράγουν πιο έντονη υφή και αντιληπτή ευκρίνεια, αλλά μπορούν να παραισθησιάσουν λανθασμένες λεπτομέρειες, ειδικά σε πρόσωπα. Η αναβάθμιση που βασίζεται στη διάχυση μπορεί να δημιουργήσει όμορφη, εύλογη λεπτομέρεια, ωστόσο μπορεί να αποκλίνει από την αρχική δομή εάν οι ρυθμίσεις καθοδήγησης ή έντασης είναι πολύ ισχυρές.

Μια πρακτική στρατηγική ρυθμίσεων για την αποφυγή μιας εμφάνισης «υπερβολικά τεχνητής νοημοσύνης»

Ξεκινήστε συντηρητικά: αναβαθμίστε την κλίμακα 2× ή 4× πριν επικεντρωθείτε σε ακραίους παράγοντες. Εάν τα πρόσωπα φαίνονται πλαστικά, μειώστε την αποθορυβοποίηση και την ευκρίνεια και δοκιμάστε μια λειτουργία με επίγνωση προσώπου. Εάν οι υφές γίνουν πολύ έντονες, μειώστε την ενίσχυση των λεπτομερειών και σκεφτείτε να προσθέσετε διακριτικούς κόκκους αργότερα. Εάν οι άκρες λάμπουν, μειώστε την ευκρίνεια και ελέγξτε την καταστολή του φωτοστέφανου ή των τεχνουργημάτων. Σε πολλά pipeline, το "λιγότερο" κερδίζει επειδή διατηρεί τον πιστευτό ρεαλισμό.

Χειρισμός παλιών σαρώσεων ή εικόνων με υψηλή συμπίεση JPEG πριν από την αναβάθμιση

Οι συμπιεσμένες εικόνες είναι δύσκολες, επειδή τα μοντέλα μπορούν να αντιμετωπίσουν τα τεχνουργήματα μπλοκ ως πραγματική υφή και να τα ενισχύσουν. Μια συνηθισμένη ροή εργασίας είναι πρώτα η αφαίρεση ή η απομπλοκάρισμα τεχνουργημάτων, στη συνέχεια η αναβάθμιση και στη συνέχεια η ελαφριά όξυνση μόνο εάν χρειάζεται. Για τις σαρώσεις, ο απαλός καθαρισμός μπορεί να βοηθήσει το μοντέλο να εστιάσει στην πραγματική δομή και όχι στη ζημιά. Ο στόχος είναι να μειωθούν τα "ψεύτικα σημάδια υφής", ώστε ο αναβαθμιστής να μην αναγκάζεται να κάνει σίγουρες εικασίες από θορυβώδεις εισόδους.

Γιατί η αναβάθμιση βίντεο είναι πιο δύσκολη από την αναβάθμιση φωτογραφιών

Η αναβάθμιση βίντεο πρέπει να είναι συνεπής σε όλα τα καρέ, όχι μόνο σε μία στατική εικόνα. Εάν οι λεπτομέρειες τρεμοπαίζουν από καρέ σε καρέ, το αποτέλεσμα γίνεται γρήγορα αποσπασματικό. Οι προσεγγίσεις που εστιάζουν στο βίντεο χρησιμοποιούν χρονικές πληροφορίες από γειτονικά καρέ για να σταθεροποιήσουν την ανακατασκευή και να αποφύγουν τα λαμπερά αντικείμενα. Πολλές ροές εργασίας περιλαμβάνουν επίσης αποθόρυβη λειτουργία, αποπλεξη για ορισμένες πηγές και προαιρετική επανεισαγωγή κόκκων, ώστε ολόκληρη η ακολουθία να δίνει την αίσθηση συνοχής και όχι τεχνητά ευκρίνειας.

Όταν η αναβάθμιση της τεχνητής νοημοσύνης δεν είναι κατάλληλη ή είναι επικίνδυνη η αξιόπιστη αξιοποίηση

Η αναβάθμιση μέσω τεχνητής νοημοσύνης αντιμετωπίζεται καλύτερα ως βελτίωση και όχι ως απόδειξη. Σε περιβάλλοντα υψηλού ρίσκου, όπως η δημοσιογραφία, τα νομικά στοιχεία, η ιατρική απεικόνιση ή η εγκληματολογική εργασία, η δημιουργία «πιστευτών» pixel μπορεί να παραπλανήσει, επειδή μπορεί να προσθέσει λεπτομέρειες που δεν καταγράφηκαν. Ένα ασφαλέστερο πλαίσιο είναι να το χρησιμοποιήσετε επεξηγηματικά και να αποκαλύψετε ότι μια διαδικασία τεχνητής νοημοσύνης ανακατασκεύασε λεπτομέρειες. Εάν η πιστότητα είναι κρίσιμη, διατηρήστε τα πρωτότυπα και καταγράψτε κάθε βήμα και ρύθμιση επεξεργασίας.

Αναφορές

arXiv - Βαθιά Μάθηση για Υπερ-ανάλυση Εικόνας: Μια Έρευνα - arxiv.org
arXiv - Υπερανάλυση εικόνας χρησιμοποιώντας βαθιά συνελικτικά δίκτυα (SRCNN) - arxiv.org
arXiv - Πραγματικό ESRGAN - arxiv.org
arXiv - ESRGAN - arxiv.org
arXiv - SR3 - arxiv.org
Προγραμματιστής NVIDIA - NVIDIA DLSS - developer.nvidia.com
AMD GPUOpen - FidelityFX Super Resolution 2 - gpuopen.com
Ανοικτή Πρόσβαση του Ιδρύματος Υπολογιστικής Όρασης (CVF) - BasicVSR: Η Αναζήτηση Βασικών Στοιχείων σε Βίντεο Υπερ-Ανάλυσης (CVPR 2021) - openaccess.thecvf.com
arXiv - Δίκτυα Γενετικής Αντίπαλης - arxiv.org
arXiv - SRGAN - arxiv.org
arXiv - Αντιληπτικές Απώλειες (Johnson et al., 2016) - arxiv.org
GitHub - Αποθετήριο Real-ESRGAN (επιλογές πλακιδίων) - github.com
Wikipedia - Δικυβική παρεμβολή - wikipedia.org
Topaz Labs - Φωτογραφία Topaz - topazlabs.com
Topaz Labs - Βίντεο Topaz - topazlabs.com
Κέντρο βοήθειας Adobe - Adobe Enhance > Υπερανάλυση - helpx.adobe.com
NIST / OSAC - Πρότυπος Οδηγός για τη Διαχείριση Ψηφιακών Εικόνων για Εγκληματολογικούς Ερευνητές (Έκδοση 1.0) - nist.gov
SWGDE - Οδηγίες για την Ιατροδικαστική Ανάλυση Εικόνας - swgde.org

Βρείτε την τελευταία λέξη της Τεχνητής Νοημοσύνης στο επίσημο κατάστημα βοηθών τεχνητής νοημοσύνης

Σχετικά με εμάς

Επιστροφή στο ιστολόγιο

Χώρα/περιοχή