Η υπερβολική υπόσχεση της λεγόμενης αμερόληπτης εξόρυξης δεδομένων


Ο βραβευμένος με Νόμπελ Ρίτσαρντ Φέινμαν κάποτε κάλεσε τους σπουδαστές του Caltech να υπολογίσουν την πιθανότητα ότι αν περπατούσε έξω από την τάξη, το πρώτο αυτοκίνητο στο χώρο στάθμευσης θα είχε μια συγκεκριμένη πινακίδα, δηλ. 6ZNA74. Υποθέτοντας ότι όλοι οι αριθμοί και τα γράμματα είναι εξίσου πιθανόν και καθορίζονται ανεξάρτητα, οι μαθητές εκτιμούν ότι η πιθανότητα είναι μικρότερη από 1 στα 17 εκατομμύρια. Όταν οι μαθητές τελείωσαν τους υπολογισμούς τους, ο Feynman αποκάλυψε ότι η σωστή πιθανότητα ήταν 1: Είχε δει αυτήν την πινακίδα κυκλοφορίας στην πορεία του στην τάξη. Κάτι εξαιρετικά απίθανο δεν είναι καθόλου απίθανο αν έχει ήδη συμβεί.

Το Feynman παγιδεύει τα δεδομένα για τα σχέδια χωρίς κάποια προκαταρκτική ιδέα για το τι ψάχνει κάποιος – είναι η Αχίλλειος πτέρνα των μελετών που βασίζονται στην εξόρυξη δεδομένων. Η εύρεση κάτι ασυνήθιστου ή εκπληκτικού αφού έχει ήδη συμβεί δεν είναι ούτε ασυνήθιστο ούτε εκπληκτικό. Τα σχήματα είναι βέβαιο ότι θα βρεθούν και είναι πιθανό να είναι παραπλανητικά, παράλογα ή χειρότερα.

Στο βιβλίο του 2001 με τις καλύτερες πωλήσεις Καλό στο Μεγάλο, Ο Jim Collins συνέκρινε 11 εταιρείες που είχαν ξεπεράσει τη συνολική χρηματιστηριακή αγορά τα προηγούμενα 40 χρόνια σε 11 εταιρείες που δεν είχαν. Προσδιόρισε πέντε χαρακτηριστικά γνωρίσματα που είχαν οι κοινές επιτυχημένες εταιρείες. "Δεν ξεκινήσαμε αυτό το έργο με μια θεωρία για να δοκιμάσουμε ή να αποδείξουμε", αποπνέει η Collins. "Επιδιώξαμε να οικοδομήσουμε μια θεωρία από το έδαφος, που προέρχεται απευθείας από τα αποδεικτικά στοιχεία."

Εισήλθε στην παγίδα Feynman. Όταν κοιτάμε πίσω στο χρόνο σε οποιαδήποτε ομάδα εταιρειών, το καλύτερο ή το χειρότερο, μπορούμε πάντα να βρούμε κάποια κοινά χαρακτηριστικά, οπότε η εύρεση τους δεν αποδεικνύει τίποτα. Μετά τη δημοσίευση της Καλό στο Μεγάλο, η απόδοση των 11 μεγάλων μετοχών της Collins ήταν σαφώς μέτρια: Πέντε μετοχές έκαναν καλύτερη από τη συνολική χρηματιστηριακή αγορά, ενώ έξι έχουν χειροτερέψει.

Το 2011, η Google δημιούργησε ένα πρόγραμμα τεχνητής νοημοσύνης που ονομάζεται Google Flu, το οποίο χρησιμοποίησε ερωτήματα αναζήτησης για να προβλέψει εστίες γρίπης. Το πρόγραμμα εξόρυξης δεδομένων της Google εξέτασε 50 εκατομμύρια ερωτήματα αναζήτησης και εντόπισε τα 45 που συσχετίζονταν περισσότερο με τη συχνότητα εμφάνισης της γρίπης. Είναι ένα ακόμη παράδειγμα της παγίδας εξόρυξης δεδομένων: Μια έγκυρη μελέτη θα καθορίζει εκ των προτέρων τις λέξεις-κλειδιά. Μετά την έκδοση της έκθεσής της, η Google Flu υπερεκτίμησε τον αριθμό των περιπτώσεων γρίπης για 100 από τις επόμενες 108 εβδομάδες, κατά μέσο όρο σχεδόν 100%. Η Google Flu δεν κάνει πλέον προβλέψεις για τη γρίπη.

Ένας έμπορος Διαδικτύου σκέφτηκε ότι θα μπορούσε να ενισχύσει τα έσοδά του αλλάζοντας το παραδοσιακό χρώμα της μπλε ιστοσελίδας σε διαφορετικό χρώμα. Μετά από αρκετές εβδομάδες δοκιμών, η εταιρεία βρήκε ένα στατιστικά σημαντικό αποτέλεσμα: προφανώς η Αγγλία αγαπάει το μοσχάρι. Μελετώντας διάφορα εναλλακτικά χρώματα για εκατό περίπου χώρες, εξασφάλισαν ότι θα έβλεπαν μια αύξηση των εσόδων για κάποιο χρώμα για κάποια χώρα, αλλά δεν είχαν ιδέα μπροστά από το χρονικό διάστημα εάν το teal θα πωλούσε περισσότερα στην Αγγλία. Όπως αποδείχθηκε, όταν το χρώμα της ιστοσελίδας της Αγγλίας άλλαξε για να τραγουδήσει, τα έσοδα έπεσαν.

Ένα πρότυπο πείραμα νευροεπιστημών περιλαμβάνει την εμφάνιση εθελοντή σε μια μηχανή μαγνητικής τομογραφίας διάφορων εικόνων και ερωτήσεων σχετικά με τις εικόνες. Οι μετρήσεις είναι θορυβώδεις, παίρνουν μαγνητικά σήματα από το περιβάλλον και από μεταβολές της πυκνότητας λιπώδους ιστού σε διάφορα μέρη του εγκεφάλου. Μερικές φορές χάνουν την εγκεφαλική δραστηριότητα. μερικές φορές προτείνουν δραστηριότητα όπου δεν υπάρχει.

Ένας μεταπτυχιακός φοιτητής του Dartmouth χρησιμοποίησε μηχανή MRI για να μελετήσει την εγκεφαλική δραστηριότητα ενός σολομού καθώς παρουσιάστηκε φωτογραφίες και ερωτήσεις. Το πιο ενδιαφέρον πράγμα για τη μελέτη δεν ήταν ότι μελετήθηκε ένας σολομός, αλλά ότι ο σολομός ήταν νεκρός. Ναι, ένας νεκρός σολομός που αγοράστηκε σε μια τοπική αγορά τοποθετήθηκε στη μηχανή μαγνητικής απεικόνισης, και ανακαλύφθηκαν ορισμένα σχέδια. Υπήρχαν αναπόφευκτα μοτίβα – και ήταν πάντοτε χωρίς νόημα.

Το 2018, ένας καθηγητής οικονομικών Yale και ένας μεταπτυχιακός φοιτητής υπολόγισαν τις συσχετίσεις μεταξύ των καθημερινών αλλαγών στις τιμές Bitcoin και εκατοντάδων άλλων οικονομικών μεταβλητών. Διαπίστωσαν ότι οι τιμές Bitcoin συσχετίζονταν θετικά με τις αποδόσεις των αποθεμάτων στις βιομηχανίες καταναλωτικών αγαθών και την υγειονομική περίθαλψη και ότι συσχετίζονταν αρνητικά με τις αποδόσεις των αποθεμάτων στα μεταποιημένα προϊόντα και τις μεταλλευτικές βιομηχανίες. "Δεν δίνουμε εξηγήσεις", δήλωσε ο καθηγητής, "τεκμηριώνουμε αυτή τη συμπεριφορά". Με άλλα λόγια, ίσως έχουν εξετάσει τις συσχετίσεις των τιμών Bitcoin με εκατοντάδες λίστες τηλεφωνικών αριθμών και ανέφεραν τις υψηλότερες συσχετίσεις.

Ο διευθυντής του Εργαστηρίου Τροφίμων και Εμπορίου του Πανεπιστημίου Cornell ανέθεσε (ή συνάψει) περισσότερα από 200 επιστημονικά άρθρα και έγραψε δύο δημοφιλή βιβλία, τα οποία μεταφράστηκαν σε περισσότερες από 25 γλώσσες.

Σε μια ιστορία blog του 2016 με τίτλο "Ο σπουδαστής Grad που Ποτέ δεν είπε Όχι", έγραψε για έναν διδακτό διδάκτορα στον οποίο δόθηκαν δεδομένα που συλλέχτηκαν σε ένα μπουφέ με ιταλικό μπουφέ.

Η αλληλογραφία του ηλεκτρονικού ταχυδρομείου εμφανίστηκε στο οποίο ο καθηγητής συμβουλεύει τον μεταπτυχιακό φοιτητή να χωρίσει τα γεύματα σε «αρσενικά, θηλυκά, γεύματα, γεύματα, άτομα που κάθονται μόνοι, άνθρωποι που τρώνε με ομάδες 2, άτομα που τρώνε σε ομάδες 2+, , οι άνθρωποι που παραγγέλνουν τα αναψυκτικά, οι άνθρωποι που κάθονται κοντά στο μπουφέ, οι άνθρωποι που κάθονται μακριά και ούτω καθεξής … "Τότε θα μπορούσε να εξετάσει διαφορετικούς τρόπους με τους οποίους αυτές οι υποομάδες μπορεί να διαφέρουν:" # κομμάτια πίτσας, # ταξίδια, από πιάτο, πήραν επιδόρπιο, έδωσαν ένα ποτό και ούτω καθεξής … "

Κατέληξε στο συμπέρασμα ότι πρέπει να "δουλέψει σκληρά, να αποσπάσει κάποιο αίμα από αυτό το βράχο". Με το να μην λέει ποτέ, ο μαθητής πήρε τέσσερις εφημερίδες (τώρα γνωστές ως "papers papers") που δημοσιεύθηκαν με τον καθηγητή Cornell ως συνάδελφος. Το πιο διάσημο έγγραφο ανέφερε ότι οι άντρες τρώνε κατά 93% περισσότερη πίτσα όταν τρώνε με τις γυναίκες. Δεν τελείωσε καλά. Τον Σεπτέμβριο του 2018, μια επιτροπή σχολής του Cornell κατέληξε στο συμπέρασμα ότι είχε «διαπράξει ακαδημαϊκή παραπτωχή στην έρευνά του». Απεβίωσε, με ισχύ τον επόμενο Ιούνιο.

Η καλή έρευνα ξεκινά με μια σαφή ιδέα για το τι ψάχνει και αναμένει να βρει. Η εξόρυξη δεδομένων αναζητά μοτίβα και αναπόφευκτα βρίσκει κάποια.

Το πρόβλημα έχει γίνει ενδημικό στις μέρες μας, επειδή οι ισχυροί υπολογιστές είναι τόσο καλοί για να λεηλατούν τα Big Data. Οι ανθρακωρύχοι δεδομένων έχουν βρει συσχετισμούς μεταξύ λέξεων Twitter ή ερωτημάτων αναζήτησης Google και εγκληματικής δραστηριότητας, καρδιακών προσβολών, τιμών μετοχών, εκλογικών αποτελεσμάτων, τιμών Bitcoin και αγώνων ποδοσφαίρου. Ίσως να νομίζετε ότι φτιάχνω αυτά τα παραδείγματα. Δεν είμαι.

Υπάρχουν ακόμη ισχυρότεροι συσχετισμοί με καθαρά τυχαίους αριθμούς. Είναι ο Big Data Hubris να πιστεύει ότι οι συσχετισμοί που εξάγονται από δεδομένα πρέπει να έχουν νόημα. Η εύρεση ενός ασυνήθιστου σχεδίου στα Big Data δεν είναι πια πειστική (ή χρήσιμη) από την εύρεση μιας ασυνήθιστης πινακίδας εκτός της τάξης του Feynman.

Γνωμοδότηση WIRED δημοσιεύει κομμάτια γραμμένα από εξωτερικούς συνεργάτες και αντιπροσωπεύει ένα ευρύ φάσμα απόψεων. Διαβάστε περισσότερες απόψεις εδώ. Υποβάλετε ένα op-ed στη διεύθυνση opinion@wired.com


Περισσότερες μεγάλες ιστορίες WIRED