Κεφάλαιο 5 του Verification handbook for investigative journalism. Έρευνα με την βοήθεια βάσεων δεδομένων: Επιβεβαιώνοντας την ποιότητα των στοιχείων .

Ποιά είναι η Giannina Segnini;

Επί του παρόντος η Giannina Segnini είναι καθηγήτρια στην σχολή δημοσιογραφίας στο πανεπιστήμιο  Columbia της Νέας Υόρκης. Ως τον Φεβρουάριο του 2014 ήταν επικεφαλής μιας ομάδας δημοσιογράφων και μηχανικών που ονομάζεται la Nacion και εδράζει στην Κόστα Ρίκα. Η κύρια εργασία της ομάδας αυτής ήταν να δημοσιοποιεί – μετά από έρευνα – ειδήσεις, μέσω αναζήτησης, ανάλυσης και αξιοποίησης στοιχείων ευρισκομένων σε δημόσιες βάσεις δεδομένων. Μέχρι το 2000 η Segnini είχε εκπαιδεύσει χιλιάδες δημοσιογράφους στην ερευνητική δημοσιογραφία, στην δημοσιογραφία μέσω υπολογιστή (Computer Assisted Reporting) και στην βασιζόμενη σε στοιχεία δημοσιογραφία στην Λατινική Αμερική.

Η Segnini έχει κερδίσει το βραβείο Jorge Vargas Gene National Journalism τρεις φορές, το διεθνές βραβείο δημοσιογραφίας Pio Viquez, το βραβείο αριστείας στην δημοσιογραφία Gabriel García Márquez, το έπαθλο Ortega y Gasse από την Ισπανική εφημερίδα El Pais, το βραβείο για την καλύτερη δημοσιογραφική έρευνα σε υπόθεση διαφθοράς από την οργάνωση Transparency International for Latin America and the Caribbean (TILAC) και το βραβείο Maria Moors Cabot, από το πανεπιστήμιο  Κολούμπια. Παλαιότερα ( 2001 – 2002 ) η Segnini διετέλεσε επιστημονικός συνεργάτης στο πανεπιστήμιο του Harvard.

Ποτέ στο παρελθόν δεν είχαν οι δημοσιογράφοι τόσο μεγάλη πρόσβαση σε πληροφορίες. Περισσότερα από τρία έξαμπάιτ δεδομένων ( όσες περίπου πληροφορίες χωράνε σε 750 DVD) δημιουργούνται καθημερινά, ενώ η ποσότητα αυτή διπλασιάζεται κάθε 40 μήνες περίπου. Η παγκόσμια παραγωγή δεδομένων σήμερα υπολογίζεται σε Yottabytes. ( Ένα Yottabyte αντιστοιχεί σε περίπου 250 τρισεκατομμύρια DVD με δεδομένα). Ήδη συζητείται ο ορισμός της νέας μονάδας μέτρησης, μόλις ξεπεραστεί το Yottabyte.

Η δραματική αύξηση τόσο στον όγκο, όσο και στην ταχύτητα παραγωγής νέων δεδομένων μπορεί να είναι ακατανόητη για  δημοσιογράφους οι οποίοι δεν είναι εξοικειωμένοι στην χρήση τόσο μεγάλου όγκου δεδομένων για επεξεργασία και έρευνα.

Η ανάγκη και η προθυμία της χρήσης αυτής της πληθώρας των δεδομένων δεν θα πρέπει σε καμία περίπτωση να μας αποπροσανατολίσει από τον πραγματικό μας στόχο, ο οποίος είναι πάντα η ακρίβεια των λεχθέντων μας. Για να κατανοήσουμε την πραγματική αξία των πληροφοριών, πρέπει να αποκτήσουμε την ικανότητα να διαχωρίσουμε από την υπερπληθώρα αυτών μόνο τις ποιοτικές, και να βρίσκουμε μόνο τα πραγματικά γεγονότα, παραλείποντας όλα τα ασήμαντα και δευτερεύοντα.

Ένα σημαντικό μάθημα που παίρνει κανείς μετά από είκοσι χρόνια ενασχόλησης με την έρευνα μέσω υπολογιστών και ηλεκτρονικών δεδομένων είναι πως υπάρχουν αναλήθειες σε αυτά, όπως ακριβώς υπάρχει και στους ανθρώπους και ίσως σε ακόμα μεγαλύτερο βαθμό. Άλλωστε τα ηλεκτρονικά στοιχεία είναι στην πλειοψηφία τους ανθρώπινα κατασκευάσματα.

Τα δεδομένα υπηρετούν την καταγραφή της πραγματικότητας σε μια δεδομένη χρονική στιγμή. Το ερώτημα είναι πώς επιβεβαιώνει κανείς ότι αυτά αντιστοιχούν στην πραγματικότητα.

Τα δεδομένα πρέπει να διπλοελεγχθούν, σε μια έρευνα που βασίζεται σε ηλεκτρονικά στοιχεία. Μια προκαταρκτική έρευνα πρέπει να διεξαγχθεί αμέσως μετά την απόκτηση τους και η επαλήθευση αυτών γίνεται στο τέλος κάθε έρευνας, στην επονομαζόμενη αναλυτική φάση.

Α. Αρχική επαλήθευση στοιχείων

Ο πρώτος κανόνας είναι να αμφισβητείτε καθετί και οποιονδήποτε. Όταν στόχος είναι η σχολαστικότητα κατά την άσκηση της δημοσιογραφίας πρέπει να έχετε κατά νου πως δεν νοείται η απόλυτα αξιόπιστη πηγή κατά την συλλογή ηλεκτρονικών δεδομένων.

Για παράδειγμα, θα θεωρούσατε αξιόπιστα τα δημοσιευμένα δεδομένα της παγκόσμιας τράπεζας; Οι περισσότεροι δημοσιογράφοι απάντησαν στο ερώτημα καταφατικά. Θεώρησαν την παγκόσμια τράπεζα έγκυρη πηγή. Ας συγκρίνουμε δύο ομάδες δεδομένων προερχόμενων από την παγκόσμια τράπεζα, για να δείξουμε την διαδικασία επαλήθευσης στοιχείων και για να αποδείξουμε πως ακόμα και οι θεωρούμενες ως οι πλέον αξιόπιστες πηγές μπορεί να αποδειχθούν επισφαλείς. Θα ακολουθήσουμε τα βήματα της διαδικασίας που απεικονίζονται στο παρακάτω διάγραμμα.

Screen Shot 2016-07-22 at 12.57.07 PM

  1. Είναι ολοκληρωμένα τα δεδομένα;

Μία προτεινόμενη τακτική είναι να εντοπίσει κανείς τις ακραίες τιμές             ( υψηλότερη και χαμηλότερη) για την κάθε μεταβλητή σε μία βάση δεδομένων και συνακόλουθα να μετρήσει τις καταγραφές που συναντώνται σε κάθε μία από τις δυνατές τιμές. Για παράδειγμα η παγκόσμια τράπεζα δημοσιοποιεί μία βάση δεδομένων με περισσότερες από 10000 εκτιμήσεις από ανεξάρτητους φορείς, για πάνω από 8600 έργα παγκοσμίως που έχει η ίδια πραγματώσει από το 1964. Απλώς θέτοντας τα κόστη δανεισμού κατά αύξουσα σειρά σε ένα φύλλο εργασιών, μπορεί να δει κανείς γρήγορα πόσα έργα έχουν μηδενικό κόστος.

Screen Shot 2016-07-22 at 12.58.45 PM

Αν στη συνέχεια μετρήσουμε πόσα έργα έχουν μηδενικό κόστος σε συνάρτηση με το σύνολο αυτών, εξάγεται το συμπέρασμα πως περισσότερα από τα μισά 53 τοις εκατό δεν κοστολογούνται.

Screen Shot 2016-07-22 at 1.01.39 PM

Αυτό σημαίνει πως όποιος υπολογίζει τα έξοδα των έργων κατά περιοχή, επικράτεια ή έτος θα εξάγει εσφαλμένα συμπεράσματα, αν δεν περιλάβει στους υπολογισμούς του όλες τις εγγραφές με μηδενικό κόστος. Συνεπώς η βάση δεδομένων, όπως αυτή παρέχεται, οδηγεί σε ανακριβή συμπεράσματα.

Η τράπεζα επίσης δημοσιοποιεί άλλη βάση δεδομένων που υποτίθεται πως εμπεριέχει ατομικά δεδομένα για κάθε χρηματοδοτούμενο έργο ( όχι μόνο εκτιμούμενο) από τον οργανισμό από το 1947.

Screen Shot 2016-07-22 at 1.02.41 PM

Απλώς ανοίγοντας το αρχείο api.csv file στο Excel (έκδοση της 7ης Δεκεμβρίου 2014) είναι εμφανές πως τα δεδομένα είναι επισφαλή και πως πλήθος μεταβλητών συνδυάζονται σε ένα μόνο κελί ( όπως ονόματα τομέων ή χωρών). Ακόμα πιο αξιοσημείωτο είναι πως στο αρχείο αυτό δεν περιέχονται όλα τα χρηματοδοτούμενα έργα από την τράπεζα από το 1947.

Η εν λόγω βάση δεδομένων στην πραγματικότητα περιέχει μόνο 6352 από τα περίπου 15000 έργα, που έχουν χρηματοδοτηθεί από την τράπεζα από το 1947. ( Σημείωση: η τράπεζα τελικά διόρθωσε το λάθος αυτό. Μέχρι το Φεβρουάριο του 2015 το ίδιο αρχείο εμπλουτίστηκε περιλαμβάνοντας πλεόν 16215 έργα.)

screen-shot-2016-09-10-at-4-37-45-pm

Αφιερώνοντας, λοιπόν λίγο χρόνο στην εξέταση των δεδομένων παρατηρούμε πως η παγκόσμια τράπεζα στις βάσεις δεδομένων της δεν περιλαμβάνει τα έξοδα όλων των έργων στα οποία έχει συμμετάσχει, δημοσιοποιεί ανακριβή δεδομένα και δεν συμπεριέλαβε το σύνολο των δεδομένων της σε τουλάχιστον μία έκδοση των αναρτημένων στοιχείων της. Έχοντας τα στοιχεία αυτά κατά νου τι θα περιμένατε από την ποιότητα των δημοσιευμένων δεδομένων από άλλους, λιγότερο αξιόπιστους φορείς;

Άλλο παράδειγμα ασυνέπειας των βάσεων δεδομένων βρήκαμε κατά τη διάρκεια ενός συνεδρίου στο Πουέρτο Ρίκο, όπου χρησιμοποιήσαμε την βάση δεδομένων για τα δημόσια συμβόλαια από το ελεγκτικό γραφείο. Περίπου 72 δημόσια συμβόλαια από το σύνολο των συμβολαίων της περασμένης χρονιάς είχαν αρνητικές αξίες ( – 10000000 $) στα πεδία κοστολόγησής τους.

Το πρόγραμμα Open Refine αποτελεί ένα αξιόπιστο εργαλείο για να αξιολογήσει κανείς γρήγορα μία βάση δεδομένων.

Στην κάτω εικόνα μπορεί να διακρίνει κανείς πως μπορεί να χρησιμοποιηθεί το Open Refine , με λίγα λόγια το πρόγραμμα αυτό διαχωρίζει αριθμητικά δεδομένα σε προκαθορισμένες ποσότητες, ομαδοποιεί τιμές δεδομένων σε αριθμητικά σύνολα, ώστε να μπορεί ο χρήστης να επιλέξει μεταξύ οποιουδήποτε εύρους που διευρύνεται και εμπεριέχει ένα σύνολο διαδοχικών τιμών.

Η δεύτερη εικόνα παρουσιάζει τον τρόπο με τον οποίο ο χρήστης μπορεί να δημιουργήσει ένα ιστόγραμμα με τις δοσμένες από τη βάση δεδομένων τιμές. Οι ακραίες τιμές στη συνέχεια μπορούν να υποστούν επεξεργασία απλά μετακινώντας τα βέλη μέσα στη γραφική παράσταση. Η ιδία διαδικασία μπορεί να γίνει για ημερομηνίες και για πληθώρα άλλων μεταβλητών.

screen-shot-2016-09-10-at-4-39-10-pm

  1. Υπάρχουν διπλοεγγραφές αρχείων;

Ένα πολύ κοινό λάθος, όταν εργαζόμαστε με αρχεία είναι η αποτυχία αναγνώρισης της διπλοεγγραφής αυτών.

Σε κάθε περίπτωση επεξεργασίας αναλυτικών δεδομένων ή πληροφοριών που αφορούν ανθρώπους, εταιρίες, γεγονότα ή συναλλαγές το πρώτο βήμα είναι να βρει κανείς μία μοναδική και αναγνωρίσιμη μεταβλητή για κάθε στοιχείο. Στην περίπτωση της αξιολόγησης των δεδομένων της Παγκόσμιας Τράπεζας κάθε στοιχείο αναγνωριζόταν από έναν μοναδικό κωδικό, που είχε δοθεί σε αυτό ( project ID). Σε άλλες βάσεις δεδομένων χρησιμοποιούνται άλλοι τρόποι αναγνώρισης δεδομένων και στις περιπτώσεις συμβολαίων ένας μοναδικός για το κάθε ένα από αυτά αριθμός.

Αν μετρήσει κανείς πόσες καταγραφές υπάρχουν σε κάθε βάση δεδομένων για κάθε έργο, μπορεί να διαπιστώσει πως κάποια από αυτά ξανασυναντιούνται μέχρι και τρεις φορές. Επομένως κάθε υπολογισμός ανά χωρά, περιοχή ή ημερομηνία, χωρίς προηγούμενα την διαγραφή των διπλοεγγραφών, θα ήταν λανθασμένος.

screen-shot-2016-09-10-at-4-40-29-pm

Στο συγκεκριμένο παράδειγμα οι διπλοεγγραφές υπάρχουν, γιατί τα ίδια δεδομένα έχουν χρησιμοποιηθεί για μία σειρά διαφορετικών υπολογισμών. Για την εξάλειψη αυτών πρέπει να επιλέξουμε ποια από όλες τις υπολογιστικές διαδικασίες που προηγήθηκαν είναι η πλέον αξιόπιστη. ( Εδώ χρησιμοποιήσαμε τα αρχεία που είναι γνωστά με το όνομα Performance Assessment Reports [PARs], τα οποία φαίνεται πως είναι τα περισσότερο αξιόπιστα, καθώς δίνουν μια πιο ολοκληρωμένη εικόνα της αξιολόγησης. Αυτά δημιουργήθηκαν από την ανεξάρτητη ομάδα αξιολόγησης (Independent Evaluation Group) , η οποία τυχαία και ανεξάρτητα επιλέγει και δειγματίζει 25 τοις εκατό των έργων της Παγκόσμιας Τράπεζας κάθε χρόνο. Η ομάδα αυτή αποστέλλει ειδικούς για να εκτιμήσουν τα αποτελέσματα των έργων και να συντάξουν ανεξάρτητες εκθέσεις γι’ αυτά.)

  1. Είναι ακριβή τα δεδομένα;

Ένας από τους καλύτερους τρόπους ελέγχου της αξιοπιστίας των δεδομένων μας είναι να πάρουμε ένα μέρος από αυτά και να τα συγκρίνουμε με τα ίδια λαμβανόμενα από άλλη πηγή ή από πλήθος πηγών.

Αν κατατάξουμε τα δεδομένα της Παγκόσμιας Τράπεζας – που θεωρητικά εμπεριέχουν όλα τα παραγόμενα από το ίδρυμα αυτό έργα- κατά αύξουσα σειρά ανακαλύπτουμε το πώς το πλέον ακριβό εγχείρημα ήταν ένα Ινδικό. Αυτό σύμφωνα με τη λίστα κόστισε 29.833.300.000 δολάρια. Αν αναζητήσουμε μέσω Google τον αριθμό του έργου (Ρ 1444447) έχουμε πρόσβαση στο αυθεντικό συμφωνητικό που δίδει πληροφορίες τόσο για το έργο, όσο και για την αξία αυτού. Αυτή είναι 29.833 εκατομμύρια δολάρια, πληροφορία που μας οδηγεί στο συμπέρασμα πως το αρχικό ποσό της βάσης δεδομένων της Παγκόσμιας Τράπεζας είναι ακριβές.

Προτείνεται η διαδικασία αυτή της επαλήθευσης να επαναλαμβάνεται για έναν σημαντικό αριθμό έργων.

screen-shot-2016-09-10-at-4-41-40-pm

  1. Εκτίμηση της ακεραιότητας των δεδομένων.

Από τη στιγμή που εισάγεται σε μία βάση δεδομένων μέχρι τη στιγμή που θα υποπέσει στην αντίληψή μας , κάθε στοιχείο υπόκειται σε μία σειρά διαδικασιών όπως αποθήκευση, αποστολή, εκ νέου αρχειοθέτηση και άλλα. Σε οποιοδήποτε στάδιο των διαδικασιών αυτών το στοιχείο μπορεί δυνητικά να παραποιηθεί ποικιλοτρόπως από ανθρώπινη ή μη παρέμβαση.

Είναι επομένως πολύ συχνό το φαινόμενο να χάνονται ή να μπερδεύονται δεδομένα μεταξύ πινάκων και να αποτυγχάνει η διαδικασία αναβάθμισης ορισμένων μεταβλητών. Για το λόγο αυτό είναι επιβεβλημένος ο έλεγχος της ακεραιότητας των δεδομένων μας.

Για παράδειγμα δεν θα ήταν περίεργο να βρεθούν ορισμένα έργα στην βάση δεδομένων της Παγκόσμιας Τράπεζας, τα οποία χαρακτηρίζονται ως «ενεργή» παρόλο που έχουν περάσει πολλά χρόνια από την ημερομηνία έγκρισης τους και που είναι πιθανών πλέον πια να έχουν υποπέσει είτε σε καθεστώς αδράνειας ή να έχουν ολοκληρωθεί.

Για να ελέγξουμε την ακεραιότητα, λοιπόν των δεδομένων μας, δημιουργούμε έναν καινούριο – πιλοτικό πίνακα και ομαδοποιούμε τα έργα σύμφωνα με το έτος έγκρισης αυτών. Στη συνέχεια εμφανίζουμε σε αυτόν μόνο όσα έργα εμφανίζονται ως ενεργή. Βλέπουμε πως 17 από αυτά που πήραν έγκριση το 1986 , το 1987 και το 1989 είναι ακόμα στη λίστα και χαρακτηρίζονται ενεργή. Η πλειονότητα των έργων αυτών είναι στην Αφρική.

screen-shot-2016-09-10-at-4-42-53-pm

screen-shot-2016-09-10-at-4-43-07-pm

Στην περίπτωση αυτή κρίνεται σκόπιμη η απευθείας επικοινωνία με την Παγκόσμια Τράπεζα , προκειμένου να εξακριβωθεί, αν και κατά πόσο είναι ακόμα ενεργή τα έργα αυτά μετά από περίπου 30 χρόνια.

Θα μπορούσαμε ασφαλώς με άλλους τρόπους να εξακριβώσουμε την συνοχή των στοιχείων της Παγκόσμιας Τράπεζας. Για παράδειγμα μία καλή ιδέα θα ήταν να ερευνήσουμε κατά πόσο οι αποδέκτες των δανείων ( στη βάση δεδομένων εμφανίζονται ως borrowers) αντιστοιχούν σε οργανισμούς ή/και σε κυβερνήσεις κρατών, και τοποθετούνται στη στήλη του πίνακα « Countryname» ή οι χώρες ταξινομούνται μέσω περιοχής στην αντίστοιχη στήλη «regionname».

5. Αποκρυπτογράφηση κωδικών και ακρωνυμίων.

Ένας από τους πλέον αποτελεσματικούς τρόπους μου μπορεί να χρησιμοποιήσει κανείς για να αποτρέψει έναν δημοσιογράφο από την έρευνά του είναι να του παρουσιάσει στοιχεία μπερδεμένα με κωδικούς και ειδική ορολογία. Αυτό αποτελεί αγαπημένο τέχνασμα οργανισμών και γραφειοκρατών που εξυπηρετούνται με τις αδιαφανείς διαδικασίες. Δεν περιμένουν πως μπορούμε να εξάγουμε χρήσιμα συμπεράσματα από το δοθέν υλικό αυτό. Αλλά οι κωδικοί μπορεί επίσης να χρησιμοποιηθούν στο να μειωθούν οι γραφόμενοι χαρακτήρες και ως συνέπεια να αυξηθεί ο διαθέσιμος αποθηκευτικός χώρος. Σχεδόν κάθε βάση δεδομένων χρησιμοποιεί κωδικούς ή ακρωνύμια για να κατατάξει τις πληροφορίες.

Στην πραγματικότητα πολλά φυσικά πρόσωπα, πράγματα και οργανισμοί στον πλανήτη έχουν έναν ή περισσότερους κωδικούς. Οι άνθρωποι έχουμε αναγνωριστικούς αριθμούς: αριθμός μητρώου κοινωνικής ασφάλισης, αριθμός αστυνομικής ταυτότητας, αριθμός διαβατηρίου, αριθμός κάρτας βιβλιοθήκης, αριθμός διπλώματος οδήγησης και άλλα.

Μία μεταλλική καρέκλα για παράδειγμα ταξινομείται με τον κωδικό 940179 στον κόσμο του διεθνούς εμπορίου. Κάθε πλοίο διαθέτει έναν μοναδικό αναγνωριστικό αριθμό. Πολλά αγαθά διαθέτουν ένα μοναδικό χαρακτηριστικό νούμερο: Περιουσίες, οχήματα, αεροπλάνα, εταιρίες, ηλεκτρονική υπολογιστές, κινητά τηλέφωνα τελευταίας γενιάς, όπλα, τανκς, φάρμακα, διαζύγια, γάμοι…

Είναι επομένως επιβεβλημένο να γνωρίζουμε πως θα μπορέσουμε να αποκρυπτογραφήσουμε τους κωδικούς και να κατανοήσουμε την λογική πίσω από τις βάσεις δεδομένων και κυρίως τις μεταξύ τους σχέσεις.

Καθένα από τα 17.000.000 κοντέινερ στον κόσμο επισημαίνεται με ένα μοναδικό κωδικό. Μπορούμε να το εντοπίσουμε μέσω αυτού ανά την υφήλιο, εφόσον κατανοήσουμε πως τα πρώτα τέσσερα γράμματα σχετίζονται με την ταυτότητα του ιδιοκτήτη του. Μπορούμε να αναζητήσουμε τα στοιχεία του κατόχου μέσω της σελίδας αυτής. Η βάση δεδομένων για τα εκτιμώμενα έργα της Παγκόσμιας Τράπεζας βρίθει από κωδικούς και ακρωνύμια, και παραδόξως ο οργανισμός δεν δημοσιεύει διευκρινήσεις για την σημειολογία αυτών. Ακόμα χειρότερα σε μερικές περιπτώσεις τα ακρωνύμια είναι ελλιπή ή μπορεί η σημασία τους να αποσαφηνιστεί μόνο από παλαιά έγγραφα.

Η στήλη, για παράδειγμα, “Lending Instrument” της βάσης δεδομένων της τράπεζας ταξινομεί τα έργα διαχωρίζοντάς τα σε 16 κατηγορίες ανάλογα με τον τρόπο χρηματοδότησης του κάθε ενός από αυτήν. Οι κατηγορίες αυτές τιτλοφορούνται χρησιμοποιώντας ακρωνύμια: APL, DPL, DRL, ERL, FIL, LIL, NA, PRC, PSL, RIL, SAD, SAL, SIL, SIM, SSL and TAL. Η κατανόηση των στοιχείων αυτών προϋποθέτει αποκρυπτογράφηση των κωδικών, προκειμένου να εξαχθούν συμπεράσματα από τη μελέτη της συγκεκριμένης βάσης δεδομένων, διαφορετικά δεν γνωρίζει ο ερευνητής πως το στοιχείο ERL αντιστοιχεί σε δάνεια έκτακτης ανάγκης, που δίνονται σε χώρες, οι οποίες προσπαθούν να ορθοποδήσουν αμέσως μετά από κάποια ένοπλη σύρραξη ή φυσική καταστροφή.

Οι κωδικοί SAD, SAL, SSL and PSL αντιστοιχούν σε ένα εφαρμοσμένο από την τράπεζα πρόγραμμα κατά τις δεκαετίες του 1980 και 1990, που ονομαζόταν disputed Structural Adjustment Program. Σκοπός αυτού ήταν η παροχή δανείων σε χώρες ευρισκόμενες σε οικονομική κρίση με αντάλλαγμα την αναγκαστική αλλαγή οικονομικής πολιτικής των χωρών αυτών, ώστε να μειώσουν το δημοσιονομικό τους έλλειμμα. ( Το εν λόγω πρόγραμμα αμφισβητήθηκε εντόνως, λόγω των κοινωνικών επιπτώσεων που προέκυψαν από αυτό.)

Σύμφωνα με την ίδια την Τράπεζα από τα τέλη του 1990 το πρόγραμμα της επικεντρώνεται στην παροχή δανείων «αναπτυξιακών» περισσότερο και λιγότερο «προσαρμοστικών». Αλλά σύμφωνα με τη βάση δεδομένων περισσότερα από 150 έργα έχουν εγκριθεί υπό τον κωδικό του «προσαρμοστικού» δανείου.

Πρόκειται λοιπόν για σφάλμα της βάσης δεδομένων ή η κατακριτέα πολιτική της τράπεζας συνεχίζεται;

Το παράδειγμα αυτό αποδεικνύει περίτρανα πως η αποκρυπτογράφηση των ακρωνύμιων προσφέρει όχι μόνο στην ορθότητα της ανάλυσης των στοιχείων, αλλά και στην ανακάλυψη ειδήσεων δημόσιου ενδιαφέροντος.

Β. Επιβεβαίωση των στοιχείων μετά την ανάλυση.

 Το τελικό βήμα επαλήθευσης των δεδομένων έχει ως στόχο τα ευρήματα της έρευνας και την ανάλυσή τους. Είναι ίσως το σημαντικότερο στάδιο της έρευνας και ο μοναδικός τρόπος για να επιβεβαιωθεί η αρχική υπόθεση του ερευνητή.

Το 2012 εργαζόμουν ως εκδότης για μια δημοσιογραφική ομάδα στην Κόστα Ρίκα. Αποφασίσαμε να ασχοληθούμε και να ερευνήσουμε ένα από τα σημαντικότερα κυβερνητικά προγράμματα επιδοτήσεων με το όνομα “Avancemos.” Αυτό περιελάμβανε την μηνιαία καταβολή μισθού σε άπορους μαθητές δημοσίων σχολείων, προκειμένου να μην εγκαταλείψουν την εκπαίδευσή τους.

Αφού αποκτήσαμε τη λίστα με τους ευεργετούμενους από το πρόγραμμα μαθητές, προσθέσαμε τα ονόματα των κηδεμόνων τους και εν συνεχεία ερευνήσαμε άλλες βάσεις δεδομένων σχετικές με ιδιοκτησίες, οχήματα, μισθούς και εταιρίες της χώρας. Μέσω των ενεργειών αυτών κατασκευάσαμε μια λεπτομερέστατη κατάσταση της περιουσιακής κατάστασης κάθε οικογένειας.     ( Αυτά αποτελούν δημόσια δεδομένα στη Κόστα Ρίκα και διατίθενται από το ανώτατο δικαστήριο της χώρας.)

Η υπόθεση εργασίας μας ήταν πως περισσότεροι από 167.000 επιδοτούμενοι δεν ήταν φτωχοί και έτσι δεν έπρεπε να λαμβάνουν τα χρήματα.

Πριν ξεκινήσουμε την διαδικασία ανάλυσης των δεδομένων βεβαιωθήκαμε πως είχαμε αξιόπιστα αρχεία και πως η σχέση μεταξύ κάθε ωφελούμενου, της οικογένειας του και των περιουσιακών τους στοιχείων ήταν ακριβής.

Η ανάλυση των δεδομένων αποκάλυψε, μεταξύ άλλων, πως οι πατεράδες 75 περίπου μαθητών ελάμβαναν μηνιαίο μισθό περισσότερο από 2.000 δολάρια ( ο ελάχιστος μισθός ενός ανειδίκευτου εργάτη στην Κόστα Ρίκα είναι 500 $) καθώς και ότι περισσότεροι από 10.000 είχαν στην κατοχή τους ακριβά ακίνητα ή οχήματα.

Αλλά τα δεδομένα δεν λένε πάντα την αλήθεια. Επισκεφτήκαμε τα παιδιά αυτά στις οικίες τους και διαπιστώσαμε με τα μάτια μας πως ζούσαν σε καθεστώς απόλυτης εξαθλίωσης. Είχαν εγκαταλειφτεί από τους πατεράδες τους και ζούσαν με της μητέρες τους.

Κανείς δεν είχε ρωτήσει σχετικά με τους πατεράδες τους προτού εκταμιεύσει και χορηγήσει την επιδότηση. Ως αποτέλεσμα το δημόσιο χρηματοδοτούσε για πολλά έτη με κρατικά κονδύλια την εκπαίδευση πολλών ανηλίκων που είχαν εγκαταλειφτεί από τους ανεύθυνους πατεράδες τους.

Η ιστορία αυτή συνοψίζει με τον καλύτερο τρόπο το κυριότερο μάθημα που έμαθα μετά από τόσα χρόνια έρευνας με τη βοήθεια βάσεων δεδομένων: ακόμα και τα πιο ποιοτικά από αυτά σε καμία περίπτωση δεν μπορούν να υποκαταστήσουν την επιτόπια, μάχιμη δημοσιογραφική έρευνα.

photo credits