Μία βραχυπρόθεσμη πρόβλεψη για την πορεία της ανεργίας τους επόμενους μήνες στην Ελλάδα, χρησιμοποιώντας μοντέλα ARIMA.
30 λεπτά ανάγνωσης
Εισαγωγή
Υπόβαθρο
Η ανεργία αποτελεί ένα χρόνιο πρόβλημα της χώρας μας, καθώς ιστορικά τα τελευταία 25 χρόνια είναι σε υψηλότερα επίπεδα από τον ευρωπαϊκό μέσο όρο και τις χώρες του ΟΟΣΑ. Το φαινόμενο επιδεινώθηκε τα χρόνια της οικονομικής κρίσης όπου στις χειρότερες στιγμές της το ένα τέταρτο του εργατικού δυναμικού δεν μπορούσε να βρει εργασία. Ακόμα χειρότερη ήταν η κατάσταση για τους νέους της χώρας, αφού η νεανική ανεργία ανήλθε στο 46%, ποσοστό που αποτελεί τη χειρότερη επίδοση στην ΕΕ.
Πριν προχωρήσουμε στην ανάλυση, κρίνω σημαντικό να αποσαφηνίσουμε τι σημαίνει ακριβώς ο όρος «άνεργος». Ο ορισμός είναι πιο αυστηρός από ό,τι φαίνεται, καθώς δεν αρκεί απλώς κάποιος να μην εργάζεται. Για να χαρακτηριστεί κάποιος άνεργος πρέπει να πληροί τρία κριτήρια ταυτόχρονα: να μην εργάζεται, να είναι διαθέσιμος για εργασία και να την αναζητά ενεργά. Έτσι εξαιρούνται από τον υπολογισμό σπουδαστές, συνταξιούχοι και γενικότερα όσοι δεν συμμετέχουν στο εργατικό δυναμικό. Το ποσοστό ανεργίας προκύπτει ως εξής:
Βέβαια, ο υπολογισμός του αριθμού των ανέργων είναι αρκετά σύνθετη διαδικασία για διάφορους λόγους, όπως η ύπαρξη της υποαπασχόλησης ή εποχικής εργασίας. Υπάρχουν δύο κυρίαρχες μεθοδολογίες καταγραφής της ανεργίας. Η πρώτη βασίζεται στα διοικητικά δεδομένα, δηλαδή στον αριθμό των εγγεγραμμένων ανέργων στη ΔΥΠΑ (πρώην ΟΑΕΔ). Πρόκειται ουσιαστικά για καταμέτρηση όσων λαμβάνουν ή αιτούνται επίδομα ανεργίας. Το πρόβλημα είναι ότι οι προϋποθέσεις χορήγησης είναι αυστηρές:
Απόλυση και όχι παραίτηση από την τελευταία απασχόληση
125 ημέρες εργασίας τους τελευταίους 14 μήνες (δεν υπολογίζονται οι δύο τελευταίοι μήνες)
Μη επιδότηση για άνω των 400 ημερών ανά τετραετία ανεργίας
Με αυτά τα κριτήρια, η εγγεγραμμένη ανεργία υποεκτιμά σημαντικά την πραγματική, αφού εξαιρεί όσους παραιτήθηκαν, όσους δεν πληρούν το ελάχιστο ημερών εργασίας, και όσους εργάζονται σε αδήλωτο ή πρόσκαιρο καθεστώς. Η δεύτερη και πιο αξιόπιστη μεθοδολογία είναι η Έρευνα Εργατικού Δυναμικού (Labour Force Survey, LFS). Πρόκειται για δειγματοληπτική έρευνα που διενεργείται από τους εθνικούς στατιστικούς φορείς (στην Ελλάδα η ΕΛΣΤΑΤ) με βάση τον ορισμό ανεργίας της Διεθνούς Οργάνωσης Εργασίας (ILO): άνεργος θεωρείται όποιος δεν εργάζεται, αναζητά ενεργά εργασία και είναι διαθέσιμος να αναλάβει εντός δύο εβδομάδων. Αυτή η μεθοδολογία χρησιμοποιείται και από τη Eurostat και τον ΟΟΣΑ, καθιστώντας τα δεδομένα συγκρίσιμα μεταξύ των χωρών.
Συνοπτική Απάντηση
Σε αυτό το άρθρο έχω ως σκοπό την πρόβλεψη της πορείας της ανεργίας τους επόμενους μήνες. Έτσι λοιπόν πήρα κάποια ιστορικά δεδομένα για την ανεργία στην ΕΕ, τον ΟΟΣΑ και τη χώρα μας. Θα χρησιμοποιήσω ένα απλό μοντέλο (S)ARIMA, προκειμένου να κάνω μία εκτίμηση του μεγέθους της τους επόμενους μήνες. Τα δεδομένα που χρησιμοποιώ καλύπτουν την περίοδο από το 1998 μέχρι το 2022. Αν θέλετε μία γρήγορη απάντηση, στη συγκεκριμένη ανάλυση προβλέπω ότι η πτωτική τάση της ανεργίας αναμένεται να συνεχιστεί τους επόμενους μήνες. Τον Φεβρουάριο του 2023, αυτή θα κυμαίνεται μεταξύ του 10% - 13%.
Προαπαιτούμενα
Για την ανάλυση χρησιμοποιήθηκαν τυπικές βιβλιοθήκες για εισαγωγή και επεξεργασία δεδομένων (readr, dplyr), τα πακέτα kableExtra και gt για μορφοποίηση πινάκων, και το highcharter για διαδραστικά γραφήματα. Για ανάλυση χρονοσειρών χρησιμοποιήθηκαν: lubridate, tseries, forecast, tsibble, feasts, fable, strucchange και urca. Τα διαγράμματα ACF και pACF καθώς και τα γραφήματα πρόβλεψης κατασκευάστηκαν με το Highcharter.
Δομή δεδομένων
Το αρχείο περιέχει δεδομένα ανεργίας για διάφορες χώρες ή οντότητες χωρών όπως η Ευρωπαϊκή Ένωση και οι χώρες του ΟΟΣΑ (Οργανισμός Οικονομικής Συνεργασίας και Ανάπτυξης), γεγονός που μας επιτρέπει να συγκρίνουμε την ανεργία της Ελλάδας με αυτή των υπολοίπων αναπτυγμένων οικονομιών.
Προεπισκόπηση δεδομένων (πρώτες 5 σειρές):
LOCATION
TIME
Value
GRC
1998-04-01
10.9
GRC
1998-05-01
11.0
GRC
1998-06-01
10.9
GRC
1998-07-01
11.0
GRC
1998-08-01
11.2
GRC
1998-09-01
11.1
Τα δεδομένα μου αποτελούνται από 3 μεταβλητές (στήλες). Πιο συγκεκριμένα οι στήλες μου είναι οι εξής:
Μεταβλητή
Τύπος Μεταβλητής
Περιγραφή
LOCATION
Ποιοτική (κατηγορική)
Χώρα ή Οντότητα χωρών
TIME
Ποιοτική (διατάξιμη)
Μήνας-Έτος που αναφέρεται η μέτρηση
Value
Ποσοτική (συνεχής)
Ύψος ανεργίας (βάσει περιοχής και μήνα)
Συνεπώς, το δείγμα μου αποτελείται από 3 μεταβλητές, εκ των οποίων οι δύο είναι ποιοτικές και μία ποσοτική που είναι και η τιμή που θέλω να προβλέψω (ανεργία). Σε αυτό το σημείο ίσως να πρέπει να τονιστεί ότι η μεταβλητή LOCATION έχει τρεις τιμές, την Ελλάδα, τις χώρες του ΟΟΣΑ και τις χώρες των 27 ευρωπαϊκών χωρών. Τέλος, όσον αφορά την κατηγοριοποίηση της μεταβλητής του χρόνου, καθώς οι τιμές μου έχουν τη μορφή μήνα-έτος (μμ/ετος), δεν είναι ξεκάθαρο το είδος της. Θα μπορούσαμε να τη χωρίσουμε σε δύο επιπλέον μεταβλητές όπου η μία να είναι το έτος και να τη χαρακτηρίσουμε ως μία ποσοτική μεταβλητή και ο μήνας μία ποιοτική διατάξιμη μεταβλητή.
Προεπεξεργασία χρονοσειρών
Η μεταβλητή που δηλώνει το μήνα για τον οποίο αναφέρεται η αντίστοιχη ανεργία (TIME) αναγνωρίζεται αυτόματα ως ένα διάνυσμα χαρακτήρων. Ένα από τα πρώτα πράγματα που πρέπει να κάνουμε όταν χειριζόμαστε δεδομένα που δηλώνουν διάστημα χρόνου είναι να τα μετατρέψουμε στο αντίστοιχο είδος μεταβλητής, που στην R, αυτό το είδος καλείται Date. Ο παρακάτω πίνακας δηλώνει τις υπάρχουσες μεταβλητές, καθώς και το είδος το οποίο τους έχει αποδοθεί αυτόματα με βάση τις τιμές που περιέχουν. Η R έκανε καλή δουλειά και εντόπισε ότι η μεταβλητή Value αποτελεί ένα διάνυσμα αριθμών μιας και αντιπροσωπεύει το ύψος της ανεργίας. Η αντιστοίχιση των τριών οντοτήτων είναι και αυτή σωστή, επειδή αναφερόμαστε στα ονόματα αυτών και άρα θα είναι ένα διάνυσμα χαρακτήρων.
Variable Name
Variable Type
LOCATION
character
TIME
character
Value
numeric
Παραπάνω επισημάνθηκε ότι οι ημερομηνίες έχουν την μορφή “ΕΕΕΕ-ΜΜ” (Έτος-Μήνας) και από το λογισμικό αναγνωρίστηκαν αυτόματα ως χαρακτήρες. Με τη βοήθεια του πακέτου lubridate θα μετατρέψω τη μεταβλητή του χρόνου σε τύπο Date. Και αφού κάναμε τη μετατροπή, αν ελέγξουμε άλλη μία φορά θα δούμε ότι η αλλαγή ήταν επιτυχημένη, με τη μεταβλητή να έχει τύπο Date.
Variable Name
Variable Type
LOCATION
character
TIME
Date
Value
numeric
Ελλείπουσες τιμές
Ούφ! Έχουμε κάποια καλά νέα. Σε αυτό το σύνολο δεδομένων υπάρχουν συνολικά 0 ελλείπουσες τιμές. Σε περίπτωση που από το σύνολό μου έλειπαν παρατηρήσεις, θα έπρεπε να ερευνήσω σε πρώτη φάση ποια από τις μεταβλητές αυτές παρατηρήθηκαν. Σε δεύτερη φάση και αναλόγως του τύπου της μεταβλητής θα έπρεπε είτε να διώξω εντελώς εκείνες τις σειρές - παρατηρήσεις ή θα μπορούσα να προσπαθήσω με διάφορες μεθόδους να προβλέψω τις τιμές τους.
Περιγραφικά στοιχεία
Τα δεδομένα της ανεργίας για την Ελλάδα αναφέρονται στην περίοδο του Απριλίου του 1998 μέχρι και τον Αύγουστο του 2022. Όσον αφορά τα δεδομένα της ΕΕ, ξεκινάνε από τον Ιανουάριο του 2000 μέχρι και τον Αύγουστο του 2022. Τα τελευταία 20 χρόνια έχουν γίνει σοκαριστικά μεγάλες αλλαγές σχετικά με το ποσοστό ανεργίας στη χώρα μας με την πιο απότομη μεταβολή να σημειώνεται τις περιόδους της οικονομικής κρίσης (μετά το 2009). Ενδεικτικά μπορούμε να παρατηρήσουμε τη διαφορά στο ύψος της ανεργίας μεταξύ του Σεπτεμβρίου του 2010, που ήταν στο 10% και τρία χρόνια αργότερα, τον Σεπτέμβριο του 2013, έφτασε στο 28.1%. Για λόγους πληρότητας παρακάτω επισυνάπτονται πίνακες που δείχνουν τους 5 μήνες με τη μεγαλύτερη και τη μικρότερη ανεργία στην Ελλάδα και στην Ευρώπη τα τελευταία 20 χρόνια.
Πίνακας: 5 μήνες με υψηλότερη ανεργία — Ελλάδα (αριστερά) και ΕΕ-27 (δεξιά)
Από την άλλη μεριά έχει ενδιαφέρον να παρατηρήσουμε και τις περιόδους με τη χαμηλότερη παρατηρούμενη ανεργία. Στην Ελλάδα αυτή η περίοδος ήταν λίγο πριν την οικονομική κρίση, το 2008, ενώ η Ευρώπη των 27 διανύει μία από τις καλύτερες περιόδους όσον αφορά την ανεργία, με ιστορικό χαμηλό 20ετίας, στο 6%.
Πίνακας: 5 μήνες με χαμηλότερη ανεργία — Ελλάδα (αριστερά) και ΕΕ-27 (δεξιά)
Όλα αυτά μπορούν να συνοψιστούν και στο παρακάτω διάγραμμα, όπου ξεχωρίζουν οι τεράστιες μεταβολές στη χώρα μας. Μπορούμε να διακρίνουμε ότι η κρίση του 2008 επηρέασε την ανεργία στην ΕΕ και σε όλο τον αναπτυγμένο κόσμο, μιας και υπάρχει μία ανοδική πορεία την ίδια περίοδο. Πλέον η ΕΕ επανήλθε, αλλά η Ελλάδα δεν έχει καταφέρει να φτάσει τα προ κρίσης επίπεδα, αν και η τάση είναι πτωτική.
Γράφημα: Σύγκριση ποσοστού ανεργίας — Ελλάδα, ΟΟΣΑ, ΕΕ-27 (μέσος όρος ανά έτος 1998–2022)
Εξέταση τάσης και εποχικότητας
Στην ανάλυση χρονοσειρών είναι σημαντικό να ξεχωρίσουμε τις πηγές της διασποράς μιας χρονοσειράς και να διαπιστώσουμε από πού προέρχεται αυτή. Οι χρονοσειρές έχουν τρία βασικά στοιχεία, τη τάση (), την εποχικότητα () και την τυχαιότητα (). Η τάση περιγράφει τη γενική κατεύθυνση που ακολουθεί η χρονοσειρά με το πέρασμα του χρόνου — ανοδική, καθοδική ή οριζόντια. Στη δική μας περίπτωση, για παράδειγμα, η απότομη άνοδος της ανεργίας μετά το 2009 αποτελεί χαρακτηριστικό παράδειγμα ισχυρής ανοδικής τάσης. Η εποχικότητα αναφέρεται σε μοτίβα που επαναλαμβάνονται με σταθερή περιοδικότητα — παραδείγματος χάριν, αν η ανεργία τείνει να αυξάνεται κάθε χειμώνα και να μειώνεται το καλοκαίρι, τότε μιλάμε για εποχική συνιστώσα. Τέλος, η τυχαιότητα (ή υπόλοιπο) είναι ό,τι απομένει αφού αφαιρεθούν η τάση και η εποχικότητα, δηλαδή οι απρόβλεπτες διακυμάνσεις που δεν μπορούν να αποδοθούν σε κάποιο συστηματικό μοτίβο, όπως για παράδειγμα η απότομη αύξηση της ανεργίας κατά τη διάρκεια της πανδημίας τον Μάρτιο του 2020.
Όπου:
δηλώνουν τα δεδομένα που έχουμε διαθέσιμα,
εποχική συνιστώσα,
τάση χρονοσειράς,
τυχαία συνιστώσα.
Παρόμοια, το πολλαπλασιαστικό μοντέλο:
όπου τα στοιχεία που συνθέτουν τη χρονοσειρά πολλαπλασιάζονται, αντί να προστίθενται.
Από το παραπάνω γράφημα είναι πολύ σημαντικό να διακρίνουμε τον παράγοντα της εποχικότητας, διότι θέλω να ξέρω αν έχω να μελετήσω ένα μοντέλο χωρίς αυτή με χρονοσειρές ARIMA ή ένα αυτοπαλίνδρομο μοντέλο AR ή ένα μοντέλο κινούμενου μέσου MA. Αν τυχόν διαπιστώσω εποχικότητα θα πρέπει να χρησιμοποιήσω μοντέλο που τη συμπεριλαμβάνει όπως εποχικό ARIMA (SARIMA) είτε εποχικό αυτοπαλίνδρομο μοντέλο (SAR) ή ένα εποχικό MA. Η εποχικότητα βλέπω ότι δεν έχει το ίδιο μοτίβο σε όλη τη διάρκεια της χρονοσειράς. Μέχρι το 2004 η εποχικότητα κρίνεται αμελητέα, στη συνέχεια μέχρι το 2014 υπάρχουν ενδείξεις ασθενούς εποχικότητας. Από το 2014 και έπειτα, η εποχικότητα είναι πιο έντονη από οποιαδήποτε άλλη περίοδο μετά το 1998. Αξίζει να σημειωθεί ότι οι περισσότερες κορυφώσεις, κατά προσέγγιση, παρατηρούνται τους μήνες Φεβρουάριο και Μάρτιο.
Έλαβα μία αμφιλεγόμενη εικόνα με ιστορικά μία αδύναμη εποχικότητα, η οποία υπάρχει σε μεγάλο βαθμό τα τελευταία χρόνια. Μία απλή μέθοδος για να πάρουμε μία σύντομη απάντηση είναι μέσω της εντολής nsdiffs του πακέτου {forecast}. Σε αυτή τη περίπτωση λάβαμε ως απόκριση μηδέν που με κάνει να υποθέτω πως μάλλον η όποια εποχικότητα ήταν γενικά αδύναμη.
Έλεγχος
Τιμή
Αποτέλεσμα
Canova-Hansen (CH)
—
Δεν απαιτείται εποχική διαφορά
OCSB
—
Δεν απαιτείται εποχική διαφορά
Εποχική Επιρροή (STL)
0.153
Ασθενής εποχικότητα
Έλεγχος για τομές (breaks)
Οι χρονοσειρές δεν είναι ένα μέτρο το οποίο μπορεί να ερμηνευτεί και συνεπώς να προβλεφθεί αξιόπιστα δίχως να λαμβάνουμε υπόψη μας διάφορους εξωγενείς παράγοντες. Στη δική μας περίπτωση μελετάμε και θέλουμε να προβλέψουμε την ανεργία στην χώρα μας τους επόμενους μήνες. Η αποστολή μας γίνεται ακόμα πιο δύσκολη αν αναλογιστούμε ότι δεν μπορούμε να το κάνουμε αυτό ικανοποιητικά, καθώς το μοντέλο δεν μπορεί να κατανοήσει τα μοτίβα των μεταβολών της σειράς και πώς αυτά προέκυψαν. Πολλές μεταβολές στη χρονοσειρά μπορεί να έχουν επέλθει από εξωτερικούς παράγοντες οι οποίοι να επηρεάζουν τον καθορισμό του μοντέλου μας. Έτσι είναι σημαντικό να καθορίσουμε αν υπάρχουν τέτοια διαρθρωτικά σημεία (structural breaks) — καθοριστικά γεγονότα που μπορεί να επηρέασαν την κίνηση της χρονοσειράς. Η περίπτωση της Ελλάδας είναι μία τέτοια σύνθετη περίπτωση. Αυτά τα χρονικά σημεία θα μπορούσαν να είναι διάφορες ημερομηνίες όπου συνέβησαν σημαντικά γεγονότα που μπορεί να επηρέασαν τη συμπεριφορά της χρονοσειράς. Στην δική μας περίπτωση αναλύουμε την ανεργία της Ελλάδας η οποία εκτοξεύτηκε μετά την οικονομική κρίση του 2009 και στα μέσα αυτής είχαμε ιστορικό υψηλό. Επιπλέον, οι σειρές περιλαμβάνουν και τη περίοδο της πανδημίας που επηρέασε τον δείκτη ανεργίας.
Γράφημα: RSS και BIC ανά αριθμό διαρθρωτικών τομών (spline γραμμές)
Υπάρχει αρκετά μεγάλη μείωση του Μπεϋζιανού κριτηρίου πληροφορίας (BIC) όταν μεταβαίνω από ένα μοντέλο με καμία διαρθρωτική τομή, σε ένα άλλο με δύο διαρθρωτικές τομές, με μικρότερη αυτή των τριών τομών. Αυτό είναι μία σημαντική ένδειξη ότι η ανεργία μου όντως επηρεάστηκε από ξαφνικούς παράγοντες. Φυσικά το υποψιαζόμασταν αυτό καθώς έχουμε τη περίοδο της κρίσης που συνετέλεσε σε υψηλά ποσοστά ανεργίας. Αφού καθορίσαμε τον αριθμό των τομών, είναι η στιγμή να καθορίσουμε ποια είναι τα κομμάτια που πρέπει να αναλυθούν, εν ολίγοις να διαπιστώσουμε ποια είναι αυτά τα εύρη ημερομηνιών που εντοπίστηκε σημαντική διαφοροποίηση στη συμπεριφορά της χρονοσειράς. Σύμφωνα με τα αποτελέσματα έχω:
Πίνακας: Δείκτες σημείων τομών ανά αριθμό τομών (Τομή Α, Τομή Β, … στήλες)
και οι ημερομηνίες των αντίστοιχων τομών:
Πίνακας: Ημερομηνίες σημείων τομών ανά αριθμό τομών
Με βάση τα αποτελέσματα των σφαλμάτων θα επιλέξω είτε 2 ή 3 διαρθρωτικές τομές, δεδομένου ότι έχω σημαντική μείωση του κριτηρίου BIC σε αυτό τον αριθμό. Στη τρίτη τομή υπάρχει μία μικρή μείωση ενώ στην τέταρτη αυξάνεται. Ας μελετήσουμε όμως τις προτεινόμενες τομές τους ξεχωριστά. Από τη μία το μοντέλο των 2 τομών προτείνει τομές τον Ιούνιο του 2011 και το Μάρτιο του 2018 και από την άλλη το μοντέλο των 3 τομών προτείνει τομές επίσης τον Ιούνιο του 2011, τον Ιούνιο του 2015 και τον Ιανουάριο του 2019. Προβληματίστηκα αρκετά στο κατά πόσο μπορώ να αποφασίσω μόνος μου ποια ήταν μία καθοριστική στιγμή της κρίσης, καθώς αυτό είναι ενδεχομένως και λίγο υποκειμενική άποψη, για αυτό προτιμώ να το υπολογίσει το μοντέλο μου. Επιπλέον όλη η περίοδος ήταν αρκετά ταραχώδης και γεμάτη αρνητικές εξελίξεις που στην πραγματικότητα δεν μπορείς να καθορίσεις μία ξεκάθαρη τομή.
Κοιτώντας τις ημερομηνίες ενδεχομένως αυτή με τις τρεις τομές να είναι αυτή που βγάζει νόημα σε όσους το δουν. Το 2011 που είχαμε ήδη προβλήματα και τα οποία ήδη φαίνονται στο δείκτη της ανεργίας, το 2015 που είχαμε μία περίοδο αβεβαιότητας και τον Ιανουάριο του 2019, όπου η χώρα ανέκαμψε, με λίγους μήνες νωρίτερα να ανακοινώνει την έξοδο από τα μνημόνια, τον Αύγουστο του 2018.
Έλεγχος στασιμότητας
Ορισμός στασιμότητας
Μία σημαντική έννοια στις χρονοσειρές είναι η στασιμότητα. Μία χρονοσειρά καλείται στάσιμη αν:
Εξέταση στασιμότητας γραφικά
Από το παραπάνω γράφημα της ανεργίας είναι εμφανέστατο ότι η σειρά μας δεν κινείται γύρω από κάποια συγκεκριμένη τιμή, παραβιάζοντας την πρώτη προϋπόθεση για να θεωρηθεί μία χρονοσειρά στάσιμη. Αυτό μας υποδεικνύει την ανάγκη χρήσης διαφορών πρώτης τάξης για την ανεργία της Ελλάδας. Από τη πρώτη διαφορά () παρατηρώ μεγάλη βελτίωση, εφόσον δεν έχουμε τις τεράστιες αποκλίσεις του προηγούμενου διαγράμματος. Οι τιμές ως επί το πλείστον δεν παρουσιάζουν κάποια τάση και κινούνται σε τιμές σχετικά κοντά στο μηδέν. Αυτό είναι ένα καλό στοιχείο, όμως έχω έναν ελαφρύ προβληματισμό καθώς υπάρχουν δύο σημεία στη χρονοσειρά με σχετικά μεγάλες αποκλίσεις από το μηδέν. Η πρώτη είναι μεταξύ των σημείων 120 και 170 καθώς η κύμανση γύρω από το μηδέν έχει ξεφύγει ελαφρώς, τα οποία αναφέρονται στη περίοδο μεταξύ 2008 και 2012 (κρίση & επιδείνωση οικονομικών δεικτών). Ένα άλλο ελαφρώς προβληματικό σημείο είναι το 266ο που αναφέρεται στο Μάρτιο - Απρίλιο του 2020 και στην θέσπιση περιορισμού μετακινήσεων για να περιοριστεί η μετάδοση του κορωνοϊού μιας και είχαν βρεθεί τα πρώτα κρούσματα στη χώρα μας.
Γράφημα: Διαφορές πρώτης τάξης ελληνικής ανεργίας — γραμμή κυμαινόμενη γύρω από το 0
Λαμβάνοντας υπόψιν τους παραπάνω προβληματισμούς μου, έλαβα και τις δεύτερες διαφορές () και τις οπτικοποίησα. Το διάγραμμα είναι σχεδόν το ίδιο, με τις τιμές να κυμαίνονται στο μηδέν ακόμα και στο προβληματικό σημείο κοντά στο 150ο σημείο. Στις δεύτερες παρατηρήσεις παρατηρώ μία πιο συνεπή κύμανση γύρω από το μηδέν, αλλά ταυτόχρονα υπάρχει ακόμα μεγαλύτερη απόκλιση στην έναρξη λήψης μέτρων κατά του κορωνοϊού στη χώρα μας (3.6% έναντι 2.6% των πρώτων διαφορών).
Γράφημα: Διαφορές δεύτερης τάξης ελληνικής ανεργίας
Εξέταση στασιμότητας με στατιστικούς ελέγχους
Ο γραφικός έλεγχος της στασιμότητας είναι ένας αρκετά εύκολος τρόπος για να διαπιστώσουμε την ύπαρξη τάσεων ή αν η σειρά μας έχει γενικότερα σταθερή συμπεριφορά. Αν εξαιρέσουμε κάποιες αρκετά ξεκάθαρες περιπτώσεις, θα υπάρχουν φορές που πολλοί μπορεί να διαφωνήσουν ως προς τη στασιμότητα της σειράς απλώς από την πορεία της. Αυτό είναι λογικό δεδομένου ότι ως μέτρο αξιολόγησης είναι κατά κάποιο τρόπο υποκειμενικό, αφού βασίζεται στην άποψη / ερμηνεία του καθενός που θα δώσει στην κίνηση της χρονοσειράς. Κάποιοι από τους πιο γνωστούς ελέγχους στασιμότητας, οι οποίοι είναι γνωστοί και ως έλεγχοι μοναδιαίας ρίζας, είναι οι εξής:
Ο έλεγχος DF (Dickey-Fuller)
Ο έλεγχος ADF (Augmented Dickey-Fuller)
Ο έλεγχος ADF-GLS
Ο έλεγχος PP (Phillips-Perron)
Ο έλεγχος KPSS (Kwiatkowski-Phillips-Schmidt-Shin) και
Ο έλεγχος ZA (Zivot-Andrews)
Εν συντομία, το πακέτο tseries με το οποίο έχω τη μεγαλύτερη εξοικείωση είναι αρκετά περιοριστικό — δεν μπορούσα να θέσω τα lags για τους ελέγχους ή να θέσω χαρακτηριστικά της χρονοσειράς. Από την άλλη μεριά έχουμε το πακέτο urca, το οποίο απαντάει σε αυτούς τους περιορισμούς επιτρέποντας στους χρήστες να θέτουν τον αριθμό των lags καθώς και στοιχεία της χρονοσειράς. Το μοναδικό μειονέκτημα του urca πακέτου είναι η μη παροχή ενός p-value στα αποτελέσματα των ελέγχων. Για τον έλεγχο της υπόθεσης υπολογίζεται η στατιστική τιμή και ελέγχεται με την αντίστοιχη κριτική τιμή.
Σύνοψη αποτελεσμάτων
Συνοψίζοντας τα αποτελέσματα των στατιστικών ελέγχων στασιμότητας συμπεραίνω ότι οι παρατηρήσεις της ανεργίας στην Ελλάδα δεν μπορούν να χαρακτηριστούν ως στάσιμες. Επιπλέον, όλοι οι κλασικοί έλεγχοι συμφωνούν στη ύπαρξη στασιμότητας στις διαφορές πρώτης και δεύτερης τάξης.
Έλεγχος
Αποτέλεσμα
Στασιμότητα…
ADF
I(1)
πρώτη διαφορά
PP
I(1)
πρώτη διαφορά
KPSS
I(1)
πρώτη διαφορά
ZA
I(1)
πρώτη διαφορά
LS
I(1)
πρώτη διαφορά
Έλεγχος DF
Ο έλεγχος Dickey-Fuller είναι ένας από τους πιο απλούς ελέγχους μοναδιαίας ρίζας για να διαπιστώσουμε τη στασιμότητα ή μη μίας χρονοσειράς. Αυτός ο έλεγχος βασίζεται στο αυτοπαλίνδρομο μοντέλο πρώτης τάξης, :
Όπου είναι η τιμή της χρονοσειράς και το ο όρος του σφάλματος. Δηλαδή είναι μία χρονοσειρά που οι τιμές της επηρεάζονται — εξαρτώνται από τις προηγούμενες τιμές της.