Συγκεντρωμένο υλικό για την R στα ελληνικά

Μία λίστα (που θα ανανεώνεται συνεχώς) με υλικό που υπάρχει ελεύθερα διαθέσιμο στο διαδίκτυο σχετικά με την γλώσσα προγραμματισμού R
R
Υλικο
Συντάκτης

stesiam

Δημοσιεύτηκε στις

23 Οκτωβρίου 2022

Τροποποιήθηκε στις

22 Ιουλίου 2024

Εισαγωγή

Καλησπέρα σας.

Πρώτο άρθρο στα ελληνικά και ελπίζω να μην τα γράφω τζάμπα και κάποιος, κάπου, κάποτε να βρει αυτή τη σελίδα αν ποτέ τη χρειαστεί 😁. Ασχολούμαι με την από το 2018 περίπου. Ένα από τα πράγματα που με εντυπωσίασαν είναι η κοινότητά της που είναι πρόθυμη να βοηθήσει τους νέους χρήστες. Αρκετοί έχουν βρει βοήθεια σε προβλήματα με τη γλώσσα είτε στο Stackoverflow, στο Mastodon ή στο κανάλι /rstats του Reddit. Βέβαια, η συνεισφορά της κοινότητας δεν σταματάει εκεί, αφού πολλοί έχουν συμβάλει γράφοντας ακόμα και βιβλία για την , καθιστώντας μία απαιτητική γλώσσα προγραμματισμού πιο προσβάσιμη στο ευρύ κοινό. Πλειάδα αυτών των βιβλίων διατίθεται δωρεάν στο διαδίκτυο, με πιο γνωστό από όλα το R for Data Science, το οποίο ήταν και το πρώτο βιβλίο που διάβασα για την R. Εκτός από την κοινότητα και το απεριόριστο δωρεάν υλικό, έχουν δημιουργηθεί και ομάδες που προωθούν την R σε κοινότητες που υποεκπροσωπούνται στο πεδίο της επιστήμης δεδομένων (π.χ. R-ladies, κ.ά.), γεγονός που την καθιστά συμπεριληπτική.

Λογότυπο γλώσσας προγραμματισμού R

Στα αγγλικά η συλλογή δωρεάν υλικού είναι χαώδης και πραγματικά για κάθε πεδίο υπάρχει και ένα βιβλίο. Ενδεικτικά, από τη σελίδα bookdown, η οποία φιλοξενεί μία από τις πιο εκτεταμένες συλλογές δωρεάν βιβλίων για την R (πάνω από 1.500 τίτλους), μπορώ να διακρίνω βιβλία τόσο για την R και τα πακέτα της (ανάλυση, οπτικοποίηση και πρόβλεψη δεδομένων), όσο και για εξειδικευμένα θέματα όπως Μετα-ανάλυση, Οικονομετρία κ.ά. Τι γίνεται όμως με την πρόσβαση σε ελληνικό περιεχόμενο για την R; Πρόσφατα (το 2024) ο Hadley Wickham ανακοίνωσε στο Mastodon ίσως την καλύτερη είδηση για τους Έλληνες χρήστες: πλέον υπάρχει ελληνική μετάφραση του γνωστού βιβλίου R for Data Science, με τίτλο Η R για την Επιστήμη Δεδομένων.

Λογότυπο του R πακέτου bookdown

Το {bookdown} είναι ένα λογισμικό που δίνει τη δυνατότητα στους χρήστες της R να φτιάχνουν εύκολα έγγραφα ή βιβλία. Στη συλλογή δεν αποκλείεται να δείτε και μη σχετικά βιβλία ή ακόμα και βιβλία για τη Python.

Βέβαια δεν είναι μόνο το RfDS, αφού και άλλοι μικροί ήρωες της καθημερινότητας έχουν προσφέρει υλικό για την R στα ελληνικά. Για να συμπεριληφθεί κάτι στη σελίδα αυτή, πρέπει να πληροί τις εξής προϋποθέσεις:

  1. Να είναι δωρεάν
  2. Να είναι στα ελληνικά
  3. Να είναι κατανοητό για όλο το φάσμα των χρηστών της R

Βιβλία για την R

Συνολικά 8 βιβλία είναι ελεύθερα διαθέσιμα ηλεκτρονικά. Τα τέσσερα από αυτά προέρχονται από το Κάλλιπο, το οποίο διαθέτει ηλεκτρονικά συγγράμματα για διάφορα επιστημονικά πεδία.

Τίτλος βιβλίου Συγγραφέας Σύνδεσμος
Η R για την Επιστήμη των Δεδομένων
(2η έκδοση)
Hadley Wickham
Mine Çetinkaya-Rundel
Garrett Grolemund
P Togias (μτφ.)
MT Pandi (μτφ.)
Σύνδεσμος
Πρόβλεψη (Αρχές και Πρακτική) Hyndman, R.J.
Athanasopoulos, G.
Σύνδεσμος
Εισαγωγή στην R
Πρόχειρες σημειώσεις
Φωκιανός, Κ.
Χαραλάμπους, Χ.
Σύνδεσμος
(απευθείας λήψη)
Προγραμματισμός σε R Νικολαΐδης, Β. Σύνδεσμος
Εισαγωγή στον προγραμματισμό και στη στατιστική ανάλυση με R Ντζούφρας, Ι.
Καρλής, Δ.
Σύνδεσμος
Η επιστήμη των δεδομένων μέσα από τη γλώσσα R Βερύκιος, Β.
Καγκλής, Β.
Σταυρόπουλος, Η.
Σύνδεσμος
Εισαγωγή στην επιχειρησιακή έρευνα και στον γραμμικό προγραμματισμό Κουνέτας, Κ
Χατζησταμούλου, Ν.
Σύνδεσμος
Εισαγωγή στην εκπαιδευτική και ψυχολογική μέτρηση με τη χρήση της R Albano, A.
Markos, A. (μτφ.)
Σύνδεσμος

Όπως είναι προφανές, οι επιλογές μας σε σχέση με το ελεύθερα διαθέσιμο υλικό στα αγγλικά είναι περιορισμένες. Ωστόσο, υπάρχουν κάποιες αξιόλογες επιλογές, ανάλογα με το επίπεδο και τον σκοπό του αναγνώστη.

Η καλύτερη επιλογή (από το 2024) κατά τη γνώμη μου είναι το μεταφρασμένο Η R για την Επιστήμη των Δεδομένων. Πρόκειται για το πιο πλήρες βιβλίο της λίστας, καθώς εισάγει τον αναγνώστη στη λογική ότι η ανάλυση δεδομένων δεν εξαντλείται στο παραγόμενο διάγραμμα ή μοντέλο — αυτά αποτελούν απλώς το τελικό αποτέλεσμα. Το βιβλίο περιγράφει με τρόπο κατανοητό ολόκληρη τη διαδικασία που προηγείται: τη συλλογή και τη φόρτωση των δεδομένων, τον μετασχηματισμό τους ώστε να αποκτήσουν μορφή έτοιμη για ανάλυση. Αξίζει επίσης να σημειωθεί ότι το βιβλίο δίνει έμφαση στο μετα-πακέτο {tidyverse}, που αποτελεί σήμερα το πιο ευρέως χρησιμοποιούμενο σύνολο εργαλείων στη γλώσσα. Περιλαμβάνει γνωστά πακέτα όπως το {readr} (φόρτωση δεδομένων), {dplyr} (μετασχηματισμός), {tidyr} (τακτοποίηση) και {ggplot2} (οπτικοποίηση). Αυτό είναι ιδιαίτερα χρήσιμο, δεδομένου ότι ορισμένα από τα επόμενα βιβλία είναι παλαιότερα και βασίζονται στη λεγόμενη base R.

Από την εμπειρία μου, η χρήση του {tidyverse} είναι προτιμητέα αρχικά, επειδή υπάρχει πλούσιο διαθέσιμο υλικό (ιστοσελίδες, documentation), ισχυρή υποστήριξη τόσο από την κοινότητα όσο και από την Posit (πρώην RStudio), και πιο εύκολη σύνταξη. Αν δεν σας έχω πείσει ακόμα, να αναφέρω ότι πολλά από τα εντυπωσιακά διαγράμματα που κυκλοφορούν στο Twitter (συνήθως με hashtag #TidyTuesday) ή εμφανίζονται σε εφημερίδες και τηλεοπτικά δίκτυα (π.χ. BBC) χρησιμοποιούν το {ggplot2} για τα γραφήματά τους.

Εξώφυλλο πρωτότυπης έκδοσης RfDS

Το βιβλίο R for Data Science ασχολείται με τη σύγχρονη R μέσω του {tidyverse}. Η πρώτη αγγλική έκδοση κυκλοφόρησε το 2017 και η δεύτερη το 2023. Η ελληνική μετάφραση έγινε από τους Παναγιώτη Τόγια και Θεοδώρα Πανδή.

Η δεύτερη επιλογή μου — και η αγαπημένη μου έως πρότινος, όταν δεν υπήρχε η μετάφραση του RfDS — είναι το «Εισαγωγή στην R: Πρόχειρες σημειώσεις» των Φωκιανού και Χαραλάμπους. Πρόκειται για έναν συνδυασμό θεωρητικών σημειώσεων και πρακτικής εφαρμογής εντολών σε κατηγορίες προβλημάτων, που καλύπτει ένα μεγάλο εύρος θεμάτων στατιστικής — από απλές μεθόδους (t-test) έως πιο σύνθετες (ανάλυση κατά συστάδες). Ένα ιδιαίτερα θετικό στοιχείο είναι ότι κάθε κεφάλαιο συνοδεύεται από παράδειγμα κώδικα R, κάτι που το καθιστά εξαιρετικό για φοιτητές στατιστικής.

Οι σημειώσεις έχουν δύο μικρά μειονεκτήματα. Το πρώτο αφορά την πληρότητα: με σχεδόν 300 σελίδες να καλύπτουν τεράστιο εύρος θεμάτων, κάθε κεφάλαιο παραμένει στις 10 περίπου σελίδες — αρκετό για μία πρώτη επαφή, αλλά ανεπαρκές για εμβάθυνση. Οι συγγραφείς επέλεξαν συνειδητά να εκθέσουν τον αναγνώστη σε διάφορες μεθοδολογίες και να του κεντρίσουν το ενδιαφέρον, αφήνοντας χώρο για περαιτέρω διερεύνηση — μία απόφαση που κατανοώ, αν και θυσιάζει την εμπεριστατωμένη ανάλυση της θεωρίας. Το δεύτερο μειονέκτημα αφορά την εφαρμογή του κώδικα: οι σημειώσεις δημοσιεύτηκαν το 2012 και βασίζονται στη base R, χωρίς σύγχρονα εργαλεία όπως τον τελεστή pipe %>%. Αν και αυτό δεν αποτελεί λάθος των συγγραφέων, αξίζει να το γνωρίζει ο αναγνώστης. Για στατιστικές αναλύσεις, οι εντολές του βιβλίου χρησιμοποιούνται ευρέως ακόμα και σήμερα. Για διαγράμματα, ωστόσο, θα αποθάρρυνα τη χρήση της plot() και θα πρότεινα να αφιερωθεί χρόνος στο {ggplot2} — το κεφάλαιο 9 του βιβλίου του Hadley είναι καλό σημείο εκκίνησης.

Μία τρίτη επιλογή είναι το «Πρόβλεψη (Αρχές και Πρακτική)», ελληνική μετάφραση του γνωστού Forecasting: Principles and Practice. Πρόκειται για αξιόλογο βιβλίο, αν και δεν αποτελεί εισαγωγή στην R — απευθύνεται σε αναγνώστες που ήδη γνωρίζουν καλά τη γλώσσα και ενδιαφέρονται για τη θεωρία των χρονοσειρών, την αναγνώριση υποδειγμάτων και την πρόβλεψή τους. Το βιβλίο συνδυάζει θεωρία και εφαρμογή με συνέπεια, κάτι που το καθιστά ένα από τα ποιοτικότερα στην κατηγορία του: δεν εφαρμόζεις απλά εντολές, αλλά κατανοείς γιατί τις εφαρμόζεις. Χρησιμοποιεί κυρίως πακέτα από τη σουίτα {tidyverts} (π.χ. {fable}), το αντίστοιχο του {tidyverse} για χρονοσειρές. Η ελληνική μετάφραση είναι καλή και συμπεριλαμβάνει τους αντίστοιχους επιστημονικούς όρους στα ελληνικά, κάτι χρήσιμο σε πεδία όπου οι πηγές είναι κατά κύριο λόγο στα αγγλικά. Τα θέματα που καλύπτει κυμαίνονται από χρονοσειρές Box-Jenkins (ARIMA) και εκθετική εξομάλυνση έως μοντέλα δυναμικής παλινδρόμησης και πιο σύνθετες τεχνικές πρόβλεψης.

Εξώφυλλο ελληνικής έκδοσης Forecasting (Principles and Practice) (2022), Πρόβλεψη (Αρχές και Πρακτική)

Hyndman, R.J., & Athanasopoulos, G. (2021) Forecasting: principles and practice, 3rd edition, OTexts: Melbourne, Australia. Σύνδεσμος ελληνικής έκδοσης

Ένα βιβλίο που δεν είχα προσέξει αρχικά είναι το «Προγραμματισμός σε R» του Νικολαΐδη. Θυμίζει περισσότερο το βιβλίο του Hadley που εστιάζει στη σύγχρονη εκδοχή της γλώσσας. Ξεκινάει αναλύοντας τις ιδιομορφίες της R και τα αντικείμενά της, συνεχίζει με βασικές έννοιες προγραμματισμού (έλεγχοι ροής, βρόχοι, συναρτήσεις) και κλείνει με πιο προχωρημένα θέματα αντικειμενοστραφούς προγραμματισμού και δημιουργίας πακέτων. Πρόκειται για φιλόδοξη προσπάθεια που αξίζει να διαβαστεί από όποιον θέλει να κατανοήσει καλύτερα τη γλώσσα. Το κυριότερο μειονέκτημά του είναι η ελλιπής αναφορά σε στατιστικές μεθόδους — κάτι που μπορεί να απογοητεύσει αναγνώστες που ασχολούνται με την R κυρίως για στατιστική ανάλυση. Επιπλέον, η μικρή έκτασή του οδηγεί σε σημαντική θεματική επικάλυψη με το βιβλίο του Hadley, γεγονός που το κάνει λιγότερο ελκυστικό ως πρώτη επιλογή τώρα που υπάρχει η ελληνική μετάφραση του RfDS.

Εξώφυλλο Νικολαϊδή (2023)

Η τέταρτη επιλογή, «Εισαγωγή στον προγραμματισμό και στη στατιστική ανάλυση με R» των Ντζούφρα και Καρλή, είναι ένα βιβλίο που με προβλημάτισε. Είχε τα φόντα να γίνει το προσωπικό μου αγαπημένο, καθώς δεν περιορίζεται στην παρουσίαση εντολών — σε μαθαίνει να προγραμματίζεις, δίνοντας ιδιαίτερη βαρύτητα σε ελέγχους ροής, συναρτήσεις και παρόμοια θέματα. Αυτό είναι πολύ χρήσιμο αν θέλεις να φτιάξεις κάτι πιο σύνθετο: μία εκτεταμένη ανάλυση, ένα πακέτο, κ.λπ. Κερδίζει επιπλέον πόντους για τα κεφάλαια βασικής στατιστικής ανάλυσης. Δυστυχώς, έχει εκδοθεί το 2015 και χρησιμοποιεί base R, πράγμα που το απομακρύνει από τις κορυφαίες επιλογές μου.

Εξώφυλλο Καρλή & Ντζούφρα (2015)

Η πέμπτη επιλογή, «Η επιστήμη των δεδομένων μέσα από τη γλώσσα R», πλησιάζει περισσότερο στη λογική των notebooks και ωθεί τον αναγνώστη να ξεκινήσει τα δικά του project. Αυτό είναι πολύ σημαντικό για όποιον θέλει να βρει εργασία στο πεδίο — εγώ με αυτή την ελπίδα ζω ακόμα 😄. Το πεδίο της ανάλυσης δεδομένων είναι ανταγωνιστικό για νέους αποφοίτους χωρίς προϋπηρεσία, και ένα portfolio με δικά σου project κάνει τη διαφορά. Κατά τη γνώμη μου, το βιβλίο ταιριάζει καλύτερα σε κάποιον που έχει ήδη μία πρώτη εξοικείωση με την R. Ο κυριότερος λόγος που χάνει πόντους είναι η παλαιότητά του (έκδοση 2015). Αν αγνοήσουμε αυτό, το στοιχείο που ξεχωρίζει είναι η αμεσότητα και το κίνητρο που δίνει για πρακτική εφαρμογή.

Τα τελευταία δύο βιβλία της λίστας αφορούν εξειδικευμένα θέματα, όπου η R χρησιμοποιείται συνεπικουρικά. Κάτι τέτοιο δεν τα καθιστά ακατάλληλα — απλώς απευθύνονται σε πιο προχωρημένους χρήστες.

Βίντεομαθήματα για την R

Πέρα από τα βιβλία, έψαξα και για βιντεομαθήματα για την R στο YouTube. Το υλικό είναι επίσης περιορισμένο. Προς το παρόν θα αναφέρω μία επιλογή, που είναι και η πιο πλήρης. Στη σειρά βιντεομαθημάτων του κ. Χρήστου Μαλλιαράκη παρουσιάζονται βασικά στοιχεία της R και, σε επόμενα μαθήματα, απλά παραδείγματα μηχανικής μάθησης.

Όνομα καναλιού Σύνδεσμος
Christos Malliarakis Σύνδεσμος

Επίλογος

Η ύπαρξη ελληνικών πηγών είναι ενθαρρυντική, τόσο ως ένδειξη δημοφιλίας της R στην Ελλάδα, όσο και ως βήμα προς τη δημιουργία ενεργής κοινότητας. Ωστόσο, δεν μπορούν να αποτελέσουν εναλλακτική επιλογή σε σχέση με το αγγλόφωνο υλικό — μόνο χρήσιμη προσθήκη.

Συνοπτικά: αν θέλεις να μάθεις την R, η καλύτερη αφετηρία είναι το R for Data Science — το μόνο βιβλίο που χρησιμοποιεί τα πιο σύγχρονα πακέτα της γλώσσας. Μία ενδιαφέρουσα συμπληρωματική επιλογή είναι το «Προγραμματισμός σε R» του Νικολαΐδη. Αν το ζητούμενο είναι αποκλειστικά η ανάλυση χρονοσειρών, τότε το «Πρόβλεψη» των Hyndman & Αθανασόπουλου είναι η ιδανικότερη επιλογή.

Για τα υπόλοιπα βιβλία έχω τους ενδοιασμούς μου — όχι ως προς τη χρησιμότητά τους (είναι χρήσιμα), αλλά ως προς το αν θα τα πρότεινα σήμερα. Χρησιμοποιούν κατά κύριο λόγο base R, το οποίο δεν είναι απαραίτητα κακό, αλλά η γλώσσα έχει εξελιχθεί και πλέον υπάρχουν πιο αποδοτικά εργαλεία. Από αυτά ξεχωρίζουν οι σημειώσεις Φωκιανού–Χαραλάμπους ως εξαιρετική εισαγωγή στη στατιστική ανάλυση, αλλά η σύγχρονη πρακτική τείνει ολοένα περισσότερο προς το {tidyverse}. Προσωπικά, πέρα από απλούς στατιστικούς ελέγχους, δεν θυμάμαι να έχω δει κάποιον να χρησιμοποιεί base R σε εκτεταμένο επίπεδο.

Καλό διάβασμα. 📖

Αναφορά

BibTeX citation:
@online{2022,
  author = {, stesiam},
  title = {Συγκεντρωμένο υλικό για την R στα ελληνικά},
  date = {2022-10-23},
  url = {https://stesiam.com/el/posts/greek-material-for-r/},
  langid = {el}
}
Εναλλακτικά, μπορείτε να αναφερθείτε στο παραπάνω άρθρο ως εξής:
stesiam. 2022. “Συγκεντρωμένο υλικό για την R στα ελληνικά.” October 23, 2022. https://stesiam.com/el/posts/greek-material-for-r/.