Στατιστικά των Αποφοίτων Στατιστικής

Εξαγωγή δεδομένων από αρχεία pdf, με σκοπό τη περιγραφική μελέτη στοιχείων των απόφοιτων του τμήματος Στατιστικής και Ασφαλιστικής Επιστήμης του Πανεπιστημίου Πειραιά

R
Περιγραφικη αναλυση
PDF
tabulizer
Συγγραφέας

stesiam

Δημοσιευμένο

23 Ιουλίου 2023

Εισαγωγή

Σημείωση

Το άρθρο αναμένεται να ενημερώνεται συχνά, μέχρις ότου αναιρεθεί αυτή η σημείωση.

Ο πρόσφατος οδηγός σπουδών περιλαμβάνει δεδομένα σχετικά με όσους επιβιώνουν (αποφοιτούν) από τη σχολή όπως το μέσο βαθμό αποφοίτησης και τα έτη που χρειάστηκαν για αυτή. Αρχικά, παρατηρούμε ότι τα δεδομένα για τα οποία ενδιαφερόμαστε είναι σε μία σχετικά οργανωμένη μορφή, σε πίνακες (το οποίο είναι καλό 😀), βέβαια δεν τα έχουμε σε μορφή αρχείου, αλλά είναι μέρος ενός αρχείου pdf (το οποίο δεν είναι καλό 😢). Ευτυχώς, ανάμεσα σε αυτό το χάος 20,000 και πλέον πακέτων υπάρχει και το πακέτο tabulizer που δίνει τη λύση σε τέτοιου είδους προβλήματα μιας και μπορεί να διαβάσει τους πίνακες εντός αρχείων pdf.

Σημείωση

Το άρθρο είναι λίγο παλιό. Το πακέτο όταν είχα γράψει αυτό το άρθρο λεγόταν tabulizer. Λίγα χρόνια αργότερα, όταν επιχείρησα να κάνω μερικές αλλαγές παρατήρησα ένα σφάλμα στο συγκεκριμένο άρθρο. Το πακέτο πλέον έχει μετονομαστεί και μπορείτε να το βρείτε ως tabulapdf. Επομένως, προσέξτε το καθώς διάφορες πηγές στο διαδίκτυο ακόμα αναφέρονται σε αυτό με το παλιό όνομα.

Εισαγωγή βιβλιοθηκών

Όπως εξηγήσαμε και προηγουμένως, δεδομένου ότι θα πρέπει να εξάγω δεδομένα και δει πίνακες από αρχείο pdf, το πακέτο tabulizer (νυν tabulapdf) είναι απαραίτητο. Δυστυχώς, καθώς προσπαθούσα να το εγκαταστήσω λάμβανα συνεχώς ένα μήνυμα σφάλματος παρόμοιο, as I was getting an error similar to this με αυτό. Το πρόβλημα φαίνεται να σχετιζόταν με το πακέτο rJava και ακολουθώντας τις επισυμάνσεις αυτού του σχολίου. Έπειτα την εγκατάσταση του rJava, κατάφερα να εγκαταστήσω το πακέτο tabularizer ως εξής:

#remotes::install_github(c("ropensci/tabulizerjars", "ropensci/tabulizer"))
library(dplyr)
library(tidyr)

library(ggplot2)
library(ggtext)
library(glue)
library(showtext)
library(packcircles)
#library(ggcirclepack)
library(sysfonts)
library(hrbrthemes)  #theme_ipsum_rs
library(waffle)


library(reactable)

library(rJava)
library(tabulapdf)
library(pdftools)


font_add_google("Lobster", "lobster")
font_add_google("Lato", "economica")
font_add_google("Creepster", "Creepster")
font_add_google("Oswald", "Oswald")
font_add_google("Ubuntu Condensed", "uc")

sysfonts::font_add('fb', '_extensions/quarto-ext/fontawesome/assets/webfonts/fa-brands-400.ttf')
sysfonts::font_add('fs', '_extensions/quarto-ext/fontawesome/assets/webfonts/fa-solid-900.ttf')

showtext_auto()
showtext::showtext_opts(dpi = 300)

Εξαγωγή δεδομένων

The study guide gives a general description of the university, as well as the prerequisites for a degree and a detailed description of each course. In total, the guide is a little bit less than 200 pages! Of course we don’t need My main source of data is the Department’s study guide. The most recent one (2022) has data on admissions, graduations etc., since 2004. The study guide gives a general description of the university, as well as the prerequisites for a degree and a detailed description of each course. In total, the guide is a little bit less than 200 pages! Of course we don’t need everything in there. I am just interested on the tables of the last pages, so I will extract those pages first from the original pdf.

Αναφορά

Αναφορά BibTeX:
@online{2023,
  author = {, stesiam},
  title = {Στατιστικά των Αποφοίτων Στατιστικής},
  date = {2023-07-23},
  url = {https://stesiam.com/posts/eda-graduates-of-statistics/},
  langid = {el}
}
Για απόδοση ευγνωμοσύνης, παρακαλούμε αναφερθείτε σε αυτό το έργο ως:
stesiam. (2023, July 23). Στατιστικά των Αποφοίτων Στατιστικής. Retrieved from https://stesiam.com/posts/eda-graduates-of-statistics/