ΘΗΚΟΓΡΑΜΜΑ (BOX PLOT)

Στην περιγραφική στατιστική, ένα θηκόγραμμα (box-plot) είναι ένας τύπος γραφήματος που χρησιμοποιείται συχνά στην επεξηγηματική ανάλυση δεδομένων. Τα θηκογράμματα εμφανίζουν τη σύνοψη πέντε αριθμών ενός συνόλου δεδομένων: της ελάχιστης τιμής (min), του πρώτου τεταρτημορίου (Q25 ή Q1), της διάμεσης τιμής (Q50 ή Q2 ή median), του τρίτου τεταρτημορίου (Q75 ή Q3), και της μέγιστης τιμής (max). Με το boxplot, μπορούμε επιπλέον να εντοπίσουμε τυχόν ακραίες τιμές (outliers) μιας μεταβλητής.
Τα θηκογράμματα είναι ένας χρήσιμος τρόπος οπτικοποίησης των διαφορών μεταξύ διαφορετικών δειγμάτων ή ομάδων. Επίσης, είναι χρήσιμα καθώς δείχνουν:
Το μέσο σημείο ενός συνόλου δεδομένων.
Τη λοξότητα ενός συνόλου δεδομένων.
Τη διασπορά ενός συνόλου δεδομένων.
Τις ακραίες τιμές εντός ενός συνόλου δεδομένων.
ΟΡΟΛΟΓΙΑ
Ελάχιστη τιμή (min)
Η χαμηλότερη τιμή των δεδομένων, εξαιρουμένων των ακραίων τιμών.
Πρώτο τεταρτημόριο (Q1)
Το 25% των δεδομένων βρίσκεται κάτω από την τιμή του πρώτου τεταρτημορίου.
Διάμεσος (M)
Η διάμεσος σηματοδοτεί τη διχοτόμο τιμή των δεδομένων και εμφανίζεται από τη γραμμή που χωρίζει το πλαίσιο σε δύο μέρη (γνωστό και ως δεύτερο τεταρτημόριο). Το 50% των δεδομένων βρίσκεται κάτω από την τιμή της διαμέσου.
Τρίτο τεταρτημόριο (Q3)
Το 75% των δεδομένων βρίσκεται κάτω από την τιμή του τρίτου τεταρτημορίου.
Μέγιστη βαθμολογία (max)
Η υψηλότερη τιμή των δεδομένων, εξαιρουμένων των ακραίων τιμών.
Απολήξεις (T-shaped whiskers)
Οι απολήξεις υποδεικνύουν τα όρια των ελάχιστων (min) και μέγιστων (max) τιμών όταν η τιμή τους είναι μικρότερη από (1.5*(Q3–Q1)). Τιμές που βρίσκονται πάνω από την τιμή = (1.5*(Q3–Q1)) ονομάζονται ύποπτα ακραίες (outlier). Τιμές που βρίσκονται πάνω από την τιμή = (3*(Q3–Q1)) ονομάζονται ακραίες (extreme).
Το Ενδοτεταρτοµοριακό εύρος (IQR)
Είναι το διάγραμμα πλαισίου που δείχνει το μεσαίο 50% των βαθμολογιών (δηλαδή, το εύρος μεταξύ του 25ου και του 75ου εκατοστημόριου).
Comments