Μετρήσεις, επεξεργασία δεδομένων

Ακρίβεια & Επαναληψιμότητα μετρήσεων

  1. Θα λέμε ότι Ν μετρήσεις ενός μεγέθους παρουσιάζουν μεγάλη ακρίβεια (accuracy), αν η μέση τιμή των μετρήσεων είναι κοντά στην αληθινή τιμή του μεγέθους. Θα πρέπει τα τυχαία σφάλματα να είναι μικρά, και τα συστηματικά να είναι αμελητέα.
  2. Θα λέμε ότι οι Ν μετρήσεις ενός μεγέθους παρουσιάζουν μεγάλη επαναληψιμότητα (precision), αν όλες είναι κοντά στη μέση τιμή τους, με άλλα λόγια διαφέρουν λίγο η μία από την άλλη (άσχετα ως προς την αληθινή τιμή). Μπορεί να έχουν είτε μικρά, τυχαία σφάλματα είτε σοβαρά συστηματικά σφάλματα (Καραμπαρμπούνης κ.ά., 2012).

Στην πραγματικότητα είναι δύσκολο να ερμηνεύεις σωστά τα πειραματικά δεδομένα. Μπορεί προς στιγμήν να μοιάζουν σωστά. π.χ.: Ν=1000 μετρήσεις που όλες είναι περίπου ίδιες μεταξύ τους.
Αναρωτιέσαι: Μήπως βρήκα, δηλαδή, πόσο είναι το μέγεθος που ερευνώ; Αυτές οι περίπου ίδιες μεταξύ τους μετρήσεις παρουσιάζουν μεγάλη επαναληψιμότητα. Ναι! Μπορεί, όμως, να είναι πολύ μακριά από την πραγματική τιμή του μεγέθους, δηλαδή να παρουσιάζουν μικρή ακρίβεια. Κάποια Συστηματικά Σφάλματα σε εξαπάτησαν. (Προς στιγμήν, ελπίζω!)

Παράδειγμα: Στο ευγενές άθλημα της τοξοβολίας ρίχνεις 4 βέλη το ένα δίπλα στο άλλο.

image-20220425011056305

Στόχοι τοξοβολίας.

  1. Στόχος Α: Μικρή ακρίβεια και μικρή επαναληψιμότητα.
  2. Στόχος Β: Μικρή ακρίβεια και υψηλή επαναληψιμότητα.
  3. Στόχος Γ: Καλή ακρίβεια, μικρή επαναληψιμότητα.
  4. Στόχος Δ: Μεγάλη ακρίβεια, μεγάλη επαναληψιμότητα. Οι Μετρήσεις του στόχου Β θα μπορούσαν να σε εξαπατήσουν και να νομίζεις ότι πέτυχες το ζητούμενο!

Αναφορές & Πηγές

 

Σφάλματα και Κατάλοιπα: Ας υποθέσουμε ότι υπάρχει μια σειρά παρατηρήσεων της κατανομής της μεταβλητής Χ και θέλουμε να εκτιμήσουμε τον μέσο όρο αυτής της κατανομής (το λεγόμενο μοντέλο θέσης). Στην περίπτωση αυτή, τα σφάλματα (errors) είναι οι αποκλίσεις των παρατηρήσεων από τον μέσο όρο του πληθυσμού (συχνά άγνωστος), ενώ τα κατάλοιπα (residuals) είναι οι αποκλίσεις των παρατηρήσεων από τον δειγματικό μέσο όρο.

Πληθυσμός (population): Κάθε σύνολο Ν αντικειμένων ή Ν ατόμων που έχουν κάποιο κοινό μετρήσιμο χαρακτηριστικό X κσι δυνητικά μπορω να μετρησω.

Δείγμα (sample) : Κάθε υποσύνολο του πληθυσμού n<Ν αποτελεί ένα δείγμα από τον πληθυσμό.

Κατανομή μετρήσεων: Οι όροι πληθυσμός και δείγμα μπορεί να αναφέρονται είτε στα άτομα, είτε στις μετρήσεις του κοινού χαρακτηριστικού τους Χ. Γενικά υπάρχει μια κατανομή των μετρήσεων του δείγματος, η οποία συνήθως μελετάται και μια κατανομή των μετρήσεων όλου του πληθυσμού που συνήθως υπάρχει αλλά είναι δύσκολο να προσδιοριστεί.

Εάν γνωρίζουμε την κατανομή του πλυθησμου (σπάνιο γεγονός)

Έστω ότι μελετώ ένα πλυθησμό μεγέθους Ν με γνωστή τιμή Χ

Πιθανότερη τιμή για το μέγεθος Χ αποτελεί η μέση τιμή της κατανομής :

μ=i=1NxiΝ

Το μ θεωρείται ότι είναι η πιθανότερη τιμή για το Χ, γενικά μΧ, αλλά αν Ν τότε μΧ

Σφάλμα μεμονωμένης μέτρησης xi: εi=xiX

 

Διακύμανση

Η διακύμανση ισούται με την μέση τιμή των τετραγώνων των σφαλμάτων και αποτελεί μια ένδειξη το πόσο απέχουν οι μετρούμενες τιμές από τον μέσο ορό. Στην ουσία μέσω των τετραγώνων των σφαλμάτων εισάγεται στατιστικό βάρος, ώστε όσο πιο μακριά βρίσκονται οι τιμές από τον μέσο ορό τόσο μεγαλύτερη να είναι η συνεισφορά τους στην διακύμανση. Στην περίπτωση που οι τιμές x1,x2..xΝ του πλυθησμου έχουν την ιδία πιθανότητα η διακύμανση δίνεται από την παρακάτω σχέση. Η διαίρεση με το Ν καθιστά την διακύμανση ανεξάρτητη του πληθυσμού.

σ2=i=1N(xiX)2 N

Αξίζει να σημειωθεί ότι η μέση τιμή και η διακύμανση αναφέρονται και ως ροπή πρώτης τάξης και ροπή δεύτερης τάξης αντίστοιχα και στην ουσία αποτελούν περιγραφείς σχήματος.

Τυπική απόκλιση κατανομής

Δίνεται από την ρίζα της διακύμανσης και εκφράζει ποσό απέχουν οι μετρήσεις από την πραγματική τιμή αλλά στις ίδιες μονάδες με τις μετρήσεις.

σ=ε2=i=1N(xiX)2 N

Μπορούμε να θεωρήσουμε την τυπική απόκλιση ως το μετρό ενός διανύσματος σε ένα πολυδιάστατο ευκλείδιο χώρο μεταξύ των σημείων (Χ,Χ,..) και (x1,x2,...).

Αξίζει να σημειωθεί ότι σε οποιαδήποτε κατανομή, περίπου το 95% των τιμών θα βρίσκεται εντός 2 τυπικών αποκλίσεων από τη μέση τιμή.

image-20220623191302280

 

Όταν δεν γνωρίζουμε την πραγματική τιμή του Χ

Συχνά επειδή δεν είναι δυνατό να γνωρίζουμε το Χ η να πάρουμε όλες τις μετρήσεις που θα επιθυμούσαμε αλλά και για οικονομικούς και πρακτικούς λογούς περιοριζόμαστε σε ένα δείγμα του πληθυσμού.

Ως εκτίμηση του Χ θεωρούμε τη μεση τιμή x του δείγματος ώστε να εφαρμόσουμε τις προηγούμενες σχέσεις

image-20220622122509513

Το σφάλμα di ή αλλιώς κατάλοιπό δίνεται από την σχέση

di=xix¯

Η τυπική απόκλιση s του δείγματος δίνεται από:

s=1n1i=1ndi2

Ο παράγοντας n-1 αποτελεί μια διόρθωση για το δείγμα, ισχύει επίσης μεταξύ δείγματος και κατανομής

s=1n1i=1ndi2σ=1Νi=1Νεi2

το εi αναφέρεται στο σφάλμα ως προς την μέση τιμή της κατανομής αν την γνωρίζαμε και όχι ως προς την πραγματική τιμή του Χ που ούτως η άλλως δεν γνωρίζουμε

το τυπικό σφαλμα δίνεται από:

σm≃=sn=i=1ndi2n(n1)

το σχετικό τυπικό σφάλμα δίνεται από:

π=σmx100

η εκτίμηση του μεγέθους Χ

x=x±σm

 

Γραμμική Παλινδρόμηση

Πολύ συχνά ζητείται να επιβεβαιωθεί η γραμμική σχέση μεταξύ δυο μεταβλητών x, y εκ των οποίων η y θεωρείται εξαρτημένη ενώ η x.ανεξάρτητη. Δηλαδή ότι υπάρχει κάποιο α και β τέτοια ώστε η ευθεία y=α+βx να μοντελοποιεί τα δεδομένα μας (xi,yi) και στην ουσία να εκτιμά ποίες είναι οι πραγματικές τιμές.

Η μέθοδος αυτή ονομάζεται γραμμική παλινδρόμηση (linear regression) και στην ουσία μπορεί και μοντελοποιεί και μη γραμμικές σχέσεις όπως πολυωνυμικές και εκθετικές.

Στο παρακάτω σχήμα βλέπουμε κάποια δεδομένα κι ζητάμε την ευθεία η όποια αντιπροσωπεύει καλύτερα αυτά τα δεδομένα. Ένας συνήθης τρόπος είναι να απαιτήσουμε το σύνολο των καταλοίπων (διάφορα μέτρησης με την προβλεπόμενη-εκτιμώμενη τιμή) να είναι ελάχιστο, δηλαδή το άθροισμα των τετραγώνων των διαφόρων yi-y να είναι ελάχιστο. Ονομάζεται μέθοδος ελαχίστων τετραγώνων.

 

reg_front

 

Οι εκτιμώμενοι παράμετροι a^ και β^ δίνονται από τις σχέσεις.

b^=i=1n(xx)(yy)i=1n(xx)2

a^=yb^y

όπου x και y οι μέσες τιμές των xi και yi

 

image-20220630095132199

 

 

image-20220630095145873