Che semplice modello di regressione lineare e come funziona

Che semplice modello di regressione lineare e come funziona

I modelli di regressione lineare vengono utilizzati per mostrare o prevedere la relazione tra due variabili o fattori. Il fattore che viene previsto (il fattore che l'equazione risolve per) è chiamatovariabile dipendente. I fattori utilizzati per prevedere il valore della variabile dipendente sono chiamati variabili indipendenti.

Nella regressione lineare, ogni osservazione è composta da due valori. Un valore è per la variabile dipendente e un valore è per la variabile indipendente. In questo semplice modello, una linea retta si avvicina alla relazione tra la variabile dipendente e la variabile indipendente.

Quando due o più variabili indipendenti vengono utilizzate nell'analisi di regressione, il modello non è più semplice lineare. Questo è noto come regressione multipla.

Formula per un semplice modello di regressione lineare

Sono designati i due fattori coinvolti in semplici analisi di regressione lineare X E y. L'equazione che descrive come y è relazionato a X è noto come il Modello di regressione.

Il semplice modello di regressione lineare è rappresentato da:

y = β0 +β1X

Il modello di regressione lineare contiene un termine di errore rappresentato da ε. Il termine di errore viene utilizzato per tenere conto della variabilità in y che non può essere spiegato dalla relazione lineare tra X E y. Se ε non fosse presente, ciò significherebbe che conoscere X fornirebbe informazioni sufficienti per determinare il valore di y.

Ci sono anche parametri che rappresentano la popolazione studiata. Questi parametri del modello sono rappresentati da β0 E β1.

La semplice equazione di regressione lineare è graficata come una linea retta, dove:

  1. β0 è l'intercetta y della linea di regressione.
  2. β1 è il pendio.
  3. Ε(y) è il valore medio o atteso di y per un determinato valore di X.

Una linea di regressione può mostrare una relazione lineare positiva, una relazione lineare negativa o nessuna relazione.

  1. Nessuna relazione: La linea graficata in una semplice regressione lineare è piatta (non inclinata). Non esiste alcuna relazione tra le due variabili.
  2. Relazione positiva: La linea di regressione si inclina verso l'alto con l'estremità inferiore della linea all'intercetta a Y (asse) del grafico e l'estremità superiore della linea che si estende verso l'alto nel campo grafico, lontano dall'intercetta X (asse). Esiste una relazione lineare positiva tra le due variabili: all'aumentare del valore di uno, il valore dell'altro aumenta anche.
  3. Relazione negativa: La linea di regressione si inclina verso il basso con l'estremità superiore della linea all'intercetta a Y (asse) del grafico e l'estremità inferiore della linea che si estende verso il basso nel campo grafico, verso l'intercetta X (asse). Esiste una relazione lineare negativa tra le due variabili: all'aumentare del valore di uno, il valore dell'altro diminuisce.

L'equazione di regressione lineare stimata

Se erano noti i parametri della popolazione, l'equazione di regressione lineare semplice (mostrata di seguito) potrebbe essere utilizzata per calcolare il valore medio di y per un valore noto di X.

Ε(y) = β0 +β1X

In pratica, tuttavia, i valori dei parametri generalmente non sono noti, quindi devono essere stimati utilizzando i dati di un campione della popolazione. I parametri della popolazione sono stimati utilizzando le statistiche del campione. Le statistiche del campione sono rappresentate da β0 E β1. Quando le statistiche del campione vengono sostituite per i parametri della popolazione, viene formata l'equazione di regressione stimata.

L'equazione di regressione stimata è:

(ŷ) = β0 +β1X

Nota: (ŷ) è pronunciato y cappello.

Il grafico dell'equazione di regressione semplice stimata è chiamato linea di regressione stimata.

  1. β0 è l'intercetta y della linea di regressione.
  2. β1 è il pendio.
  3. (ŷ) è il valore stimato di y per un determinato valore di X.

Limiti della semplice regressione lineare

Anche i migliori dati non raccontano una storia completa. 

L'analisi di regressione è comunemente usata nella ricerca per stabilire che esiste una correlazione tra le variabili. Ma la correlazione non è la stessa della causalità: una relazione tra due variabili non significa che l'altra fa accada l'altra. Anche una linea in una semplice regressione lineare che si adatta bene ai punti dati potrebbe non garantire una relazione causa-effetto.

L'uso di un modello di regressione lineare ti permetterà di scoprire se esiste una relazione tra variabili. Per capire esattamente cosa sia quella relazione e se una variabile ne causa un'altra, avrai bisogno di ulteriori ricerche e analisi statistiche.