Econométrie
Par Lisa Ouldsaid • 22 Octobre 2022 • TD • 1 012 Mots (5 Pages) • 365 Vues
TD 1
Question 6 : PROC MEANS DATA=work.region1_temp; RUN;
PROC MEAN 🡪 donne la moyenne, l’écart type, le minimum et le maximum pour toutes les variables
- Moyenne du salaire est 2200 🡪 la variable salaire est une variable quantitative
- Pour le diplôme le salaire est 3772 🡪 la variable diplôme (diplôme le plus obtenue par l’individu) est une variable qualitative.
La moyenne est avant tout utilisé pour les variable quantitative.
Question 7 : PROC MEANS; VAR Salred; RUN;
Question 8 : PROC MEANS; VAR Salred; BY ddipl; RUN;
- On regarde le salaire par diplôme obtenu
On chercher le salaire moyen mais cette fois par modalités (ie par diplôme, ddipl)
- Les modalités sont classés par ordre décroissant (le premier est à 3000 et le pour le diplôme égale à 7 est de 1500 on en déduit que ce sont ceux qui n’ont pas de diplôme)
Question 9 : PROC UNIVARIATE; VAR Salred; RUN;
- On demande la distribution des salaires
- On utilise la commande PROC UNIVARIATE
- Les moments : permet de caractériser la distribution
🡪Skewness : indicateurs sur l’asymétrie si Skewness < 0 asymétrie à gauche et Skewness > 0 asymétrie à droite
🡪Kurtosis : Indicateur de l’épaisseur de la queue de la distributions, et la référence c’est 3 ( si c’est supérieur on a une queue fine)
- Tableau des quantiles : 10% des individus gagnent moins 1168
Question 10 : PROC UNIVARIATE; VAR Salred; HISTOGRAM/NORMAL; RUN;
On peut aussi sortir un histogramme avec la commande PROC UNIVARIATE
- Quand on une p value inféreiru à 0.5 on rejette HO et on accepte H1 (c’est le cas ici, donc on n’est pas sur une distribution normale, on s’y attendait car travaille sur des salaires.
Question 11 : PROC UNIVARIATE; VAR Salred; BY ddipl; HISTOGRAM/NORMAL; RUN;
Question 12
Salaire moyen uniquement pour le individus <6100 pour un ddpil = 1
- On veut créer un nouveau fichier temporaire (region1_temp1) donc on utilise la commande DATA et on utilise la commande SET avec le nom du fichier qu’on avait déjà (region1_temp)
- On obtient une moyenne de 2715 pour region1_temp1
DATA region1_temp1; SET region1_temp; IF ddipl=1 AND Salred < 6100;
PROC UNIVARIATE; VAR Salred; HISTOGRAM/NORMAL; RUN;
DATA région1_temp2; SET region1_temp; IF ddipl=1 AND Salred > 6100;
PROC UNIVARIATE; VAR Salred; HISTOGRAM/NORMAL; RUN;
DATA région1_temp3; SET region1_temp; IF ddipl=1 AND 6100 < Salred < 20000;
PROC UNIVARIATE; VAR Salred; HISTOGRAM/NORMAL; RUN;
PROC GPLOT DATA=work.region1_temp; PLOT Salred*age; BY ddipl; RUN;
DATA 🡪 creation de données
DATA= 🡪permet de retrouver les données
; 🡪 permet de séparer les différentes instructions
TD 2
A 🡪 donnée qui inclut la variable salred
Travaille préliminaire
- LIBNAME BIB_VID "/home/u61027281/VIDEO"; RUN;
- DATA A ; SET BIB_VID.region1 ; LSAL= LOG(SALRED) ; RUN;
- PROC PRINT DATA=a ; RUN;
- PROC GPLOT DATA=A ; PLOT LSAL*AGE ; BY DDIPL ; RUN;
Partie 1 - Régression simple :
1) On va utiliser la variable âge 🡪 mais ce n’est pas satisfaisant, puisqu’il peut y avoir des écarts au niveau de l’experience de travail. La variable âge est un proxi imparfait de la variable expérience (mais on a pas cette variable).
On explique le salaire en fonction de l’âge 🡪 Yi = a + bAge + ε1
- b 🡪 augmente d’une unité l’âge augmente en moyenne le salaire de 1 point
On explique le log du salaire en fonction de l’âge 🡪 lnYi = a + bAge + ε1
- bln 🡪 interprétation en pourcentage, augmente d’une unité l’âge augmente en moyenne le salaire de 5% par exemple
- Une année d’experience supplémentaire ne va pas avoir le même impact sur le salaire, si on prend le log.
Quand on est en salaire on aura toujours le log car on cherche le pourcentage du salaire supplémentaire et non le montant (comme décrit par le modèle sans log)
...