Oktatási segédanyag SSPS programcsomaghoz

 

Összeállította: dr. Bolla Marianna és dr. Sándor Csaba

 

2009. SZEPTEMBER 7.

 

 

File/Open/Data/Employee data.sav (alkalmazottak adatai)

 

Lent Data View és Variable View közt váltogatva tekinthetők meg az adatok és adatfile szerkezete (itt szerkeszthető is).

 

File/Display Data File Information/Working file (tömör megjelenítése az adatstruktúrának).

 

Data/Select Cases/If condition is satisfied: (gender=’f’) and (salary<30000)  hatására kiválaszja  a 30000 $-nál kevesebb fizetésű nőket, a többieket áthúzással jelöli, előbb a nemet definiálni kell); ld. a FILTER változóban. Az állapot megszüntethető a Data/Select Cases/All Cases utasítással.

 

Transform/Compute Variable/Target Variable: age, Numeric Expression:

1990-XDate.Year(bdate)

                                               saldiff=salary-salbegin

(új váltózók definiálásához a Function group és az ott feljövő matematikai jelölések használhatók, pl. Date Extraction)        

 

Véletlen szám generálás: A Function group-beli Random Numbers menüben látható véletlen számok generálhatók. Ezek független példányai keletkeznek a Target Variable oszlopában.

 

Például: random=RV.Exp(scale) hatására scale paraméterű független exponenciális eloszlású véletelen számok keletkeznek.

 

Transform/Recode into Different Variables: Input Variable: Gender, Output Variable: nem, Label: számszerű nem ; Old and new values m  ->  1, f -> 2. (Cont), Change, OK.

 

Analyze/Descriptive Statistics/Descriptives (a megjelölt változók Options alatt bejelölt statisztikáit írja ki).

 

Analyze/Descriptive Statistics/Crosstabs: Rows: gender, Columns: jobcat (a két változó kategóriái szerint kontingencia táblázatot készít (Layer-ben egy 3. változót is megjelölhetünk)); ezen kívül Statistics menüben kérhetünk pl. chi-négyzet próbát annak tesztelésére, hogy a gender és jobcat változók függetlenek-e (chi-square kipipálásával).

 

Analyze/Descriptive Statistics/P-P Plot: Variables: salary, salbegin; Test Distribution: normal; Distribution parameter: Estimate from data (OK).

 

Analyze/Descriptive Statistics/P-P Plot: Variables: random; Test Distribution: exponential; Distribution Parameter: Estimate from data (OK).

 

Analyze/Descriptive Statistics/P-P Plot: variables: random; Test Distribution: exponential; Distribution Parameter: estimate from data melletti pipát eltüntetjük, majd scale mezőbe bevisszük a generáláskor használt scale paramétert (OK).

Analyze/Compare Means/IndependentSamples T test: Test Variables: salary, salbegin, Grouping Variable: nem; Options: Confidence Interval: 95% (próbáljuk ki 99%-kal is); (Cont); (OK) (hatására nők-férfiak kezdő és jelenlegi fizetését hasonlítja össze külön-külön).

 

Analyze/Compare Means/PairedSamples T test: Paired Variables: salary, salbegin (egyszerre bevinni); Options: Confidence Interval: 95% (OK).

 

Ugyanezt a hatást étjük el a következővel:

 

Analyze/Compare Means/1–Sample T test: Test Variable: saldiff, Test Value: 0 (OK).

 

Analyze/Nonparametric Tests/1-Sample K-S: Test Variable Lists: salbegin, salary, Test Distribution: normal (OK)

 

Analyze/Nonparametric Tests/2-Sample K-S: Test Variable Lists: salbegin, salary, Grouping Variable: nem, Test type: Kolmogorov-Smirnov Z (OK).

 

Analyze/Nonparametric Tests/1-Sample K-S: Test Variable Lists: salbegin, salary, Test Variable Lists: random, Test Distribution: exponential (OK).

 

Graphs/Legacy Dialog/Scatter/Dot: Define Y axis: salary, X axis: salbegin, Set markers by: gender, Label Cases by: id (OK).

 

Analyze/Compare Means/ One-way ANOVA: Dependent List: salary, salbegin; Factor: jobcat (OK) (összehasonlítjuk a három jobcat csoportot a fizetés és a kezdőfizetés szempontjából külön-külön).

 

Analyze/Correlate/Bivariate: Variables: salary, salbegin; Correlation coefficients: Pearson (csak scale tipusú adatokra kérhető), Spearman (ordinális adatokra is kérhető).

 

Analyze/Regression/Linear: Dependent: salary, Independents: Salbegin, age, jobtime, prevexp; Method: Stepwise; Case labels: id (???); a lenti gombokkal kérhetők még: Plots, ennél az ablaknál: Y: DEPENDNT, X: ZPRED, Histogram, Normal probability plot; Save: Predicted Values: Unstandardized (Cont); Options: Use probability of F helyett Use F valuet kijelölni (Cont) (OK)

 

 

File/Open/Data/Cars.sav (autók adatai)

 

Analyze/Regression/Linear, az ablakban Dependent: mpg, Independents: engine, horse, accel; Method: Stepwise; Case labels: id (???); a lenti gombokkal kérhetők még: Plots, ennél az ablaknál: Y: DEPENDNT, X: ZPRED, Standardized Residual Plots: Normal probability plot kipipálni; Save: Predicted Values: Unstandardized (Cont); Options: Use probability of F helyett Use F valuet kijelölni (Cont) (OK)

 

Analyze/Regression/Curve Estimation: Variables: mpg, Independent: horse; Models: Inverse (jobb egérrel látható a képlete) (Plot model legyen bejelölve), (OK)

 

Analyze/Data Reduction/Factor, az ablakban Variables: mpg, engine, horse, weight, accel, cylinder;a lenti gomboknál: Descriptives (kérhető statisztikát): minden; Extracion: Principal components, Extract: Eigenvalues over: 1 (Cont), Unrotated function factor solution (OK)

 

Analyze/Data Reduction/Factor, az ablakban Variables: mpg, engine, horse, weight, accel, cylinder;a lenti gomboknál: Descriptives (kérhető statisztikát): minden; Extracion: Method: maximum-likelihood, number of factors: 2 (Cont.) Rotation/Method: varimax (Cont.) (OK)

 

File/Open/Data/World95.sav (Országok gazdasági és szociális mutatói)

 

Analyze/Classify/Descriminant, Grouping Variable: region, Independents: minden változó, ami scale tipusú;alatta Use Stepwise method, Statistics: means, univariate ANOVAs, within groups correlation (Cont.), Method: Wilkslambda, Criteria: use probability of F (Cont.), Classify: Prior Probabilities: Compute from group sizes, Use Covarinace Matrix: within- groups, Display: Casewise results, Summary table, Leave-one-out classification, Plots: Separate groups; Replace missing values with mean (Cont.), Save: Predicted group membership (Cont) (OK) (dis_1 nevű új változóban keletkezik az ország csoportjának sorszáma).

 

Analyze/Descriptive Statistics/Crosstabs: Row(s): region, Columns: Dis_1 (a két változó kategóriái szerint kontingencia táblázatot készít), így is megtekinthetők a hibás osztályba sorolások.

 

Analyze/Classify/K-means Cluster, az ablakban: variables: minden scale tipusú változó, Label Cases by: country, number of clusters: 3 (4, 5, 6-tal is kiprobálhatjuk), Save: Cluster membership (Cont) (OK).

 

Analyze/Descriptive Statistics/Crosstabs: Rows: region, Columns: Clu_1 (a két változó kategóriái szerint kontingencia táblázatot készít.

 

Analyze/Classify/Hierarchical Cluster, az ablakban: variables: minden scale tipusú változó, Label Cases by: country, Statistics: agglomeration schedule, Cluster membership: Range of solution (min: 2, max 6 clusters (Cont.)), Method: nearest neighbor (Cont.) (OK), Save: range of solution: min: 2, max 6 clusters (Cont) (OK).

 

 

Breast cancer survival data (Mellrákkal műtöttek betegkövetési adatai)

 

Analyze/Descriptive Statistics/Crosstabs: Row(s): histgrad, Columns: lymph_node. Layer: status (a két változó kategóriái szerint kontingencia táblázatot készít), különböző status-értékek mellett (0 és 1).

 

Analyze/Compare Means/ One-way ANOVA: Dependent List: Inpos; Factor: histgrad (1,2,3) (OK) (összehasonlítjuk a három histgrad csoportot a megnagyobbodott nyirokcsomók számának szempontjából).

 

Analyze/Compare Means/IndependentSamples T test: Test Variables: Inpos, Grouping Variable: histgrad (2,3) (OK) (hatására a histgrad 2 és 3 csoportot hasonlítja össze a megnagyobbodott nyirokcsomók számának szempontjából).

 

Analyze/Regression/Linear, az ablakban Dependent: time, Independents: age, pathsize, Inpos; Method: Stepwise; a lenti gombokkal kérhetők még: Plots, ennél az ablaknál: Y: DEPENDNT, X: ZPRED, Standardized Residual Plots: Normal probability plot kipipálni; Save: Predicted Values: Unstandardized (Cont); Options: Use probability of F helyett Use F valuet kijelölni (Cont) (OK)

 

Analyze/Survival/Kaplan-Meier: Time: Time, Status: status (0, 1). Hatására a túlélési valószínűségek jelennek meg (hónapokban), a cenzorált adatokat is figyelembe véve.