Kleine Hilfe zu SAS
Transcription
Kleine Hilfe zu SAS
Erklärungen zur hier verwendeten Symbolik: schwarz blau lila grün _ a d.... v.... m... dalt dneu name n1 v1 Erklärungen Syntax des jeweiligen SAS-Statements/der jeweiligen SAS-Procedures. Optionen und deren Syntax für ein SAS-Statement. Platzhalter für zu spezifierende Namen, Parameter, Werte, sonstige Angaben. steht für ein Leerzeichen in der Syntax; (ACHTUNG: Leider gibt es im Zeichensatz kein Extra-Zeichen für "Leerzeichen"; da dies aber in der SAS-Syntax wichtig ist, wird es in der Beispielsyntax kenntlich gemacht; LEIDER wird von SAS das"_" auch für von SAS vorgegebene Variablennamen verwendet; doppelte "_" zeigen dies an oder innerhalb von Klammern beginnen die Variablennamen mit einem "_". einzelne Buchstaben sind Platzhalter für Zahlen, die dort in die Syntax eingesetzt werden müssen. steht immer für Dateinamen eines SAS-DATA-Sets; anghängte Zahlen unterscheiden verschiedene Dateien. steht immer für Variablen(namen) ; anghängte Zahlen unterscheiden verschiedene Variablennamen. steht immer für Matrizen(namen); wird in der Regel nur in der PROC IML verwendet; alter Dateiname neuer Dateiname steht allgemein für eine Bezeichnung; anghängte Zahlen unterscheiden verschiedene Bezeichnungen. Kurzform für name (mit Nummerierung). Kurzform für Variable (mit Nummerierung). Alle Befehle (Statements) sind in alphabetischer Reihenfolge aufgelistet; bei Procedures erfolgte die Einordnung mit dem Namensteil nach dem PROC... Allgemeines zur SAS-Syntax: Variablennamen dürfen nicht mehr wie 8 Zeichen enthalten. Sie dürfen keine Leerzeichen, keine Sonderzeichen, keine Umlaute, kein _ß“, kein Punkt, kein Komma, keinen Bindestrich enthalten. Alphanumerische Variablen werden durch ein an den Variablennamen angehängtes $ gekennzeichnet, dies aber nur beim erstmaligen Definieren der Variable, im weiteren Programmverlauf dann nicht mehr. Zählvariablen werden durch die Syntax gekennzeichnet: zv1 + a; in jeder Schleife wird a zu zv1 addiert und die Summe beim nächsten Schleifendurchlauf als neuer Wert für zv1 verwendet; nur diese Variablen werden garantiert nicht vor dem nächsten Schleifendurchlauf gelöscht. Missings bei numerischen Variablen werden durch einen ‘.‘ (Punkt) symbolisiert, oder als “Spezial-Missing“ kann ‘.N‘,‘.O‘, ‘.K‘, etc. verwendet werden; bei strings wird ein Leerzeichen ausgegeben. Listen von Variablen werden durch • Auflistung aller einzelnen Variablennamen, jeweils durch ein Leerzeichen getrennt (bei SQL durch ein Komma) • durch Nennung des ersten und letzten Variablennamens (durch doppeltes minus '—' getrennt) bei in der Tabelle aufeinanderfolgenden Variablen (Syntax: VAR_v1— v2; • bei Variablennamen mit angehängtem Zählindex durch Nennung des ersten und letzten Variablennamens (Syntax: VAR_v1-v12); SAS-Statements: %..... ruft ein Unterprogramm auf, das mit %MACRO definiert wurde: siehe MACRO %LET siehe LET %MACRO siehe MACRO %MEND siehe MACRO %SCAN siehe SCAN ALL (SQL-Befehl) 1.) ermöglicht in einer WHERE-Abfrage den (zeilenweisen) Vergleich einer Variablen mit mehreren Werten aus einer (einspaltigen) Tabelle oder einer best. Spalte aus einer (mehrspaltigen) Tabelle; WHERE_v1>ALL_(Argument) die Bedingung für v1 muß auf jeden Wert der in Argument benannten Spalte zutreffen, damit die Aussage wahr wird; Argument kann auch durch eine SELECT-Routine ersetzt werden. PROC SQL; dies Beispiel listet v1, wenn der Wert von v1 SELECT_v1 nicht in der Spalte von v2 auftaucht. FROM_dname1 WHERE_NOT_v1_=_ALL_(SELECT_v2 FROM_dname2) ; QUIT; ALTER (SQL-Befehl) siehe TABLE. ANOVA (Procedure) führt eine ein- und mehrfaktorielle Varianzanalyse zwischen einer kontinuierlichen abhängigen und einer nicht kontinuierlichen unabhängigen Variable(n) durch; nur für balancierte Daten; die Analyse ist eine Verallgemeinerung des t-Tests auf mehr als zwei Stichproben;die Werte der unabhängigen Variable(n) werden wie nominal skalierte Daten behandelt (-> Klassifizierung); die Realisierungen von vabhängig müssen alle in einer Spalte stehen. H0: die Mittelwerte aller Klassen sind gleich. S.53-55; S.68, 69; A11, 12; A15. PROC_ANOVA_data=dname; MEANS ist optional und bildet die CLASS_ vunabh1_ vunabh2 ; Mittelwerte über die Klassen; MODEL_vabhängig_=_vunabh1_ vunabh2; tukey testet, welche Klassen RUN; signifikant vonein ander abweichen. (siehe MEANS) Es können paarweise t-Tests durchgeführt werden. PROC_ANOVA_data=dname; die Fehlerwahrscheinlichkeit α=0.05 wird CLASS_ vunabhängig; hier aber nur für den einzelnen, MODEL_vabhängig_=_vunabhängig; paarweisen Test eingehalten; für eine MEANS_ vunabhängig_/_t; Gesamtbetrachtung des Experiments ist RUN; eine Adjustierung notwendig (s.u.). Paarweise t-Tests mit Adjustierung nach Sidak. PROC_ANOVA_data=dname; hier wird α=0.05 für das gesamte CLASS_ vunabhängig; Experiment eingehalten. MODEL_vabhängig_=_vunabhängig; MEANS_ vunabhängig_/_sidak; RUN; Bestimmung einer Grenzdifferenz nach Tukey beim Vergleich der Mittelwerte (ist besser als sidak: s.o.). PROC_ANOVA_data=dname; hier wird α=0.05 für das gesamte CLASS_ vunabhängig; Experiment eingehalten; liegt 0 im KI der MODEL_vabhängig_=_vunabhängig; Grenzdifferenz, so sind die Mittelwerte MEANS_ vunabhängig_/_tukey; nicht signifikant verchieden. RUN; ANY (SQL-Befehl) 1.) ermöglicht in einer WHERE-Abfrage den Vergleich mit mehreren Werten aus einer (einspaltigen) Tabelle oder einer best. Spalte aus einer (mehrspaltigen) Tabelle; WHERE_v1>ANY_tabname die Bedingung für v1 muß auf nur einen Wert der in Argument benannten Spalte zutreffen, damit die Aussage wahr wird; Argument kann auch durch eine SELECT-Routine ersetzt werden. APPEND_FROM siehe IML (Procedure) ARIMA (Procedure) differenziert Zeitreihen; es werden Differenzen zu vorhergehenden Zeitpunkten gebildet, um durch diese Datentransformation Varianz- bzw. Mittelwerts-Stationarität zu erreichen; es wird die Transformation gesucht, die die kleinste Varianz der transformierten Werte aufweist; durch Wahl der Zeitabstände (Intervalle) können Trend (Intervall = 1) und/oder Saisoneffekte (Intervall = Saisonlänge) heraustransformiert werden. PROC_ARIMA_data=dname; IDENTIFY_var=v1; v1 enthält die Werte zur Zeitreihe; hier keine Differenzenbildung. IDENTIFY_var=v1(a,b,c); differenziert erst nach Intervall a, dann nach Intervall b, dann nach Intervall c (Anzahl der Intervalle beliebig). ESTIMATE_p=(a) schätzt Modellparameter; p gibt an, daß ein ARProzeß a-ter Ordnung bestimmt werden soll; bei p=0 weglassen. _q=(b) q gibt an, daß ein MA-Prozeß b-ter Ordnung bestimmt werden soll; bei q=0 weglassen. _plot; Grafik der ACF und PACF der Residuen, um zu prüfen, ob die Residuen white noise entsprechen. FORECAST_lead=c prognostiziert Werte für die folgenden c Zeitpunkte _id=v3; RUN; PROC_ARIMA_data=d1; IDENTIFY_var=v1 _crosscorr=v2; spezifiziert die zweite Zeitreihe für eine Kreuzkorrelation (v2 = Einflußvariable) bzw. Regression mit autokorrelierten Störungen. ESTIMATE_p=(a) _q=(b) _input=v2 _plot; RUN; PROC_ARIMA_data=d1; IDENTIFY_var=v1(a,b); ESTIMATE_p=(a) (b) _q=(a); RUN; definiert v2 als Einflußzeitreihe (-variable). Hier wird ein SARIMA (1,1,1)x(1,1,0)b -Modell spezifiziert; es wird nach a und b differenziert; es gibt zwei Faktoren für den AR-Prozeß, einen für den MA-Prozeß. ARRAY legt ein Variablen-Array (indizierte Variable mit Grenzen für die Indizees) fest; die Einzelvariablen können dann mit der direkten Bezeichnung (z.B. v1, v2, v3 , usw.) oder über Laufvariable i als Indizee mit v[i] z.B. in einer DO-Schleife angesprochen werden (siehe auch Beispiel 10). ARRAY_vneu{c}_d_va-vb; die Indizees der Variable v laufen von a bis b; das Array vneu besteht aus c=(b-a+1) Einzelzellen (variablen); d gibt die Größe der einzelnen Zellen in Byte an (optional; Default=8). ARRAY_vneu{c}_$_va-vb; definiert ein Array für String-Variablen. ARRAY_varr_v1_v2_v3_v4; ARRAY_vneu{*}__numeric_; * läßt die Anzahl der Array-Variablen offen; diese wird angepaßt; hier werden durch die Systemvariable _numeric_ alle numerischen Variablen des Datasets mit einbezogen; mit der Funktion dim(vneu) kann dann die Anzahl der Variablen zurückgegeben werden. ARRAY_vneu{*}__character_; wie oben, aber hier alle Character-Variablen. AS (SQL-Befehl) 1.) ermöglicht die Einführung von neuen Variablen oder Umbenennungen von bereits vorhandenen Variablen oder Dateien(namen); diese neuen Namen können in den übrigen Befehlen (außer bei WHERE !!!) der gleichen PROC SQL verwendet werden. 2.) im Befehl CREATE TABLE: siehe dort. SELECT_v1_AS_v1neu FROM_lib.d1_AS_d1neu so können alias-Namen für Pfade und libname.dname vergeben werden AXISa legt das Achsenlayout Nr.a fest; die Zuordnung zur betreffenden Grafikachse erfolgt mit dem Befehl PLOT. AXISa_label=(color=farbe Achsenbezeichnung - Farbe height=n Schriftgröße font=swiss Schriftart (hier SWISS) justify=left Achsenbezeichnung- Textorientierung angle=90 Achsenbezeichnung-Drehung des Textes ‘name’) Achsenbezeichnung -Text _minor=none bestimmt das Format der „minor tickmarks“; mit none werden keine minor dargestellt. _order=b_TO_c_BY_d bestimmt das Format der „major tickmarks“; b=kleinster, c=größter Wert, d=Intervall. _value=(angle=90) ; dreht den Text der tickmark-Beschriftung um 90 Grad. BETWEEN (für SQL) legt Grenzen für ein WHERE-Statement fest. WHERE_v1_BETWEEN_a_AND_b wird wahr wenn der Wert von v1 zwischen a und b liegt. BLOCK erzeugt 3-D-Säulen-Grafiken; um mehrere Säulenreihen hintereinander darzustellen, müssen die Werte alle in einer Spalte stehen und die Reiehn werden dann mit einer Klassifizierungsvariable differenziert. BLOCK_vname; BLOCK_vn1_/_group=vname2 gruppiert Säulenreihen; /_midpoints=a_to_b_by_c; legt die Klassenmitten k fest: a ist kleinster, b größter Wert für k mit Schrittweite c zwischen den Klassenmitten. BY gibt die Variable(n) an, nach der (denen) sortiert oder klassifiziert (in Tabellen oder in Grafiken) werden soll; bevor BY in einer PROC verwendet werden kann, muß die jeweilige Datendatei mit PROC_SORT nach der betreffenden Variable(n) sortiert werden. BY_vname1_vname2; CALL LABEL übergibt das Label einer Variable als Text-Eintrag in eine neue Variable; vneu muß vor dem CALL-Statement als Stringvariable (z.B. LENGTH_vneu_$8.;) definiert werden (siehe auch Beispiel 10). LENGTH_vneu_$8.; CALL_LABEL(valt,_vneu); CALL SYMPUT definieren von Globalvariablen (Makrovariablen) innerhalb eines DATASteps mit Werten, die in diesem DATA-Step berechnet wurden; hier können auch G.-variablen kreiert werden, deren Inhalt später als Variable(nnamen) verwendet werden kann (siehe Beispiel 3). ACHTUNG: wenn die mit CALL SYMPUT benannte Variable vor einem lokalen Aufruf/Erzeugung nicht definiert wurde, wird sie nur in die lokale Variablenliste aufgenommen, ist also nicht global verfügbar; Abhilfe: den Variablennamen mit %GLOBAL definieren oder außerhalb des Makros mit %LET benennen. CALL_SYMPUT_('v1',_PUT(v2,_best.); der Wert der numerischen Variable v2 wird als String an die Globalvariable v1 übergeben; v1 hat dann einen alphanumerischen Charakter und muß daher in Hochkommas stehen. CALL_SYMPUT_('v1',_v3); der string von Variable v3 wird in die Globalvariable v1 übertragen. CALL_SYMPUT_('v1',_TRIM(LEFT(v2,_a.b))); Um den Zahlenwert der Globalvariable als Zahl in anderen Statements zu nutzen (z.B. als Spaltennummer im FILENAME-Statement beim Einlesen aus einer Excel-Tabelle) müssen die Ziffern linksbündig in der Variable positioniert werden; die Formatangabe a.b muß/kann wohl weg! CALL VNAME übergibt den Namen einer Variable als Text-Eintrag in eine neue Variable; vneu muß vor dem CALL-Statement als Stringvariable (z.B. LENGTH_vneu_$8.;) definiert werden (siehe auch Beispiel 10). LENGTH_vneu_$8.; CALL_VNAME(valt,_vneu); CANCORR (Procedure) führt kanonische Korrelationsanalyse für zwei Variablengruppen durch ; es werden Linearkombinationen (= kanonische Variablen; W..) der "WITH"-Variablen (Gruppe 2; s.u.) gesucht, die die "VAR"-Variablen (Gruppe 1) möglichst gut erklären; dabei wird die Korrelationsstruktur der "WITH"-Variablen untereinander mitberücksichtigt. PROC_CANCORR_data=dname _corr; gibt die Korrelationen zwischen den Originalvariablen aus. VAR_v1_v2; Liste der Variablen in Gruppe 1; WITH v3 v4; Liste der Variablen in Gruppe 2; RUN; CAPABILITY (Procedure) führt Basis-Statistiken durch (kann mehr als PROC UNIVARIATE). CARDS hiermit können die Werte für die mit INPUT definierten Variablen direkt aus dem Programmtext eingelesen werden (siehe auch INPUT). Die nachfolgenden Werte werden nicht mit einem Semikolon abgeschlossen. Die einzelnen Werte werden durch Leerzeichen getrennt. CARDS erzeugt automatisch einen OUTPUT und danach einen Rücksprung zur vorhergehenden INPUT-Programmzeile, solange, bis alle cards abgearbeitet sind. CARDS; wert1 wert2 wert3 CASE... (SQL-Befehl) knüpft den zeilenweisen Eintrag von Werten an Bedingungen; hinter THEN und ELSE können die gleichen Einträge wie bei SELECT (außer *) verwendet werden; wichtig: die WHEN-Bedingungen (Anzahl beliebig) werden der Reihe nach abgearbeitet; ist eine der Bedingungen erfüllt, wird zugehöriges THEN ausgeführt und das Programm überspringt alle folgenden Schritte bis zum END. SELECT_CASE_WHEN_Bedingung1_THEN_v1 WHEN_Bedingung2_THEN_"Text" WHEN_Bedingung3_THEN_v2*v3 ELSE_sum(v4) END_AS_vneu FROM_dname CATMOD (Procedure) testet Loglineare Modelle für kategoriale Daten. PROC_CATMOD_data=dname; MODEL_vzeile*vspalte=_response_; '_response_' ist hier ein Schlüsselwort und muß so stehen bleiben! LOGLIN_vzeile|vspalte; hier werden die betrachteten Effekte angegeben (in diesem Fall saturiertes Modell mit Wechselwirkung) RUN; PROC_CATMOD_data=dname; MODEL_v1*v2*v3*v4=_response_; LOGLIN_v1|v2|v3|v4_@a; hier wird die Anzahl der betrachteten Wechselwirkungsterme insofern begrenzt, daß nur Terme mit maximal a Komponenten berücksichtigt werden. RUN; PROC_CATMOD_data=dname; MODEL_v1*v2=_response_ _/_pred=freq gibt die mit dem spezofizierten Modell berechneten (geschätzten) Zellhäufigkeiten und die beobachteten Zellhäufigkeiten aus (Ausgabereihenfolge entspricht dem Response Profile). _noprofile keine Ausgabe der "Response Profiles". _noresponse keine Ausgabe der "Response Matrix". _noiter keine Ausgabe der Zwischenergebnisse. _noparm; keine Ausgabe der "Analysis of Maximum-Likelihood-Estimates". LOGLIN_v1_v2; nicht saturiertes Modell (ohne Wechselwirkungsterm). RUN; CLASS legt fest, welche Variable als Klassifizierungsvariable verwendet werden soll; enthält die Variable Zahlenwerte, so werden diese als nominal skaliert behandelt; es wird keine Klassierung durchgeführt. CLASS_v1_v2; (siehe PROC ANOVA und PROC GML) CLUSTER führt hierarchische Clusteranalysen durch; PROC_CLUSTER_METHOD=meth für meth kann single, complete, average, centroid, median, ward nd einiges mehr verwendet werden (siehe Register). _data=dname _outtree=dneu; gibt in die Datei dneu Informationen für ein Dendogramm aus, das mit PROC TREE gezeichnet werden kann. VAR_v1_v2_v3; benennt die Variablen, die in die Clusterung mit einbezogen werden; fehlt dieses Statement, werden alle in der datei enthaltenen metrischen Varaiblen verwendet. ID_vlabel; aus vlabel werden Bezeichnungen für die einzelnen Beobachtungen entnommen (z.B. für Dendogramm). COPY_v5_v6; die Variablen v5, v6 werden zusätzlich mitgeführt. RUN; COLUMN benennt die mit PROC REPORT auszugebenden Variablen und legt die Reihenfolge (= Ausgabehierarchie) der Spalten fest; COLUMN_v1_v2_v3; v1 bis v3 werden für die Output-Tabelle verwendet. COLUMN_v1_ ('text'_v2_v3) v2 und v3 werden mit einer gemeinsamen, zusätzlichen Spaltenüberschrift text ausgegeben. ('text#----'_v4_v5); wie oben; wenn # mit der split= Option (siehe REPORT) angegeben wurde, wird die Überschrift in einer zweiten Zeile unterstrichen. CONTENTS (Procedure) gibt Informationen zur Struktur eines Data-Sets (welche Variablen, Labels, Attribute, etc.) aus. PROC_CONTENTS_data=dname _position; gibt die Variablen in der Reihenfolge der Positionen aus. RUN; CONTRAST hier können selbst aufgestellte Hypothesen vorgegeben werden, für die dann ein Test durchgeführt wird (in PROC GLM, Varianzanalyse); die Hypothese betrifft die Parameterschätzer für die Faktorstufen eines im MODELStatement angegebenen Einflußfaktors; H0: ‘die Summe der Parameterschätzer der verschiedenen Faktorstufen ist gleich 0‘ wobei für die Parameterschätzer konstante Vorfaktoren spezifiziert werden. (als Vorfaktoren können auch 0 und negative Zahlen eingesetzt werden). (siehe auch ESTIMATE) CONTRAST_‘label‘_var_a_b_c; label ist ein Name für den Kontrast (für den Output); var ist die betrachtete Einflußgröße: diese hat hier mindestens 3 Faktorstufen, für die die Vorfaktoren a, b, c angegeben sind (für weitere Faktorstufen würde automatisch 0 gesetzt); CONTRAST_‘label‘_var_1; testet, ob Parametersch. der 1. Faktorstufe = 0. CONTRAST_‘label‘_var_1_-1; testet, ob Parametersch. der 1. und 2. Faktorstufe gleich sind. CONTRAST_‘label‘_var_1_-2; testet, ob Parametersch. der 1. Faktorstufe doppelt so groß ist wie der von der 2.. CORR (Procedure) berechnet Korrelationen: Pearson-Maßkorrelation, SpearmanRangkorrelation, ... ; im Output erscheinen Korrelation, Signifikanz und Anzahl eingegangener Beobachtungen. PROC_CORR_data=dname _pearson „normale“ Pearson’sche Maß-Korrelation. _spearman Rang-Korrelation nach Spearman. _outp=dneu; schreibt in dneu Korrelationsmatrix nach Pearson VAR_v1 v2 v3; erzeugt komplette Korrelationsmatrix für v1 – v3. WITH v3 v4 v5; erzeugt Korrelationen nur zwischen diesen und den unter VAR.. angegebenen Variablen. RUN; CORR (SQL-Befehl) siehe UNION. count (SQL-Befehl) Kenngröße wird wie eine Variable verwendet; bestimmt die Anzahl von Einträgen in einer Spalte; SELECT_count(sp1)_AS_v1 hier wird nur ein Zahlenwert ausgegeben. FROM_tab1; SELECT_count(sp1)_AS_v1 mit GROUP BY kann eine Gruppierungsvariable anFROM_tab1 gegeben werden; es wird dann für jede Gruppe geGROUP_BY_sp2; trennt gezählt. CREATE (SQL-Befehl) wird in verschiedenen Befehlsfolgen verwendet: CREATE INDEX siehe INDEX CREATE TABLE siehe TABLE CREATE VIEW siehe VIEW CREATE_..._FROM DATA siehe IML (Procedure) erzeugt einen (oder mehrere) Data-Set, der unter dname abgespeichert wird; innerhalb des DATA-Steps können Globalvariablen oder Macros verwendet werden (siehe unten); Reihenfolge der Variablen ändern: siehe Beispielprogramme 2a bis 2b. DATA_dname; speichert im saswork-Verzeichnis SET_dalt; RUN; DATA_ libname.dname; speichert im mit LIBNAME definierten Verzeichnis SET_dalt; RUN; DATA_dname1_dname2; erzeugt zwei identische Dateien. SET_dalt; IF_(Bedingung); die jeweilige Datenzeile von dalt wird nur dann in dname übernommen, wenn die Bedingung erfüllt ist. vneu=(Bedingung); wenn die Bedingung wahr wird, ist vneu=1, sonst vneu2=(valt>30); vneu=0; wenn (valt>30)=wahr, dann vneu2=1. vneu3=“&valt“; der Inhalt der Globalvariable valt wird an vneu3 übergeben (!! doppelte Hochkommas !!) &vgl=wert; so wird der Inhalt der Globalvariable vgl als Variablenname verwendet und an diese Variable ‘wert‘ übergeben. RUN; DATA_dname; INPUT_v1; LABEL_v1="Text"; CARDS; wert1 wert2 wert3 RUN; DATA_d1_d2; über IF-Anweisugen kann der OUTPUT in die SET_dalt; entsprechende Datei gesteuert werden. IF_(Bedingung1)_THEN_OUTPUT_d1; IF_(Bedingung2)_THEN_OUTPUT_d2; RUN; DATA_d1_d2; MERGE_d3_d4_(in=hind4); IF_(hind4)_THEN_OUTPUT_d1; ELSE_OUTPUT_d2; RUN; DATA_dneu1_(KEEP=_va-vb) teilt dalt in zwei Dateien auf. _dneu2_(DROP=_va-vb); SET_dalt; RUN; DATA_d1_(type=corr); spezifiziert den Typ der einzulesenden Daten; die Datei d1 ist dann entsprechend gekennzeichnet; =corr: Korrelationsmatrix, =distance: Distanzmatrix. INFILE_'Pfad'; RUN; DATA_dname; SET_&text; hier wurde Dateiname (inklusive Libname) mit %LET (ohne Hochkommas !!) in die Globalvariable text eingelesen. RUN; DATA_dname; SET_libname.%text; hier wird nur der Dateiname mit Hilfe eines Macros mit der Macro-Funktion %SCAN eingelesen (siehe Beispiel bei SCAN). RUN; DATA_dname; SET_dalt; in dalt ist Stringvariable v2 enthalten. v1=put(v2, $chara.)||‘text‘; der Inhalt von v1 setzt sich jeweils aus dem Inhalt von v2 als string der Länge a. zusammen, an den text angehängt wird. oder v1=put(v2, a.)||put(“&text“, b.); hier wird der Inhalt der Globalvariable text als Zeiochenkette der länge b. angehängt. RUN; DBLOAD siehe Beispiel 6 DEFINE definiert den Ausgabestil einzelner Spalten in PROC REPORT; DEFINE_v1_/_order sortiert die Werte in v1 jeweils zu den zugehörigen, der davor stehenden, hierarchisch übergeordneten Spalte; Achtung: wenn Formate vergeben wurden, haben diese Vorrang für die Sortierreihenfolge, daher z.B. bei Datum aufpassen !!) _left bestimmt die Orientierung des Eintrags in der Spalte (andere: center, right). _width=a Breite der Spalte, angegeben in Anzahl Zeichen. _display stellt bei numerischen Variablen nur vorhandene Nachkommastellen dar. _flow; bewirkt Zeilenumbruch bei Text, der länger als die Spalte breit ist; (Achtung: wenn im Text ein '/' auftaucht, wird dies als <return> = neue Zeile interpretiert, da per Voreinstellung '/' als Trennzeichen gilt (Æ mit split – Option in PROC REPORT ändern); das Zeichen wird nicht ausgegeben). DEFINE_v1_/_order_order=internal; gibt zum einen eine übersichtliche Ausgabe (Werte werden nur bei Änderung in Folge ausgegeben), richtet sich aber zum anderen nach der in der Dati vorgegebenen Reihenfolge. DELETE hiermit können einzelne Datensätze/Datenzeilen aus einem Data-Set entfernt/gelöscht werden; z.B. IF_NOT_(vname=a)_THEN_DELETE; DELETE (SQL-Befehl) löscht einzelne Datensätze in Abhängigkeit von best. Bedingungen aus einer bestehenden Tabelle. DELETE_FROM_tab1_ WHERE_Bedingung; DESCRIBE (SQL-Befehl) fragt die Definition eines VIEW ab und zeigt die Syntax im log Fenster an. DESCRIBE_VIEW_viewname; DISCRIM (Procedure) führt Diskriminanzanalyse durch; PROC_DISCRIM_data=dname dname wird zur Erstellung der Klassifikationsregeln analysiert. _testdata=dtest dtest wird nach diesen Regeln klassifiziert. _method=..... bestimmt die Herleitungsmethode für die Klassifikationsregeln; =normal: parametrischees Verfahren, basiert auf einer multivariat-normalen Verteilungsannahme; =npar: nicht parametrisches Verfahren. _pool=..... spezifiziert die Voraussetzungen für die Kovarianzstruktur (KS) der verschiedenen Klassen; =yes :die KS aler Klassen sind gleich; =no : die KS sind ungleich; =test : führt einen Test (H0 'KS sind gleich') durch und wählt die Methode aus (Default: alpha=10%). _slpool=a; a gibt alpha-Schranke für KovarianzHomogenitätstest an. _crossvalidate führt eine Kreuzvalidierung durch (siehe Sachregister). _crosslist listet die Ergebnisse der Kreuzvalidierung. CLASS_v1; v1 in dname gibt die Gruppierung vor, für die die Klassifikationsregeln gefunden werden sollen. RUN; DM weiß nicht genau, globales Statement für z.B. DM_'CLEAR_log'; löscht den Inhalt des Log-Fensters. DO bewirkt die Wiederholung eines Programmteils (muß immer mit einem END abgeschlossen werden) DO_i=a_TO_b_BY_c; führt die Schleife ((b-a)/c+1)-mal aus END; DO_i=a, _b, _c; END; DO_i=a _TO_b; v[i]=x; END; führt die Schleife jeweils für a, b und c aus vergibt an die indizierte Variable v für die Indizees a bis b den Wert x. DROP löscht Variablen (Spalten aus dem Data-Set) DROP_v1_v2; löscht die Variablen v1 und v2 END siehe DO ESTIMATE hier können selbst aufgestellte Hypothesen vorgegeben werden, für die dann ein Test durchgeführt wird (in PROC GLM, Varianzanalyse); die Hypothese betrifft die Parameterschätzer für die Faktorstufen eines im MODELStatement angegebenen Einflußfaktors; H0: ‘die Summe der Parameterschätzer der verschiedenen Faktorstufen ist gleich 0‘ wobei für die Parameterschätzer konstante Vorfaktoren spezifiziert werden. (als Vorfaktoren können auch 0 und negative Zahlen eingesetzt werden). (siehe auch CONTRAST) ESTIMATE_‘label‘_var_a_b_c; label ist ein Name für die Hypothese (für den Output); var ist die betrachtete Einflußgröße: diese hat hier mindestens 3 Faktorstufen, für die die Vorfaktoren a, b, c angegeben sind (für weitere Faktorstufen würde automatisch 0 gesetzt); ESTIMATE _‘label‘_var_1; testet, ob Parametersch. der 1. Faktorstufe = 0. ESTIMATE _‘label‘_var_1_-1; testet, ob Parametersch. der 1. und 2. Faktorstufe gleich sind. ESTIMATE _‘label‘_var_1_-2; testet, ob Parametersch. der 1. Faktorstufe doppelt so groß ist wie der von der 2.. EXACT ruft exakte Teststatistiken auf; wird in PROC FREQ verwendet. EXACT_mhchi exakter Mantel-Haenszel-Chi²-Testwert. _trend exakter Cochran-Armitage-Testwert. _mcnem exakter Mc-Nemar-Testwert. _rror; exakte relative-risk- und odds-ratio-Werte EXCEPT (SQL-Befehl) wird wie UNION eingesetzt, liefert aber das entgegengesetzte Ergebnis: es werden nur Datenzeilen ausgegeben, für die in der andern Datei keine Übereinstimmungen gefunden wurden; Achtung: bei beiden SELECT-Befehlen muß die gleiche Anzahl Variablen selektiert werden! SELECT_a,b_FROM_t1 liefert die Zeilen von t1 (keine doppelten !), die in a EXCEPT oder b keine Übereinstimmung mit Werten von SELECT_a,b_FROM_t2; entsprechend a oder b in t2 haben. .....EXCEPT_ALL..... gibt auch doppelte mit aus. EXISTS (SQL-Befehl) führt zu einer Ausgabe, wenn die Bedingung wahr (bzw. bei NOT EXISTS nicht wahr) ist; im ersten Beispielen also dann, wenn die geschachtelte SELECT-Abfrage irgendeine Zeile ausgibt; wird meist in WHERE-Abfragen verwendet; SELECT_*_FROM_tab gibt die betreffende Zeile von tab aus, WHERE_EXISTS_(SELECT...); wenn die geschachtelte SELECTRoutine kein leeres Ergebnis hat. SELECT_*_FROM_tab gibt die betreffende Zeile von tab aus, WHERE_NOT_EXISTS_(SELECT...); wenn die geschachtelte SELECTRoutine ein leeres Ergebnis, also keinen Eintrag hat (missing value ist ein Eintrag!!!). FILENAME legt einen alias-Namen für einen (Pfad+Dateinamen) fest um externe Dateien mit SAS-fremden Speicherformat zu einzulesen (z.B. auch mit INFILE) oder zu erzeugen; wird ähnlich wie LIBNAME verwendet; für EXCELImport/Export siehe Beispiel 5. FILENAME_alias_’pfad\dname.ext’; alias ist der im weiteren Programm verwendbare Name; in diesem Fall muß die Extension „ext“ beim Dateinamen angegeben werden; mit der Option device wird unter GOPTIONS dann das Speicherformat festgelegt. FILENAME_export_DDE_“excel_|_tabelle1!zasb:zcsd“ spezifiziert den Datenexport von SAS nach EXCEL (siehe Beispiel 5a); tabelle1 entspricht dem Tabellennamen in EXCEL; a, b, c, d sind Zeilen- (z) und Spalten- (s) –nummern, die den einzulesenden Datenblock in EXCEL begrenzen. _notab; diese Option verhindert z.B., daß strings beim Einlesen nach dem ersten Leerzeichen abgeschnitten werden (die Trennungen zwischen den Variablen müssen dann aber im PUT-Statement „manuell“ eingebaut werden: siehe Beispiel 5d) FOOTNOTE (globales Statement) fügt Fußnoten in die Ausgabe mit ein; FOOTNOTE_'Text'; FOOTNOTE_j=l_'Text'; Option j bewirkt eine Justierung des Textes: l = links-, r = rechtsbündig, c = mittig. FORECAST (Procedure) liefert Vorhersagen für Zeitreihenmodelle; PROC_FORECAST_data=dname _lead=a bestimmt die Anzahl (a) der Zeitpunkte , für die Werte geschätzt werden sollen (direkt im Anschluß an die bereits vorliegenden). _trend=a bewirkt keine (a=1), eine lineare (a=2) oder quadratische (a=3) Anpassung. _season=b die Saison hat eine Länge von b Zeitpunkten. _out=dneu _outall _method=expo einfaches exponentielles Glätten. =addwinters additives Holt-Winters-Verfahren; -> additive Saison. =winters; multiplikatives Holt-Winters-Verfahren; -> multiplikative Saison. VAR_var1; ID_var2; in var2 stehen die Beobachtungszeitpunkte. RUN; FORMAT (Procedure) definiert Variablenformate für die Ausgabe; im Beispiel wird festgelegt, daß, wenn für die Variable fname der wert1 erscheint, stattdessen der string1 ausgegeben wird, bzw. wenn fname den wert2 annimmt, der string2. (Achtung: formatisierte Daten können nur noch mit Hilfe der FormatDateien/Anweisungen angesehen werden; unter dem Libname 'library' muß der Pfad angegeben werden, unter dem die entsprechende Formatdatei *.sc2 steht; falls diese Datei verloren geht, können die Daten nach Voreinstellung von OPTIONS_nofmterr; auch so betrachtet werden.); Formatnamen dürfen nicht mit einer Ziffer enden!! (siehe Statement FORMAT) PROC_FORMAT; temporäres Format. VALUE_fname1_wert1='string1'_wert2='string2'; RUN; PROC_FORMAT_library=libname permanentes Format; erzeugt format.sc2 Datei unter libname. _cntlin=dname; die Formatanweisungen werden aus dname gelesen; es müssen die Variablen fmtname, type, start und label für Formatnamen, Typ (‚n‘ für numerisch, ‚c‘ für string; kleinster Wert (dem das label zugewiesen werden soll) und Label angegeben sein. RUN; PROC_FORMAT_library=libname _fmtlib; listet die Wertelabel mit zugehörigen Werten. SELECT_fname; von Format fname. RUN; PROC_FORMAT_ library=library _cntlout=dname; schreibt die Wertelabel und Werte in die Datei dname. SELECT_fname; von Format fname. RUN; FORMAT legt Format von Daten für Ausgabe im Out-Fenster und für Dateispeicherung fest; wird im DATA-Step benutzt; die Werte der Variablen werden FORMAT_vname_a.b; vname wird mit maximal a Stellen und mit maximal b Nachkommastellen dargestellt. FORMAT_var1_var2_fname.; weist var1, var2 das Format fname zu; fname wurde in PROC FORMAT definiert (wichtig: nach fname muß ein Punkt (".") stehen!!). FORMAT_var1_fnameb.; gibt die Formate von var1 mit maximal b Zeichen aus (b ist eine Zahl). FORMAT_var1_za.b; Zahlenformat; beachte den '.' zwischen a und b; a gibt an, wieviele Stellen insgesamt (inklusive Komma) ausgegeben werden (freie Stellen werden mit '0' aufgefüllt), b wieviele davon Nachkommastellen sind. FORMAT_vdatum_ddmmyya.; vdatum ist eine SAS-Datumangabe (Zahl bezogen auf 01.01.1960 = 0); a ist eine Zahl, die das Ausgabeformat bestimmt: a=6 ohne Trennzeichen, a=8 mit Trennung und Jahr 2stellig, a=10 mit Trennung und Jahr 4-stellig. FORMAT_vdatum_datea.; bei a=7 Datumausgabe als ddMMMyy, bei a=9 als ddMMMyyyy. FORMAT_vdatum_juliana.; bei a=5 Datumausgabe als yyddd, bei a=7 als yyyyddd, wobei ddd von 1 bis 365 (bis 366) reicht. FREQ (Procedure) berechnet absolute und relative Häufigkeiten (siehe auch TABLES). PROC_FREQ_data=dname; TABLES_vname1; WEIGHT vname2; in vname2 können Anzahlen für aggregierte Beobachtungen angegeben werden RUN; PROC_FREQ_data=dname; ohne Angabe von Variablen werden Häufigkeitsstatistiken für alle in dname auftauchenden Variablen ausgegeben RUN; FROM (SQL-Befehl) legt die Quelldatei(en) fest. FROM_dname1,_dname2 FROM_alias1.dname_AS_alias2 hier können auch alias-Namen vergeben werden; FROM_(SELECT.....) die entsprechende Tabelle kann auch durch eine geschachtelte SELECT-Routine erstellt werden (WHERE kann auf die darin enthaltenen Variablen zugreifen) GCHART (Procedure) erzeugt Säulen-, Balkengrafiken, Histogramme (Häufigkeitsverteilungen) im Grafikmodus PROC_GCHART_data=dname; VBAR_v1_/_discrete midpoints=a_TO_b RUN; GCONTOUR (Procedure) Darstellung von Isolinien einer 3-D-Grafik (X, Y, Z); Projektion auf die X-Y-Ebene; GENMOD (Procedure) analysiert mit Verallgemeinerte Linearen Modellen; Daten der Zielvariable müssen als Anteile (Wertebereich 0 bis 1; sollten dann im Modell erst als Quotient 'events/trials' berechnet werden), Anzahl oder quantitative Variable angegeben werden; die Einflußvariablen sind mindestens dichotom, bzw. ordinal oder (quasi-)stetig; es besteht die Möglichkeit, selbstdefinierte Link-Funktionen anzugeben (siehe Beispiel 12); PROC_GENMOD_data=dname; CLASS_veinfluss; hier werden die kategorialen Variablen angegeben, die bei MODEL verwendet werden. MODEL_vevents/vtrials=veinfluss; RUN; PROC_GENMOD_data=dname; CLASS_v1; MODEL_ve/vt=v1_/_obstats gibt für jede Beobachtung folgende Werte aus: Wert der Zielvariable, vorhergesagter Modellwert, Wert des linearen Prediktors (LP), Stdfehler des LP, Residuum, untere und obere KIGrenze für den Modellwert. _dist=bin gibt die Wahrscheinlichkeitsfunktion für das Modell an: 'nor' für Normalvtlg., 'bin' für Binomialvtlg., 'poi' für Poissonvtlg. _link=logit gibt die Link-Funktion an: 'identity' für eine exakt angepaßte Funktion, 'logit' für Logistische, 'log' für Log-, 'probit' für ***, 'cloglog' für ***. _type1 gibt einen Likelihood-Quotiententest für jeden Term des Modells (->Devianzen); dazu werden die einzelnen Einflußgrößen nacheinander (sequentiell) in der angegebenen Reihenfolge in das Modell aufgenommen; der Vergleich durch den L-Quot. erfolgt dann jeweils mit dem vorhergehenden Modell. _dspace; bei underdispersion kann diese Option zur Anpassung der Skalierung genutzt werden; after the parameter estimates have been determined, the exponential family scale parameter is assumed to be given by the deviance (mit pspace wird Pearson-Chi² verwendet) divided by the degrees of freedom, and all statistics are adjusted appropriately (dies wirkt sich dann auf die Konfidenzintervalle und p-Werte aus). MAKE_'tabelle'_out=dname; erzeugt eine Output-Datei, die die in der MODEL-Zeile (als Option) spezifizierte tabelle (oben z.B. obstats) enthält. RUN; GFONT (Procedure) zum Betrachten von SAS-Softwarefonts; GLM (Procedure) = General Linear Model; bestimmt Parameter für lineare Modelle, die Abhängigkeiten zwischen einer abhängigen und einer (mehreren ) unabhängigen Variablen beschreiben; eignet sich besonders für Modelle mit fixen Effekten (im MODEL-Statement werden hinter dem Gleichheitszeichen alle Effekte aufgeführt, fixe und zufällige; Variablen mit zufälligen Effekten müssen mit RANDOM extra benannt werden; bei mindestens einem zufälligen Effekt muß für paarweise Vergleiche mit MEANS der Nenner für die Berechnung des F-Testwertes umdefiniert werden: -> Option e=...); kann alle Analysen von PROC ANOVA und einige dazu; stetige Kovariablen werden im Modell anders als klassifizierende Variablen behandelt: Kategorielle Var. (-->βj) yijk = µ + αi + βj + eijk mit β1 + ... + βj = 0 Stetige Ko.-Var. (-->βj) yijk = µ + αi + β*x + eijk Mit LSMEANS berechnete korrigierte Mittelwerte werden anhand der Modellparameter geschätzt und würden bei diesen zwei Varianten unterschiedlich für den Einflußfaktor --> α ausfallen. testet H0: µ1=µ2=...=µi; vergleicht mehr als zwei Stichproben miteinander (Stichprobenumfänge können unterschiedlich sein); Teststatistiken, unterschieden nach dem Typ der Varianzzerlegung TYPE I für balancierte Daten; TYPE III für unbalancierte Daten (es dürfen aber einzelne nicht komplett fehlen); auch für balancierte; TYPE IV bei komplettem Fehlen einzelner Stichproben PROC_GLM_data=dname (where=(v1=Bedingung)); CLASS_vunabhängig; MODEL_vabhängig=vunabhängig _/_ss3; OUTPUT_out=dneu _residual=v1; RUN;_QUIT; PROC_GLM_data=dname; CLASS_&vmod1; MODEL_vab=_&vmod2; RUN; PROC_GLM_data=dname; CLASS_vu1 vu2; MODEL_vab=_vu1_vu2_vu1*vu2; (oder: MODEL_vab=_vu1|vu2;) einfaktorielle Varianzanalyse; where schränkt die verwendeten Gruppen ein. hier werden alle unabhängigen, kategorialen Einflußvariablen angegeben; zufällige Effekte müssen hier aufgelistet werden. Variablen, die hier genannt werden, aber nicht bei CLASS oder RANDOM auftauchen werden wie Kovariablen behandelt (->Kovarianzanalyse). bewirkt eine TypIII-Quadratsummenzerlegung. behält die Residuen, hier als Differenz zwischen dem Beob-Wert und dem Stichprobenmittel (für jede Stichprobe getrennt) und gibt vab und vunab mit aus. unabhängige Variablen und Modell wurden vorher als Globalvariable definiert: siehe %LET. zweifaktorielle Varianzanalyse mit fixen Effekten; unabhängige Faktoren vu1, vu2. vu1 und vu2 benennen die zwei Haupteffekte, die untersucht werden sollen, vu1*vu2 den Wechselwirkungseffekt. MEANS_vu1_vu2; vergleicht getrennt für vu1 und vu2 paardie Mittelwerte der einzelnen Stufen MEANS_v1_v2_/_tukey_cldiff; siehe MEANS LSMEANS_vu1*vu2_/_SLICE=vu2; siehe LSMEANS RUN; PROC_GLM_data=dname; zweifaktorielle Varianzanalyse mit zuCLASS_vu1 vu2; fälligen Effekten (Testergebnisse gelten MODEL_vab=_vu1_vu2_vu1*vu2; für eine größere Grundgesamtheit) RANDOM_vu1_vu2_vu1*vu2_/_test RUN; PROC_GLM_data=dname; zweifaktorielle Varianzanalyse mit geCLASS_vu1_vu2; mischten Effekten: vu1 ist fix, vu2 ist MODEL_vab=_vu1_vu2_vu1*vu2; zufällig, daß heißt die Testergebnisse für RANDOM_vu2_vu1*vu2_/_test vu2 gelten für eine größere GrundgesamtRUN; heit). PROC_GLM_data=dname; drei-(bzw. mehr)faktorielle VarianzanaCLASS_vu1_vu2_vu2; lyse MODEL_vab=vu1_vu2_vu3_ vu1*vu2_vu2*vu3_vu1*vu3_ vu1*vu2*vu3; Alternative Form der MODEL-Zeile __ MODEL_vab=_vu1|vu2|vu3; RUN; . PROC_GLM_data=dname; führt zweifaktorielle hierarchische VarianzanaCLASS_vu1_vu2; lyse durch (mit vu1=hierarchisch 1. Faktor); hier MODEL_vab=vu1_vu2(vu1); mit fixen Faktoren; mit entsprechend eingefügter RUN; RANDOM....../_test-Zeile wird der Test für zufällige Faktoren abgewandelt (s.o.). PROC_GLM_data=dname; CLASS_vu1_vu2; hier unabhängige Einflußfaktoren MODEL_vab=vu1_vu2_vu3 vu3 wird hier als Kovariable behandelt _vu2*vu3; Wechselwirkung mit der Kovariablen MEANS_vu2; berechnet unkorrigierte Mittelwerte, der Einfluß der Kovariablen (Einflußgröße vu1 ???) wird nicht herausgerechnet LSMEANS_vu2; berechnet korrigierte Mittelwerte, der Einfluß der Kovariablen vu3 und der Einflußgröße vu1 wird herausgerechnet. RUN; GLOBAL (Makro-Statement) ordnet einem Variablennamen die Eigenschaft ‚Globalvariable‘ zu. Diese Variablen können dann innerhalb eines Makros durch %let oder CALL SYMPUT mit Werten besetzt werden und bleiben auch nach Abschluß des Makros verfügbar. %GLOBAL_var1_var2_var3; GOPTIONS definiert Optionen für die Ausgabe im Grafikmodus; muß vor den betrffenden Grafik-Procedures stehen. GOPTIONS_reset=all setzt alle vorherigen Einstellungen auf Standardwerte zurück. _gsfname=alias _gsfmode=replace _gsfmode=append _device=aaa _hsize=xcm _vsize=ycm _keymap=winansi _devmap=winansi; GOTO bewirkt die Ausgabe in eine Datei; alias=>siehe FILENAME. bewirkt, daß bestehende Dateien überschrieben werden. bewirkt,daß in der bestehenden Datei die neue Information an die alte hinten angehängt wird. legt Grafikmodus fest; aaa entspricht der zugehörigen Dateinamenextension (z.B.: wmf). legt horizontale Grafikgröße in cm fest. legt vertikale Grafikgröße in cm fest. ermöglicht die Darstellung von Umlauten ermöglicht die Darstellung von Umlauten (Makro-Statement) ermöglicht Sprung zu anderen (mit einer Sprungmarke gekennzeichneten) Programmzeilen; das Programm wird hinter der Sprungmarke fortgesetzt. %GOTO_ende; ................ %ende: Achtung!!: die Sprungmarkenzeile endet mit einem Doppelpunkt ! GPLOT (Procedure) erzeugt für zwei Variablen XY-Diagramme mit Punktwolken, Geraden, Kurven, Regressionsgraden. (siehe auch unter PLOT) PROC_GPLOT_data=dname; PLOT_v1*v2; RUN; GREPLAY (Procedure) geeignet zur Darstellung mehrerer Grafiken in einer Abbildung und zum Ablauf von Animationen; GROUP BY (SQL-Befehl) erzeugt Untergruppen bei der ausgewählten Spalte (Variable); es werden dabei Zeilen mit gleichlautenden Einträgen (in der spezifizierten Variable) zusammengefaßt. Bezieht sich auf die Berechnungen (sum, v1+v2, etc) in der PROC SQL (dadurch Abgrenzung zu Einschränkungen, die mit WHERE erfolgen) GROUP_BY_vname G3GRID (Procedure) interpoliert zusätzliche Datenpunkte für 3-D-Grafiken (X, Y, Z), die später mit G3D oder GCONTOUR ausgegeben werden; liefert keine Grafiken. G3D ermöglicht 3-D-Diagramme mit PLOT oder SCATTER; PROC_G3D_data=dname; erzeugt Netzgrafik in XYZ-Diagramm; PLOT_y*x=z; RUN; PROC_G3D_data=dname; 3-D-Scatterplot: Darstellung der Datenpunkte im SCATTER_y*x=z; XYZ-Diagramm (Punktwolke, Nadeldarstellung). RUN; HAVING IF IML (SQL-Befehl) selektiert Zeilen eines Datensatzes; wird mit KenngrößenAbfragen wie min, max, etc. (für die Auswahlbeschränkung) verwendet (im Gegensatz zu WHERE) oder mit durch AS neu definierten Variablen verwendet; HAVING_min(v1)<=10 der nachfolgende Programmteil wird nur unter bestimmten Bedingungen ausgeführt; wird in DATA-Steps verwendet. IF_(Bedingung) _THEN_c=d; ELSE_c=e; IF_(a=b) _THEN_ DO; mit einer DO-Schleife können mehrere Befehle c=d; unter THEN und ELSE eingebaut werden f=g; END; ELSE_c=e; IF_var_IN_(a,_b,_c); die Bedingung ist wahr, wenn var den Wert a, b oder c annimmt. IF_(a=b)_THEN_GOTO_p1; wenn die Bedingung wahr wird, springt das Programm zur Marke p1 (im Programm als Zeile p1: markiert) IF_(Bedingung); in dieser Kurzform wirkt sich die IF-Schleife so IF_(_N_<a); aus, daß der gerade bearbeitete Datensatz nur dann in das Dat-File übernommen wird, wenn die Bedingung erfüllt ist (im Beispiele nur die Datensätze, wo obs kleiner 8 ist). IF_v1; diese Kurzform fragt nur nach wahr (v1=1 oder v1^=0) oder falsch (v1=0): die Bedingung ist bei ‚wahr‘ erfüllt. BY_v1_v2; IF_FIRST.v1_THEN_c=d; wird wahr, wenn in der vertikalen Abfolge der Werte von v1 eine neuer Wert auftaucht (macht nur Sinn, wenn vorher nach dieser Variable sortiert wurde); v1 muß vorher mit BY-Statement genannt werden. BY_v1_v2; IF_LAST.v1_THEN_c=f; (s.o.) wird wahr, wenn der letzte gleiche (wie die vorhergehenden) Wert von v1 erreicht wird (also vor einem Wechsel zu einer anderen Ausprägung); v1 muß vorher mit BY-Statement genannt werden. (Procedure) ermöglicht die Anwendung der Interactive Matrix Language in SAS; (Matrizen werden hier in der Beispielsyntax mit m... bezeichnet); PROC_IML; USE_dname; benennt DATA-Set, das hier benutzt werden soll. READ_ALL_INTO_m1; liest dname komplett und in der vorgegebenen Anordnung in die Matrix m1 ein; dname darf dann nur numerische Variablen enthalten. USE_d2_WHERE(Bedingung); schränkt die aus d2 verwendeten Datenzeilen durch die Bedingung ein. READ_ALL_VAR{v1_v2_v3}_INTO_m2; schränkt die einzulesenden Variablen ein. n=NROW(m1); übergibt an n die Zeilenanzahl von m1 DO_i=1_TO_b; Schleifenverwendung ist möglich. c=m1[z,s]; gibt in c den Wert der z-ten Zeile und s-ten Spalte der Matrix m1 aus m2=m1[{z1_z3},{s1_s2}]; gibt in m2 eine Teilmatrix von m1 aus; jeweilige Zeilen und Spalten sind hier explizit aufgeführt. m2=m1[(z1:z2),(s1:s2)]; gibt in m2 eine Teilmatrix von m1 aus; hier als Zeilen- und Spalten array von m1 angegeben. vektor1={z1,z2,z3}; vektor2={s1,s2}; m4=m1[vektor1,vektor2]; gibt in m2 eine Teilmatrix von m1 aus; in den Vektoren ...1 und ...2 wurden vorher die Zeilen- und Spalten-Nr. explizit angegeben. END; CREATE_dn3_FROM_m3; aus m3 soll die Datei dn3 erzeugt werden. APPEND_FROM_m3; hier werden die aus m3 zu verwendenden Daten ausgewählt (in diesem Fall alle). QUIT; IN ermöglicht die Angabe einer Liste von Werten für Bedingungen oder vergleichende Operatoren; IF_v1_IN_(a,_b,_c); wird wahr wenn der Wert von v1 gleich a, b oder c ist. IN (für SQL) ermöglicht die Angabe einer Liste von Werten für Bedingungen oder vergleichende Operatoren in einem WHERE-Statement; WHERE_v1_IN_(a,_b,_c); wird wahr wenn der Wert von v1 gleich a, b oder c ist. INDEX (SQL-Befehl) erzeugt einen spaltenbezogenen Index, mit dem eine Beschleunigung von Such- oder Sortierverfahren; mit UNIQUE wird definiert, und auch bei zukünftigen Eingaben kontrolliert, daß die angegebenen Spalten zusammen einen eindeutigen Schlüssel für den jeweiligen Datensatz bilden. CREATE_INDEX_iname_ON_tname_(sp1, sp2, sp3) iname =Indexname CREATE_UNIQUE_INDEX_iname_ON_tname_(sp1, sp2) INFILE bestimmt eine ASCI-Datei, mit der ein neues Data-Set erzeugt werden soll; es muß ein INPUT folgen (hier können auch @@ verwendet werden, um Daten aus in der Quelldatei aufeinanderfolgenden Spalten in eine Spalte im Data-Set einzulesen), bei dem alle Variablennamen neu vergeben werden müssen. INFILE_‘pfad\dname‘_firstobs=a der erste zu lesende Datensatz befindet sich _obs=b in der a-ten Zeile, der letzte in der b-ten Zeile der ASCI-Datei; _lrecl=a die Gesamtlänge eines Datensatzes beträgt a Zeichen. _pad _missover _expandtabs _dlm=‘x‘; gibt an, ob der Datensatz bei fehlenden Werten mit Blanks bis zur Gesamtlänge (lrecl=..) aufgefüllt ist. verhindert, daß, wenn im Listenformat eingelesen wird, bei fehlenden Werten in eine neue Zeile gewechselt wird; die fehlenden Werte werden auf missing gesetzt. gibt an, daß die Werte im Datenfile durch tabs getrennt sind. hier kann ein spez. Zeichen (x) definiert werden, das im Datensatz die Variablen trennt. INNER (SQL-Befehl) siehe JOIN. INPUT liest Variablen ein; (falls das Einlesen mit Hilfe einer DO-Schleife erfolgt, muß innerhalb der Schleife ein OUTPUT-Befehl erscheinen, um die Werte in das DataSet auszugeben) INPUT_vname1_vname2; INPUT_vname_@@; mit @@ brauchen die Datensätze nicht getrennt in Zeilen stehen. INPIUT_va-vb; dies ist bei durchnummerierten Variablennamen (durch angehängte Zahl) möglich; es werden Werte für die Variablen Nr. a bis Nr. b eingelesen. INPUT_vname1 a-b; spaltengesteuertes Einlesen: der Wert für vname wird vom a-ten bis zum b-ten Zeichen eingelesen. INPUT_@a_v1_b. formatgesteuertes Einlesen: innerhalb einer Daten_@c_v2_$chard.; zeile werden beginnend bei Position a (bzw. c) b Zeichen (bzw. d Zeichen) eingelesen; (Man achte auf den Punkt nach dem b und dem d bei der Formatangabe !!) INPUT_@a_(vb-vc)_(d*f.); beginnend beim a-ten Zeichen werden d-mal (mit d=c-b+1) f Zeichen in die entsprechend nummerierte Vaariable v... einglesen. INPUT_#a_v1_#b_v2_v3; die Variablen für den einzulesenden Datensatz stehen in den Zeilen a und b (mit jeder INPUTSchleife wird für a und wieder neu angefangen zu zählen). Alphanumerische Variablen: (Man achte auf den Punkt nach dem a bei der Formatangabe !!) INPUT_vname1$_vname2$; INPUT_vname$a.; liest Variablen, die aus a Zeichen bestehen und beliebig viele Leerzeichen enthalten können. INPUT_vname$:a.; liest Variablen, die aus a Zeichen bestehen und keine Leerzeichen enthalten. INPUT_vname$&:a.; liest Variablen, die aus a Zeichen bestehen und einfache Leerzeichen enthalten INPUT_vname_&_$; liest einfache Leerzeichen mit ein; die Einträge müssen durch doppelte Leerzeichen getrennt werden. INSERT (SQL-Befehl) schreibt neue Datensätze in schon bestehende Tabellen; es müssen Einträge für alle Spalten der Tabelle angegeben werden; es wird dann der 1. Eintrag in die 1. Spalte geschrieben usw. INSERT_INTO_tname_VALUES_('Text1', 'Text2', wert1, wert2); INSERT_INTO_tname(sp1,sp2)_VALUES_(wert1, wert2) VALUES_(wert3, wert4); INSERT_INTO_tabneu(sp1,sp2,sp3)_SELECT_sp4, sp5, sp6_FROM_tabalt; JOIN (SQL-Befehl) erstellt neue Tabellen durch Verknüpfung von Zeilen aus verschiedenen Tabellen; mit ON wird dabei eine Schlüsselvariable definiert, über die eine Zuordnung der Zeilen aus verschiedenen Tabellen erfolgt (die Variable muß in allen zu verknüpfenden Tabellen vorkommen). SELECT_*_FROM_ gibt alle möglichen Zeilenverknüpfungen von t1 und t1_INNER_JOIN_t2_ t2 aus, wo t1.v1 und t2.v1 übereinstimmen; die übriON_t1.v1=t2.v1; gen Zeilen werden nicht ausgegeben; alle Spalten aus t1 und t2 werden beibehalten. SELECT_*_FROM_ wie oben, gibt aber auch alle Zeilen aus t1 ohne t1_LEFT_JOIN_t2_ Übereinstimmung mit aus (ergibt dann missing ON_t1.v1=t2.v1; values in den von t2 übernommenen Spalten) SELECT_*_FROM_ wie oben, gibt aber alle Zeilen aus t2 ohne t1_RIGHT_JOIN_t2_ Übereinstimmung mit aus (ergibt dann missing ON_t1.v1=t2.v1; values in den von t1 übernommenen Spalten) SELECT_*_FROM_ wie oben, gibt aber alle Zeilen aus t1 und t2 ohne t1_FULL_JOIN_t2_ Übereinstimmung mit aus (ergibt dann missing ON_t1.v1=t2.v1; values in den jeweils übrigen Spalten) KEEP überträgt nur die angegebenen Variablen (Spalten) in den Data-Set KEEP_v1_v2; übernimmt nur die Variablen v1 und v2 LABEL vergibt Label für Variablen; LABEL_v1="Bezeichnung1" _v2="Bezeichnung2" _v3="Bezeichnung3"; LEGENDa definiert Legende Nr.a für eine Grafik; die Zuordnung zur betreffenden Grafik erfolgt mit dem Befehl PLOT. LEGENDa_value=(‘n1’_’n2’) legt die Namen für die unterschiedenen Fälle fest. _label=(‘name’) Übergeordneter Name der gezeigten Fälle. _frame; erzeugt einen Rahmen um die Legende. LENGTH legt die maximale Länge eines Eintrages für eine Variable fest; im DATA-Step; LENGTH_vname_a; a gibt die Länge der Variable in Bytes an. LENGTH_v1_v2_a; LET definiert Global-/Makrovariablen; v1 kann dann als &v1 im späteren Programmablauf aufgerufen werden; in einem Dateiaufruf für ein SAS-Dataset kann in &v1 der Dateiname und/oder der Libname enthalten sein. Achtung: wenn in der %LET..-Zeile rechts vom ‘=‘ Operatoren oder Funktionen auftauchen, die beim Aufruf der G.variable ausgeführt werden sollen, um den zu übergebenden (Text-)Inhalt der G.-variable zu erzeugen, dann muß in einem DATA-Step der G.-var.-Aufruf ohne doppelte Hochkommas erfolgen (sonst wird der dort stehende Funktionstext komplett übergeben); neue, aus mehreren Teilstrings zusammengesetzte Variablennamen können mit Funktionen in dieser Form nicht erstellt werden. %LET_v1=a; %LET_vmod1='vu1_vu2'; übergibt Text mit Hochkommas %LET_vmod2='vu1_vu2_vu1*vu2'; %LET_v1=‘text1‘||‘text2‘; v1 wird aus text1 und text2 zusammengesetzt. %LET_v1=“&v3“||‘text2‘; v1 wird aus dem Inhalt der Globalvariable v3 und text2 zusammen-gesetzt (beachte doppelte Hochkommas). %LET_v1=put(“&v3“,_$chara.)||‘text3‘; der Inhalt der Globalvariable v3 wird vor dem Zusammenfügen auf einen String der Länge a Zeichen gebracht (!! beachte ‘.‘ hinter a !!). LIBNAME Ermöglicht die Vergabe von ‚alias‘-Namen für Datei-Libraries, die jeweils einem bestimmten Unterverzeichnis zugeordnet sind; dabei können ‚Engines‘ (z.B. verschiedene SAS Versionen, SPSS, etc.) definiert werden; falls sich im selben Verzeichnis SAS-Datendateien von verschiedenen SAS-Versionen befinden, muß für jede Version ein separater Libname eingerichtet werden; nur SAS-Datendateien, die während des Programmablaufs unter einem Libname angelegt werden, bleiben nach dem Schließen von SAS erhalten. LIBNAME_alias_“pfad“; pfad gibt den kompletten Pfad für das entsprechende Unterverzeichnis an. LIBNAME_alias_engine_“pfad“; LIBNAME_libref_V6_“pfad“; ermöglicht den Zugriff auf Datendateien der Version SAS 6... LIBNAME_alias_SPSS_“pfad\datei.por“; zum Einlesen von SPSS-portableDATA_neu; Datendateien (nur diese SPSS-Dateien SET_alias._first_; sind verwendbar !!!); der Libname RUN; verweist direkt auf die Datei! mit _first_ wird auf die erste SPSS-Tabelle verwiesen. LOGISTIC (Procedure) testet logistische Modelle; kann bei der Zielgröße nur binärcodierte Variable und bei den Einflußgößen nur quantitativ-stetige oder binärcodierte Variablen bearbeiten (bei kategorialen Variablen mit >2 Faktorstufen ist eine Umcodierung in dichotome Dummyvariablen notwendig: die adjustierten oddsratios beziehen sich dann im Chancen-Vergleich immer nur auf die nicht explizit umcodierte (Kontroll- bzw- Referenz-)Stufe der Ursprungsvariable).. Syntax-Hinweis: im MODEL-Statement kann ' | ' für die Verknüpfung der Einflußgrößen nicht verwendet werden. Wichtig: PROC LOGISTIC erwartet normalerweise aufsteigende Kodierungsreihenfolge, wobei die Kontrollen den höheren Wert haben (also z.B. Fälle=1 und Kontr.=2); daher bei Fall=1, Kontr.=0 die Option descending verwenden! PROC_LOGISTIC_data=dname _descending; MODEL_vres=vu1_vu2_/ _link=.... _rl _alpha=a; RUN; PROC_LOGISTIC_data=dname; MODEL_vev/vges=vu1_vu2; dreht die Codierungsreihenfolge der dichotomen Zielvariable um. vres = Response-Variable (dichotom); vu1 und vu2 = unabhängige Einflußvariablen. die Link-Funktion kan hier spezifiziert werden: ...=logit (default), ...=cloglog, ...=normit; (risklimits) gibt Konfidenzintervalle für die Odds-Ratios aus. bestimmt den alpha-Fehler mit 0<a<1. vev = Anzahl der positiven events; vges = Gesamtanzahl der positiven und negativen events ; vu1 und vu2 = unabhängige Einflußvariablen. RUN; PROC_LOGISTIC_data=dname; MODEL_vres=vu1_vu2; FREQ WEIGHT RUN; LSMEANS führt mit zusätzlichen Optionen paarweise Mittelwertvergleiche (Test) durch (diese Tests sind bei zufälligen Effekten nicht sinnvoll); kann auch für unbalancierte Daten verwendet werden; gibt korrigierte Mittelwerte aus, wenn z.B. Kovariable im Model mit berücksichtigt wird; korrigierte Mittelwerte werden anhand der geschätzten Modellparameter berechnet (siehe PROC GLM); führt F-Tests auf Gleichheit der Effekte verschiedener Stufen von Faktor A für verschiedene Stufen von Faktor B durch (-> zweifaktorielle Varianzanalyse) LSMEANS_vu1*vu2_/_SLICE=vu2; testet die H0 "die Effekte aller Stufen von vu1 sind gleich Null" mit einem F-Test für verschiedene Stufen von vu2. LSMEANS_v1_/_pdiff=all spezifiziert, welche Gruppen miteinander verglichen werden; hier: jede mit jedem. =control('name') gibt die Gruppe an, mit der alle anderen verglichen werden, z.B. für zweiseitigen Dunnett-Test-Option; name gibt den Eintrag in der Spalte der Klassifizierungsvariable an, der die(Kontroll-)Gruppe klassifiziert. =controlu('name') einseitiger Test bei Vergleich mit einer (Kontroll-)Gruppe (name: s.o.); es sollen Abweichungen von der Kontrolle nach oben (u=upper) bewiesen werden (also H0: µ1<=µi mit µ1 von Kontrolle); =controll('name') einseitiger Test bei Vergleich mit einer (Kontroll-)Gruppe (name: s.o.); es sollen Abweichungen von der Kontrolle nach unten (l=lower) bewiesen werden (also H0: µ1<=µi mit µ1 von Kontrolle); _adjust=tukey spezifiziert Adjustierungsmethode fürpaarweisen Vergleich der Mittelwerte; hier: Tukey =dunnett Adjustierung nach Dunnett; bei Verglei-chen mit nur einer Kontrollgruppe; siehe auch Option pdiff. =t führt einen multiplen t-Test (ohne Adjustierung) zum lokalen Niveau α durch. =bon multipler paarweiser Vergleich mit BonferoniAdjustierung des multiplen Niveaus. _e=va*vb gibt für die F-Statistik einen vom Normalfall abweichenden Nenner (hier die mittlere Quadratsumme für va*vb) für die Berechnung des F-Testwerts an; wird bei PROC GLM für Dunnett benötigt. _cl gibt Konfidenzintervalle für Mittelwerte aus _alpha=a; _t legt das Signifikanzniveau auf a fest. führt multiplen t-Test mit paarweisen Vergleichen zum lokalen Niveau α durch; gibt T-Wert und Probability aus. MACRO Definiert ein Unterprogramm/Macro; diese können gespeichert werden; der Dateiname muß mit dem Macronamen übereinstimmen; mit %IF, %THEN, %DO, %END können Gruppen von Anweisungen/Procedures bedingt ausgeführt werden; innerhalb von eingefügten DATA-Steps oder Procedures oder wenn das Makro aus einer Procedure oder DATA-Step heraus aufgerufen wird, werden die (Schleifen)Befehle ohne % verwendet; Variablen werden innerhalb des Macros grundsätzlich als Text (string) eingelesen. (siehe angehängtes Beispiel 1a und 1b). Im Programmablauf muß erst die Macro-Syntax abgearbeitet werden, bevor das Macro funktional aufgerugen werden kann. Bei der Verwendung von Makros innerhalb von SQL muß darauf geachtet werden, daß “;“ in dem Makro zum Abbruch/Ende der SQL-Prcedure führen. %MACRO_mname(mv1=_, mv2=_, mtext=_); das Macro wird erst durch den Aufruf %mname ausgeführt (s.u.); der Aufruf übergibt dabei die angegebenen Bezeichnungnen (Strings) an die Macrovariablen mv1 und mv2, bzw. den ‘text‘ an mtext; innerhalb des Macros werden die M.-variablen dann mit &... aufgerufen; am Ende des Makros werden die Werte der M.-variablen wieder an die ursprünglichen zurück gegeben. (siehe Beispiel 1c) PROC_...._data=&mv1; VAR_&mv2; innerhalb des Macros muß mv2 mit dem Präfix & versehen werden. RUN; %MEND_mname; beendet das Unterprogramm/Macro. Aufruf des Macros: sollte im Prrogrammtext in der Reihenfolge nach der Syntax des Makroprogramms stehen (SAS muß die Makrosyntax erst gelesen haben) %mname(mv1=dname,_mv2=vname, mtext=‘text‘); in dieser Form werden den Macrovariablen die Strings direkt zugewiesen (s.o.). %mname(dname,_vname; ‘text‘); es können auch nur die zu übergebenden Werte/Texte angegeben werden; dann muß hier aber die Reihenfolge genau mit der in der %MACRO...-Zeile übereinstimmen. %INCLUDE_‘pfad\mname.sas‘; liest das Macro mname in den Programmtext ein MEANS (Procedure) ermöglicht die Berechnung verschiedener Kennzahlen von Einstichproben; Voreinstellung ist n, mean, std dev, min, max; darüber hinaus muß einzeln aufgerufen werden: hier wird das Ergebnis als Datei abgespeichert und kann dann erst auf den Bildschirm ausgegeben werden PROC_MEANS_data=dname; VAR_v1_v2; RUN; PROC_MEANS_data=dname; mit OUTPUT könne die Ergebnisse in einer Datei VAR_v1_v2; abgespeichert werden; ID_v3_v4; übernimmt die Werte von v3 und v4 aus dname OUTPUT_out=dname Dateiname der Ausgabedatei _n=v11_v21 Anzahl der Beobachtgn., getrennt für v1 und v2 _nmiss=v12_v22 fehlendeWerte, getrennt für v1 und v2 _mean=v13_v23 Mittelwert, getrennt für v1 und v2 _std=v14_v24 Standardabweichung, getrennt für v1 und v2 _min==v15_25 Minimum, getrennt für v1 und v2 _max=v16_v26 Maximum, getrennt für v1 und v2 _var=v17_v27 Varianz, getrennt für v1 und v2 _sum=v18_v28; Summe, getrennt für v1 und v2 RUN; MEANS berechnet und vergleicht Mittelwerte zu verschiedenen Gruppen einer Variable, die durch eine Klassifizierungsvariable differenziert werden; funktioniert nur mit balancierten Daten korrekt ! (bei unbalancierten Daten LSMEANS verwenden); gibt keine korrigierten Mittelwerte aus; Verwendung z.B. in PROC ANOVA oder PROC GLM; muß nach dem MODEL-Statement kommen; führt mit zusätzlichen Optionen paarweise Mittelwertvergleiche (Test) durch (ist bei zufälligen Effekte nicht sinnvoll); MEANS_vname berechnet die Mittelwerte für die einzelnen Klassen von vname MEANS_v1_/_tukey führt einen Tukey-Test (mit Adjustierung) auf paarweise _alpha=a Unterschiede zwischen den Mittelwerten durch (α=a gilt _cldiff; dann für das gesamte Experiment); (H0:µ1=µ2); cldiff gibt das simultane Vertrauensintervall an. MEANS_v1_/_bon; multipler paarweiser Vergleich mit BonferoniAdjustierung des multiplen Niveaus. MEANS_v1_/_dunnett('name') führt einen multiplen Test nach Dunnett durch; hier werden alle Stichproben mit einer Kontrollgruppe (durch 'name' spezifiziert) verglichen (H0:µk=µ2); (α=0.05 gilt für alle Vergleiche simultan). _e=va*vb; gibt für die F-Statistik einen vom Normalfall abweichenden Nenner (hier die mittlere Quadratsumme für va*vb) für die Berechnung des F-Testwerts an; wird bei PROC GLM für Dunnett benötigt. MEANS_v1_/_t; führt einen multiplen t-Test (ohne Adjustierung) zum lokalen Niveau α durch. MEANS_v1_/_sidak; führt einen multiplen t-Test mit Adjustierung durch (H0:µ1=µ2); (α=0.05 gilt dann für das gesamte Experiment). MEANS_v1_/hovtest=bartlett; Homoskedastizitätstest nach Bartlett; verwendet Varianzen (vom Mittelwert) -> Ausreißer empfindlich; wird in der Regel nicht verwendet. MEANS_v1_/hovtest=bf; testet auf Homoskedastizität (Gleichheit der Varianzen) verschiedener Stichproben (eine Normalverteilung der Varianzen ist hier nicht Voraussetzung); führt einen modifizierten Levene-Test nach Brown und Forsythe durch (-> bei PROC GLM); von den hier möglichen der beste Test. MEANS_v1_/hovtest=levene_(type=square) ...=abs); testet auf Gleichheit der Varianzen bei versch. Stichproben (Homoskedastizitätstest nach Levene); berücksichtigt die (quadrierten oder absoluten) Abweichungen vom Median und ist daher robuster gegen Ausreißer (Original-Levene ist mit absoluten Differenzen). MERGE Verknüpfungen von Beobachtungen aus verschiedenen Data-Sets zu einem neuen Data-Set; im DATA-Step; bei der Verwendung von BY sollten außer den BYVariablen keine Variablennamen bei den Dateien übereinstimmen; (siehe auch Beispielprogramm 4 und zugehörige Erklärungen). MERGE_dname1_dname2; One-to-one: erster Datensatz aus dname1 wird mit erstem Datensatz aus dname2 verknüpft, usw. MERGE_dname1_dname2; Match: es werden die Datensätze miteinander BY_vname; verknüpft, bei denen vname übereinstimmt; hier müssen vorher beide Dateien dname1 und dname2 mit PROC SORT nach der Variable vname sortiert werden. MERGE_d1_(firstobs=a) firstobs legt Anfangsdatensatz in der jeweiligen _d2_(firstobs=b); Datei fest. DATA_dneu; es werden nur die Datenzeilen an dneu MERGE_d1(in=in1)_d2(in=in2); übergeben, die in v1 bei d1 und d2 gleiche IF_in1_AND_in2; Werte aufzeigen (in1 ist eine Variable, die BY v1; wahr oder falsch, also 0 oder 1 sein kann; RUN; IF in1.. ist gleichbedeutend mit IF in1=1... DATA_dneu; MERGE_d1(in=in1)_d2(in=in2); IF_in1_AND_NOT_in2; übergibt nur Zeilen von d1, die in v1 BY_v1; keine Übereinstimmung mit d2 haben. RUN; Ein Verfahren, um einzelne Zeilen an alle Datensätze anzuhängen (ohne MERGE): SET_d1; (in einem DATA-Step) d2 besteht nur aus einer IF_(_N_=1)_THEN_SET_d2; Datenzeile; der erste Durchlauf der DATA-Schleife liest die erste Zeil von d2 ein und hängt diese an die erste von d1; bei folgenden Durchläufen behält SAS die Werte aus d2 und hängt sie an alle folgenden Zeilen von d1 an. MIXED (Procedure) für gemischte Modelle; im MODEL-Statement werden hinter dem Gleichheitszeichen nur die (Variablen mit) fixen Effekte aufgeführt; im RANDOMStatement werden die zufälligen Effekte angegeben; hier werden die Nenner bei der Berechnung des F-Testwert automatisch korrekt ausgewählt; testet H0: µ1=µ2=...=µi; vergleicht mehr als zwei Stichproben miteinander (Stichprobenumfänge können unterschiedlich sein); PROC_MIXED_data=dname; hier: zweifaktorielle Varianzanalyse mit CLASS_vu1_vu2; zufälligen Effekten (Testergebnisse gelten MODEL_vab=_; für eine größere Grundgesamtheit) RANDOM_vu1_vu2_vu1*vu2; RUN; PROC_MIXED_data=dname_nobound; die Option verhindert, daß das Modell bei negativen Varianzkomponenten automatisch von SAS verändert wird. CLASS_vu1_vu2; MODEL_vab=vu1_vu2 _ddfm=satterthwaite; bewirkt die Verwendung gewogener FG bei der Auswahl des t-Quantils für die bestimmung der Konfidenzintervalle von Mittelwerten (bei mehrfaktoriellen Anlagen eine Adjustierung, da bei den Schätzungen verschiedene/zusätzliche Fehlerterme auftauchen) LSMEANS_vu1_/_cl; RUN; MODEL wird in verschiedenen Procedures (siehe dort: ANOVA, CATMOD, GENMOD, GLM, MIXED, PROBIT, REG, PHREG) zur Spezifikation einer Modellannahme verwendet; NOTE definieren eines Textes für die Ausgabe; kann nur innerhalb einer Procedure erfolgen; NOTE_c=blue color; Farbe des Textes _f=swissl fond; verwendete Schriftart (hier swissl'). _h=a_pct height; Textgröße; pct=Größenangabe in Prozent (percent). _move=(10,95)_pct`; positioniert den Text mit prozentualen (pct=percent) X-, Y-Koordinaten. NPAR1WAY (Procedure) hier ist der Rangsummentest nach Wilcoxon implementiert (verteilungsfreier Test); Vergleich der Mediane zweier Stichproben; die Werte beider Stichproben müssen in einer Spalte stehen; H0: die Mediane sind gleich. PROC_NPAR1WAY_data=dname_wilcoxon; die zwei Stichproben werden mit CLASS_vname; vname unterschieden. VAR_vabhängig; RUN;_QUIT; ON (SQL-Befehl) siehe JOIN. OPTIONS hiermit können verschiedene Grundeinstellungen für den Ablauf und die Ausgabe des SAS-Programms definiert werden; die eingesstellten Optionen können auch im Options-Fenster (Aufruf z.B. über die Command-Zeile) eingesehen werden. OPTIONS_nofmterr hiermit können SAS-Programme zum Laufen gebracht werden, deren notwendige Formatdatei fehlt. nonumber unterdrückt die Seitennummerierung im Output nodate unterdrückt die Datumangabe beim Output ORDER BY (SQL-Befehl) sortiert Datensätze ORDER_BY_v1,_v2_desc sortiert die Datensätze nach v1 aufsteigend (defaultEinstellung; kann auch mit asc festgelegt werden) und nach v2 absteigend OUTER (SQL-Befehl) siehe UNION. OUTPUT erzeugt die Ausgabe eines Datensatzes (= einer Datenzeile) in ein Data-Set OUTPUT_dname; optional kann der Name der Zieldatei (in der DATAZeile genannt) angegeben werden. PHREG (Procedure) eigentlich für Überlebenszeitanalysen mit dem Cox-Modell; kann durch spezifisch getrickste Anwendung auch für die logistische Regression bei gematchten Fall-Kontroll-Studien (Matching-Verhältnis 1 :1, 1 : n, m : n) benutzt werden; die Response-Variable (vresp) muß >0 codiert sein, wobei die Kontrollen gegeüber den Fällen den größeren Wert haben sollen; über die Censor-Variable (vcens) wird die Fall=1, Kontrolle=0 Codierung wieder eingebracht; (Syntax hier für gematchte Fall-Kontroll-Studie) PROC_PHREG_data=dname; MODEL_vresp*vcens(a)=v1_/ vresp wird zensiert, wenn zugehöriges vcens den Wert a hat (hier a=0 für Kontrolle). _ties=discrete discrete bewirkt, daß das Proportional Hazard Model durch das Discrete Logistic Model ersetzt wird; kann für alle Matchingverhältnisse verwendet werden. ...=breslow wenn keine Bindungen (ties) vorliegen (1 : 1 oder 1 : n), ist breslow am effektivsten. _selection=.... _rl; STRATA_vstrat; spezifiziert die Methode, nach der relevante Modelkomponenten selektiert werden: none, backward, forward, stepwise, score. gibt Konfidenzintervalle für die geschätzten Parameter (Odds-Ratios) aus. vstrat differenziert die gematchten Gruppen (1 Fall + n Kontrollen); jede Gruppe ist ein Stratum. RUN; (Syntax hier für Cox-Modellierung von Überlebenszeiten: Proportional Hazard Modell) PROC_PHREG_data=dname; MODEL_time*vcens(a)=v1_/ time enthält die Überlebenszeit; vcens zeigt mit dem Wert a an, dass diese Beobachtung zensiert wurde, dass das Zielereignis in der angegebenen Zeit also nicht aufgetreten ist. _selection=.... spezifiziert die Methode, nach der relevante Modelkomponenten selektiert werden: none, backward, forward, stepwise, score. _rl; gibt Konfidenzintervalle für die geschätzten Parameter (Odds-Ratios) aus. STRATA_vstrat; vstrat differenziert Strata; when the STRATA_vstrat(5,10,20); proportional hazards assumption isn't realistic for all the data, then it may be appropriate to perform a stratified analysis in which each strata contributes a component to the overall likelihood. The STRATA statement names the variables whose values are to determine the stratum levels. The unique values of the STRATA variables determine the strata if these variables are character or numeric and there is no list. If a list is supplied, then the strata are determined by the intervals defined by the cutpoints on the list. BASELINE_out=dneu hier können für bestimmte Werte der _covariates=dwerte Covariablen (die Datei, die die entsprechenden Werte(-vektoren) enthält, wird mit der Option covariates angegeben; die Datei muss vorher erzeugt werden; werden keine Werte vorgegeben, benutzt SAS automatisch die Mittelwerte der Beobachtungen zu den jeweiligen Variablen) jeweils getrennt Überlebenszeiten _ survival=vname (der Name der Ausgabevariabel wird mit survival=.... angegeben) geschätzt werden, die dann mit PROC GPLOT dargestellt werden können; _/_nomean ; verhindert die Ausgabe von Überlebenszeiten zu den jeweiligen Mittelwerten der Einflußvariabeln. RUN; PLAN (Procedure) erzeugt eine zufällige Reihenfolge von Beobachtungseinheiten (bei vorgegebener Anzahl der Einheiten); PROC_PLAN_seed=a; Option seed setzt einen Startwert (a) für Zufallsgenerator; muß zwischen 0 und 2147483647 liegen. FACTORS_v1=b b gibt die Anzahl der Beobachtungseinheiten an; _ordered bewirkt keine Randomisierung z.B. für Blockfaktor; _random; erzeugt randomisierte Anordnung der Zahlen 1 bis b. RUN; PROC_PLAN_seed=&vg; hier wird die Global-/Makrovariable vg eingesetzt FACTORS_v1=b_ordered erzeugt innerhalb der b Gruppen eine zufällige _v2=c_random; Reihenfolge der Zahlen 1 bis c; v2 ist v1 OUTPUT_out=dname; hierarchisch untergeordnet. RUN; PLOT (Procedure) erzeugt X-Y-Grafiken im Textmodus. PLOT erzeugt X-Y-Grafiken in Procedure PLOT oder GPLOT PLOT_y*x_=_vname; y=abhängige Variable; die Datenpunkte werden nach der Variable vname farblich differenziert. PLOT_y*x_/_frame erzeugt einen Rahmen um die Grafik. _vref=0 erzeugt bei 0 eine horizontale Referenzlinie. _href=0 erzeugt bei 0 eine vertikale Referenzlinie _chref=color color gibt die Farbe der vertikalen Ref.-linie an. _lhref=a; a legt den Linientyp der vertikalen Ref.-linie fest. PLOT_y1*x1_y2*x2; erzeugt zwei getrennte Diagramme. PLOT_ y1*x1_y2*x2_/_overlay; legt beide Kurven in ein Diagramm. PLOT_y1*x1=a_y2*x2=b; weist den Daten die Grafik-Definitionen von SYMBOLa bzw. b zu. PLOT_y1*x1=v1; zeichnet mehrere Kurven, deren Werte nach der Klassifizierungsvariable v1 unterschieden werden. PRINCOMP (Procedure) führt Hauptkomponentenanalyse (Principal Component Analysis; PCA) durch; es werden Eigenvektoren für die PC und Wichtungsfaktoren für die Originalvariablen (bezüglich der PC) ausgegeben; falls Korrelationsmatrizen als Rohdaten verwendet werden, muß dies über eine im DATA-Step entsprechende spezifizierte Datei geschehen. PROC_PRINCOMP_data=dname _cov so verwendet SAS die Covarianzmatrix; default ist die Korrelationsmatrix. _out=d1 schreibt die Werte der Originalvaraiblen und die Hauptkomponenten- Scores für die einzelnen Beobachtungen in die Datei d1. _outstat=d2; schreibt zugehörige Statistik (Mittelwert, Standardabweichung, Anzahl der Beobachtungen, Kovarianz- oder Korrelationsmatrix, Eigenwerte, Eigenvektoren/Hauptkomponenten) in Datei d2. VAR_v1_v2_v3; RUN; PRINT (Procedure) erzeugt eine Ausgabe auf dem Bildschirm (im out-Fenster) PROC_PRINT_data=dname; RUN; PROC_PRINT_data=dname; VAR_v1_v2; gibt nur die Variablen v1, v2 aus. WHERE_Bedingung; gibt nur die Datensätze aus, wo die Bedingung erfüllt ist. RUN; PROBIT (Procedure) macht Probit-Analysen zu Dosis-Wirkungs-Beziehungen; betrachtete Modelle sind 1.) Φ−1 (p(d))= α + β ∗ log (d) mit vres'=p(d) (= relative Häufigkeit von vres in einer durch vlog spezifizierten Gruppe; vres = Reaktion, z.B. durch 0 und 1) und vlog=log(d) und d=applizierte Dosis (Φ−1 wird automatisch von PROC PROBIT durchgeführt; Φ−1 ist Default). Die PROBIT-Prozedur berechnet maximum-likelihood Schätzer der Parameter b und C der Probitgleichung. Dabei kommt ein modifizierter Newton-Raphson Algorithmus zum Einsatz. Für eine binäre Zielgröße Y lautet die Probitgleichung p = P(Y = 0) = C + (1 – C)F(x`b) F eine Verteilungsfunktion(normal, logistisch, Gompertz). x der Vektor der unabhängigen Variablen (Einflußgrößen). p die Reaktionswahrscheinlichkeit. C die natürliche (spontane) Reaktionsrate. Die Wahl der Verteilungsfunktion F (normal für das Probit-Modell, logistisch für das Logit-Modell und Gompertz für das Gompit-Modell). (Siehe auch Datei 'probit.doc' !!!). PROC_PROBIT_data=dname; CLASS_vres; MODEL_vres=vlog; BY_v1; OUTPUT_out=dneu; WEIGHT_v2; RUN; PUT zum Erzeugen einer Datenzeile in einem ASCI-File (in einem _null_-DataStep); DATA__null_; SET_dname; FILE_dneu; PUT_v1_a-b_v2_c-d_@k_(ve-vf)_(g*h.); der Inhalt von v1 wird auf die Position a bis b geschrieben, von v2 auf c bis d; die Variablen ve bis vf werden beginnend an Position k sukzessive jeweils mit der Länge h in den Datensatz geschrieben (wobei g = f-e+1); !! man achte auf den Punkt nach dem 'h' Æ Formatanweisung!! PUT_@a_v1_$charn._@b_‘09‘x_@c_v2_d.e; Struktur je Variable: Position_Variable_Format a, b, c geben Positionen in der Datenzeile an; v1 wird als Character mit n Zeichen ausgegeben; ‘09‘x bewirkt eine Tab-Trennung zwischen den Variablen und wird als ein Zeichen gezählt; v2 wird as Zahl mit max.d Zeichen und max. e Nachkommastellen ausgegeben. RUN; PUT für den Output im Outputfenster; ermöglicht eine genaue Plazierung des Qutputs von Variablenwerten oder Texten innerhalb einer Zeile; PUT_@a_var1_@b_"text"; beginnt mit der Ausgabe des Variablen wertes von var1 auf Position a, mit der Ausgabe von text auf Position b der gleichen Zeile. PUT_@a_"Zeile1"_/_@a_"Zeile2"; '/' bewirkt einen Zeilenwechsel Æ neue Zeile. PUT (Makro-Statement) erzeugt einen Output im log-Fenster. %PUT__all_; _all_ gibt alle zur Zeit definierten System- und Globalvariablen mit ihren Werten aus. %PUT__global_; _global_ gibt alle zur Zeit definierten Globalvariablen mit ihren Werten aus. RANK (Procedure) vergibt Ränge; um sich die Rangdaten anzusehen (oder weiterzuverwenden?) müssen die Daten in eine neue Dati geschrieben werden; PROC_RANK_data=dname_out=dneu; ersetzt die Werte von vname durch entVAR_vname; sprechende Rangdaten. RUN; PROC_RANK_data=dname_out=dneu; schreibt die Rangdaten zur Variable VAR_vname; vname in die zusätzliche Variable vneu. RANKS_vneu; RUN; RANKS schreibt Rangdaten (zu Werten die vorher mit VAR spezifiziert wurden: siehe PROC RANK) in eine neue Variable; RANKS_vneu; READ_ALL_INTO siehe IML (Procedure) REG führt einfache lineare oder multiple Regression durch; nur für metrisch intervallskalierte Variablen; der Output enthält die geschätzten Parameter und die Ablehnungswahrscheinlichkeiten für das verwendete Model und die einzelnen Parameter; mit BY kann eine Klassifizierungsvariable angegeben werden => für jede Klasse wird dann eine Regressionsanalyse durchgeführt.. PROC REG_data=dname; v2 ist die unabhängige, v1 die abhängige Variable; MODEL_v1_=_v2_/_selection=adjrsq; Selektion des besten Modells nach Gütemaß; hier nach dem adjustierten r². OUTPUT_out=dneu _predicted=vh1 Schätzwerte (y-Dach) für y-Werte (hier v1) _residual=vh2 berechnet Residuen _press=vh3 berechnet Steichungsresiduen _dffits=vh4; berechnet Maß für den Einfluß des einzelnen Wertes auf das Modell (z.B. Lage, Steigung der Reg.gerade) (siehe Sachregister). RUN; RENAME weist in einem DATA-Step einer Variablen einen neuen Namen zu RENAME_valt1=vneu1_valt2=vneu2; REPORT (Procedure) zur definierten Ausgabe von Einzelwerten in Tabellenform; PROC_REPORT_data=dname _headline fügt eine durchgezogene Linie unter den Spaltenüberschriften ein. _headskip fügt eine Leerzeile unter 'headline' ein. _missing missings werden als Werte behandelt _split='t' legt t alsTrennzeichen fest. _nowd; unterdrückt ein extra-Fenster für REPORT. COLUMN_v1_v2_v3; benennt die auszugebenden Variablen aus dname. BREAK_AFTER_v1; setzt verschiedene Trennungen, Zusammenfassungen in der Vertikalabfolge der Daten DEFINE_v1_/_order definiert das Spaltenlayout für die einzelnen Variablen; hier wird nach Größe der Einträge aufsteigend sortiert ausgegeben. _order=....; ermöglicht die Definition einer anderen Sortierung: =data --> es wird entsprechend des ersten Auftretens der Einträge in der in der Datei vorgegebenen Reihenfolge sortiert; = .... siehe SAS-help. RUN; RETAIN ermöglicht Variablenwerte vorheriger Schleifendurchläufe mit INPUT in DATASteps beizubehalten; vname erhält erst dann einen neuen Wert, wenn vname im weiteren Ablauf des Programms (z.B. dadurch das eine Bedingung wahr wird) erneut aufgerufen wird; ohne RETAIN werden alle Variablen zu Beginn jedes Schleifendurchlaufes auf leer gesetzt. RETAIN_vname_a; a ist ein Startwert; RUN führt die davor stehende Programmsequenz aus SCAN (Macro-Function) liest Text ein, der dann an der Stelle, wo das Macro aufgerufen wurde, ausgegeben wird; ACHTUNG: SCAN-Befehl darf nicht mit Semikolon enden (wahrscheinlich gilt das immer). %MACRO_mname; das Beispiel liest bei Macro-Aufruf das a-te Wort %SCAN(text,_a,_‘__‘) aus text ein, wobei die Worte hier durch __ (in %MEND; Hochkommas) getrennt sind; statt des Textes text kann auch eine Glabalvariable verwendet werden. SCATTER erzeugt 3-D-Scatterplot; siehe G3D. SELECT führt Wert-spezifisch (Werte einer definierten Variable) bestimmte Operationen aus; SELECT_(v1); wenn v1 den Wert wert1 annimmt, wird vh1=a WHEN_(wert1)_vh1=a; gesetzt; OTHERWISE; wenn über die WHEN-Statements nicht alle Ausprägungen (auch missing value !) von v1 angesprochen werden, muß OTHERWISE angegeben werden (hier kann auch eine Operation angegeben werden). END; SELECT_(v2); hier Beispiel für alphanumerische Variable v2; WHEN_('string1')_vh1=a; WHEN_('string2')_vh2='text1'; OTHERWISE; END; SELECT_(v1); WHEN_(wert1)_DO; vh1=a; vh2=b; END; WHEN_(wert2)_DO; vh3='text1'; hier müssen vh3 und vh5 als Stringvariablen vh4=c; definiert werden; END; OTHERWISE; END; SELECT (SQL-Befehl) bestimmt die Variablen, die aus einer Quelldatei in eine neue Datei eingelesen, bzw. im Output-Fenster ausgeben werden sollen; zum SELECT gehört mindestens der FROM-Befehl (=> SELECT-Routine); SELECT-Routinen können geschachtelt werden (siehe PROC SQL). SELECT_* übernimmt alle Variablen der Quelldatei. SELECT_v1,_v2,_v3 übernimmt nur bestimmte Variablen; SELECT_ *,_v1+v2_AS_vneu berechnet zusätzlich neue Variablen; SELECT_valt_AS_vneu neue Variablennamen zuordnen; SELECT_distinct_v1 selektiert die Zeilen so, daß nur unterschiedliche Einträge in der Spalte (Variable) v1 stehen. SELECT_v1,_"Text",_v2 zwischen v1 und v2 wird in einer extra Spalte Fließtext ("Text") ausgegeben SELECT_v1,_CASE_WHEN…. (siehe unter CASE), bedingte Ausführung (ähnlich wie IF...THEN…) SET bestimmt SAS-Data-Sets, mit dem ein neues Data-Set in einem DATA-Step erzeugt werden soll; mehrere Dateien werden untereinander angeordnet, wobei alle Variablen der Ausgangsdateien in der neuen Datei erscheinen; in dem betreffenden Data-Step werden die Datensätze zeilenweise eingelesen: SET liest eine Zeile aus dem Quelldatensatz ein, dann wird das folgende Programm bis zum RUN abgearbeitet, dann springt SAS wieder an den Anfang des Data-Steps und beginnt von vorn; so können dann auch zeilenweise Berechnungen mit den Daten durchgeführt werden; (!!! dabei werden die Variablen aus der Quelldatei immer erst beim eigentlichen SET mit neuen Werten belegt !!!). SET_dname; dname gibt Quelldatei an; SET_libname.dname; SET_dname1_dname2; die Beobachtungen von dname1 und dname2 werden untereinander angeordnet; SET_dname_point=a; wählt die a-te (a=ganzzahlig) Zeile (a-ter Datensatz) von dname aus (wichtig!!!: nach random access auf die Datenzeilen muß mit einem STOP;-Statement dname wieder geschlossen werden, sonst läuft SAS in eine Endlosschleife). SET_d1; (in einem DATA-Step) d2 besteht nur aus einer IF_(_N_=1)_THEN_SET_d2; Datenzeile; der erste Durchlauf der DATA-Schleife liest die erste Zeil von d2 ein und hängt diese an die erste von d1; bei folgenden Durchläufen behält SAS die Werte aus d2 und hängt sie an alle folgenden Zeilen von d1 an. Beispiel: DATA mydata.probe1; a=x+5; b+4; c+x; SET mydata.probe; z=y+1; w+3; RUN; das Data-Set probe1 mit den Variablen x und y existiert bereits; a bleibt in der 1.Zeile leer, da hier (1.Schleife der DATAAnweisung) x noch nicht definiert ist; b wird von Anfang an hochgezählt: 1. Wert =4; bei c ist der 1.Wert=0, da x in der 1.Schleife noch leer ist; in der 2.Schleife wird dann der 1.x-Wert (aus der 1.Schleife) zum c-Wert hinzuaddiert und in der 2.Datenzeile ausgegeben. SHEWHART erstellt Diagramme, die Aussagen über die statistische „Kontrolle“ eines Prozesses ermöglichen; z.B. auch Boxplots; (siehe SAS-Hilfe Æ Graphics). SORT sortiert die Datensätze eines Data-Sets nach dem mit BY vorgegebenem Schlüssel PROC_SORT; BY_vname1_vname2; RUN; PROC_SORT; BY_DESCENDING_vname1; sortiert in absteigender Reihenfolge RUN; (default=aufsteigend) SPECTRA (Procedure) führt Spektralanalysen durch. PROC_SPECTRA_data=dname _out=dneu Ausgabe der betrachteten Frequenzen (als Kreisfrequenzen!; Umrechnung mit f=freq/(2*pi)) und Perioden in Datei dneu; . _p Ausgabe der Periodogrammwerte. _s Ausgabe der geglätteten Periodogrammwerte _adjmean führt eine Mittelwertbereinigung durch _whitetest; testet auf Vorliegen von White Noise mit der Bartlett's Kolmogorov-Smirnow-Statistik; gibt nur die Teststatistik aus: kritischer Wert muß per Hand berechnet werden. VAR_v1; Werte in v1 werden analysiert. WEIGHTS_a_b_c_d_c_b_a; gibt die Gewichte für die Glättung der Periodogrammwerte an; d (mittlerer Wert) gilt für den Zeitpunkt, für den die Glättung jeweils durchgeführt wird. RUN; SQL (Procedure) ermöglicht die Eingabe von SQL-Befehlen; die SQL-Befehlssequenz hat eine bestimmte Struktur (s.u.); das abschließende Semikolon kommt erst nach dem letzten SQL-Befehl; Variablen- und Dateinamen werden bei Listenschreibweise durch Komma voneinander getrennt; Achtung! es gibt ein Problem mit Globalvariablen in SQL innerhalb von Makros: durch die fehlenden Zeilenbegrenzungen in SQL kann SAS scheinbar der Variable nachfolgende Befehle und die Variable selbst nicht richtig interpretieren (siehe MACRO); problematisch sind ebenfalls mit %LET.. definierte TextMakrovariablen, deren Text durch Funktionen zusammengesetzt/erstellt wird; bei mit CALL SYMPUT.. erstellten Variablen scheint dies nicht aufzutreten. PROC_SQL; die Reihenfolge der Befehle ist festgelegt; CREATE_TABLE_dname1_AS die Befehle GROUP BY, WHERE, und SELECT_* HAVING und ORDER BY müssen nicht FROM_dname2 angeführt werden, können aber alle WHERE_(Bedingung) parallel verwendet werden; siehe auch die GROUP_BY_v1 Erklärungen zu den einzelnen Befehlen; HAVING_kng(Bedingung) HAVING wird mit Kenngrößen (kng) verORDER_BY_vname; wendet QUIT; PROC_SQL_feedback; SELECT_v1,_v2 FROM_tab1,_(SELECT...),_tab2 WHERE_v3>_ALL_(SELECT...) QUIT; feedback führt dazu, daß im log-Fenster ebenfalls die Syntax von verwendeten VIEW's angezeigt wird. SELECT-Routinen können geschachtelt werden und dann hinter FROM als Tabelle oder hinter WHERE als Vergleichswerte für die Bedingung verwendet werden. SUMMARY (Procedure) führt einfache beschreibende Statistiken durch und kann diese in Datei ausgeben; es können noch mehr statistische Kennzahlen ausgegeben werden (z.B. Kurtosis, Skewness, Konfidenzgrenzen, Prob. für Student.-T-Vtlg., etc), als unten angegeben. PROC_SUMMARY_data=dname; CLASS_v1; ermöglicht nach v1 zu gruppieren; VAR_v2; für v2 werden die Kennzahlen bestimmt. BY_v3; ermöglicht nach v3 zu gruppieren. FREQ_v6; ????? ID_v4_v5; ermöglicht zusätzliche Variablen in die Output-Datei zu schreiben. OUTPUT_out=dneu _n=Anzahl (ohne missings) _nmiss=mAnzahl Anzahl missings. _sum=Summe _mean=Mittelwert _std=Standardabweichung _var=Varianz _min=Minimum _max=Maximum _range=Range; RUN; STR (Macro) definiert einen festen, konstanten Text (String), der an der betreffenden Stelle des Makroaufrufes ausgegeben werden soll; so können z.B. Variablennamen per Globalvariable eingesetzt werden (siehe Beispiel 9). %LET_v1=%STR_(Text); beim Aufruf von &v1 wird dann Text eingefügt. %LET_v1=%STR_(*); beim Aufruf von &v1 wird ein * ingefügt; eignet sich zum Auskommentieren von Programmzeilen. SYMBOLa hiermit können Zusatzoptionen für die grafische Ausgabe der a-ten Kurve definiert werden; es muß aber als erstes die Farbe (c) definiert werden. SYMBOLa_c=colour Legt die Farbe fest. v=dot Werte werden als Punkte dargestellt. i=.....; legt Interpolationform fest; i=join verbindet die Punkte nur; bei i=rl wird eine lineare, bei i=rq eine quadratische, bei i=rc kubische Regressionsanalyse durchgeführt: die zugehörige Geradengleichung wird im Log-Fenster ausgegeben; zusätzlich können cl für Konfidenzgrenzen, m für mean angegeben werden; i=box, i=boxt für Boxplots (wird dann mit PLOT ausgeführt). SYMBOLa_i=r... führt Regression durch, aber nur für die Punkte, die in dem durch die Achsen begrenzten Wertebe-reich liegen; ..l = lineare; ...q = quadratische; ...c = kubische; ..._0 = Regressionskurve geht durch den Ursprung; ..._clm = 95%Konfidenzintervall (KI); ..._clizahl = KI für Einzelwerte mit zahl zwischen 50 und 99 %. _i=join verbindet aufeinanderfolgende Punkte durch eine Gerade _i=spline legt eine Kurve durch alle Punkte. _i=splines wie spline, ordnet die Werte aber vor dem Plotten nach der unabhängigen Variable. _i=splinep; spezifiziert eine parametrische Spline-Methode SYMPUT siehe CALL SYPUT; TABLE erzeugt Tabellen in PROC TABULATE; es sind drei Gliederungsebenen (jeweils durch Komma getrennt) möglich: Tabellen Zeilen, Spalten; es werden immer Angaben zu Zeilen und Spalten erwartet; die Differenzierung in verschiedenen Tabellen (v0: siehe unten) ist optional; die Ausgabenreihenfolge der einzelnen Gliederungsstufen ist aufsteigend numerisch oder alphabetisch sortiert (. für numerische und " " für string-Variablen gelten als kleinstes Zeichen; durch Anzahl der Leerzeichen am Anfang eines Strings kann also die Ausgabenreihenfolge beeinflußt werden!!). Es gibt spezifische Funktionen innnerhalb des TABLE-Statements: ALL erzeugt eine Zeile/Spalte 'gesamt' auf der jeweiligen Hierarchieebene n bewirkt die Ausgabe von Anzahlen pctn< > gibt Prozentzahlen aus, wobei zwischen < > definiert wird, über was prozentuiert wird (z.B. bei Spaltenprozenten, welche Zeilen zusammengefaßt werden sollen) TABLE_v0 verschiedene Tabellen differenziert nach v0 ,_ v1*v2 Strukturierung der Zeilen. ,_ v3 Strukturierung der Spalten. _/_rts=a legt die Breite der 1. Spalte fest. _indent=b die Gruppierungshierarchie der Zeilen wird durch Einrücken um b Zeichen und innerhalb einer Spalte dargestellt. _box="text" Definition des Textes für Tabellenzelle links oben. _condense; bewirkt, daß möglichst viele komplette Tabellen auf eine Seite kommen. TABLE_v1*v2_ALL=‘Summe‘, v3*v4*(n_pctn<v1*v2_ALL>)*f=6.2; TABLE (SQL-Befehl) erzeugt Tabellen (abgespeichert) und definiert deren Aufbau bzw. die Attribute der einzelnen Spalten (Attribute: siehe Skript S.22). CREATE_TABLE_tname_(sp1_Attribut_LABEL=sp1name, sp2_Attribut_INFORMAT=def1_FORMAT=def2); definiert eine neue Tabelle (ohne jegliche Einträge); Attribut definiert Text-, Zahlen- und Datumfelder (Anzahl Stellen, Nachkommastellen, (Grammatik)); nach INFORMAT= kann eine Eingabemaske, nach FORMAT= ein Ausgabeformat definiert werden, die sich voneinander unterscheiden können; mit LABEL kann eine von sp1 abweichende Spaltenüberschrift für die Ausgabe angegeben werden. CREATE_TABLE_dname_AS_ erzeugt SAS-Dataset und speichert dieses unter dname; (anschließend an diese Zeile kommt die normale Befehlsfolge mit SELECT, ....) ALTER_TABLE_tab1_MODIFY_sp1_Attribut; modifiziert ein Attribut der Spalte sp1 ALTER_TABLE_tab1_ADD_spneu_Attribut; fügt zu einer bestehenden Tabelle die Spalte spneu hinzu. ALTER_TABLE_tab1_DROP_sp1; löscht die Spalte sp1 aus der bestehenden Tabelle tab1. TABLES erzeugt Tabellen, auch Häufigkeitstabellen; in PROC FREQ; TABLES_vname_ /out=dname; erzeugt Häufigkeitstabelle zu den Klassen in vname (wie nominal skaliert); Ergebnis kann als SAS-Data-Set abgespeichert werden. TABLES_vzeile*vspalte; erzeugt Tabelle; vertikale Klassen (bzw. Zeilenbezeichnungen) stehen in vzeile, horizontale Klassen (bzw.Spaltenüberschriften) in vspalte; berechnet Randsummen; Variable mit Häufigkeitswerten wird mit WEIGHT angegeben. TABLES_vz*vs_/_expected _deviation _cellchi2 _chisq _nocol _norow _nopercent _nocum _nofreq _list _missprint _missing _measures; _cmh _trend _exact _agree _relrisk schreibt in die Zellen (bei gegebenen Randhäufigkeiten) die bei Unabhängigkeit von vz und vs erwarteten Häufigkeiten. Differenz zwischen beobachteter und erwarteter Häufigkeit. berechnet das Zellen-Chi². berechnet den Chi²-Test auf Unabhängigkeit, Likelihood Chi²-Teststatistik, Mantel-HaenszelChi²-Teststatistik, Fisher's Exakten Test. keine prozentualen Häufigkeiten für Spalten. keine prozentualen Häufigkeiten für Zeilen. keine prozentualen Häufigkeiten für Zellen. keine kumulierten absoluten und relativen Häufigkeiten in eindimensionalen Häufigkeitstabellen. keine absoluten Häufigkeiten in zweidimensionalen Kontingenztafeln. druckt die Kontingenztafel im Listenformat fehlende Werte werden in der Kontingenztafel mit '.' aufgeführt; bei der Berechnung aller Prozentangaben gehen sie nicht mit ein. wie missprint aber zusätzlich werden fehlende Werte bei Berechnung aller Prozentangaben mit einbezogen. liefert verschiedene Assoziationsmaße 1.) ruft Mantel-Haenszel-Chi²-Test als „Nonzero Correlation“ in Tabelle Cochran-Mantel-Haenszel Statistics 2.) ruft Cochran-Mantel-Haenszel-Teststatistik auf als „Row Mean Score Differ“ in Tabelle Cochran-Mantel-Haenszel Statistics; ordinales Merkmal (muß) über die Spalten der Kontingenztafel differenziert werden; im MODEL-Statement: vspalte. 3.) ruft für Spezialfall 3-dimensionale Kontingenztafel Mantel-Haenszel-Methodik auf, um mehrere Chi²-Teststatistiken von 2-dimensionalen KT zusammenzubetrachten (s.o.)--> Common Odds Ratio. ruft den Cochran-Armitage-Test auf ruft exakte Teststatistiken auf 1.) ruft bei Vierfeldertafeln die Mc-NemarTeststatistik und Kappa-Koeffizient 2.) ruft bei quadratischen s*s-Kontingenztafeln die Bowker-Teststatistik, 'Simple Kappa' und 'Weighted Kappa' auf. nur für Vierfeldertafel: berechnet odds ratio (OR; im Output unter 'Case Control' angegeben) und relatives Risiko (RR; getrennt für die Spalten) und deren Konfidenzintervalle; Faktoren so anordnen, daß Zeilenhäufigkeiten festgelegt sind _riskdiff _alpha=a TABLES_v1*v2*v3_/_cmh; (bei Fall-Kontroll- und Kohorten-Studien jeweils andersherum); SAS betrachtet die Tafel so, als ob die Exponierten in der ersten Zeile stehen! nur für 2x2-Tafel; bestimmt relative Risiken (oder binomiale Anteile) für Spalte 1 und 2, Differenz der Risiken und ihre Konfidenzgrenzen (die KI-grenzen der Differenz können als einseitiger Test bei Vorgabe eines anteiligen, in % angegebenen Grenzwertes für die Abweichung verwendet werden; Gruppen auf die Zeilen verteilt). für die KI bei relrisk kann die KI-Größe ((1-a) *100%) vorgegeben werden. führt Chi²-Tests für v2 und v3 durch und kontrolliert dabei für verschiedenen Werte von v1. TABULATE (Procedure) erzeugt Tabellen mit absoluten und relativen Anzahlen zu verschiedenen Kombinationen kategorialer Merkmale; hierarchisch verknüpfte Variablen werden im TABLE-Statement mit einem * verknüpft: jede Kategorie der übergeordneten Vaiable wird dann nochmals in die Kategorien der untergeordneten aufgeteilt; nicht-hierarchisch verknüpfte Variablen/Zeilen/Spalten werden durch ein Leerzeichen getrennt; mit ...=‘name‘ werden Bezeichnungen für die Spalten/Zeilen vergeben; mit f=... werden Formate zugeteilt PROC_TABULATE_data=dname _missing missings werden mit einbezogen. _format=a.b; legt Format der Einträge und Breite der 2. bis nten Spalte fest. CLASS_v1_v2_v3_v4; Klassifizierungsvariablen. TABLE_v1*v2 Æ hierarchische Zeilenaufteilung: für jede Kategorie von v1 gibt es die Unterteilung zu den Werten von v2. ,_ Komma trennt die Strukturanweisungen für Zeilen und Spalten v3*v4; Æ hierarchische Spaltenenaufteilung: für jede Kategorie von v3 gibt es die Unterteilung zu den Werten von v4. RUN; PROC_TABULATE_data=dname; CLASS_v1_v2_v3_v4; TABLE_v1*v2_ALL=‘Summe‘ ,_ v3*v4 *(n_pctn<v1*v2>=‘%‘)*f=a.b; es werden je v3*v4-Kategorie eine Spalte für n und eine für % ausgegeben; zwischen den <> wird angegeben, über welche Zeilen vertikal, bzw. über welche Spalten horizontal prozentuiert wird. RUN; TITLE ermöglicht die Eingabe von Titelzeilen für die Ausgabe im Out-Fenster; der Text muß in Hochkommas gesetzt werden; nur wenn der Text in doppelten Hochkommas steht, werden im Text angegebene Global-/Makrovariablen durch die entsprechenden Werte ersetzt. TITLEa_'Text'; Text steht als a-te Titelzeile im Output TITLE_"Der Startwert ist seed=&vg"; & kennzeichnet Global-/Makrovariable TITLE_"#byval1 Text"; #byval1 liest den aktuellen Wert einer im BY-Statement bearbeiteten Variable ein. TRANSPOSE (Procedure) transponiert SAS-Datasets; mit BY lassen sich hierarchisch aufgebaute Tabellen umstrukturieren (siehe Beispiel 8: in SAS ablaufen lassen und zugehörigen Output ansehen!). PROC_TRANSPOSE_data=dalt _out=dneu; VAR_v3_v4_v5; gibt an, welche Spalten transponiert werden BY_v1_v2; v1 und v2 werden als Klassifizierungsvariablen beibehalten; (siehe Beispiel 8). ID_v4; gibt an, aus welcher Spalte alt die Bezeichnungen für die neuen Spalten genommen werden sollen. RUN; TREE (Procedure) zeichnet Dendogramme; mit der Procedure CLUSTER wird zunächst eine Clusteranalyse durchgeführt und die entsprechende Grafikinformationen für ein Dendogramm mit der Option "outtree" in eine neue Datei ausgegeben; diese Datei wird dann in PROC TREE eingelesen (=dname) und damit das Dendogramm erzeugt. PROC_TREE_data=dname dname wurde in PROC CLUSTER mit der Option outtree erzeugt. _graphics zeichnet das Dendogramm; ohne wird Pixelgrafik erzeugt. _horizontal horizontales Dendogramm. _spaces=b erzeugt b Leerzeichen zwischen den einzelnen Objekten im Ausdruck. _out=dhneu für jede Beobachtung wird hier die Clusterzugehörigkeit mit ausgegeben (Option level oder ncluster muß angegeben werden). _nclusters=a das Dendogramm soll in a Cluster zerlegt werden. _level=b; legt das Ähnlichkeitslevel b (bezieht sich vom Wert auf die vertikale Dendogrammachse) fest, ab dem eine Unterteilung in getrennte Cluster erfolgen soll. NAME_v1; v1 benennt/identifiziert die einzelnen Beobachtungen (kann fehlen). COPY_v5_v6; v5, v6 werden mitgeführt (z.B. bei out). RUN; TTEST (Procedure) führt einen Zweistichproben T-Test auf Gleichheit der Mittelwerte durch; zusätzlich ein F-Test auf Varianzgleichheit (Varianzquotiententest) sowie einen Welch-Test auf Gleichheit der Mittelwerte, dessen Teststatistik bei Ungleichheit der Varianzen verwendet werden kann; die Daten beider Stichproben müssen in einer Variable (in einer Spalte) untereinander stehen; PROC_TTEST_data=dname; CLASS vklass; nach vklass werden die Werte der zwei StichVAR vname; proben unterschieden RUN; UNION (SQL-Befehl) gibt die Zeilen verschiedener Tabellen untereinander aus; es können (beliebig) viele Tabellen in dieser Form verknüpft werden. Achtung: Fehler traten bei einer UNION-„Kette“ auf, wo die einzelnen SELECTAbfragen noch Funktionen (Æ count...), GROUP BY enthielten und jeweils die gleichen Variablen erzeugten; die SELECT-Abfragen einzeln ergaben zusammen mehr Datensätze als in der mit UNION zusammengesetzten Datei (siehe Beispiel 7). SELECT_*_FROM_t1_ setzt die 1.Spalte aus t2 unter die 1.Spalte von t1; UNION_ dabei werden primär die Spaltenbez. von t1 überSELECT_*_FROM_t2; nommen; fehlende Einträge werden durch missing values aufgefüllt. SELECT_*_FROM_t1_ hier werden nur die Spalten von t1 und t2 untereinUNION_CORR_ ander gesetzt, deren Bezeichnungen in t1 und t2 SELECT_*_FROM_t2; übereinstimmen; die übrigen Spalten werden nicht ausgegeben. SELECT_*_FROM_t1_ hier werden nur die Spalten von t1 und t2 untereinOUTER_UNION_ ander und hintereinander gesetzt; es erfolgt keine SELECT_*_FROM_t2; Zusammenführung von Spalten; fehlende Einträge werden durch missing values aufgefüllt. SELECT_*_FROM_t1_ wie oben, aber gleichlautende Spalten von t1 und t2 OUTER_UNION_CORR_ werden zusammengeführt; fehlende Einträge werden SELECT_*_FROM_t2; durch missing values aufgefüllt. UNIQUE (SQL-Befehl) siehe INDEX. UNIVARIATE (Procedure) berechnet deskriptive Statistiken für univariate Stichproben. S.42; S.62. berechnet auch Einstichproben T-Test für H0:µ=0 (für andere Mittelwerte muß dieser vor dem Test von den Daten abgezogen werden); berechnet Test auf Normalverteilung (mit beliebigem µ und sigma²), bei n<=2000 Shapiro-Wilk-Test (Testgröße W: Normalverteilngsannahme beibehalten, wenn Pr<W größer als 0.1 ist), bei n>2000 KolmogorovSmirnov-Test (Testgröße D); PROC_UNIVARIATE_data=dname_normal_normal_plot; die Option normal führt einen Test auf Normalverteilung für die unter VAR definierte Variable durch; die Option normal plot erzeugt Stem-Leaf- Diagramm, Boxplot, NormalProbability-Plot; BY_vclass; mit BY_vclass kann die Berechnung der VAR_vname; statistischen Kennzahlen getrennt für die verschiedenen Klassen von vname durchgeführt werden; OUTPUT_out=dneu mit OUTPUT kann die Ausgabe in eine _ n=anzahl Datei (out=...) erzeugt, die Anzahl der Kenn- _min=minimum zahlen begrenzt und deren Bezeichnung _mean=mittelwert festgelegt werden. _max=maximum _var=varianz _median=median _mode=modalwert _pctlpts=a a-tes Percentil (a in %, zwischen 1 und 100). ....=a_TO_b_BY_c gibt mit Schrittweite c die Percentile von a bis b aus. _pctlpre=text; text wird als Präfix im Variablennamen für die Percentile verwendet. RUN; UPDATE (SQL-Befehl) verändert die Werte einzelner Spalten in einer bestehenden Tabelle; mit CASE kann die veränderung differenziert und an Bedingungen geknüpft werden UPDATE_tname_SET_v1=v1+a; USE siehe IML (Procedure) VALIDATE (SQL-Befehl) ermöglicht innerhalb der PROC SQL die Überprüfung der Syntax von SQL-Befehlen, ohne daß diese ausgeführt werden. VALIDATE_SELECT_....._FROM_...: VALUE definiert Wert- bzw. String-Zuweisungen (im Austausch) unter einem FormatNamen (Formatnamen dürfen nicht mit Zahlen enden); dies Format kann dann mit diesem Namen Variablen zugewiesen werden (siehe Statement FORMAT); wird in PROC FORMAT verwendet; Variablenwerte, die in der VALUE-Zeile nicht berücksichtigt werden, werden unverändert ausgegeben. VALUE_fname1_wert1='string1' Format für numerische einzelne Werte. _wert2='string2'; VALUE_&fname_text1='string1' Format für alphanumerische einzelne strings; _text2='string2'; die Länge von string bestimmt später das Ausgabeformat für die Textvariable. VALUE_fn_wert1,_wert2,_wert3='string1'; Liste von Werten. VALUE_fn_wert1-wert2='string1'; Bereich von Werten (Bereiche dürfen sich nicht überschneiden !!). VALUE_fn_wert1<-wert2='text'; Bereich ohne den Grenzwert wert1. VALUE_fn_LOW-wert1='klein' der Bereich reicht vom kleinsten vorhandenen Wert (ohne missing !!) bis wert1. _wert1='string1' _OTHER='string2' betrifft alle sonst nicht berücksichtigten Werte (auch missings !!). _wert3-HIGH='groß'; der Bereich reicht von wert3 bis zum größten vorhandenen Wert. VIEW (SQL-Befehl) erzeugt virtuelle Tabellen, die nicht mit ihren Werten abgespeichert wird, wohl aber die Anweisung zur Erstellung dieser Tabelle (Dateikennung: *.sv2); diese virtuelle Tabelle wird in späteren SQL-Sitzungen durch Aufruf der Datei *.sv2 (ganz normal als Tabelle mit FROM libname.viewname ansprechen) neu erzeugt und verwendet. CREATE_VIEW_viewname_AS_Abfrage Abfrage entspricht einem SELECT-Befehl WEIGHT kann die Variable mit den Werten für die einzelnen Zellen einer Tabelle festlegen; in PROC FREQ; ermöglicht die Erstellung von Kontingenztafeln mit absoluten Häufigkeiten als Rohdaten. WEIGHT_vname; vname enthält die absoluten Häufigkeiten. WHERE ermöglicht beim zeilenweisen Abarbeiten einer Datendatei Beschränkungen auf nur bestimmte Zeilen (Datensätze); wenn die Bedingung war ist, wird der Datensatz verwendet. WHERE_v1=wert_OR_v2='strin1'; WHERE (SQL-Befehl) hiermit können zeilenweise Daten ausgewählt werden, die eine bestimmte Bedingung erfüllen (siehe auch HAVING); diese Restriktion gilt auch für alle weiteren Befehle der selben SELECT-Routine; kann sich aber nur auf Variablen beziehen, die in den unter FROM bestimmten Tabellen bereits vorhanden sind, nicht die, die mit AS neu definiert wurden. WHERE_(Bedingung) Bedingung enthält logische/mathematische Verknüpfungen von Variablen und Berechnungen; WHERE_d1.v1=d2.v2 um Datensätze aus verschiedenen Dateien (d1, d2) gezielt miteinander zu verknüpfen, müssen hier die beiden Schlüsselvariablen (v1, v2) definiert werden WHERE_v1<_ALL_(SELECT....) (siehe ALL und SELECT) WHERE_v1_IN_(a,_b) WHERE_v1_BETWEEN_a_AND_b Allgemeine Optionen: NOPRINT unterbindet den zu einer Procedure gehörenden Output in Output-Fenster; wird in der PROC-Zeile verwendet. PROC_UNIVARIATE_data=dname_NOPRINT; NOSORT unterbindet Sortierung in der Ausgabe Mathematische Funktionen und Operatoren: Achtung: sollte bei einer mit Operatoren (+, -, *, /) erstellten Berechnungs-Formel einer der angesprochenen Terme/Variablen ein missing haben, so wird auch das Gesamtergebnis der Formel auf missing gesetzt! + - Addition Subtraktion * / Multiplikation Division log(a) 1Ea berechnet den natürlichen Logarithmus von a Faktor: 10a (Anzahl der Nullen = a); z.B.: 345 * 1E4 = 345E4 = 3450000. Logische Operatoren: AND, & OR AND NOT EQ, = ^= < > <= >= Sonstige Operatoren: || Aneinanderhängen von Zeichenketten. Funktionen (operieren in SAS nur !! zeilenweise, datensatzweise; in SQL anders): (Siehe auch Æ SAS System Help: Main Menu Æ SAS Language Æ SAS Functions Æ Function Categories _N_ liest die Beobachtungsnummer (Zeilennummer, OBS) in eine Variable ein vname=_N_; _LAST_ zeigt auf die zuletzt mit einem DATA-Step erzeugte Datei PROC_...._data=_LAST_; arcos arcuscosinus, Umkehrfunktion der Cosinusfunktion var=arcos(wert); arsin arcussinus, Umkehrfunktion der Sinusfunktion var=arsin(wert); atan arcustangens, Umkehrfunktion der Tangensfunktion avg (SQL-Befehl) gibt den Mittelwert zurück; avg(var1)_AS_mittel cdf (siehe auch pdf) gibt Werte von Verteilungsfunktionen zurück; kann für verschiedene Verteilungen verwendet werden; var = cdf('Verteilungstyp',<parameter1>,<parameter2>,<…>); var = cdf('normal'); var = cdf('binomial',a,p,n); a=Anzahl Erfolge, p=Erfolgswahrscheinlichkeit, n=Anzahl Versuche ceil kleinster ganzzahliger Wert >= Argument (a) vname_=_ceil_(a); cinv(a,b) gibt Werte zum a Quantil für die Chi²-Verteilung mit b Freiheitsgraden aus; kann zur Berechnung des kritischen Werts für Chi²-Test verwendet werden. vname=cinv(a,b); compbl entfernt doppelte blanks aus einem string (z.B. wenn die Ziffern einer Zahl bündig an einen Text angehängt werden sollen. vneu=compbl(vstring); vneu=left('text'||compbl(vzahl)); cos var=cos(wert); dim gibt die Anzahl der Variablen eines Variablenarrays zurück. vanz=dim(varray); exp exponiert zur Basis e vname=exp(a); a kann Zahl oder numerische Variable sein. finv(a,b) gibt Werte zum a Quantil für die F-Verteilung mit b bzw. c Freiheitsgraden aus; kann zur Berechnung des kritischen Werts für F-Test verwendet werden. vname=finv(a,b,c); floor größter ganzzahliger Wert <= Argument (a) vname_=_floor_(a); input 3.) zur Konvertierung von Text-Zahlen in numerische Zahlen v1=input(trim(left(textzahl)),a.b); wandelt eine String-Zahl in eine numerische Zahl um. lag wird in DATA-Steps verwendet; behält bzw. listet Werte vorheriger Schleifendurchläufe des DATA-Steps; var2=laga(var1); die Funktion übergibt an var2 bis einschließlich zum a-ten Schleifendurchlauf missing value; in den folgenden Schleifen s (mit s>=a+1) wird der Wert des Schleifendurchlaufs s-a an var2 übergeben. left setzt den String linksbündig. vneu=left(valt); (siehe auch right, center). left (SQL-Funktion) log bildet den Logarithmus zur Basis e. loga bildet den Logarithmus zur Basis a, wobei irgendeine ganze Zahl ist. max gibt aus einer Auswahl von Werten den größten an (Maximum) (Syntax siehe MIN) mdy gibt einen SAS-Datums-Wert zurück, der mit den numerischen Variablen v_monat, v_tag und v_jahr vorgegeben wird; Achtung: die Jahresangabe in v_jahr kann zweistellig (ohne 19-hundert) oder vierstellig angegeben werden (auch gemischt); aber bei Jahr-2000-Übergängen erfolgt die Umsetzung ins SAS-Datum nur dann korrekt, wenn vierstellig angegeben wird v_datum=mdy(v_monat,_v_tag,_v_jahr); mean bildet den arithmietischen Mittelwert einer Gruppe von Variablen(werten) (Syntax siehe MIN) min gibt aus einer Auswahl von Werten den kleinsten an (Minimum) Syntax und zugehörige Erklärungen gelten sinngemäß auch für andere Funktionen! hier wird das Funktionsergebnis auch dann gebildet, wenn eine der Variablen leer (missing value) ist; das Funktionsergebnis wird immer nur zeilenweise gebildet (anders bei SQL-Funktionen). vname_=_min_(v1, _v2, _v3); mit einer Liste von Variablen(werten). vname_=_min_(OF_va-vb); mit einem (Variablen)array: dann muß OF verwendet werden. mod Modulo-Funktion; gibt den Rest zurück, der beim Teilen einer Zahl durch eine andere übrig bleibt. vneu=mod(zahl1,_zahl2); ergibt den Rest bei Teilung von zahl1 durch zahl2. vneu=mod(v1,_1); ergibt die Nachkommastellen von v1. n gibt die Anzahl der "nicht-missing"-Einträge aus einer Liste von Variablen zurück; var=n(v1,_v2,_v3); möglicher Wertebereich für var: 0<=var<=3. %nrquote (Macro quoting function) the %NRQUOTE function (see also %QUOTE) masks a character string during compilation of a macro or macro language statement. Additional to those mentioned for %QUOTE it also masks: & % %nrstr (Macro quoting function) the %NRSTR function (see also %STR) masks a character string during compilation of a macro or macro language statement. Additional to those mentioned for %STR it also masks: & % Eingebundene Makrovariabeln, die bei Ausführung des Strings umgesetzt werden sollen, müssen in die Funktion RESOLVE(‘&makrovar.‘) oder SYMGET(‘makrovar‘) eingebunden werden: ACHTUNG, wenn diese Makrovariabeln wiederum Variabelnamen als Wert entahlten, so werden diese nicht als solche erkannt und nicht umgegesetzt sondern sie werden wie Text behandelt. pdf (siehe auch cdf) gibt Werte von Dichtefunktionen zurück; kann für verschiedene Verteilungen verwendet werden; poisson Verteilungsfunktion der Poisson-Verteilung mit den Parametern lambda. f_=_poisson_(lambda,x); entspricht probnorm probbnml Verteilungsfunktion der Binomialverteilung X~B(n,p) f_=_probbnml_(p,n,x) entspricht probnorm probchi Verteilungsfunktion der Chi²-Verteilung mit FG Freiheitsgraden f_=_probchi_(x,FG); entspricht probnorm probit gibt Quantile der Standard-Normalverteilung aus; x=probit_(a) gibt das (a*100)%-Quantil an x zurück; mit a zwischen 0 und 1. probnorm Verteilungsfunktion der Standardnormalverteilung f_=_probnorm_(x); übergibt an f die Wahrscheinlichkeit, daß eine standardnormalverteilte ZV einen Wert kleiner gleich x annimmt. probt put %quote Verteilungsfunktion der t-Verteilung mit FG Freiheitsgraden f_=_probt_(x,FG); entspricht probnorm 1.) für die Zuweisung von Werten/Einträgen für (String)Variablen bei gleichzeitiger Formatänderung (der einzelnen Komponenten); 2.) kann zur Konstruktion von Variablennamen verwendet werden, wenn durch die Syntax eindeutig vorgegeben wird, daß es sich um einen Variablennamen handelt (z.B. ein Argument in einer Funktion) und nicht um einen Variableneintrag. var1=put(var2,_format.); beim Eintrag in var1 werden die Werte von var2 mit dem Format format umgesetzt. var1=put(var2,_za.0); das 'z' im Format 'za.0' (a ist eine Zahl) bewirkt, daß fehlende Zeichen durch Nullen ergänzt werden. v1="text"||put(v2,_format.); v1='text'||put(trim(left(v2)),a.b); fügt eine Zahl mit dem Format a.b als String an text linksbündig an. v1='text'||trim(left(v2)); fügt eine Zahl als String an text linksbündig an. (Macro quoting function) the %QUOTE function (see also %NRQUOTE, %STR, %NRSTR) masks a character string during compilation of a macro or macro language statement. It masks the following special characters and mnemonic operators: + - * / < > = ¬ ^ ~ ; , blank AND OR NOT EQ NE LE LT GE GT It also masks the following characters when they occur in pairs and when they are not matched and are marked by a preceding % : '"() RANBIN Realisierung einer binomialverteilten Zufallsvariable vname_=_RANBIN_ (seed,n,p); seed ist ein notwendiger Startwert für die Zufallszahlenreihe; bei seed=0 übernimmt SAS die Systemzeit; n entspricht der Anzahl der betrachteten Bernoulli-Experimente; p gibt die Erfolgswahrscheinlichkeit für das einzelne Bernoulli-Experiment an. RANEXP Realisierung einer exponentialverteilten Zufallsvariable mit λ=1 vname_=_RANEXP_ (seed) seed ist ein notwendiger Startwert für die Zufallszahlenreihe; bei seed=0 übernimmt SAS die Systemzeit. RANNOR Realisierung einer standardnormalverteilten Zufallsvariable mit N(0,1) vname_=_RANNOR_ (seed); seed: siehe RANEXP RANPOI Realisierung einer poissonverteilten Zufallsvariable mit dem Parameter λ vname_=_RANPOI_ (seed, _lambda); seed: siehe RANEXP RANUNI Realisierung einer gleichmäßig verteilten Zufallsvariable zwischen [0,1] vname_=_RANUNI_(seed); seed: siehe RANEXP repeat setzt einen Text mehrfach in einen String ein; string=repeat("text",_a); text wird a-mal hntereinander in string eingefügt. DO_i=1_TO_b; string=repeat("text",_i); END; round Rundung des Arguments (a) vname_=_round_(a); sin var=sin(wert); sqrt Quadratwurzel var=sqrt(wert); %str (Macro quoting function) the %STR function (see also %NRSTR) masks a character string during compilation of a macro or macro language statement. Funktioniert wie %QUOTE: weitere Erklärungen siehe dort. Zu maskierende Makrovariabeln können in die Funktion SYMGET(‘...‘) eingebunden werden; hier entfällt das & für den Makrovariabelnamen. CAUTION: Do not use %STR to enclose other macro functions or macro invocations that have a list of parameter values. Because %STR masks parentheses without a match, the macro processor does not recognize the arguments of a function or the parameter values of a macro invocation. substr gibt einen substring (= Teilstring) einer Zeichenkette zurück. vneu=substr(valt,_a,_b); an vneu wird ein substring von valt übergeben, der beim a-ten Zeichen von valt beginnt und b Zeichen lang ist. substr (SQL-Funktion) gibt einen substring (= Teilstring) einer Zeichenkette zurück. SELECT_substr(v1,_a,_b) der substring beginnt beim a-ten Zeichen von v1 und ist b Zeichen lang. sum bildet die Summe aus einer Gruppe von Variablen(werten): zeilenweise ! (Syntax siehe MIN) sum (SQL-Funktion) bildet Summen spaltenweise, wenn das Argument nur aus einer Variable besteht, wenn mehrere Variablen aufgelistet werden, wird nur zeilenweise addiert; das Funktionsergebnis ignoriert bei der Addition missings. SELECT_sum(Argument)_AS_vneu SELECT_sum(var)_AS_vneu spaltenweise für var. SELECT_sum(v1, v2, v3)_AS_vneu zeilenweise über v1, v2, v3. symget übergibt den aktuellen Wert einer Makrovariable var=symget ( ‘macrovarname‘ ); %LET_mvar2=%str(symget(‘mvar1‘)); mit dieser Konstruktion wird verhindert, dass die Makrovariable mvar1 bereits in dieser Zeile durch einen ihr zugewiesenen Wert ersetzt wird. (siehe auch Beispiel 11) tan tangens, Tangensfunktion tinv(a,b) gibt Werte zum a Quantil für die Student-T-Verteilung mit b Freiheitsgraden aus; kann zur Berechnung des kritischen Werts für T-Test verwendet werden. vname=tinv(a,b); trim ermöglicht die Ausrichtung eines Wertes/Eintrags zu ändern??? (siehe auch put) upcase Abfrage; Ergebnis-Variable wird wahr (gibt eine 1 aus), wenn in Variable v2 der mit 'Eintrag' speziefierte Wert auftaucht. v1=upcase(v2)='Eintrag'; year gibt aus einer SAS-Datums-Angabe dasJahr zurück. vjahr=year(vdatum); Sachregister: Adjustierung bei multiplen paarweisen Tests Einstellung der Fehlerwahrscheinlichkeit auf α=0.05 für das gesamte Experiment. array diese Form der Angabe ist bei Variablen mit Zählindex möglich: also v1,_v2,_v3,_v4 (Listenform) ist gleichbedeutend mit v1-v4 (array-Form); mit arrays kann eine Auswertung in Zeilen (Datenzeilen) erreicht werden (siehe SAS-Functions). Assoziationskoeffizient (nach Yule) für Vierfeldertafel; beschreibt, ob eine Konzentrierung der Beobachtungen auf der 1. oder der 2. Diagonale oder eine Gleichverteilung vorliegt. balanciert balancierte Daten: alle Stichproben (oder Klassen oder Faktorstufenkombinationen) enthalten die gleiche Anzahl von Beobachtungen; in SAS werden Teststatistiken unter TYPE I ausgegeben; (bei ungleicher Anzahl werden die Daten unbalanciert genannt; in SAS Ausgabe unter TYPE III) Bestimmtheitsmaß (= R²); Gütemaß bei Regressionsanalysen; gibt an, welcher Anteil der Gesamtstreuung (SST) durch das Regressionsmodell erklärt wird; Wertebereich zwischen 0 und 1; bei einer einfachen linearen Regression ist R² die quadrierte Korrelation rxyzwischen x un y: R² = rxy² = SSM/SST; siehe auch Streuungszerlegung; Bindungen (= ties) bei Überlebenszeitanalysen; wenn zu einem Zeitpunkt mehr als ein Ereignis (= Todesfall) eintritt; muß in PROC PHREG auch bei Analyse gematchter Fall-Kontroll-Studien berücksichtigt werden (Bindungen treten dort dann auf, wenn mehr als ein Fall = Ereignis in einer gematchten Gruppe = Stratum vorliegt: Matching-Verhältnis m : n); Bowker-Teststatistik:( bei quadratischen s*s-Kontingenztafeln) testet auf Symmetrie (der absoluten Häufigkeiten) zur Hauptdiagonalen in der Kontingenztafel; überprüft, ob sich zwei abhängige Stichproben hinsichtlich der Verteilung einer nominalen (ordinal geht auch) Zielgröße unterscheiden. (Verallgemeinerung des Mc-Nemar-Tests); dabei werden die tatsächlichen Übereinstimmungen (die auf der Hauptdiagonalen liegen) nicht berücksichtigt, es wird also quasi auf Symmetrie (Gleichheit) der Abweichungungen von den Übereinstimmungen getestet; dieser Test macht z.B. dann Sinn, wenn zwei abhängige Stichproben miteinander verglichen werden sollen H0: 'es liegt Symmetrie zur Hauptdiagonalen vor' Boxplots (=Box and Whisker Plots) können mit SYMBOL_i=box und PLOT in PROC GPLOT erzeugt werden. Bravais-Pearson -> Maßkorrelation Chi²-Anpassungs-Test prüft auf Vorliegen einer bestimmten Verteilung (vollständig spezifiziert) oder einer Verteilungsfamilie (Verteilungstyp; unvollständig spezifiziert); bildet Differenzen zwischen theoretischer (bei gegebenen Randhäufigkeiten) und empirischer Häufigkeitsverteilung; bei metrischen Daten muß entsprechend klassiert werden; bei unvollständig spezifizierten Hypothesen werden zunächst die Parameter der (theoretischen) Verteilung geschätzt (--> andere Freiheitsgerade beachten) und dann die theoretischen Häufigkeiten bestimmt. Chigramm graphische Darstellung der nichtquadrierten Abweichungen zwischen empirischen und bei Unabhängigkeit der Merkmale erwarteten Zellbesetzungen (= Zell-Chi-Werte); aufgetragen gegen die Klassennummern. Chi²-Unabhängigkeits-Test in SAS: kann in PROC FREQ mit TABLES_v1*v2_/_chisq; aufgerufen werden; wenn die Erwartungswerte für die einzelnen Zellen (der Häufigkeitstabelle, der Kontingenztafel) kleiner/gleich 5 sind, ist dieser Test so nicht geeignet und es muß ein exakter Test mit der zusätzlichen Option _exact aufgerufen werden; das Ergebnis steht im Output unter „Fisher’s Exact Test“, wobei unter „left“ und „right“ Überschreitungswahrscheinlichkeiten für die entsprechenden einseitigen Tests, unter „2-tail“ die für den zweiseitigen Test (diesen verwenden) angegeben sind; bei kleinen Häufigkeitstabellen führt SAS den exakten Test automatisch durch. Cochran-Armitage-Test: dieser ist nur für 2*s-Tafeln definiert (dichotome und ordinale Variable); Frage nach einem gerichteten Zusammenhang (Trend); (SAS: -> TREND-Option in PROC FREQ mit TABLES-Statement; r*2-Tafeln werden auch korrekt bearbeitet) H0 'Gleichheit aller Spaltenprozente' bzw. 'es liegt kein Trend (Zunahme oder Abnahme der relativen Häufigkeiten über die Spalten) innerhalb einer Zeile vor' ; (p11/p•1=p12/p•2=....=p1s/p•s) gegen H1 'Monoton ansteigende oder fallende Spaltenprozente'; (p11/p•1>p12/p•2>....>p1s/p•s) oder (p11/p•1<p12/p•2<....<p1s/p•s) Cochran-Mantel-Haenszel-Test: testet auf Zusammenhang zwischen zwei Merkmalen, wobei ein Merkmal ordinal (muß über die Spalten der Kontinggenztafel differenziert werden; im MODEL-Statement: vspalte) und eins nominal (muß über die Zeilen differenziert werden; vzeile) skaliert sein muß. H0: 'k Zeilen haben alle die gleichen mittleren scores' bzw. ' µ1=µ2=...=µk' gegen H1 'mindestens für zwei µ (i,j) gilt µi ungleich µj' Common Odds Ratio wird mit der Cochran-Mantel-Haenszel-Methode für dreidimensionale, 2 x 2 x k - Kontingenztafeln bestimmt; dabei wird eine 2x2Tafel durch einen dritten Faktor stratifiziert; das Common Odds Ratio ist dann für diesen dritten Faktor adjustiert. Cox-Regression eine Form der Generalisierten Linearn Modellle; wird z.B. beim Proportional-Hazard-Modell verwendet; Datum (für Formate siehe oben unter FORMAT oder auch Æ SAS System Help Æ SAS-Language Æ Formats and Informats Æ Date, Time, and Datetime Formats) (in SQL) Datum-Angaben werden in SAS/SQL als Anzahl Tage bezogen auf ein Fix-Datum festgehalten; diese Werte werden aus abweichenden Eingabeformaten, bzw. für abweichende Ausgabeformate umgerechnet; dies bedeutet, wenn Datumwerte über den zugehörigen Variablennamen mit mathematischen Operationen angesprochen werden, erfolgt die Berechnung mit der Anzahl Tage. Beispiel: In einer Tabellenspalte gebdat ist das Geburtsdatum festgehalten: es soll jetzt die Differenz in Jahren zu einem best. Datum berechnet werden, hier 1. Januar 1998. Berechnung: ('01JAN98'd-gebdat)/365=differenz (Das d rechnet die datumangabe in Anzahl Tage um) DFFITS berechnet Maß für den Einfluß des einzelnen Wertes auf das Modell; Faustregel: ist der Wert >2 bzw. >2*Wurzel(p/n) mit P=Anzahl der Parameter und n=Anzahl der Beobachtungen, dann handelt es sich um einen Ausreißer bzw. eine auffällige Abweichung. FG = Freiheitsgrade. Fishers Exakter Test für Vierfeldertafel; testet die Unabhängigkeits- (und nur bei diesem Modell gleichzeitig die Homogenitätshypothese) im hypergeometrischen Modell; wird auch für andere Modelle (multinomial, produkt-binomial) genutzt, dann stimmt die Aussage aber nicht mehrexekt; da dieser Test konservativ auf nicht vorhandene Voraussetzungen reagiert, ist bleibt die positive Signifikanzaussage zumindest gesichert. H0: Faktor A und Faktor B sind stochastisch unabhängig. Functions SAS-Functions sind durch angehängte ( ) gekennzeichnet, die die Argumente enthalten, die an die Funktion übergeben werden; das Ergebnis der Funktion wird an eine Variable übergeben; z.B. erg=MIN_(x1,_x2,_x3,_x4) Argumente als Liste erg=MIN_(OF_x1-x4) Argumente als array Globalvariable: auch als Makrovariable bezeichnet; kann im DATA-Step mit CALL SYMPUT und außerhalb eines DATA-Steps mit %LET definiert werden; Aufruf der Variablen im nachfolgenden Programm mit &.... (Beispiel: Globalvariable wurde mit %LET_vg=123 definiert; Aufruf dann in z.B. PROC PLAN seed=&vg;); wenn in einem DATA-Step der Text-Inhalt einer G.-variable an eine andere Varaible übergeben werden soll, so muß die G.-variable in doppelten Hochkommas stehen; Ohne Hochkommas wird der Text -Inhalt der G.-variable als neue(r) Variable(nnamem) verwendet; in einem Dateiaufruf für ein SAS-Dataset kann in &v1 der Dateiname + Libname enthalten sein.) Durch einfaches Anhängen einer Globalvarable können neue Variablennamen konstruiert werden. Hazard-Modell Import Daten-Import; z.B. von EXCEL siehe Beispiel 5b. Kappa-Koeffizient: (Assoziationsmaß) Maßzahl für den Grad der Übereinstimmung zwischen den beiden Einstufungen zweier (abhängiger) Stichproben einer a) dichotom, bzw. b) mit s Kategorien erhobener Zielvariablen; 0 kennzeichnet Unabhängigkeit, 1 perfekte Übereinstimmung der beiden Einstufungen (nur sinnvoll mit Betrachtung des KI für Kappa). 'Simple Kap Kolmogorov-Smirnow-Test (in SAS) Test auf Normalverteilung bei beliebigem µ und sigma²; wird in der PROC UNIVARIATE bei Stichproben vom Umfang n>2000 verwendet; im Output wird die Teststatistik D und deren Überschreitungswahrscheinlich-keit Prob>D angegeben; H0 'es liegt Normalverteilung vor'. Algemein: testet auf Vorliegen einer bestimmten Verteilung (vollständig spezifiziert; es gibt Varianten für unvollständig spezifizierte Hypothesen); dazu werden empirische und theoretische Verteilungsfunktion miteinander verglichen. Kontingenzkoeffizient (nach Pearson) für r*s - Kontingenztafeln; bei gegebenen Randhäufigkeiten ist der Koeffizient =0 bei Unabhängigkeit und =1 bei maximaler Abhängigkeit; wird über den Chi²-Wert bestimmt, kann auch mit relativen Häufigkeiten berechnet werden; die absolute Höhe des Koeffizienten hängt von der Anzahl Spalten und Zeilen abe: um verschiedene Tafeln vergleichen zu können, muß der Koeffizient korrigiert werden! Kontraste beim Vergleich von Mittelwerten; es werden lineare Kontraste betrachtet: Grundlage sind Summenbeziehungen zwischen den betrachteten Mittelwerten, wobei auf einer Seite des Gleichheitszeichens die Null steht; der Kontrast wird dann durch die Vorfaktoren der einzelnen Summanden (jeder Summand besteht aus Vorfaktor und einem Mittelwert) definiert. Korrelation "typische" Korrelation = Maßkorrelation nach Bravais-Pearson. Korrelationsanalyse untersucht, ob überhaupt ein Zusammenhang zwischen (zwei) Variablen besteht, und bestimmt die Stärke des Zusammenhangs. Kovariable Merkmal, das in einem (Quasi-)Experiment weder abhängige noch unabhängige Variable ist, sondern nur miterhoben wird, um im Nachhinein prüfen zu können, ob es einen Einfluß auf das Untersuchungsergebnis hatte. Kovarianzanalyse Verfahren zur Überprüfung der Bedeutsamkeit einer Kovariablen für eine Untersuchung. Der Einfluß dieser Variablen wird neutralisiert; hat nichts mit Kovarianzen zu tun. Kreuzvalidierung (in der PROC DISCRIM mit der Option crossvalidate; -> Diskriminanzanalyse) n-1 der Beobachtungen werden als Lernstichprobe verwendet um eine Zuordnungsvorschrift für die vorgegebenen Klassen zu bestimmen; die verbleibende Beobachtung wird dann mit dieser Vorschrift einer Klasse zugeordnet; dies wird für jede Beobachtung durchgeführt; Fehlklassifikationen werden gekennzeichnet bzw. gelistet. Kruskal-Wallis-Test Link-Funktion Logistische Regression modelliert (Erkrankungs-)Wahrscheinlichkeiten; gehört zur Gruppe der Verallgemeinerten (Generalisierten) Linearen Modelle; LinkFunktion ist die Logit-Funktion; die Zielvariable Y ist dichotom skaliert, kann nur die Werte 0 und 1 annehmen; die Einflußgrößen (werden alle Kovariablen genannt) können beliebig skaliert sein; kann nur Odds-Ratios schätzen, keine (adjustierten) Relative Risks; bei stetigen Einflußvariablen muß die OR anders interpretiert werden: die OR gibt hier den Faktor für die Änderung des Chancenverhält-nisses bei Änderung der Einflußvariable um eine Einheit die logistische Regression arbeitet nicht nach dem Kleinste-Quadrate-Prinzip, sondern nach dem Maximum-Likelihood-Prinzip: dieser Schätzer ist nur asymptotisch erwartungstreu: niedrige Zellbesetzungen bei den Faktorkombinationen wirken sich sehr nachteilig auf die Asymptotik aus. Im SAS-Output (PROC LOGISTIC) wird die Güte des Modells unter "ChiSquare of Covariates" angegeben: getestete H0 'das Modell paßt perfekt; die im Modell geschätzten Werte stimmen mit den beobachteten alle exakt überein'. In PROC GENMOD können zufällige und fixe Einflußfaktoren unterschieden werden. major siehe tickmarks. Mantel-Haenszel-Test (auch Cochran-Mantel-Haenszel-Test): spezielle Variation des Chi²Tests, um auf Unababhängigkeit in drei-dimensionalen Kontingenztafeln zu testen. (SAS: mit CMH-Option (Zusatz-Statement: EXACT_mhchi) in PROC FREQ mit TABLES-Statement; Ausgabe der Teststatistik in der Tabelle „Cochran-Mantel-Haenszel Statistics“ in der Zeile „General Association“); Mantel-Haenszel-Chi²- Test: kann nur ordinal skalierte Merkmale testen; testet auf Unabhängigkeit zweier Einflußgrößen (Kontingenztafel); (SAS: 1.) mit CHISQ-Option in PROC FREQ mit TABLES-Statement; oder 2.) mit CMHOption (Zusatz-Statement: EXACT_mhchi) in PROC FREQ mit TABLESStatement; Ausgabe der Teststatistik in der Tabelle „Cochran-Mantel-Haenszel Statistics“ in der Zeile „Nonzero Correlation“); basiert auf dem Pearsonschen Korrelationskoeffizienten von Zeilenscores und Spaltenscores. H0: 'kein Zusammenhang zwischen Zeilen- und Spaltenvariable' bzw. 'es liegt keine "Korrelation" zwischen den zwei Merkmalen vor' gegen H1 ‚es liegt ein linearer Trend vor‘. Marke siehe Sprungmarke Maßkorrelation (nach Bravais-Pearson) betrachtet den Zusammenhang zwischen zwei Variablen (metrisch); entspricht der standardisierten Kovarianz; erfaßt nur linearem Zusammenhang; Wertebereich zwischen -1 und 1 (ist standardisiert); 0 = keine Korelation; Mc-Nemar-Test: (bei Vierfeldertafeln) für Vergleich von zwei abhängigen Stichproben X und Y mit dichotom (die Merkmale sind mit 0 und 1 codiert)erhobener Zielvariable. (Test auf Symmetrie zur 1. Hauptdiagonalen); H0: 'es liegt Symmetrie zur Hauptdiagonalen vor' oder 'P(X=1)=P(Y=1)' (Wahrscheinlichkeit für X=1 ist gleich der Wahrsch. Y=1). midpoints Option für den Befehl VBAR, um die Klassenmitten für die grafische Darstellung festzulegen: VBAR_v1_/_midpoints_=_a_TO_b_BY_c : Werte von a bis b mit Schrittweite c; minor siehe tickmarks. MSE mit N-k FG geschätzte, nicht erklärte Rest(Fehler-)streuung: MSE=SSE/(N-k) mit N=Gesamtstichprobenumfang, k=Anzahl der Unterschiedenen Gruppen bzw. Faktorstufen; die Wurzel aus MSE (= Root-MSE) ist der Standardfehler des Modells. MSM mit k-1 FG geschätzte, durch das Modell Streuung: MSM=SSM/(k-1) mit N=Gesamtstichprobenumfang, k=Anzahl der Unterschiedenen Gruppen bzw. Faktorstufen. MST mit N-1 FG geschätzte Gesamtstreuung: MST=SST/(N-1) mit N=Gesamtstichprobenumfang. Newman-Keuls-Test Odds Ratio ähnlich wie Tukey-Test aber mit gestaffelten Grenzdifferenzen. bestimmt das Chancenverhältnis zwischen exponiert zu erkranken und nicht exponiert zu erkranken: berechnet aber auch das relative Chancenverhältnis zwischen den Spalten einer Vierfeldertafel (Ouotient aus den Relative Risks). Overdispersion (siehe Underdispersion) Pearson -> Maßkorrelation nach Bravais-Pearson Pearsonscher Kontingenzkoeffizient (siehe Kontingenzkoeffizient) Produkt-Binomial-Modell Randhäufigkeiten von Faktor oder von Faktor B werden vorgegeben (bei Fallkontrollstudien sind dies die Erkrankungen, bei prästratifizierten Kohortenstudien ist dies die Exposition); hier kann nur die Homogenitätshypothes (nicht die Unabhängigkeitshypothese) überprüft werden: H0 'die Binomialwahrscheinlichkeiten in den Gruppen ist gleich' z.B. mit em Chi²-Test in PROC FREQ mit TABLES..../_chisq; Porportional-Hazard-Modell bei zwei Hazard-Verteilungen über die Zeit wird angenommen, daß beide die gleiche Verteilungsform haben und daß ein Proportionalitätsfaktor für den gesamten betrachteten Zeitraum gilt. Prüfglied ? Rangkorrelation wie Maßkorrelation nach Bravais-Pearson, aber mit den Rängen der Beobachtungen für die einzelnen Variablen (ordinal); prüft auf einen monotonen Zusammenhang; Wertebereich -1 bis 1; 0 = kein Zusammenhang. Regressionsanalyse untersucht die gerichtete Zusammenhangsstruktur zwischen (zwei) Variablen; dabei muß bekannt sein, welches die Zielvariable ist; (siehe auch Streuungszerlegung). Relative Risk (RR) Quotient aus zwei Wahrscheinlichkeiten; mit RR=1 sind beide Wahrscheinlichkeiten gleich groß R-Square Anteil erklärter Varianz scores werden verwendet, um kategorial (in der Regel ordinal) skalierten Variablen eine Intervallskala "überzustülpen"; in SAS werden, falls scores für eine Statistik verwendet werden, automatisch die Codierungswerte (der kategorial skalierten Variablen) als scores übernommen. Scree-Plot graphische Darstellung zur Hauptkomponentenanalyse (PCA); es werden die Eigenwerte der Hauptkomponente gegen die Nr. der Hauptkomponente aufgetragen. Shapiro-Wilk-Test Test auf Normalverteilung bei beliebigem µ und sigma²; wird in der PROC UNIVARIATE bei Stichproben vom Umfang n<=2000 verwendet; im Output wird die Teststatistik W und deren "Unter"-schreitungswahrscheinlichkeit Prob<W angegeben; kleine Werte führen hier zur Ablehnung von H0. Dieser Test setzt Homoskedastizität bei den Werten voraus. sidak bewirkt eine Adjustierung der Überschreitungswahrscheinlichkeit nach Sidak bei paarweisem t-Test (α=0.05 wird dann für das gesamte Experiment eingehalten). in PROC_ANOVA mit MEANS_vname_/_sidak; single = Single Linkage: Methode der hierarchischen Clusterbildung; Kriterium: minimale Distanz zwischen einem Punkt aus Cluster a und einem Punkt aus Cluster b: Sprungmarke neuer Startpunkt für die Weiterführung des Programms; Syntax: Name der Sprungmarke mit angehängtem ':' in einer Zeile des Programmtextes; darunter wird das Programm fortgeführt; Verweis auf die Sprungmarke mit GOTO; (Beispiel: Anweisung GOTO punkt1; Sprungmarkenzeile punkt1: ). SSE Summe der Fehlerstreuungen einer Zielvariablen. SSM Summe der durch das Modell erklärten Streuung. SST Gesamtstreuung einer Zielvariablen (in einem Regressionsmodell). Standardfehler für ein Modell; ist gleich der Wurzel aus dem MSE. Streuungszerlegung bei Regressionsmodellen; die Gesamtstreuung (SST) der Beobachtungen wird in einen durch das Modell erklärten Ateil (SSM) und eine Reststreuung (SSE: Fehlerstreuung) zerlegt; für eine Schätzung dieser Anteile müssen die Freiheitsgrade berücksichtigt werden: für SST = SSM + SSE mit N-1 = k-1 + N-k Freiheitsgraden (mit N=Gesamtstichprobenumfang, k=Anzahl der Unterschiedenen Gruppen bzw. Faktorstufen) ergibt sich dann MST = MSM + MSE, wobei M jeweils für mean steht (MSE = Varianz im engeren Sinne). Je nach Typ der Streuungszerlegung unterscheidet man Typ I die Zerlegung ist nicht symmetrisch, das Ergebnis hängt von der Reihenfolge der Faktoren im Modell ab, sie führt aber in jedem Fall zu einer auf die Modellannahmen begründete, vollständige Zerlegung der Gesamtvarianz. Typ III die Zerlegung ist symmetrisch, das Ergebnis hängt nicht von der Reihenfolge der Faktoren im Modell ab; die Gesamtvarianz wird aber nicht vollständig durch die Modellkomponenten (Faktoren, Wechselwirkung, Fehler) zerlegt, es bleibt ein Teil der Gesamtvarianz übrig, der in der Summe der durch das Modell erklärten (einschließlich Fehlerterm) nicht erfaßt wird. t bewirkt einen multiplen t-Test (paarweiser Vergleich der einzelnen Prüfglieder (Klassen): α=0.05 gilt nur für die einzelnen paarweisen Vergleiche); in PROC_ANOVA mit MEANS_vname_/_t; t-Test testet auf Gleichheit der Mittelwerte von zwei unverbundenen Stichproben; Voraussetzungen: gleiche, aber unbekannte Varianzen, Normalverteilung; der Test bekommt geringe Schwierigkeiten bei Abweichungen von der Normalverteil-ungsannahme, große Schwierigkeiten mit schiefen Verteilungen, sehr große Schwierigkeiten bei bimodalen (bzw. nicht unimodalen) Verteilungen. Studienmodell Multinomial-, Produkt-Binomial-, Hypergeometrisches. und PoissonModell. tickmarks major t. sind Achseneinteilungen mit Beschriftung; minor t. ohne Beschriftung liegen zwischen den major t.; werden mit AXIS_minor=... und _order=... festgelegt. tukey bewirkt einen multiplen Test nach Tukey (auch Tukey-Kramer-Test): (paarweiser Vergleich der einzelnen Prüfglieder (Klassen)) mit Adjustierung (α=0.05 gilt dann für das gesamte Experiment); hier wird eine zwischen den Mittelwerten zulässige Grenzdifferenz mit Konfidenzintervall bestimmt; liegt 0 (Null) in diesem Intervall, muß H0 beibehalten werden bzw. sind die Mittelwerte nicht signifikant verschieden. in PROC_ANOVA mit MEANS_vname_/_tukey;. unbalanciert (siehe balanciert) in SAS werden Teststatistiken für unbalancierte Daten unter TYPE III ausgegeben. Underdispersion bei der Poissonregression kann es vorkommen, daß die Varianz der Stichprobe deutlich von der theoretischen Varianz (hier Poissonverteilung) abweicht (dies wird in der Regel dadurch verursacht, daß die Nullklasse stärker/schwächer besetzt ist als theoretisch erwartet); die Abweichung wird anhand von Dispersionsmaßen bestimmt: <1 entspricht underdiperson, >1 overdispersion; bei der Poissonregression wird häufig der Quotient aus Deviance/Freiheitsgrade bzw. Pearson-Chi²/Freiheitsgerade genutzt (bei dem Vorliegen einer Poissonverteilung sind Varianz und Erwartungswert gleich); Faustregel: <9/10 = underdispersion (es liegt eher eine Binomialverteilung vor; kann aber mit Poissonverteilung gefittet werden), >10/9 = overdispersion (hier können Negative Binomialverteilungen gefittet werden). SAS: in PROC GENMOD kann bei underdispersion mit der Option ‚dspace‘ oder ‚pspace‘ der Skalierungsfaktor, bei overdispersion die Verteilungsannahme zu ‚dist=nb‘ (negative Binomialvtlg.) geändert werden. Varianz einer Zielvariable Y ist der Erwartungswert der quadrierten Abweichungen der Beobachtungen vom Mittelwert von Y. Varianzanalyse die Zielvariable ist eine stetige, metrische Zufalssvariable (ZV); im Modell werden zufällige und fixe Effekte (und eventuell Kovariablen: -> dann Kovarianzanalyse) unterschieden; beide Effekten werden mit kategorialen Daten bedient; zufällige Effekte gehen von stetigen, normalverteilten ZV aus, die nach Quantilen (-> gleiche Häufigkeiten in den Kategorien) klassiert werden. Varianzzerlegung siehe Streuungszerlegung. Verallgemeinerte Lineare Modelle (in SAS: mit GENMOD, LOGISTIK, CATMOD, GLIM, nicht mit GLM) Wilcoxon-Rangsummen-Test prüft auf Gleichheit der Mediane zweier unabhaägiger Stichproben; nicht-parametrisches Verfahren; keine Verteilungsannahme, aber Verteilungen müssen gleich schief sein; Umfang der Stichproben kann unterschiedlich sein; in SAS in der Procedure NPAR1WAY mit der Option wilcoxon; bei mehr als zwei Stichproben wird ein Kruskal-Wallis Test durchgeführt. Biom.Einf. 48 Wilcoxon-Vorzeichen-Rangtest prüft, ob der Median einer Stichprobe oder ob die Differenz der Mediane zweier verbundener Stichproben einen bestimmten Wert hat; nicht-parametrisches, verteilungsfreies Verfahren; Biom.Einf. 47 Yulescher Assoziationskoeffizient (siehe Assoziationskoeffizient) Beispiel 1a: %LET text1=text_A text_B %LET anzahl=b; %MACRO les1; %SCAN(&text1, &i, ' ') %MEND les1; %MACRO run1; %DO i=1 %TO &anzahl; PROC SQL; SELECT * FROM lib.%les1 ; QUIT; %END; %MEND run1; %run1; text_C; liest jeweils den i-ten String von text1 ein (Strings durch dopplte Leerzeichen getrennt. führt b-mal die Schleife aus Beispiel 1b: %LET text1=text_A text_B text_C; %LET anzahl=b; %MACRO les1; %SCAN(&text1, &i, ' ') %MEND les1; %MACRO run1; %DO i=1 %TO &anzahl; wie oben. PROC SQL; CREATE VIEW lib.v1 AS hier wird die Globalvariable ohne folgenden SELECT * SQL-Befehl abgearbeitet; der VIEW klappt so FROM a.%les1 und kann dann unten im Programm aufgerufen ; werden. QUIT; PROC SQL; SELECT * FROM lib.v1 Aufruf des VIEW. WHERE v1=a ; QUIT; %END; %MEND run1; %run1; Beispiel 1c: LIBNAME m 'S:\Langner\muell\'; DATA m.test; INPUT nr tx1$ a b c; CARDS; 1 eins 10 11 101 2 zwei 20 22 202 3 drei 30 33 303 4 vier 40 44 404 5 fünf 50 55 505 6 xxxx . . . 7 null 0 0 00 RUN; PROC PRINT data=m.test; RUN; %MACRO maki1(no,tex,aa); &no=&no+100; &tex=SUBSTR(&tex,2,2); &aa=&aa+1000; %MEND maki1; DATA m.muell; SET m.test; %maki1(nr,tx1,a); RUN; PROC PRINT data=m.muell; RUN; Beispiel 2a DATA dname; RETAIN v3 v2 v1; SET dalt; RUN; ändert die ursprüngliche Reihenfolge der Variablen in dalt (v1, v2, v3) in die Reihenfolge v3, v2, v1 in dname Beispiel 2b: PROC SQL; CREATE TABLE dname AS SELECT v3, v2, v1; FROM dalt ; QUIT; ändert die ursprüngliche Reihenfolge der Variablen in dalt (v1, v2, v3) in die Reihenfolge v3, v2, v1 in dname Beispiel 3: %LET tx1=sum_vb3a; %LET tx3=neu; %MACRO les1; %SCAN(&tx1, 2, '_') %MEND les1; DATA _NULL_; h1="%les1"; h2=h1||'_q'; CALL SYMPUT ('tx2', h2); h4="&tx3"||'_neu'; CALL SYMPUT ('tx4', h4); RUN; DATA test; &tx2=wert; &tx4=wert; OUTPUT; RUN; liest von tx1 den Teilstring hinter dem ‘_‘. an h1 wird über das Macro ein Teilstring der G.-variable tx1 übergeben. Konstruktion eines neuen Strings. Übertragen des Strings in die G.-variable tx2 Konstruktion eines neuen Strings. Übertragen des Strings in die G.-variable tx4 Verwendung des Inhalts von tx2 und tx4 als Variable(nnamen). zu Beispiel 4 MERGE - Statement: Folgendes ist dabei zu beachten (siehe auch Beispielprogramm 4 weiter unten): 1. die längste (= Anzahl der Datenzeilen) der gemergten Tabellen bestimmt die Länge der neuen Tabelle; bei der Verwendung von BY wird die Länge der neuen Tabelle als Anzahl der Datenzeilen (DZ) mit Übereinstimmung + Anzahl der DZ ohne Übereinstimmung aus Tabelle 1 + .... + Anzahl der DZ ohne Übereinstimmung aus Tabelle n. 2. die Variablen der neuen Tabelle setzten sich aus den übereinstimmenden Variablen(namen) der alten Tabellen + die nicht übereinstimmenden aus jeder der alten Tabellen zusammen (jeder Var.-name taucht nur einmal auf); in die Variablen der neuen Tabelle werden immer (auch bei gleichlautenden Variablennamen in den zu mergenden Tabellen) die Daten der in der MERGEZeile zuletzt genannten Tabelle, die noch Werte für die betreffende Datenzeile besitzt, übernommen; Achtung! dies beides gilt auch bei der Verwendung von BY (siehe 4.) 3. ohne BY werden die zu mergenden Tabellen parallel zeilenweise abgearbeitet, also jeweils die n-ten Zeilen miteinander kombiniert. 4. mit BY: folgendes Beispiel: Tabelle A und B sollen anhand der BY-Variable v zur Tabelle C gemerged werden: MERGE A B; (die Länge von C Æ siehe 1.; Anzahl der Variablen von C Æ siehe 2) SAS geht so vor: A und B werden zeilenweise abgearbeitet: - ungleiche v werden nacheinander in C eingefügt, wobei die eine Datei jeweils so lange an der Reihe ist, bis der von der anderen Datei vorgegebene Wert der BY-Variable v überschritten wird. - bei gleichen v gilt zunächst 2. (siehe oben); - falls in B die Werte zu v nur einmal auftauchen, in A aber mehrmals, dann werden für die erste gemergte Zeile bei den gleichlautenden Variablen die Werte von B übernommen und erst für die folgenden Zeilen die von A - falls in A und in B der gleiche Wert für v in mehreren Zeilen auftritt, so wird die 1. dieser Zeilen aus A mit der 1. der Zeilen aus B verknüpft, 2. aus A mit 2. aus B, und so weiter, bis in einer Datei ein höherer Wert für v auftritt: dann wird in dieser Datei die letzte Datenzeile für die Verknüpfung beibehalten, bis die übrigen Zeilen der anderen Datei mit gleichem v abgearbeitet sind. Beispiel 4: /************ Beispieldaten ********************/ DATA a; INPUT a b c @@; CARDS; 0 2 3 1 2 3 1 2 3 1 2 3 4 5 6 RUN; DATA b; INPUT a b c @@; CARDS; 1 1 8 1 1 77 2 2 8 2 2 77 RUN; DATA c; INPUT a b e @@; CARDS; . 9999 9999 1 11 111 1 88 888 3 33 333 5 55 555 6 66 666 RUN; TITLE 'Datei A'; PROC PRINT data=a; RUN; TITLE 'Datei B'; PROC PRINT data=b; RUN; TITLE 'Datei C'; PROC PRINT data=c; RUN; /************************************************/ TITLE 'Mergen von Datei A mit Datei B'; DATA test; MERGE a b; RUN; PROC PRINT data=test; RUN; TITLE 'Mergen von Datei B mit Datei A'; DATA test; MERGE b a; RUN; PROC PRINT data=test; RUN; TITLE 'Mergen von Datei A mit Datei C'; DATA test; MERGE a c; RUN; PROC PRINT data=test; RUN; TITLE 'Mergen von Datei C mit Datei A'; DATA test; MERGE c a; RUN; PROC PRINT data=test; RUN; TITLE 'Mergen von Datei A mit Datei C mit BY a'; DATA test; MERGE a c; BY a; RUN; PROC PRINT data=test; RUN; TITLE 'Mergen von Datei C mit Datei A mit BY a'; DATA test; MERGE c a; BY a; RUN; PROC PRINT data=test; RUN; Beispiel 5a: Daten-Export nach EXCEL mit FILENAME und PUT Folgende Vorbereitungen für den Export eines permanenten SAS-Datasets nach EXCEL müssen getroffen werden: 1. Änderung der Ländereinstellung auf USA, bzw. ‘.‘ als Trennzeichen für Nullstellen angeben. 2. EXCEL muß geöffnet sein und eine leere Tabelle enthalten. Achtung: Probleme bereiten Variablen mit Fließtext; hier werden Leerzeichen als Trennzeichen zwischen Variablen erkannt; dann die Option notab verwenden (siehe Beispiel 5d) FILENAME export DDE'excel | Tabelle1!z1s1:zasb'; * a = Anzahl Zeilen, b = Anzahl Spalten der zu bildenden Tabelle ; DATA _null_; SET libname.dname; * dname = die zu exportierende Datei ; FILE export; PUT v1 v2 v5-v8; * hier müssen alle zu exportierenden Variablen aufgeführt werden; Reihenfolge!; RUN; Beispiel 5b: Daten-Import von EXCEL nach SAS mit SQL Einige wichtige Punkte: - die erste Datenzeile der EXCEL-Datei wird für die Variablennamen verwendet - in der FROM...-Zeile wird der Tabellenname aus der EXCEL-Arbeitsmappe (ÆDatei) mit angehängtem $-Zeichen und in eckigen Klammern [] angegeben PROC SQL; CONNECT TO odbc (required); CREATE TABLE libname.dname AS SELECT * FROM CONNECTION TO odbc(SELECT * FROM [tabelle1$]) ; DISCONNECT FROM odbc; QUIT; Beispiel 5c: Daten-Import von EXCEL nach SAS mit FILENAME und INPUT In der FILENAME-Zeile muß folgendes ergänzt werden: - pfadname wird durch den vollständigen Pfad für die betreffende EXCELdatei ersetzt - datei wird durch den Namen der EXCEL-Datei ersetzt - Tabelle1 wird durch den EXCEL-Tabellennamen ersetzt - a, b, c, d werden durch die Zeilen- und Spaltennummern (alles Zahlen) der EXCELTabelle ersetzt, die den einzulesenden Datenblock begrenzen FILENAME import DDE "excel|pfadname\[datei.xls]Tabelle1!zasb:zcsd"; DATA dname; INFILE import dlm='09'x notab dsd missover; INPUT v1 v2 vtext$ v3; RUN; Beispiel 5d: Datenexport nach EXCEL mit FILENAME und PUT DATA dname; INPUT v1 vtext$15. CARDS; 1 text1 test test 2 text2 test 3 text3 test 33 4 x x x test 4 RUN; v3; 11 22 33 44 PROC PRINT data=dname; RUN; FILENAME export DDE "excel | Tabelle1!z2s2:z6s4" notab; * notab gewährleistet, daß strings vollständig übergeben werden; DATA _null_; SET dname; FILE export; PUT v1 '09'x vtext '09'x v3; * ‘09‘x fügt die durch notab entfernte Trennung zwischen den Variablen wieder ein ; RUN; *******************************************************; *** ohne notab würde das Ergebnis so aus sehen ***; FILENAME export DDE "excel | Tabelle1!z2s2:z6s20"; DATA _null_; SET dname; FILE export; PUT v1 vtext v3; RUN; Beispiel 6: Daten-Export nach EXCEL mit PROC DBLOAD DATA test; INPUT eins zwei drei; LINES; 1 2 3 4 5 6 7 8 9 RUN; PROC DBLOAD DBMS=EXCEL DATA=WORK.TEST; PATH='e:\test.xls'; PUTNAMES YES; LIMIT=0; LOAD; RUN; Beispiel 7: Verknüpfen von Dateiauszügen mit UNION (SQL) Klappt nicht: es werden nicht alle möglichen Datenzeilen in die neue Datei übernommen! %LET d4=m.hallo; DATA &d4; INPUT stoff_1-stoff_6; CARDS; 1 2 3 4 5 6 2 3 6 7 8 . 5 . . . . . 1 5 6 . . . 4 5 6 7 . . 1 2 4 5 6 7 1 2 4 5 7 8 1 2 3 4 5 6 1 2 3 4 5 6 6 . . . . . 6 . . . . . RUN; PROC PRINT data=&d4; RUN; PROC SQL; CREATE TABLE m.f2 AS SELECT stoff_1 AS FROM &d4 GROUP BY stoff_1 UNION SELECT stoff_2 AS FROM &d4 GROUP BY stoff_2 UNION SELECT stoff_3 AS FROM &d4 GROUP BY stoff_3 UNION SELECT stoff_4 AS FROM &d4 GROUP BY stoff_4 UNION SELECT stoff_5 AS FROM &d4 GROUP BY stoff_5 UNION SELECT stoff_6 AS FROM &d4 GROUP BY stoff_6 ; QUIT; stoff, count(stoff_1) AS anz_stof stoff, count(stoff_2) AS anz_stof stoff, count(stoff_3) AS anz_stof stoff, count(stoff_4) AS anz_stof stoff, count(stoff_5) AS anz_stof stoff, count(stoff_6) AS anz_stof Beispiel 8: PROC TRANSPOSE DATA m.test; INPUT a b c d; CARDS; 1 11 111 1 1 11 111 2 1 11 112 3 1 12 121 4 1 12 122 5 1 12 122 6 2 21 211 7 2 21 212 8 2 21 213 9 2 22 221 10 2 22 221 11 2 22 221 12 RUN; PROC PRINT data=m.test; RUN; PROC TRANSPOSE data=m.test out=m.tset; VAR d; RUN; PROC PRINT data=m.tset; RUN; PROC TRANSPOSE data=m.test out=m.tset; VAR a d; RUN; PROC PRINT data=m.tset; RUN; PROC TRANSPOSE data=m.test out=m.tset; VAR d; BY a; RUN; PROC PRINT data=m.tset; RUN; PROC TRANSPOSE data=m.test out=m.tset; VAR d; BY a c; RUN; PROC PRINT data=m.tset; RUN; PROC TRANSPOSE data=m.test out=m.tset; VAR c d; BY a b; RUN; PROC PRINT data=m.tset; RUN; PROC TRANSPOSE data=m.test out=m.tset; VAR c; BY d; RUN; PROC PRINT data=m.tset; RUN; Beispiel 9: %STR %LET tx1='test1'; %LET tx2=%str(test2); DATA m.m1; test2='hallo'; OUTPUT; RUN; TITLE "Versuch mal &tx2 zu sagen"; /** Hier wird 'test2' als Text **/ /** im Titel ausgegeben **/ DATA m.muell; SET m.m1; text1=&tx1; /** text1 erhält den Eintrag 'test1' **/ text2=&tx2; /** text2 erhält den Wert der Variablen test2, /** also 'hallo'. **/ RUN; PROC PRINT data=m.muell; RUN; Beispiel 10: %ARRAY und data new; set old; array abc{*} _character_; array def{*} _numeric_; length name $8; do i=1 to dim(abc); call vname(abc{i},name); call label(abc{i},name); output; end; do j=1 to dim(def); call vname(def{j},name); call label(def{j},name); output; end; stop; run; CALL VNAME und CALL LABEL /* all character variables in old /* all numeric variables in old /* name is not in either array */ */ */ /* get name of character variable */ /* get label of character variable */ /* write name to an observation */ /* get name of numeric variable /* get label of numeric variable /* write name to an observation */ */ */ Copyright (c) 1995, SAS Institute Inc., Cary, NC 27513-2414 USA. rights reserved. All Beispiel 11: SYMGET und %STR OPTIONS symbolgen; %LET h1=10; *** erstmalige Definition der Makrovar. h1 ***; %LET h2=h1_1=&h1.; %LET h3 = %str (h1_2= symget ( 'h1' ) ) ; %LET h4 =h1_3=input(trim(left(%str(symget('h1')),best.) ; %LET h5 = %str (h1_4= 1-1+ symget ( 'h1' ) ) ; %LET h1=20; *** Änderung des Wertes der Makrovariable h1 ***; DATA h; &h2.; *** hier wirkt sich die Änderung nicht aus ***; &h3.; *** hier wirkt sich die Änderung aus ***; *** ACHTUNG: h1_2 wird Character-Variable ***; &h4.; *** hier wirkt sich die Änderung aus ***; &h5.; *** hier wirkt sich die Änderung aus ***; *** allein durch die mathematischen Operatoren wird verhindert, dass h1_4 zur Character-Var. wird ***; RUN; PROC CONTENTS data=h; RUN; PROC PRINT data=h; RUN; Beispiel 12: PROC GENMOD und selbst definierte Link-Funktion Im unten aufgeführten Syntaxbeispiel steht in der Definition der Link-Funktion die Systemvariable _mean_ für die Zielvariable und in der Definition der Inversen der LinkFunktion steht _xbeta_ für den linearen Predictor. Das Beispiel stellt die logistische Regression nach. PROC GENMOD data=h; MODEL y=x1 ; FWDLINK link=log(_mean_/(1-_mean_)); INVLINK ilink=exp(_xbeta_)/(1+exp(_xbeta_)); RUN;