plabstat - Universität Hohenheim

Transcription

PLABSTAT
Ein Computerprogramm
zur statistischen Analyse
von pflanzenzüchterischen Experimenten
Version 3A vom 14. Juni 2011
H.F. Utz
Institut für Pflanzenzüchtung,
Saatgutforschung und Populationsgenetik
Universität Hohenheim, 70593 Stuttgart
Email: utzf@uni-hohenheim.de
Die wichtigsten Änderungen der Version3 im Vergleich zur Version2
1. Primes, mit denen Befehlsnamen in Version2 eingefasst wurden, entfallen.
2. Kommentare werden durch ! markiert bzw. alles was nach einem Ausrufezeichen
kommt, wird als Kommentar angesehen.
3. Um alte Dateien mit Version2-Befehlen weiter verarbeiten zu können, werden diese
von der Version3 automatisch umgeformt und weiterhin verrechnet.
Allerdings sind Kommentare innerhalb Befehlen nicht mehr möglich, etwa
’CALC’ ’’Berechnung von..’’ X1=X1/5
Der Kommentar muss nach hinten, also
’CALC’ X1=X1/5
’’Berechnung von..’’
Diese Version2-Variante wird akzeptiert.
Konform mit Version3 wäre
CALC X1=X1/5
! Berechnung von..
c Copyright
1986, 1991, 2003
H.F. Utz
Inhaltsverzeichnis
1
Was PLABSTAT ist
3
2
Ein einfaches Beispiel
4
3
Allgemeine Bedienung
3.1 Schreibregeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2 Allgemeine Befehle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3 Dateneingabe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
6
7
12
4
Einfache statistische Maßzahlen und Regressionsanalysen
4.1 Befehle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2 Ausgabe und Methoden . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
13
15
5
Einfache Block- und Gitteranlagen
5.1 Befehle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.2 Ausgabe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.3 Methoden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
15
16
18
19
6
Mehrfaktorielle Experimente
6.1 Befehle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.2 Ausgabe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.3 Methoden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
20
20
26
28
7
Nichtwiederholte Experimente
7.1 Befehle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.2 Ausgabe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.3 Methoden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
29
29
31
31
8
Ergänzende Befehle
33
9
Winke, Würmer, Wände
37
10 Literaturverzeichnis
39
ANHANG A Liste der Befehle
42
ANHANG B Beispiele
45
ANHANG C MODEL-Zeilen für einige Versuchsanlagen
46
1
WAS PLABSTAT IST
3
1 Was PLABSTAT ist
PLABSTAT kann als Kürzel für ”PLAnt Breeding STATistical program” oder auch als
”PLAnned Block experiments and their STATistical analysis” gelesen werden.
Obwohl genügend Statistikpakete auf dem Markt sind, besteht offensichtlich eine
Bedarf für ein kompaktes Programm, mit dem die wichtigsten Routineauswertungen
des Pflanzenversuchs durchgeführt werden können. Es sollte schneller als die großen
Pakete sein, leicht zu bedienen, kompakten Output erzeugen, Ausreißertests oder andere Kontrollen enthalten und wichtige Parameter wie Wiederholbarkeit oder Heritabilität schätzen.
Da ein Programm nie fertig ist und auch nicht alle Methoden enthalten kann, ist
PLABSTAT so angelegt, dass ein Umsteigen auf größere Pakete leicht möglich ist, etwa auf GENSTAT, das schon vom verwandten Namen her, solches nahe legen soll.
Vernachlässigt ist bei PLABSTAT der Input, dieser muß außerhalb des Programms mit
einem entsprechenden Editor, etwa mit KEDIT, THE, EMACS, WORD, EXCEL, oder
einem Datenbankprogramm erfolgen.
Im folgenden seien kurz die rechnerischen Möglichkeiten von PLABSTAT zusammengestellt.
Einfache statistische Maßzahlen und multiple Regression
Mit PLABSTAT lassen sich einfache statistische Maßzahlen, wie Varianz, Schiefe, Exzeß
oder Korrelationskoeffizienten von Variablen, schätzen. Einfache und multiple Regressionsanalysen, einschl. von Pfadkoeffizienten, können berechnet werden.
Gitteranlagen
PLABSTAT analysiert Gitteranlagen, genauer quadratische, Rechteck- und verallgemeinerte Gitteranlagen (PATTERSON und WILLIAMS, 1976), jeweils ohne Wiederholung des Grundplans. Für Gitteranlagen berechnet es die adjustierten Mittelwerte oder
Effekte und gibt eine Liste der unvollständigen Blockeffekte aus. Es prüft die Residuen
auf Ausreißer. Desweiteren können partiell wiederholte Anlagen (augmented designs,
p-rep designs) analysiert werden.
PLABSTAT berechnet Varianzanalysen für balancierte Datensätze, wobei fehlende
Werte erlaubt sind. Bei vielen fehlenden Werten werden nur die Mittelwerte, berechnet nach der Methode der kleinsten Quadrate, ausgegeben. Das Programm verarbeitet
faktorielle und hierarchische Klassifikationen mit fixierten, zufälligen oder gemischten
Modellen. Situationen mit nichtorthogonalen Anlagen oder Reihen-Säulen-Anlagen,
wie Lat. Quadrat, sind ausgeschlossen, doch können solche Fälle über einen zweiten
Durchgang, siehe HARTLEY (1956), verarbeitet werden.
Es werden die Varianzanalyse-Tabellen, einschließlich Varianzkomponenten, deren
Standardfehler und F-Tests, sowie Mittelwerte mit Standardfehlern und Grenzdifferenzen berechnet. Tabellen von Mittelwerten, Effekten oder Rängen können ausgegeben
werden. Residuen und Effekte können auf Ausreißer hin überprüft werden.
2
EIN EINFACHES BEISPIEL
4
Heritabilitäten, genetische Korrelationen oder Kovarianzanalysen lassen sich errechnen. Zweiwegetafeln können nach einem Regressionsmodell varianzanalytisch
zerlegt werden.
Nichtwiederholte Experimente
Experimente ohne Wiederholung lassen sich, wenn Standards vorhanden sind, als
Standardanlage auswerten oder über gleitende Mittelwerte analysieren.
Weitere Möglichkeiten
Korrelationsdiagramme werden erzeugt. Mittelwerte und unvollständige Blockeffekte können auf eine Datei gegeben werden, um anschließend weitere Analysen damit
durchzuführen.
Neue Variablen werden berechnet oder vorhandene modifiziert. Beobachtungen
lassen sich überprüfen, ob gewisse Grenzen überschritten sind.
2
Ein einfaches Beispiel
Die Analyse mit PLABSTAT soll an einem simplen Beispiel demonstriert werden. In
einem rekurrenten Selektionsprogramm ist der Kornertrag während sechs aufeinanderfolgenden Zyklen gemessen worden. Um eine Vorstellung zu erhalten, wie sich die
Erträge entwickelt haben, soll ein Diagramm erzeugt werden. Die dazugehörigen Befehle und Daten sind folgende:
!!
Erträge von Mais in 6 Zyklen
! Kornertrag in kg/ha eingegeben
BASIC 6 0 2 2
VARIABLE_NAMES CYCLE YIELD
CALCULATE
X2=X2/100
! Ertrag in dt/ha
PLOT/2 X2.X1
RUN
1 4758
2 4970
3 5053
4 5376
5 5429
6 5607
EOD
STOP
Der erste Teil besteht aus den Befehlen, wobei die Befehlsnamen in Großbuchstaben geschrieben sind, und der zweite Teil aus den sechs Datenzeilen mit der Zyklusnummer und dem Ertrag. Alle Befehle und Daten sind in freiem Format gehalten, was
bedeutet, dass die einzelnen Größen durch Leerzeichen getrennt werden.
Mit ! werden Kommentare eingeleitet, die jeweils bis zum Ende der Zeile überlesen
werden. Die erste Zeile wird als als Titel des Experiments interpretiert. Hier wurde
doppeltes !! benutzt, um später leichter nach dem Titel des Experiments suchen zu
können.
2
EIN EINFACHES BEISPIEL
5
Der Befehl BASIC sagt dem Programm, dass Daten zu lesen sind, nämlich sechs Datenzeilen bestehend aus je zwei Werten. Die zweite Zwei in BASIC zeigt an, dass auch
zwei Merkmale oder Variablen zu verrechnen sind. Sollen zusätzliche Variablen berechnet oder Variablen weggelassen werden, dann ist die Zahl der einzulesenden Variablen nicht mehr identisch mit der Zahl der zu verrechnenden Variablen. Die zweite
Zahl der BASIC-Zeile, nämlich 0, wird in 4.1.1 erläutert.
Mit dem Befehl VARIABLE NAMES werden die Namen der beiden Variablen definiert.
Im CALCULATE wird Variable 2 mit 100 dividiert, um die Erträge in dt/ha anzugeben.
PLABSTAT
VERSION 3A
of 2003-08-16
INSTITUT FUER PFLANZENZUECHTUNG, UNIVERSITAET HOHENHEIM
At 2003/08/19
17h 54m 10s
!!
Erträge von Mais in 6 Zyklen
! Kornertrag in kg/ha eingegeben
BASIC 6 0 2 2
VARIABLE_NAMES CYCLE YIELD
CALCULATE
X2=X2/100
! Ertrag in dt/ha
PLOT/2 X2.X1
RUN
MIN
MAX
CYCLE
1.00
6.00
YIELD
47.58
56.07
SCATTER PLOT Erträge von Mais in 6 Zyklen
2003/08/16 12h 09m
YIELD
I
6 /
I
I
I
I
5
I
I
4
I
I
I
I
M
I
I
I
I
3
I
I
2
I
I
I
I
/ 1
-------------------M-------------------CYCLE
YIELD: Min 47.6
CYCLE:
1.0
Max 56.1
6.0
Mean 52.0
3.5
s.d. 3.2
1.9
b(Y.X) 1.6986
b(X.Y) 0.5728
Corr. 0.986
EOD
STOP
Mit PLOT wird dann das hier interessierende Diagramm erzeugt, indem der Ertrag
gegen die Zyklusnummer geplottet wird. Im einzelnen wird durch PLOT/2 mit dem
3
ALLGEMEINE BEDIENUNG
6
Qualifier 2 nach dem Schrägstrich vermerkt, dass eine besondere Ausgabe gewünscht
wird, nämlich dass das Diagramm kleiner gedruckt wird, so dass gerade zwei solche
Diagramme auf eine Seite gehen.
Mit der RUN-Zeile sind die PLABSTAT-Befehle abgeschlossen, es folgen die Daten.
Das Ende der Daten wird mit EOD angezeigt, der Abkürzung für End Of Data. Durch
den STOP-Befehl weiß PLABSTAT, dass kein weiterer Rechenjob folgt und der Job zu
Ende ist.
Nun sei der Output zu unserem kleinen Beispiel angeschaut, wobei er nicht
vollständig hier wiedergegeben werden soll. Die Befehlszeilen werden anfangs zu
Kontrollzwecken gelistet. Nach der RUN-Zeile werden die Befehle ausgeführt.
Wenn PLABSTAT einen Fehler beim Lesen der Befehle entdeckt, so gibt es eine
Meldung aus. Etwa wenn Sie fälschlich BASIC 6 0 K 2 eingegeben haben, dann meldet sich das System an der Stelle, wo es den Befehl nicht mehr interpretieren kann,
mit:
BASIC
***
6
WRONG
0
K 2
|
PARAMETER
VALUE
So können Sie leicht die Zeile verbessern und den korrekten Wert 2 anstelle von K
einsetzen.
Die beiden Ausgabezeilen, beginnend mit MIN und MAX, geben für jede Variable
den kleinsten und größten Wert.
Im Diagramm sind die Mittelwerte auf beiden Achsen mit dem Buchstaben M symbolisiert. Mit zwei Schrägstrichen ist der Anfangs- und Endpunkt der linearen Regressionsgerade markiert, so dass sie leicht von Hand nachgezogen werden kann. Die
Punkte sind aufsteigend durchgezählt wie die Daten, so dass der Experimentator auffallende Punkte identifizieren kann.
Unterhalb des Diagramms finden sich einige anderen Schätzwerte der beiden Variablen, wie Mittelwert, Standardabweichung, beide Regressionskoeffizienten und der
Korrelationskoeffizient.
3
Allgemeine Bedienung
PLABSTAT arbeitet mit ungefähr dreißig Befehlen. In diesem Kapitel soll kurz dargestellt werden, wie die PLABSTAT-Befehle formal zu schreiben, wie die allgemeinen
Befehle definiert und wie Daten einzugeben sind.
3.1
Schreibregeln
3.1.1 Der Name eines PLABSTAT-Befehls muß in Großbuchstaben eingegeben werden.
Befehlszeilen und ebenso Datenzeilen können bis zu 255 Zeichen lang sein.
3.1.2 PLABSTAT benutzt nur die ersten drei Buchstaben eines Befehlsnamens zur
Identifikation. Die anderen Zeichen in einem Befehlsnamen sind irrelevant. So
kann etwa VARIABLE NAMES als VAR oder VARIABLES oder VAR-NAMEN geschrieben
3
7
werden. Für Zwecke der leichteren Lesbarkeit wird empfohlen, Befehle nicht zu
sehr abzukürzen.
3.1.3 Jeder Befehl muß in der ersten Spalte beginnen. Wenn mehr als eine Zeile für
einen Befehl benötigt wird, so sind die folgenden Zeilen mit mindestens einem
Leerzeichen anzufangen, z. B.
VARIABLE_NAMES
CYCLE
YIELD
3.1.4 Befehle können meistenteils in beliebiger Reihenfolge eingegeben werden. Eine
Restriktion ist etwa, dass PLOT nur nach einem BASIC, LATTICE oder ANOVA-Befehl
gegeben werden kann, da zuerst Daten eingelesen sein müssen. Es wird empfohlen, die Befehle in logischer Ordnung niederzuschreiben.
3.1.5 Auf jeden Fall muß einer der vier Analysenbefehle BASIC, LATTICE , ANOVA oder
UNREP in einem PLABSTAT-Lauf gegeben werden, damit überhaupt eine Berechnung erfolgen kann.
3.1.6 Qualifier werden nach einem Schrägstrich eingegeben, z.B. ANOVA/12 . Mit einem
Qualifier können Voreinstellungswerte der Analyse oder der Ausgabe verändert
werden. Wenn der eingelesene Qualifier aus weniger Stellen als definiert besteht,
so wird der restliche Teil mit den Stellen der Voreinstellung aufgefüllt.
3.1.7 Wenn ein Befehl aus Versehen mehr als einmal geschrieben wird, dann wird nur
der letzte Befehl für eine Analyse benutzt.
3.2
Allgemeine Befehle
3.2.1 Kommentare nach !
Kommentare werden mit ! eingeleitet und gehen immer bis zum Ende der Zeile. Hiermit lassen sich der Titel und Details des Experiments oder sonstige Erläuterungen festhalten.
! beliebiger TEXT
Da die erste Zeile meist den Namen des Experiments enthält, ist zu empfehlen, diesen Kommentar etwa mit zwei !! einzuleiten, so dass er leichter gesucht werden kann.
Diese erste Kommentarzeile wird außerdem als Titel für Tabellen und Diagramme benutzt.
Kommentare können außerdem am Ende eines Befehls gegeben werden, etwa:
CALC X10 = X2/X3*100
! Standfestigkeit in Prozent
! wobei X2 = Zahl der aufrecht. Pfl. je Parz.
!
X3 = Zahl der vorhand. Pfl. je Parz.
3.2.2 Der Befehl INPUT
Über den INPUT-Befehl können Variablen in den CALCULATE-, PLOT-, RESTRICT-, FIToder TBT TAB-Befehlen mittels eines Namens angesprochen werden:
INPUT Variablenliste
3
8
Wird INPUT nicht eingesetzt, werden Variablen mit X1, X2, X3, ... angesprochen.
Variablennamen müssen mit einem Buchstaben beginnen, genauer mit einem Zeichen, dessen ASCII-Dezimalcode größer oder gleich 64 beträgt. Groß- und Kleinbuchstaben werden unterschieden. Nur die ersten fünf Buchstaben sind von Bedeutung.
Weitere Zeichen können für Zwecke der Dokumentation angehängt werden, werden
jedoch nicht beachtet. Etwa ist Ertrg und Ertrg dt/ha gleichwertig.
Reservierte Namen, die innerhalb CALCULATE verwendet werden, können nicht benutzt werden, nämlich NOTE, EXP, LN, SQRT, ARCSINST. Die arithmetischen Sonderzeichen, wie + - * / : ( ) und einige weitere, wie $ ! ? > < = . ; sind in Namen nicht zugelassen. Genauer sind alle ASCII-Zeichen mit Dezimalcode 40-47 und
2
58-63 je einschl. nicht zugelassen. Dagegen können andere Sonderzeichen, wie % [
] { } für die Namensgebung benutzt werden.
3.2.3 Der Befehl CALCULATE
Mit dem Befehl CALCULATE werden Variablen modifiziert, neue berechnet oder die Beobachtungswerte auf gewisse Grenzen hin überprüft. Beachte insbesondere, dass Leerstellen Formeln trennen, siehe (2).
(1) Variablen werden mit X1, X2, X3, ... bzw. mit den in INPUT definierten Variablennamen angesprochen. Desweiteren können Hilfsvariablen eingeführt werden, etwa
X50, Dummy1 oder Parz Groesse.
Alle Rechenoperationen werden im Gleitkommamodus ausgeführt. Ein Beispiel
für einen CALCULATE-Befehl ist:
CALCULATE X2=X1+X2+X3-100
CALCULATE Parz Groesse=3.5
Ertrag=Gewicht/Parz Groesse
CALC
TS%=Einwaage/Auswaage*100
(2) Berechnungen werden von links nach rechts vorgenommen. Leerzeichen innerhalb
von Ausdrücken sind nicht erlaubt, da Leerzeichen Zuweisungen trennen. So
kann eine CALCULATE-Befehlszeile mehrere Zuweisungen enthalten.
CALC X2=X6/X7*100.0
X3=X8*X9/X10
(3) Die üblichen Grundrechen-Operationen + - * und / sind möglich, außerdem die
ganzzahlige Division : . Etwa berechnet CALC X1=5:3 eine 1. Klammerausdrücke
sind erlaubt, nicht dagegen Potenzen.
CALC X5=X1/(X2-X3)*(-X4)
X5=((-X3+X4)/X1)-X2 .
(4) Als Funktionen sind möglich:
LN = natürlicher Logarithmus
SQRT = Quadratwurzel
EXP = Exponentialfunktion
ARCSINST = Arcussinus der Wurzel von X (mit 0 < X < 1)
wobei die Variablen in Klammer zu setzen sind, etwa:
CALC X3=LN(X2) X5=ARCSINST(X5) X3=X1+EXP(-1/X2)
3
9
(5) Mit NOTE kann abgefragt werden, ob in einer Variablen Werte vorkommen, die außerhalb einer bestimmten Grenze liegen. Dabei sind nur Abfragen mit ”größer
als” und ”kleiner als” möglich, etwa:
CALCULATE NOTE X6<X7
NOTE X7>99.9
(6) Kommentare können am Ende angefügt werden, etwa:
CALC X10=X2/X3*100 ! Standfestigk.
(7) Potenzen sind nicht erlaubt, dagegen können Klammerausdrücke verwendet werden. Komplexere Formeln sind also in angemessener Weise zu zerlegen, siehe
Datenbeispiele PSDLATT-2 und PSDANOV-2 in psdlatt.dat bzw. psdanov.dat
CALC Z0=Faktor*(Sollp-VPF)+VPF Z1=LN(2*X1*X1*X1)
(8) Auch bedingte Anweisungen können benutzt werden, etwa
CALC X15=X1>0.5 X16=X3==100
wobei folgende Vergleichsoperatoren zugelassen sind:
< kleiner
> größer
== gleich
<= kleiner oder gleich
>= größer oder gleich
<> ungleich
Bei der Ausführung ergibt sich ein Wert von 1, falls der Vergleich wahr ergibt,
bzw. 0, falls nicht wahr zutrifft. Bei fehlenden Werten, ergibt sich ein fehlender
Wert.
Diese Operatoren können in Ausdrücken weiter verwendet werden, etwa:
CALC X21=X14+(X1>=0.5)*10
d.h. es wird immer 10 zu X14 addiert, wenn X1 größer oder gleich 0.5 ist.
CALC X22=X14+X1>=0.5*10
d.h. es wird immer 1 zu X14 addiert, wenn X1 größer oder gleich 0.5*10 bzw. 5
ist.
Zu beachten ist die Reihenfolge in der Abarbeitung von Ausdrücken, wobei zuerst * und : , dann + und - , abschließend obige Vergleiche durchgeführt werden.
Bemerkung zum Rechnen mit Nullen:
Eine Division mit Null oder ein natürlicher Logarithmus von Null wird ergebnismäßig
als Null dargestellt. Wenn der Qualifier MISS=0 zugrunde liegt, also Nullen nicht als
fehlende Werte behandelt werden, dann ergibt etwa 100 + 0 = 100. Hingegen, wenn
MISS=1, dann ergibt sich bei Rechenoperationen mit Null ein fehlender Wert als Ergebnis.
3.2.4 Der Befehl VARIABLE NAMES
Mit diesem Befehl werden die Namen von Variablen spezifiziert. Diese Namen werden
dann in Tabellenüberschriften verwendet.
3
10
VARIABLE NAMES Variablenliste
Die Zahl der Namen muß mit NVAR, der Zahl der zu analysierenden Variablen,
übereinstimmen. Nur die ersten 5 Zeichen jeden Namens werden benutzt. Zu Dokumentationszwecken können die Namen verlängert werden, etwa von Ertrg auf
Ertrg dt/ha. Variablennamen müssen mit einem Buchstaben beginnen, genauer mit
einem Zeichen, dessen ASCII-Dezimalcode größer oder gleich 64 beträgt. Die Namen
werden durch ein oder mehrere Leerzeichen getrennt. Gleichheits- und Ausrufezeichen können innerhalb von Namen nicht benutzt werden. Ein Beispiel mit drei Variablen ist
VARIABLES Ertrag Standfestigkeit TS% (Trockensubst.Proz.)
Wurde der Befehl INPUT eingesetzt, werden mit VARIABLE NAMES die zu verrechnenden Variablen und deren Reihenfolge bei der Analyse festgelegt. Natürlich müssen die
Variablennamen dann mit den in INPUT und CALCULATE definierten Namen übereinstimmen, siehe auch 3.2.2.
3.2.5 Der Befehl NAMES OF TREATMENTS
Mit diesem Befehl werden Namen von Prüfgliedern eingelesen:
NAMES OF TREATMENTS/Q Liste von TEXTen
Die Zahl der Namen muß mit der Zahl der Prüfglieder übereinstimmen. Ohne Qualifier werden nur die ersten 5 Zeichen eines jeden Namens benutzt. Werden mehr Zeichen eingegeben, werden diese überlesen. Wenn weniger als 5 Zeichen geschrieben
werden, wird der Name bis zum Ende mit Leerzeichen aufgefüllt. Nur die ersten vier
NAMES-Zeilen werden im späteren Ausdruck gelistet. Gleichheitszeichen dürfen nicht
innerhalb eines Namens benutzt werden. Mit dem Qualifier Q kann erwirkt werden,
dass mehr als 5 Zeichen für Namen verwendet werden. Als Q wird dann die maximale Zahl der Zeichen in den Namen eingegeben. Beachte dabei, dass die Namenlänge
beim ersten NAMES-Aufruf zu ändern ist. Bei ANOVA muß mit einem weiteren Zeichen
im Qualifier das Symbol desjenigen Faktors vermerkt werden, auf den sich die Namen
beziehen (siehe FACTOR-Befehl 6.1.2). Beispiele hierfür sind:
NAMES_OF_TREATMENTS
D1
D2
D3
NAMES
E1*D2_(EMMA.LENA)*(DORA.ROSA)
M1*O2_(MARY.LENA)*(ORA_.ROSA)
NAMES/T9
Manchuria
Svansota
Velvet
Natürlich wird beim zweiten Beispiel nur E1*D2 und M1*O2 von PLABSTAT benutzt.
3.2.6 Der Befehl CHECKS
Damit werden die Standard- oder Kontrollprüfglieder festgelegt und eine zusätzliche
Tabelle von Prozentwerten ausgegeben, nämlich relative Prüfgliedmittelwerte in Prozent vom Mittelwert der Standardprüfglieder.
CHECKS/Q
Liste von Prüfgliedbezeichnern
Prüfgliedbezeichner sind die Nummern oder Namen der Standards. Wird ein Stern
* benutzt, wird auf den Versuchsmittelwert bezogen. Bei ANOVA muß als Qualifier das
3
11
Symbol desjenigen Faktors vermerkt werden, dem die Standardprüfglieder als Stufen
angehören (siehe FACTOR-Befehl 6.1.2). Bei LATTICE entfällt der Qualifier Q. Etwa
CHECKS 10 20 30
(bei LATTICE)
CHECKS/T 24 25
(bei ANOVA)
Um Serien von Experimenten, in denen oft zusätzliche lokale Standards zugelassen sind, verrechnen zu können, wird der Qualifier +n benutzt. Dabei werden nur die
ersten n Standardprüfglieder zur Berechnung der Relativwerte herangezogen, etwa
CHECKS/+2 TASSILO SYMPHONY
DUMMY1 DUMMY2 DUMMY3
Die nachgeordneten lokalen Standards, hier DUMMY1 bis DUMMY3, können in einzelnen
Experimenten fehlen. Im Korrelationsdiagramm werden die ersten n Standards zuerst
mit ihren Nummern angezeigt, anschließend die eigentlich zu testenden Prüfglieder
und zum Schluß die lokal angefügten Standardsorten. In mehrfaktoriellen Versuchen,
etwa in Serien von Tester×Linien gehen die Standardprüfglieder von CHECK/+ oder
CHECK/+n nicht in die ANOVA ein, sie werden nur in Korrelationsdiagrammen eingefügt.
3.2.7 Der Befehl CSV
Damit lassen sich csv-Dateien (comma separated values) erzeugen, die von Datenbanken leichter zu lesen sind. Es werden insgesamt vier csv-Dateien produziert:
*_mean.csv mit den Prüfgliedmittelwerten, *_perc.csv mit den Relativwerten als
Prozente vom Standardmittel, *_anov.csv mit Parametern aus den Varianzanalysen (etwa Freiheitsgrade, Abweichungsquadrate, Varianzkomponenten, F-Werte) und
*_corr.csv mit der Korrelationsmatrix der Prüfgliedmittelwerte. Übrigens ist auch die
*.mnv-Datei ene Art von csv-Datei, wobei das Leerzeichen als Trenner und der Dezimalpunkt benutzt wird. In den *_mean.csv und *_perc.csv können unter Benutzung
des ANOVA-Befehls ein- und zweifaktorielle Mittelwerttafeln ausgegeben werden, sofern diese im TBT_TAB-Befehl aufgerufen werden.
Es kann deutsches oder englisches Format für die csv-Dateien gewählt werden.
CSV/Q
Liste von fünf Identifikatoren
oder
CSV/Q
Calculation_ID,Crop,Trial,Year,Location
Mit dem Qualifier E bzw. ohne Qualifier wird englisches Format mit Dezimalpunkt
und Komma als Trenner benutzt. Mit dem Qualifier G wird deutsches Format mit Dezimalkomma und Semikolon als Trenner verwendet.
Die fünf Identifikatoren dienen als Kennzeichnung für den Versuch, etwa
CSV/E LP1,wheat,17,2009,serie
In diesem Falle werden alle erzeugten csv-Dateien mit diesen fünf einleitenden
Spalten versehen. An sich sind die fünf Identifikatoren frei wählbar.
Ist der erste Identifikator eine Zahl, z.B.
CSV/G 123,,,,
dann werden die Namen der csv-Dateien durch Anhängen an diese Zahl gebildet, also etwa 123_mean.csv, 123_corr.csv, 123_anov.csv, 123_perc.csv. Anderenfalls wird der Datendateiname entsprechend verlängert.
4
EINFACHE STATISTISCHE MASSZAHLEN UND REGRESSIONSANALYSEN 12
3.2.8 Der Befehl RUN
Beim Aufruf von RUN führt PLABSTAT die vorausgehenden Befehle aus. Es ist möglich,
dass dabei weitere Fehler entdeckt werden, welche beim Einlesen der einzelnen Befehlszeilen nicht zu finden waren. So wird etwa geprüft, ob die Zahl der Variablennamen mit der Zahl der zu analysierenden Variablen übereinstimmt. RUN ist ein essentieller Befehl.
3.2.9 Der Befehl EOD
Nach dem RUN-Befehl erwartet PLABSTAT einen Datensatz, dessen Struktur durch den
gewählten BASIC- , LATTICE- , ANOVA- oder ANOVA-Befehl beschrieben worden ist. Die
Datenzeilen werden durch eine Zeile mit EOD abgeschlossen.
3.2.10 Der Befehl STOP
Hiermit wird ein PLABSTAT-Job abgeschlossen. Falls erwünscht, können vor dem STOP
weitere Jobs mit Befehls- und Datenzeilen gegeben werden.
3.3 Dateneingabe
Die Daten sind meistens numerischer Art und können in freiem Format, getrennt
durch mindestens ein Leerzeichen, eingegeben werden. Für jede Parzelle oder Versuchseinheit muß eine Datenzeile eingeben werden.
Zuweilen ist ein formatierter Input wünschenswert, etwa wenn Daten aus einer Datenbank übernommen werden sollen. In solchen Fällen kann ein FORTRAN-ähnliches
Format verwendet werden, näheres siehe 4.1, 5.1 oder 6.1.
Für LATTICE and ANOVA können, falls erwünscht, die Daten sortiert werden (5.1.2
und 6.1.11), was mit irgendeinem Sortierprogramm oder mittels des Editors durchgeführt werden kann.
Fehlende Werte werden über einen Stern * oder als Null eingegeben. In einer formatierten Eingabe können dazu Leerzeichen oder Nullen verwendet werden. PLABSTAT
ersetzt diese fehlenden Werte durch geschätzte Ersatzwerte, wenn LATTICE oder ANOVA
durchgeführt wird. Weitere Details finden sich in 5.1.2 und 6.1.11.
4
Einfache statistische Maßzahlen und Regressionsanalysen
Mit dem BASIC-Befehl werden einfache statistische Maßzahlen, wie Mittelwert, Varianz, Standardabweichung, Variationskoeffizient, Schiefe oder Exzeß für einzelne Variablen und die Matrix der Korrelationskoeffizienten für einen Satz von Variablen berechnet. Mediane, Quartile und Spearmansche Korrelationskoeffizienten sind wählbar. Mit dem FIT-Befehl läßt sich eine einfache oder multiple Regressionsanalyse
durchführen.
4
4.1 Befehle
4.1.1 Der Befehl BASIC
Mit dem BASIC-Befehl werden Daten eingelesen und einfache statistische Maßzahlen
geschätzt:
BASIC/Q NROW NIDT NINPT NVAR
wobei NROW = Zahl der Einheiten oder Zeilen des Datensatzes
NIDT = Zahl der alphanumerischen Felder, welche die Datenzeile identifizieren
NINPT = Zahl der einzulesenden Variablen
NVAR = Zahl der zu analysierenden Variablen.
Der Qualifier Q dient zur Steuerung der Ein- und Ausgabe. Oft kann der Qualifier,
einschl. des Schrägstrichs, weggelassen werden. In diesem Fall wird eine bestimmte
Voreinstellung (default mit 1110) vorgenommen, siehe dazu auch 3.1.6. Der Qualifier
besteht aus bis zu 4 Ziffern mit Namen MISS, EXTR, PRIN und NEWF,
wobei MISS = 0
1
EXTR = 1
PRIN = 1
2
NEWF = 0
1
Nullen in den Daten nicht als fehl. Werte behandeln
Nullen als fehl. Werte behandeln (Voreinstellung)
nicht benutzt (Voreinstellung)
normale Ausgabe (Voreinstellung)
Ausgabe von Spearmanschen Korrelationskoeffizienten
Beobachtungswerte nicht auf sek. Datei sichern (Voreinstellung)
oder 2 transformierte Beobachtungswerte auf sek. Datei sichern.
Sollen die Beobachtungsdaten formatiert eingelesen werden, etwa wenn keine
Leerzeichen zum Trennen der Daten verwendet werden, wenn mehr als eine Datenzeile je Parzelle eingelesen oder wenn die Zeichenreihenfolge geändert werden soll, dann
kann an den BASIC-Befehl ein $F mit einem FORTRAN-ähnlichen Format angehängt
werden, z.B.
BASIC 16 0 6 6 $F X5, F2.1, 3F3.0, 1X, 2F.2
Die eigentlichen Beobachtungswerte müssen mit F- oder E-Beschreibern eingelesen
werden. Daneben können auch andere Beschreiber, etwa X für das Überlesen einzelner Zeichen oder / für nachfolgende Zeile, verwendet werden. Weiteres siehe in einer
FORTRAN-Beschreibung.
Mit CALCULATE können Variable (Merkmale) modifiziert oder neue berechnet werden, siehe Abschnitt 3.2.3. Mit VARIABLE NAMES (3.2.4) lassen sich ihre Namen eingeben.
Mit PLOT (8.3) können Korrelationsdiagramme erzeugt werden.
4.1.2 Der Befehl FIT
Mit dem FIT-Befehl werden einfache und multiple Regressionsrechnungen durchgeführt, nachdem zuvor mit dem BASIC-Befehl die Daten eingelesen worden sind:
FIT/Q Y X1 X2 ....
wobei Y = Variablenbezeichner für die abhängige Variable Y
X1 = Variablenbezeichner der ersten unabhängigen Variablen
4
X2 = Variablenbezeichner der zweiten unabhängigen Variablen
usw.
Sollen mehrere Regressionsanalysen durchgeführt werden, so muß jeder Variablensatz auf eine Zeile geschrieben werden, z.B.:
FIT X5 X1 X2 X3
Ertrg BD KZjeÄ TKG
Der Qualifier Q dient zur Steuerung. Er kann oft weggelassen werden. In diesem
Fall wird eine bestimmte Voreinstellung (default mit 111) vorgenommen, siehe dazu
auch 3.1.6. Der Qualifier besteht aus bis zu 3 Ziffern mit Namen PRIN, RSDL und ICPT
wobei PRIN = 0
1
2
RSDL = 0
1
2
ICPT = 0
1
nur Regressionsanalysen ausgeben
Kovarianzmatrix der multiplen Regressionskoeffizienten zusätzlich
ausgeben (Voreinstellung)
Kovarianzmatrix der Variablen zusätzlich ausgeben
Residuen nicht ausgeben
Test auf Ausreißer (Voreinstellung)
gefittete Werte und Residuen auf sekundäre Datei ausgeben
Regression ohne y-Achsenabschnitt
Regression mit y-Achsenabschnitt (Voreinstellung)
4.1.3 Die Dateneingabe
Für jede Beobachtungseinheit ist eine Datenzeile mit folgender Struktur einzugeben:
ID1 ID2 ...
X1 X2 ...
ID1, ID2, ... sind alphanumerische Felder, welche Experiment, Jahr, Ort, Kulturpflanzenart und andere Codes zur Identifizierung der Einheiten enthalten. Insgesamt NIDT solche Felder - durch Leerzeichen voneinander getrennt - werden
eingelesen, wobei NIDT auch Null sein kann. Diese Identifikatoren sind belanglos
für BASIC, so dass Sie beliebige Zeichen dafür wählen können.
X1, X2, ... sind die NINPT Beobachtungen je Beobachtungseinheit, die eingelesen
werden sollen. Diese Zahlen werden durch ein oder mehrere Leerzeichen voneinander getrennt. Ist dies in einem Datensatz nicht eingehalten worden, kann
eventuell durch obiges $F-Format doch eine Eingabe erreicht werden.
Beispiele für die Dateneingabe finden sich in Kapitel 2 und auf der Datei psdbasc.dat.
Fehlende Werte müssen durch einen Stern * oder Null im freien Format und durch
Leerzeichen oder Nullen beim $F-Format gekennzeichnet werden. Wird MISS=0 im
Qualifier des BASIC-Befehls gewählt, dann werden Nullen nicht als fehlende Werte
behandelt. Beachte: Datenpaare, die einen fehlenden Wert enthalten, werden beim
Schätzen einer Kovarianz innerhalb FIT weggelassen.
5
EINFACHE BLOCK- UND GITTERANLAGEN
15
4.2 Ausgabe und Methoden
Für jede zu analysierende Variable wird eine Zeile mit der Zahl der festgestellten Beobachtungen (Units) - fehlende Werte sind abgezogen -, mit dem Mittelwert (Mean), der
Varianz (Variance), der Standardabweichung (Std.dev), dem Variationskoeffizienten
(Coef.var), der Schiefe (Skewness) und dem Exzeß (Kurtosis).
Es wird der Schiefekoeffizient g1 ausgegeben, der in einer Normalverteilung 0 ist.
Bei positiven Schiefewerten ist die Verteilung rechtsschief, bei negativem linksschief.
Falls er signifikant von Null abweicht, wird bei P = 10%, 5% bzw. 1% mittels + , * oder
** eine entsprechende Signifikanz angezeigt. Entsprechendes gilt für den Exzeßschätzwert g2 , der bei einer Normalverteilung 0 ist, bei negativem Wert eine abgeflachtere
Verteilung, bei positivem Wert eine spitzgipfligere Verteilung anzeigt. Weiteres siehe
SNEDECOR und COCHRAN (1980, S. 79).
Treten fehlende Werte bei der Berechnung des Korrelationskoeffizienten zwischen
zwei Variablen auf, so wird jeweils das Paar von Beobachtungen ausgeschlossen, in
dem ein fehlender Wert enthalten ist.
In der multiplen Regressionstabelle findet sich unter der Überschrift Regr.coeff.
der y-Achsenabschnitt und die Regressionskoeffizienten. Daneben sind ihre Standardfehler unter Std.error und die t-Werte unter t-value zu finden. Unter
Std.regr.coeff. sind die Pfadkoeffizienten oder standardisierten Regressionskoeffizienten als Maße für die relative Bedeutung der einzelnen Regressionsvariablen aufgelistet, siehe auch SNEDECOR und COCHRAN (1980, S. 357). Unter part_r sind die
partiellen Korrelationskoeffizienten von Y auf Xi unter Konstanthalten der Xj (alle
j 6= i), unter part_SS die partiellen Summen der Abweichungsquadrate und unter
SSXY**2/SSX die Reduktionen in der Summe der Abweichungsquadrate durch die Einfachregression von Y auf Xi zu finden.
Für jedes Regressionsmodell werden das Bestimmtheitsmaß in % (R^2%), der multiple Korrelationskoeffizient (R) und das korrigierte Akaike Informationskriterium
(AICc) zum Vergleich verschiedener Modelle, siehe BURNHAM and ANDERSON
(1998), ausgegeben.
Ausreißer werden im Verlauf der multiplen Regressionsberechnungen getestet, siehe DRAPER und SMITH (1998). Dabei werden auffallende Restabweichungen und Datenpunkte, welche die Regression stark beeinflussen, aufgelistet.
Bei der multiplen Regression sollte beachtet werden, dass die numerischen Kalkulationen instabil werden können, wenn sehr hohe Korrelationskoeffizienten zwischen
Variablen, etwa r > 0, 998, auftreten. Ein solcher Nachteil kann vermieden werden,
wenn bei einer solchen Variablen über einen CALCULATE-Befehl ein Wert abgezogen
wird, der nahe oder auch gleich dem Variablenmittelwert ist, siehe dazu auch SNEDECOR und COCHRAN (1980, S. 400).
5 Einfache Block- und Gitteranlagen
Mit dem LATTICE-Befehl werden generalisierte Gitteranlagen (α-designs) und einfache
Blockexperimente analysiert. Zusätzlich lassen sich damit erweiterte teilweise wiederholte Anlagen (augmented p-rep designs, augmented designs, WILLIAMS et al.
2011) analysieren, deren Kern eine generalisierte Gitteranlage darstellt. Randomisierte
5
16
vollständige Blockanlagen (RCB) können auch mit dem ANOVA-Befehl verarbeitet werden. Ein einfacher Blockversuch ist unter LATTICE mit weniger PLABSTAT-Befehlen
und geringerem Rechenaufwand zu verrechnen als unter ANOVA, jedoch muß bei der
LATTICE-Dateneingabe auf jeden Fall die Blocknummer eingegeben werden. Näheres
dazu im Abschnitt 5.1.2.
5.1 Befehle
5.1.1 Der Befehl LATTICE
Mit dem LATTICE-Befehl werden Daten eingelesen und Analysen durchgeführt:
LATTICE/Q T S K R NINPT NVAR
wobei T
S
K
R
NINPT
NVAR
= Zahl der Prüfglieder
= Zahl der unvollständigen Blöcke je Wiederholung
(falls Blockversuch, S=1 wählen)
= Zahl der Parzellen je unvollständigem Block
(falls Blockversuch, K=1 wählen)
= Zahl der Wiederholungen
= Zahl der einzulesenden Variablen
= Zahl der zu analysierenden Variablen.
wobei MISS = 0
1
EXTR = 0
1
PRIN = 0
1
2
3
NEWF = 0
1
2
3
Nullen nicht als fehl. Werte behandeln
kein Test auf extreme Werte bzw. Ausreißer
Testen auf extreme Werte (Voreinstellung)
keine Ausgabe der Varianzanalyse-Tabelle
Ausgabe der Varianzanalyse-Tabelle (Voreinstellung)
Ausgabe der adj. Prüfgliedeffekte statt der Prüfgliedmittelwerte
Ersatzwerte bei fehlenden Werten auch bei mehr als 15 ausgeben,
fehl. Prüfgl. in den Mittelwerttabellen nicht durch Null ersetzen
Mittelwerte nicht auf sek. Datei sichern (Voreinstellung)
adj. Mittelwerte auf sek. Datei sichern
transformierte adj. Parzellenwerte sichern
adj. Mittelwerte und adj. Parzellenwerte sichern.
Leerzeichen zum Trennen der Daten verwendet werden, wenn mehr als eine Datenzeile je Parzelle eingelesen oder wenn die Zeichenreihenfolge geändert werden soll,
dann kann an den LATTICE-Befehl ein $F mit einem FORTRAN-ähnlichen Format angehängt werden, z.B.
LATT 7 1 1 2 6 3
$F A6, 2I2, 3F3.0, 1X, 3F5.0
5
17
Das erste Feld mit dem Identifikator muss dabei mit A6, die beiden nächsten Felder
(die Block- und die Prüfgliednummer, siehe 5.1.2) müssen mit einem I-Beschreiber und
die eigentlichen Meßwerte mit F- oder E-Beschreibern eingelesen werden. Daneben
können auch andere Beschreiber, etwa / für nachfolgende Zeile, verwendet werden.
Weiteres siehe in einer FORTRAN-Beschreibung.
Die Effekte der unvollständigen Blöcke (beim Gitter in adjustierter Form und den
dazugehörigen Wiederholungseffekt gleich addiert) können auf der sekundären Ausgabedatei gesichert werden, wenn ein $A an den LATTICE-Befehl angehängt wird, etwa:
LATT 7 1 1 2 6 3
$An
”Augmented designs” lassen sich damit verrechnen, indem die wiederholten bzw.
Standardprüfglieder zuerst eingelesen werden. Die Zahl der angehängten Prüfglieder
bzw. Parzellen n wird dabei nach $A vorgegeben. Die dazugehörigen Beobachtungsdaten werden im selben Format wie die Standardprüfglieder, siehe 5.1.2, nach deren Datenzeilen eingegeben. Entsprechend sind Block- und Prüfgliednummern (T+1, T+2,
... T+n) für jede der n Parzellen notwendig.
LATTICE kann auch mit nur einer Wiederholung (R=1) ausgeführt werden.
Mit CALCULATE können Variable (Merkmale) modifiziert oder neue berechnet werden, siehe Abschnitt 3.2.3. Mit VARIABLE NAMES (3.2.4) lassen sich ihre Namen eingeben und mit NAMES OF TREATMENTS (3.2.5) diejenigen der Prüfglieder. Mit CHECKS (3.2.6)
können Relativwerte zu den Standardprüfgliedern, mit INDEX (8.2) Selektionsindizes,
mit PLOT (8.3) Korrelationsdiagramme der Prüfgliedmittel oder der einzelnen Wiederholungen erzeugt werden und mit TBT TAB (8.1) können formatierte oder sortierte
Prüfgliedmittelwertlisten angewählt werden.
Für jede Parzelle oder Versuchseinheit ist eine Datenzeile mit folgender Struktur einzugeben:
IDENTIFIKATOR BN TN X1 X2 ...
IDENTIFIKATOR ist ein alphanumerisches Feld, welches Experiment, Jahr, Ort, Kulturpflanzenart, u.ä. anzeigt. Wegen des Schreibens von adjustierten Mittelwerten
auf die sekundäre Ausgabedatei sollte der Identifikator maximal 6 Zeichen lang
sein.
BN gibt in Gittern die Nummer des unvollständigen Blocks an, in der die Parzelle sich
befindet, sie läuft 1,2, ... R*S. Im Blockversuch wird die Wiederholungsnummer,
1,2, ... R , verwendet.
TN ist die Prüfgliednummer mit den möglichen Werten 1, 2, ... T.
X1, X2, ... sind die NINPT Beobachtungen je Parzelle, die eingelesen werden sollen. Diese Zahlen werden durch ein oder mehrere Leerzeichen voneinander getrennt. Ist dies in einem Datensatz nicht eingehalten worden, kann eventuell
durch obiges $F-Format doch eine Eingabe erreicht werden.
Die Daten können sortiert oder nichtsortiert eingehen. Beispiele finden sich auf der
Datei psdlatt.dat.
5
18
Qualifier des LATTICE-Befehls gewählt, dann werden Nullen nicht als fehlende Werte behandelt. Übrigens können ganze Prüfglieder als fehlend betrachtet werden. In
diesem Fall setzt PLABSTAT den Prüfgliedeffekt als Null an und schätzt die fehlende
Werte wie gewohnt. Fehlende Prüfglieder werden in den Mittelwert-Tabellen und in
der sekundären Ausgabedatei als Null ausgegeben, sofern der LATTICE-Qualifier PRIN
nicht auf 3 gesetzt ist. Auch Fälle, in denen in einzelnen Variablen weniger Wiederholungen vorhanden sind, lassen sich analysieren.
5.2
Ausgabe
Schätzwerte für die fehlenden Werte werden nur gedruckt, wenn weniger als 15 Werte
fehlen. Wird der Qualifier PRIN=3 gesetzt, können auch mehr als 15 angezeigt werden.
Der Ausreißertest arbeitet in abgeänderter Form, nach der Methode von ANSCOMBE und TUKEY (1963), siehe auch SNEDECOR und COCHRAN (1967, Kap. 11.11) und
stellt extreme Residuen (Parzellenfehler) fest. Damit mehrfache Ausreißer möglichst
gut identifiziert werden, wird zuerst ein robuster Schätzwert für die Fehlervarianz,
nämlich der MAD (Median der absoluten Residuen), berechnet. Damit werden die
standardisierten (bzw. studentisierten) Residuen, also Residuum dividiert durch die
Standardabweichung, berechnet. Wird eine gewisse Grenze, die von der Fehlervarianz
und dessen Freiheitsgraden abhängt, überschritten, wird der Beobachtungswert als
Ausreißer gemeldet. Da bei der Überprüfung normalverteilte Residuen vorausgesetzt
werden, können in manchen Fällen zu viele Extremwerte identifiziert werden.
Für jedes Merkmal wird dabei als erste Zeile die Wiederholungsmittelwerte
(Replic.means) ausgegeben und darunter die Liste der verdächtigen Ausreißer mit
dem studentisierten Residuum (St.Resid) und ihren Beobachtungswerten in jeder
Wiederholung. Es wird empfohlen, zuerst die Zeilen mit dem größten studentisierten
Residuum zu überprüfen. Wenn Sie sehr große Fehler, etwa Schreibfehler, in Ihrem Experiment korrigieren mußten, dann werden eventuell im zweiten Durchgang weitere
Ausreißer durch PLABSTAT ausgegeben.
Weiterhin ist eine Tabelle der Effekte der unvollständigen Blöcke zu finden. Diese
Effekte, in adjustierter Form geschätzt, spiegeln die Boden- oder sonstige Blockvariabilität wieder. Gradienten, Nester oder andere grobe Einflüsse auf die Daten können
damit gegebenfalls erkannt werden.
Für jedes Merkmal, sofern es variiert, wird eine Tabelle mit der Varianzanalyse
ausgegeben. Im Falle eines Gitters werden die Varianzkomponenten über eine ”IntraBlock-Analyse”, siehe FEDERER (1955) oder UTZ (1969, Bad Nauheim), berechnet. Auf
dieser Basis wird auch der F-Test für die Prüfglieder vorgenommen. Die Signifikanztests haben folgende Bedeutung:
+
*
**
signifikant bei 10% Irrtumswahrscheinlichkeit
Einige andere ausgegebene Parameterschätzwerte sind:
SE(tr)
= Standardfehler der (adjustierten) Prüfgliedmittelwerte
5
19
= Standardabweichung der (adjustierten) Prüfgliedmittelwerte
= Variationskoeffizient (coefficient of variation),
= nämlich die Wurzel aus der effektiven Fehlervarianz
dividiert durch das Versuchsmittel mal 100
Repeat1% = Wiederholbarkeit (repeatability) eines einzelnen Parzellenwertes in %
= Var.-komp. der Prüfgl. /(Var.-Komp. der Prüfgl. + Eff. Fehlervar.)
Effic.
= Effizienz des Gitters im Vergleich zum Blockversuch in Prozent
my
= Wägungsfaktor der Gitteranalyse, siehe COCHRAN und COX (1957)
Eff.Err.MS = Effektive Fehlervarianz im Gitter oder Fehlervar. im Blockversuch
SD(tr)
C.V.%
Mit dem Parameter Repeat1% oder der Wiederholbarkeit einer Parzelle können Versuche hinsichtlich ihrer Genauigkeit verglichen werden, und zwar unabhängig von der
jeweiligen Zahl der Wiederholungen. Dieser Parameter ist auch dann beachtenswert,
wenn die Fehler- und Prüfgliedvarianz korreliert sind. Zeigt dagegen die Fehlervarianz eine Abhängigkeit vom Versuchsmittelwert, dann dürfte der Variationskoeffizient
C.V.% als Genauigkeitsmaß vorzuziehen sein.
Die Prüfgliedmittelwerte werden beim Gitter in allen Merkmalen adjustiert, in denen die Effizienz mehr als 100% beträgt. Dieses Vorgehen dürfte dem Versuchsansteller die besten Informationen geben und wird daher auch in den meisten Lehrbüchern
empfohlen.
Am Anfang der Tafel der Prüfgliedmittelwerte finden sich einige weitere Zeilen:
= obiger Variationskoeffizient
= obige Wiederholbarkeit Repeat1%
= Grenzdifferenz bei 5% Irrtumswahrscheinlichkeit
= Mittelwert der Standardprüfglieder (falls CHECKS gegeben wurde)
= Versuchsmittel
oder
MwCh = Mittelwert der Nicht-Standard-Prüfglieder (Mean without Checks)
C.V.
REP1
LSD5
CHEC
MEAN
Ein Teil obiger Parameter wird auch auf die sekundäre Ausgabedatei geschrieben,
wenn der Qualifier NEWF=1 benutzt wird.
Wenn CHECKS gegeben wird, wird gleichzeitig eine Tabelle der adjustierten
Prüfgliedmittel in Prozenten vom Standardmittel erzeugt.
Ferner wird eine Tabelle der Korrelationskoeffizienten zwischen den Merkmalen,
berechnet aufgrund der (adjustierten) Prüfgliedmittelwerte, einschl. eines approximativen Signifikanztests ausgegeben.
5.3
Methoden
Die Analyse von generalisierten Gitteranlagen wird mittels einer iterativen Methode
nach WILLIAMS (1977) durchgeführt. Eingeschlossen sind die Spezialfälle eines quadratischen Gitters oder eines vollständigen Blockversuchs.
Fehlende Werte werden iterativ berechnet, indem die Fehlervarianz minimiert wird
(YATES, 1933; HEALY und WESTMACOTT, 1956). Die Iteration wird abgebrochen,
wenn die vierte Dezimale der Fehlervarianz bei wiederholter Iteration sich nicht mehr
ändert. Damit dürften die gegebenen Dezimalstellen in der Varianztabelle auch bei
6
MEHRFAKTORIELLE EXPERIMENTE
20
fehlenden Werten gültig sein. Die Zahl der notwendigen Iterationen wird mit Hilfe
eines Tricks von PREECE (1971) reduziert.
6
Mit dem ANOVA-Befehl werden balancierte mehrfaktorielle Versuche analysiert und Interaktionen zwischen zwei Faktoren nach einem Regressionsmodell unterteilt, etwa
um eine phänotypische Stabilitätsanalyse durchzuführen.
6.1 Befehle
6.1.1 Der Befehl ANOVA
Mit dem ANOVA-Befehl werden Daten eingelesen und die dazugehörige Analyse durchgeführt:
ANOVA/Q NIDT NINPT NVAR
wobei NIDT = Zahl der alphanumerischen Felder, welche die Datenzeile identifizieren
wobei MISS = 0 Nullen nicht als fehl. Werte behandeln
1 Nullen als fehl. Werte behandeln (Voreinstellung)
EXTR = 0 kein Test auf extreme Werte bzw. Ausreißer
1 Test auf extreme Werte in den Residuen (Voreinstellung)
2 Test auf extreme Werte in den Residuen und Effekten
PRIN = 1 normale Ausgabe (Voreinstellung)
3 erweitertes Ausgeben bei fehlenden Werten, nämlich Ausgeben aller
errechneten Ersatzwerte, Belassen der Ersatzwerte in Mittelwerttabellen und Ausgeben von Konvergenzkriterien
NEWF = 0 Mittelwerte nicht auf sek. Datei sichern (Voreinstellung)
1 Mittelwerte auf sekundärer Datei sichern
2 (transformierte) Parzellenwerte auf sek. Datei sichern.
kann an den ANOVA-Befehl ein $F mit einem FORTRAN-ähnlichen Format angehängt
werden, z.B.
ANOVA 0 6 6
$F 5X, F2.1, 3F3.0, 1X, 3F5.2
Die Beobachtungswerte müssen mit F- oder E-Beschreibern eingelesen werden. Daneben können auch andere Beschreiber, etwa X für das Überlesen einzelner Zeichen
6
21
oder / für nachfolgende Zeile, verwendet werden. Weiteres siehe in einer FORTRANBeschreibung.
Die Befehle FACTORS, MODEL und gegebenfalls RANDOM sollten vor den ANOVA-Befehl
gestellt werden, da die experimentelle Struktur zuerst definiert sein muß.
Mit CALCULATE können Variable (Merkmale) modifiziert oder neue berechnet werden, siehe Abschnitt 3.2.3. Mit VARIABLE NAMES (3.2.4) lassen sich ihre Namen eingeben
und mit NAMES OF TREATMENTS (3.2.5) diejenigen der Prüfglieder, so dass Tabellenüberschriften damit beschriftet werden können. Mit CHECKS (3.2.6) können Relativwerte zu
den Standardprüfgliedern, mit INDEX (8.2) Selektionsindizes und mit PLOT (8.3) Korrelationsdiagramme der Prüfgliedmittel erzeugt werden. Mit TBT TAB (6.1.7 und 8.1) lassen sich Mittelwerttabellen auch formatiert oder sortiert ausgeben. Mit ERROR können
Fehlervarianzen, Fehlerfreiheitsgrade u.a. aus Einzelversuchen übernommen werden,
wenn mit ANOVA eine zusammenfassende Auswertung über Serien von Experimenten
vorgenommen werden soll (siehe 8.5).
6.1.2 Der Befehl FACTORS
Dieser Befehl gibt die Faktoren und die Stufenzahl für jeden Faktor:
FACTORS
TEXT1=N1
TEXT2=N2
TEXT3=N3 ....
wobei die ersten 10 Zeichen jeden TEXTes als Faktorname dienen. Nach dem Gleichheitszeichen folgt die Zahl der Stufen N dieses Faktors. Beachte, dass Gleichheitszeichen innerhalb des Faktornamens nicht zugelassen sind.
Das erste Zeichen jeden Faktornamens wird als Kurzsymbol in Tabellen und anderen Befehlen, wie etwa MODEL oder MEANS benutzt, so dass die Faktornamen jeweils
mit verschiedenem Zeichen beginnen müssen. Folgende zwei Beispiele mögen obiges
verdeutlichen:
FACTORS T Sorten = 35 B Wiederholungen = 3
FACT VAETER = 178
MUETTER innerhalb Vaetern = 9
PLAETZE = 3
REIHEN in V und M = 2
Der FACTOR-Befehl muß, um die möglichen Faktorsymbole zu definieren, vor den
anderen Befehlen, wie MODEL oder RANDOM stehen. Die Reihenfolge der Faktornamen
in FACTORS gibt gleichzeitig die Reihenfolge der Daten wieder, nach der diese sortiert
sind, sofern die $-Spezifikation in ANOVA nicht benutzt wird.
Es ist möglich, mit nur einem Faktor eine Varianzanalyse durchzuführen.
6.1.3 Der Befehl MODEL
Dieser Befehl definiert das biometrische Modell für die Varianzanalyse. Der Befehl besteht aus den Effekten, welche durch eine Kombination von Faktorsymbolen symbolisiert und durch Pluszeichen verbunden werden:
MODEL EFFEKT1 + EFFEKT2 + EFFEKT3 + ...
Haupteffekte werden durch ein einzelnes Faktorsymbol und Interaktionseffekte
durch eine Kombination solcher Symbole dargestellt. Eine Dreifachklassifikation mit
den Faktorsymbolen A, B und C wird also wie folgt codiert:
6
22
MODEL A + B + C + AB + AC + BC + ABC .
Hierarchische Effekte werden mit einem Doppelpunkt versehen, wobei die Faktoren, innerhalb denen der hierarchische sich befindet, nach dem Doppelpunkt gegeben
wird. Wenn etwa C ein hierarchischer Effekt innerhalb A und B ist, dann schreibt sich
das biometrische Modell wie folgt:
MODEL A + B + C:AB .
Der letzte Effekt wird immer als ein Fehler oder Residuum interpretiert. Wenn weitere Effekte als Fehler interpretiert werden sollen, etwa in Spaltanlagen der Fehler der
Großparzellen, so ist nach solchen Effekten ein Schrägstrich zu schreiben, z.B.
MODEL W + G + WG/ + K + KG + KGW
wobei W der Wiederholungseffekt, G der Effekt des Großteilstücksfaktors, K der
Effekt des Kleinteilstücksfaktors, KG der Interaktionseffekt der beiden Faktoren und
WG der Fehler der Großteilstücke und KGW der Fehler der Kleinteilstücke darstellt.
Nach der Reihenfolge der Effekte in MODEL werden die Zeilen in der Varianzanalysetabelle ausgegeben.
Der MODEL-Befehl muß sorgfältig ausgearbeitet werden, da die korrekte Aufteilung
der Totalvariabilität und die Richtigkeit der Signifikanztests davon abhängen. Zu diesem Zweck sollten Sie die Faktoren in Ihrem Experiment in faktorielle (kreuzklassifizierte) und hierarchische einteilen. Weiterhin müssen Sie die Randomisation Ihrer Versuchseinheiten nachvollziehen, erst dann haben Sie die Gewähr, das richtige Modell
aufgestellt zu haben. Weitere Hinweise sind im Anhang C oder in Büchern, wie SNEDECOR und COCHRAN (1980) oder SEARLE (1971), bzw. im Vorlesungsmanuskript
”Datenverarbeitung in der Angewandten Genetik” zu finden.
6.1.4 Der Befehl RANDOM
Mit diesem Befehl werden die zufälligen Faktoren definiert, alle nicht aufgeführten
Faktoren werden als fest behandelt:
RANDOM Liste von Faktorsymbolen
In obigem dreifaktoriellen Beispiel möge A fest, B und C zufällig sein, dann ist zu
schreiben:
RANDOM B C
Meist wird man Blöcke oder Wiederholungen sowie Orte und Jahre als zufällig
annehmen, um die in der Pflanzenproduktion üblichen Signifikanztests zu erhalten.
Wann ein Effekt als fest oder als zufällig zu gelten hat, besprach SEARLE (1971, S.
376ff).
6.1.5 Die Befehle MEANS, EFFECTS, PERCENTS und RANKS
Zwei-Wege-Mittelwerttabellen, einschließlich der Marginalmittelwerte, werden mit
MEANS Liste von Zweifaktor-EFFEKTen
erzeugt, beispielsweise:
MEANS AB AC
Durch die Reihenfolge der Faktorsymbole in der Liste wird gleichzeitig der Tabellenaufbau festgelegt, indem der erste Buchstabe den Reihenfaktor und der zweite den
6
23
Säulenfaktor bezeichnet.
Enstsprechend können für Zweiwegetabellen die Effekte mit
EFFECTS Liste von Zweifaktor-EFFEKTen
die Prozente (relativ zum Mittelwert der Standardprüfglieder) mit
PERCENTS Liste von Zweifaktor-EFFEKTen
und die Ränge mit
RANKS Liste von Zweifaktor-EFFEKTen
angefordert werden. Natürlich sind diese Tabellen nur produzierbar und auch nur
sinnvoll, wenn der entsprechende Zweifaktor-Effekt in der MODEL-Zeile erscheint.
Beachte,
dass RANKS mindestens als RANK abgekürzt wird, da der Befehl sonst nicht von RANDOM
zu unterscheiden ist,
dass PERCENTS diejenigen Relativwerte bildet, die durch CHECKS definiert werden. Dabei muss CHECKS die Standard-Mittel des Reihenfaktors definieren, also wenn
PERCENTS TP ausgegeben werden soll, muss etwa CHECK/T * definiert sein (also
nicht CHECK/P * ). Der Import von Standard-Mittelwerten durch die CHEC-Zeile
in den Daten ist nur für TBT TAB-Tabellen möglich.
dass mit dem Befehl RESTRICT (6.1.10) die Ausgabe obiger Tabellen auf bestimmte
Variablen eingeschränkt werden kann. So kann etwa bei der Analyse von Kreuzungsexperimenten mit den Daten für Tester*Linien*Plätze nur für das wichtigste Merkmal detaillierte Zwei-Wege-Tabellen angefordert werden:
RESTRICT Ertrag
EFFECTS LT
(also die gca-sca-Tabelle)
RANKS LP
(also die Ränge der Linien an den Plätzen)
6.1.6 Der Befehl SUBINT
Eine Unterteilung der Wechselwirkungen (SUBdivision of the INTeractions = SUBINT)
in einer Zweiwegetafel kann mit diesem Befehl erreicht werden.
SUBINT Liste von Zweifaktor-EFFEKTen
Ein Beispiel dafür ist
SUBINT AB
SUBINT produziert eine Korrelationsmatrix der AB-Mittelwerte und berechnet eine
Stabilitätsanalyse, was insbesondere für Versuchsserien von Interesse ist. Weiteres im
Abschnitt 6.2.
Da eine Unterteilung sinnlos ist, wenn einer der beiden Faktoren weniger als drei
Stufen besitzt, werden nur Datensätze mit mindestens drei Stufen je Faktor analysiert.
Datensätze mit fehlenden Werten werden allerdings nicht optimal behandelt.
6.1.7 Der Befehl TBT TABLE
Eine Mittelwerttabelle über die Variablen hinweg (Treatment By Trait TABle =
TBT TAB) kann mit diesem Befehl angefordert werden:
6
24
TBT TABLE Liste von EFFEKTen
beispielsweise
TBT TAB AB
TBTTAB ABC AB AC B
Gleichzeitig werden die in diesem Befehl genannten Mittelwerte auf die sekundäre
Ausgabedatei geschrieben oder über PLOT geplottet, falls der entsprechende ANOVAQualifier oder PLOT gegeben worden ist.
Wie mit TBT TAB Tabellen formatiert und gleichzeitig absolute und relative Werte
ausgegeben werden können, ist in Kap. 8.1 beschrieben.
6.1.8 Der Befehl HERITABILITY
Mit diesem Befehl wird für bestimmte Prüfgliedmittelwerte die Heritabilität berechnet:
HERIT Faktorsymbol
beispielsweise
HERIT T
HERIT T:C
Gleichzeitig wird in runder Klammer das dazugehörige 95%-Konfidenzintervall
ausgegeben.
6.1.9 Der Befehl GENOTYPIC CORRELATION MATRIX
Damit werden die phänotypische und genotypische Korrelationsmatrix und bei Bedarf
auch die ausführlichen Varianz-Kovarianzanalysen berechnet:
GENOT EFFEKT
Für den Prüfglied-EFFEKT, der in der MODEL-Zeile vertreten sein muß, wird die Korrelationsmatrix berechnet, beispeilsweise
GENOT T
GENOT T:BC
Wird der Qualifier auf 1 gesetzt, werden zusätzlich die Varianz-KovarianzAnalysen ausgegeben:
GENOT/1 EFFEKT
Wegen Interna werden diese Analysen vor den üblichen PLABSTAT-Analysen ausgegeben (zugegebenerweise, vielleicht etwas unmotiviert).
6.1.10 Der Befehl RESTRICT
Hiermit kann die Ausgabe von Zwei-Wege-Tabellen, die mit MEANS, EFFECTS,
PERCENTS, RANKS oder SUBINT erzeugt wurden, auf bestimmte Variablen beschränkt
werden:
RESTRICT Liste von Variablenbezeichnern
beispielsweise
RESTRICT X1 X5
RESTRICT Ertrag TKG
6
25
Für jede Beobachtungseinheit ist eine Datenzeile mit folgender Struktur einzugeben:
ID1 ID2 ...
X1 X2 ...
ID1, ID2, ... sind alphanumerische Felder, welche Experiment, Jahr, Ort, Kulturpflanzenart und andere Codes zur Identifizierung der Einheiten anzeigen. Die
Felder werden durch ein oder mehrere Leerzeichen voneinander getrennt. Insgesamt NIDT solche Felder werden eingelesen, wobei NIDT auch Null sein kann.
Diese Identifikatoren sind, falls die Daten sortiert eingelesen werden, belanglos
für ANOVA, so dass Sie beliebige Zeichen dafür wählen können.
X1, X2, ... sind die NINPT Beobachtungen je Beobachtungseinheit, die eingelesen
werden sollen. Diese Zahlen werden durch ein oder mehrere Leerzeichen voneinander getrennt. Ist dies in einem Datensatz nicht eingehalten worden, kann
eventuell durch obiges $F-Format doch eine Eingabe erreicht werden.
Falls der Datensatz als sortiert eingelesen werden soll, muß die Reihenfolge der
Faktoren im FACTORS-Befehl so gewählt werden, dass sie mit der Sortierfolge übereinstimmt. Etwa wenn wie folgt sortiert ist,
A
1
1
2
2
3
3
B
1
2
1
2
1
2
X11
12.3
11.7
13.5
12.8
10.4
12.9
oder
B
1
2
1
2
1
2
A
1
1
2
2
3
3
X11
12.3
11.7
13.5
12.8
10.4
12.9
dann muß in beiden Fällen die Reihenfolge in der FACTORS-Zeile lauten:
FACTORS
A Faktor=3
B Faktor=2 ,
denn die lexikalische Reihenfolge obiger Daten basiert zuerst auf dem A-Namen,
dann auf dem B-Namen. Beispiele für die Dateneingabe finden sich auf der Datei psdanov.dat.
Falls die Daten nicht sortiert oder fehlende Datenzeilen vorhanden sind, dann muß
der ANOVA-Befehl mit einem Zusatz versehen werden, bei dem nach einem Dollarzeichen vermerkt wird, an welchen Stellen der Datenzeilen die Faktorstufen zu finden
sind:
ANOVA NIDT NINPT NVAR
$ K1 (KS1) K2 (KS2) K3 (KS3) ...
Die ganzzahligen Werte K1, K2, ... geben den Beginn derjenigen Spalten in den
Datenzeilen an, in denen die Stufenbezeichnungen für die einzelnen Faktoren beginnen. Die ganzzahligen Werte KS1, KS2, ... geben an, wieviele Zeichen die entsprechende Stufenbezeichnung lang ist.
Die Reihenfolge dieser Schlüsselzahlen hat in derselben Reihenfolge wie die Faktorbezeichnungen im FACTOR-Befehl zu erfolgen. Die NAMES-Befehle sind in diesem Falle
unnötig bzw. die Stufenbezeichnungen in Mittelwerttabellen erfolgt in der Reihenfolge
dieser Namen.
Ein Beispiel soll das Vorgehen verdeutlichen:
FACTOR Sorten = 15
Jahre = 2
Orte = 6
6
ANOVA 3 8 8
26
$ 12(4) 3(2) 8(3)
wobei die dazugehörigen Datenzeilen folgendermaßen aufgebaut sind:
9987 XXP30 LEO 70.3 552 1.3 29.3 43.6 96.0 514 0
---- --In dieser Beobachtungszeile stellt also ”87” das Jahr, ”P30” den Ort und ”LEO” die
Sorte dar. Die Zahl der Identifikatoren ist davon unbeeinflußt und wird durch NIDT
wie gewohnt im ANOVA-Befehl angegeben.
Qualifier des ANOVA-Befehls gewählt, dann werden Nullen nicht als fehlende Werte
behandelt. Übrigens können auch einzelne Stufen oder Faktorkombinationen fehlen.
In diesem Fall nimmt PLABSTAT den entsprechenden Effekt als Null an und schätzt
die fehlende Werte wie bei der Methode der kleinsten Quadrate (”Fitting constants”)
gewohnt.
6.2
Ausgabe
Die Ausgabe von ANOVA beginnt mit einer Tafel der Erwartungswerte der Mittleren Abweichungsquadrate. Sie bildet die Basis für die Berechnung der Varianzkomponenten
und F-Werte. Diese Tafel ist für den balancierten Fall gültig.
In der Varianzanalyse-Tabelle werden neben den Freiheitsgraden (Degrees of Freedom = DF), Summen von Abweichungsquadraten (Sums of Squares = SS) und Mittleren
Abweichungsquadraten (Mean Squares = MS) die Varianzkomponenten Var.cp. und
ihre Standardfehler s(V.cp.) ausgegeben. Varianzkomponenten werden auch für feste Effekte ausgegeben, obwohl deren Größe dann selten von Interesse ist. Sie können
jedoch interpretiert werden, siehe SNEDECOR und COCHRAN (1980, Kap. 13.9).
Die F-Werte F mit Signifikanztests, siehe auch 5.2, sowie die dazugehörigen Freiheitsgrade des Zählers DF-NM und des Nenners DF-DN werden ausgegeben. Die Freiheitsgade sind nicht immer ganze Zahlen, da die SATTERTHWAITEsche Approximation in komplizierten Fällen benutzt wird.
Für jede Varianzursache oder genauer für die dazugehörigen Mittelwerte ist der
Standardfehler dieser Mittelwerte s.e. und die Grenzdifferenz bei 5% Irrtumswahrscheinlichkeit LSD5 in den letzten beiden Spalten zu finden.
Die Heritabilität, nämlich der Quotient aus genetischer und phänotypischer Varianz von bestimmten Mittelwerten, und das dazugehörige 95%-Konfidenzintervall erscheint nach Aufruf von HERITAB. Zur Berechnung siehe KNAPP and BRIDGES (1987).
Der Ausreißertest wird nach ANSCOMBE und TUKEY (1963), siehe auch SNEDECOR und COCHRAN (1967, Kap. 11.11) durchgeführt und stellt extreme Residuen (Parzellenfehler) fest. Dieser Test setzt normalverteilte Residuen voraus. Für einen
verdächtigen Extremwert wird der Prozentsatz des Residuums zur Testgröße ausgegeben. Zusätzlich können auch Effekte getestet werden, dann wird der verdächtige
Effekt mit seinen Stufennummern und dem Schätzwert ausgegeben.
Schätzwerte für die fehlenden Werte werden im Standardfall nur bis zu 15 fehlenden ausgegeben. Möchte man diese auch bei höheren Anzahlen gedruckt haben, ist im
ANOVA-Qualifier PRIN=3 zu wählen. In den Mittelwerttabellen und in der sekundären
6
27
Ausgabedatei werden fehlende Werte als Null ausgegeben, sofern nicht obiger Qualifier auf 3 gesetzt ist.
Bei TBT TABLE mit Zweiwegetafel AB werden die Korrelatationskoeffizienten der
AB-Mittelwerte auf die marginalen A-Mittelwerte für jede Stufe von B berechnet. Bei
weniger als 20 Stufen für den Faktor A fehlt diese Tafel. Diese Korrelationen dürften
vor allem beim Analysieren von Serien von Interesse sein. Wenn diese Korrelationskoeffizienten verschieden sind, dürften die Interaktionseffekte unterschiedlich mit den
Haupteffekten korreliert sein. Korrelationskoeffizienten nahe Null dürften darauf hinweisen, dass die Werte dieser Stufe im Widerspruch zu denen auf anderen Stufen stehen. Diese Schätzwerte können bei der Interpretation von Zweiwegetafeln Hinweise
über Zusammenhänge geben. Eine ausführlichere Analyse liefert ein SUBINT-Aufruf.
Die Analyse einer Zweiwegetafel mittels SUBINT produziert zuerst eine zusammenfassende Varianzanalyse. Zur Interpretation siehe bei BLISS (1967), WRIGHT (1971)
oder UTZ (1972). Die beiden Unter-Varianzanalysen oder SubANOVAs sind nach YATES
und COCHRAN (1938) oder PERKINS und JINKS (1968) berechnet.
Für die Stufen der beiden Faktoren werden verschiedene Schätzwerte ausgegeben.
Wenn wir die Werte in einer Zweiwegetafel mit xik ansprechen, wobei i der Index für
die Reihe und k der Index für die Spalte darstellt, dann erhalten wir für die i-te Stufe:
= Mittel xi. , wobei der Punkt darauf hinweist,
dass über den Index k gemittelt ist,
Corr.
= Korrelationskoeffizient zwischen xik und x.k
Regr.
= dazugehöriger Regressionskoeffizient von xik auf x.k
MSdev
= Mittleres Abweichungsquadrat der xik von obiger Regression
MSentry
= einfache Varianz für die i-te Stufe, nämlich var(xik )i
MSinteract. = Varianz der Interaktionseffekte var(xik − xi. − x.k + x.. ) ,
welche mit der Ökovalenz von WRICKE, die als SQ definiert ist,
korrespondiert.
MSdevXHY
= Varianz der Abweichungen vom ”Site Highest Yield”,
wie JENSEN (1976) beschrieben hat.
Mean
Entsprechend sind die Schätzwerte für die k-te Stufe des anderen Faktors definierbar.
In den Kovarianzanalyse-Tabellen werden zusätzlich folgende Schätzwerte ausgegeben:
In der Spalte V.cp% der ANOVA-Tabellen findet sich für jede Varianzursache das
Verhältnis des Schätzwerts der Varianzkomponente zur Varianz der entsprechenden
Mittelwerte. In genetischen Situationen ist dieses Verhältnis für die Prüfglieder die
Heritabilität. Zu bemerken ist, dass sich diese Spalte nicht zu 100% addieren läßt.
Der phänotypische Korrelationskoeffizient r-phen wird für jede Zeile in den
ANCOVA-Tabellen berechnet und getestet. Der genotypische Korrelationskoeffizient
ist unter r-gen, sein Standardfehler unter s(r-gen) zu finden. Falls der genotypische
Korrelationskoeffizient mit seinem absoluten Betrag größer als der einfache Standardfehler ist, wird ein + angehängt, wenn er größer als der zweifache Standardfehler ist,
ein ++\verb.
6
28
6.3 Methoden
Die Variananalyse wird mit Hilfe der Algorithmen AS1, ASR1, AS18 und AS19 berechnet, die in Appl. Statist. Band 17 und 19, siehe auch UTZ (1978), veröffentlicht
worden sind. Diese Algorithmen wurden in FORTRAN übersetzt und hinsichtlich der
Rechenzeit schneller gemacht. Die Berechnungen werden mit doppelter Genauigkeit
ausgeführt und die Summe der Abweichungsquadrate werden über die Effekte berechnet.
Die SATTERTHWAITEsche Approximation der F-Werte basiert auf dem Typ
F = (MS1 + MS4) / (MS2 + MS3) ,
also nicht auf dem Typ
F = MS1 / (MS2 + MS3 - MS4) ,
siehe dazu auch COCHRAN (1951) oder SNEDECOR und COCHRAN (1980, Kap.
16.14).
Fehlende Werte werden iterativ nach der Methode der kleinsten Quadrate, wie
schon unter 5.3 beschrieben, berechnet. Zuweilen fehlt eine Stufe eines Faktors oder
eine Faktorkombination völlig, dann gibt PLABSTAT die Meldung aus:
MISSING LEVEL(S) IN ...
Sollte der Iterationsprozess nicht konvergieren - hoffentlich selten - , dann wird ein
entsprechender Vermerk gegeben und die einfachen Mittelwerte berechnet.
Bei fehlenden Werten sind die Prüfglied-MQ überschätzt und die F-Werte ergeben
zu oft signifikante Resultate. Bei wenigen fehlenden Werten kann dies vernachlässigt
werden (COCHRAN und COX, 1957, Kap. 3.7). Eine grobe Grenze für eine nicht mehr
zu tolerierende Verzerrung geben BENNETT und FRANKLIN (1954) mit 10% fehlender Werte an. Daher wird in Fällen mit mehr als 13% fehlender Werte von PLABSTAT
keine Varianzanalyse mehr ausgegeben. Bei fehlenden Werten können die MQ nach
SNEDECOR und COCHRAN (1980, Kap. 15.3), GOULDEN (1952; Kap. 14) oder SEARLE (1971) nachträglich korrigiert werden. BERK (1987) verglich die möglichen Methoden miteinander. Gegebenenfalls ist auf ein Statistikpaket für Analysen von unbalancierten Datensätzen zu wechseln.
Die Standardfehler von genotypischen Korrelationskoeffizienten, die mittels GENOT
(6.1.9) angefordert werden, werden nach MODE und ROBINSON (1959) berechnet.
Im unbalancierten Fall wird die analoge Varianzanalysemethode oder Methode 1
nach HENDERSON (1953) für die Varianz-Kovarianzanalysen verwendet, siehe auch
SEARLE (1971, S. 424ff). Varianz- und Kovarianzkomponenten sowie F-Tests werden
dabei berechnet als ob die MS und MP balanciert ist. Dieses Verfahren wird von TIETJEN (1974, Biometrics 30,573) für den F-Test sinnvoller angesehen als ein F-Test basierend auf der SATTERTHWAITE-Approximation. Natürlich kann der Experimentator bei sehr unbalancierten Datensätzen mit gemischten Modellen eine REML-Analyse
durchführen, wie sie etwa in SAS, GENSTAT, ASREML oder R möglich ist.
Beachte:
Bei fehlenden Werten kann demnach PLABSTAT in den Kovarianzanalysen, mit
GENOT/1 erwirkt, andere SQ und MQ bzw. SP und MP ausgeben als in den Varianzanalysen. Bei Henderson 1 können auch negative SQ (bzw. SQ-Ananloge) errechnet
werden. Bei jeder Kovarianzanalyse werden die beiden Varianzanalysen neu erstellt
und dabei die gemeinsamen fehlenden Werte aus der Analyse weggelassen. Daher lassen sich in gewissen Fällen die Korrelationkoeffizenten nicht über die ausgegebenen
7
NICHTWIEDERHOLTE EXPERIMENTE
29
Analysen nachrechnen.
Selbstverständlich ist es dem Anwender in stärker unbalancierten Datensätzen freigestellt, die Erwartungswerte der SQ bzw. MQ für Henderson 1 nach Searle (1971) oder
BLISS (1967), LE ROY und GLUCKOWSKI (1961) zu berechnen sowie andere Tests
durchzuführen. Dies ist bei Henderson 1 natürlich nur für völlig zufällige Modelle
möglich (siehe SEARLE, 1971, S.429f). Für gemischte Modelle vergleiche BERK (1987)
oder SEARLE (1982), der die Statistikpakete SAS, GENSTAT, SYSTAT u.a. hinsichtlich
gültiger Lösungen vergleicht.
Desweiteren wird der Restfehler nach Henderson 1 bekanntlich verzerrt geschätzt,
siehe HENDERSON (1953). Auch hier kann es sinnvoll sein, den unverzerrten Schätzer
zu verwenden, der z.B. durch Poolen der effektiven Fehlervarianz in einer Serie von
Gitteranlagen leicht von Hand zu ermitteln ist.
7 Nichtwiederholte Experimente
Mit dem UNREP-Befehl werden Experimente ohne Wiederholung analysiert, wobei eine
Eliminierung etwaiger Gradienten über Standardprüfglieder oder gleitender Mittelwerte vorgenommen wird.
7.1 Befehle
7.1.1 Der Befehl UNREPLICATED
Mit dem UNREP-Befehl werden Daten aus nichtwiederholten Versuchen eingelesen und
analysiert:
UNREP/Q
NPARZ NROW NCOL NSTD NIDT NINPT NVAR
wobei NPARZ = Gesamtzahl der Einheiten oder der zu verrechnenden Parzellen,
mit NPARZ ≤ NROW×NCOL
NROW = Zahl der Reihen oder Beete
NCOL = Zahl der Säulen oder Parzellen je Beet
NSTD = 0 mit gleitenden Mitteln wird adjustiert
= n mit Standardprüfgliedern wird adjustiert
wobei n die Zahl der Standardsorten, die im Versuch mehrmals
vorkommen, angibt. (Nur einmal vorkommende Standardsorten laufen
als normale Testprüfglieder.)
NIDT = 4 bzw. Zahl der Felder, welche die Datenzeile identifizieren
(Es wird ein alphanumerischer Identifikator für das Experiment,
eine Reihen-, Säulen- und Prüfgliednummer benötigt.)
Voreinstellung (default mit 1110) angenommen, siehe dazu auch 3.1.6. Der Qualifier
7
wobei MISS = 0
1
EXTR = 1
PRIN = 1
3
NEWF = 0
1
30
Nullen in den Daten nicht als fehl. Werte behandeln
nicht benutzt (Voreinstellung)
normale Ausgabe (Voreinstellung)
Detaillierte Ausgabe mit unadj. und adj. Beobachtungen,
je Merkmal nebeneinander in *.prt gelistet
Beobachtungswerte nicht auf sek. Datei sichern (Voreinstellung)
oder 2 adjustierte Beobachtungswerte auf sek. Datei sichern.
kann an den UNREP-Befehl ein $F mit einem FORTRAN-ähnlichen Format angehängt
werden, z.B.
UNREP 27 3 9 3 4 3 4 $F 6X,2I2,I5,3F5.0
Die eigentlichen Beobachtungswerte müssen mit F- oder E-Beschreibern eingelesen
werden. Daneben können auch andere Beschreiber, etwa X für das Überlesen einzelner Zeichen oder / für nachfolgende Zeile, verwendet werden. Weiteres siehe in einer
FORTRAN-Beschreibung.
Mit CALCULATE können Variable (Merkmale) modifiziert oder neue berechnet werden, siehe Abschnitt 3.2.3. Mit VARIABLE NAMES (3.2.4) und mit NAMES OF TREATMENTS
(3.2.5) lassen sich die Namen der Variablen oder Prüfglieder eingeben. Mit PLOT (8.3)
können Korrelationsdiagramme erzeugt werden. Mit TBT TAB (8.1) lassen sich formatierte und sortierte Beobachtungstabellen erzeugen.
Bei gleitenden Mittelwerten kann CHECKS (3.2.6) mit Nummern der Standards
benutzt werden, etwa
CHECKS 1 2 11 12
Bei jeder Parzelle müssen Position, also Reihen- und Säulennummer, und Prüfgliednummer angegeben werden, etwa wie folgt:
T299XX 01 01 1 5.0 1.0 ...
wobei diese nacheinander durch ein oder mehrere Leerzeichen getrennt einzugeben sind, der Versuchsidentifikator, Reihen- und Säulennummer (1,2 ... NROW bzw. 1, 2
... NCOL), Prüfgliednummer und die Beobachtungswerte. Die erste Säule, der Identifikator sollte 6 Zeichen breit sein und über die Datenzeilen konstant sein. Standardsorten
müssen durch eine Prüfgliednummer größer als 99000 kenntlich gemacht werden.
Die Reihenfolge der einzulesenden Datenzeilen ist frei. Es können in einem durch
NROW×NCOL beschriebenen Rechteck außerdem Parzellen bzw. Datenzeilen, etwa in einer Ecke, fehlen.
Fehlende Werte am besten mit Stern *, wie sonst auch, eingeben.
Pedigrees werden über den NAMES-Befehl, wie gewohnt, eingeführt, wobei in der
Reihenfolge der Prüfgliednummern die Pedigrees folgen (bei NSTD=0) oder in der Reihenfolge der einlaufenden Parzellen (bei NSTD>0).
In der Datei psdunrep.dat sind Beispielsdatensätze zu finden, die einmal mit der
7
31
Standardmethode und zum anderen mit gleitenden Mitteln verrechnet werden.
7.2 Ausgabe
Zuerst wird eine Zusammenfassung der unkorrigierten Daten wie mit dem BASICBefehl ausgegeben. Anschließend werden der Korrelationskoeffizient r(obs,concom)
und der Regressionskoeffizient b(obs.concom) zur Beurteilung der Effizienz der Adjustierung, weiteres siehe 7.3.3, gegeben. Mit einer Tabelle der adjustierten Beobachtungswerte, identisch mit einer TBT-Tabelle, wird abgeschlossen. Bei gleitenden Mittelwerten werden in letzterer eventuell Mittelwerte errechnet, wenn bestimmte oder alle
Prüfglieder mehrfach vorkommen. Dadurch läßt sich überprüfen, ob in einem Blockversuch eine Trendkurve nachweisbar ist und ob an eine Elimination dieses Trends zu
denken ist.
Wird PRIN=3 gegeben, finden sich getrennt nach dem Merkmal weitere Zwischenresultate der Berechnungen, nämlich bei einer Standardanlage:
Mean of checks, Check means, No. of check plots sowie
NBETW = maximum distance between two check plots
NNMIN = minimum number of check plots for the adjustment of a test plot
(e.g. in the corner or with missing check plots)
NNMAX = maximum number of check plots for the adjustment of a test plot
Unter CHECK PLOT VALUES werden die Residuen jeder Standardparzelle und
die Mittelwerte der Residuen der direkt benachbarten Standardparzellen aufgeführt. Die Assoziation der beiden Variablen wird durch die beiden Koeffizienten
r = r(obs,concom) und b = b(obs.concom) beschrieben.
Unter PLOT VALUES werden für jede Parzelle die Position im Versuch, nämlich
Reihen- und Säulen-Nummer der Parzelle, und der Typ (bei Testparzellen typ = 0, bei
Standardparzellen typ = i, nämlich die Nummer des Standards), der nichtadjustierte
und der adjustierte Beobachtungswert und die Differenz der letzteren beiden bzw. der
Betrag der Adjustierung gelistet.
Bei Gleitenden Mittelwerten (Moving averages) wird unter PLOT VALUES ebenfalls die Position der Parzellen, ihre Prüfgliednummer und die Beobachtungswerte, nichtadjustiert, adjustiert und das zum Ausgleich benutzte gleitende Mittel
(mov.ave.), zusätzlich gelistet.
7.3
Methoden
Ein etwaiger Gradient wird bei der Standardanlage mittels der nächstliegenden Standards oder bei den gleitenden Mittelwerten mittels benachbarter Parzellen geschätzt.
Die Standardanlage ist weniger zu empfehlen, siehe 7.3.3. Sie wurde hier als Variante
berücksichtigt, da sie in der praktischen Pflanzenzüchtung oft eingesetzt worden ist.
7.3.1 Standardanlage
Als Schätzwerte für die Bodengüte werden zuerst die Differenzen der Standardparzellen zu ihrem jeweiligen Sortenmittelwert berechnet. Als Kovariable (concomitant
7
32
variable) für den Ausgleich wird das Mittel aller solchen Differenzen benutzt, die in
einem Rechteck, um eine Standardparzelle liegen. Dieses Rechteck wird durch den
nächsten Standard auf der linken und rechten Seite gebildet und umfasst das Beet
oberhalb und unterhalb der Testparzelle. Dieser an den Standardparzellen kalibrierte
Regressionskoeffizient b(obs.concom) wird zur Gewichtung der nachfolgenden Testparzellen mit der entsprechenden Kovariablen verwendet. In den Ecken und Rändern
bzw. wenn fehlende Standards vorhanden sind, wird eben über weniger benachbarte
Standardparzellen-Abweichungen gemittelt. Die Standards können beliebig positioniert sein, sie können etwa in Streifen oder anderen mehr oder weniger regelmäßigen
Mustern (Diamonds) angeordnet sein. Bei mehrfachen Standards nebeneinander werden nur die nächstliegenden zur Adjustierung verwendet.
7.3.2 Gleitende Mittelwerte
Für jede zu adjustierende Parzelle werden die zehn benachbarten Beobachtungen,
nämlich die von den vier linken und vier rechten Parzellen und von der direkt darüber
und darunterliegenden Parzelle, zu einem Mittelwert zusammengefaßt und als Kovariable (concomitant variable) für eine Adjustierung benutzt. In den Ecken wird über
entsprechend weniger Nachparparzellen gemittelt. Bei dieser Methode wird der Trend
mit Hilfe eines Mittels, das über mehr Parzellen als bei der Standardanlage gebildet
wird, geschätzt. Dies ist auch notwendig, da die Nachbarbeobachtungen ja jeweils andere genotypische Effekte enthalten.
7.3.3 Hinweise zur Beurteilung der Adjustierungen
Der Regressionskoeffizient b(obs.concom) , da er kleiner als 1 ist, dient dazu eine
Überkorrektur zu vermeiden (siehe YATES, 1936). Mit dem Korrelationskoeffizienten
r(obs,concom) kann der Wert einer Adjustierung beurteilt werden. Nach COCHRAN
(1957) sollte er mindestens 0.3 betragen, anderenfalls wird sich eine Korrektur nicht
lohnen. An sich sollten die Korrelationskoeffizienten positiv sein, negative sind nur
bei starker Konkurrenz unter den Prüfgliedern zu erwarten. Daher sind negative wohl
als unbrauchbar für eine Adjustierung eines Bodentrends anzusehen.
Eine Standardanlage ist nach BAKER and McKENZIE (1967) wohl selten empfehlenswert. Denn setzt man, wie es oft der Fall ist, etwa auf jede zehnte Parzelle einen
Standard, dann ist dies zu wenig, um einen Bodengradienten ausreichend genau zu
schätzen. Benutzt man mehrere Standards (etwa vier) nebeneinander oder setzt auf jeder zweiten Parzelle Standards ein, dann mag zwar eine Schätzung des Bodengradienten eher möglich sein. Doch wird damit der Anteil der Standardparzellen im Vergleich
zu den eigentlichen Testparzellen zu hoch und die Korrektur zu teuer.
Gleitende Mittelwerte sind daher eher zu empfehlen, Voraussetzung dabei ist aber,
dass die Prüfglieder randomisiert auf dem Feld stehen, sonst werden etwaige Familieneffekte eliminiert. Je nach Art des Gradienten und Höhe des Versuchsfehlers dürfte
die optimale Kovariable verschieden zusammengesetzt sein. Die benutzten zehn Parzellen dürften einen brauchbaren Kompromiss darstellen. Wichtig scheint auch, dass
Parzellen in der Senkrechten zum Korrigieren mit eingehen, etwa in ein- oder zweireihigen Experimenten, um senkrechte Einflüsse, wie Schlepperspuren, auszuschalten.
Siehe auch Literatur zu Nächstnachbarmethoden.
8
ERGÄNZENDE BEFEHLE
33
Weitere Details und Literatur siehe CHANDRA (1991), KEMPTON (1984), KEMPTON und FOX (1997, Kap. 5-7) oder YATES (1936).
8 Ergänzende Befehle
Anbei sind einige ergänzende Befehle beschrieben, die insbesondere für LATTICE- und
ANOVA-Läufe von Interesse sind.
8.1 Der Befehl TBT TABLE
Neben den unter 6.1.7 genannten Funktionen, nämlich der Wahl der Mittelwerttabellen im ANOVA-Fall, kann mit diesem Befehl die Ausgabe der Mittelwertlisten gesteuert
werden. Solches ist empfehlenswert, wenn etwa die Mittelwertlisten DIN-A4-Breite
erhalten sollen oder wenn spezielle Outputs gestaltet werden sollen. TBT TAB-Tabellen
können bis 255 Zeichen bzw. bis 34 Merkmale ohne Umbruch in der Breite gestaltet
werden.
Durch den Zusatz von $F gefolgt von einem FORTRAN-Format können die Mittelwerte einer TBT-Tabelle formatiert, also mit einer bestimmten Zahl von Stellen vor oder
nach dem Dezimalpunkt versehen werden. Es gelten sämtliche FORTRAN-Regeln für
Formate. Insofern dabei auch die Überschriften der Tabellen zu ändern sind, kann mit
Zusatz $T mit nachfolgendem Text eine veränderte Überschriftszeile eingelesen werden. Dabei sind bis zu 6 $T-Zeilen erlaubt, die dann direkt über den Beobachtungsmittelwerten plaziert werden.
Wenn unter Verwendung von CHECKS auch die Relativwertliste ein anderes Format
erhalten soll, kann ein solcher Block von $F- mit $T-Zusätzen wiederholt werden.
Anschließend kann durch einen $S-Zusatz, z.B. $S X2 oder $S TS% , bewirkt werden, dass die Mittelwertliste nach einem bestimmten Merkmal, hier der zweiten Variablen, sortiert wird.
Durch den Zusatz $V und einer Folge von Variablenbezeichnern mit Zeichen a für
absolut oder p für Prozentzahl, z.B.
$V X3p X3a X2a X1a
$V Ertrag.a TS%.p
kann erreicht werden, dass die Mittelwerttabellen hinsichtlich der Merkmale umgeordnet und gleichzeitig Absolut- und Relativwerte (zum Standard-Mittelwert) enthalten. Der Punkt . wird zur Trennung von Variablennamen und den Zeichen a bzw. p
benutzt.
Ein Beispiel sei nachfolgend gegeben:
FACTORS
REPLICAT. = 2
GENOTYPES = 25
MODEL
R + G + RG
ANOVA/1211
0
7
6
CHECKS/G
*
! bei LATTICE wuerde in der nachfolg. Zeile das G fehlen
TBTTABLE
G
$F
2(F5.0),3(F5.1),F4.1,F5.0
$T
$T PflH KoH Ertr
Spind TS% Bon. SEL
$T cm cm
dt/ha
%
%
1-9
IND
$F 10(F6.1)
$T PflH
KolH Ertrag Spind TS%
Bon.
SEL
8
$T
cm
cm
dt/ha
%
%
1-9
$S YIELD
! Sorting of TBT_tables according variable 3 yield
CHECKS/G *
INDEX
-0.2
0
1
-0.2
1
0
50
VAR_NAMES
PLHIG COHIG YIELD %COB %D.M. SCORE
34
IND
Dabei werden die (absoluten) Mittelwerte für das erste und zweite Merkmal mit
insgesamt 5 Stellen (Format F5.0 zweimal wiederholt) ausgegeben, wobei keine Nachkommastelle vorgesehen ist. Das dritte, vierte und fünfte Merkmal (Format F5.1 dreimal wiederholt) wird mit einer Nachkommastelle ausgegeben usf. Hingegen werden
alle Relativwerte (Format F6.1), also mit insgesamt 6 Stellen, wobei eine Nachkommastelle, der Dezimalpunkt und das Vorzeichen sowie drei Stellen für die Prozentzahl vor
dem Punkt vorgesehen sind.
8.2 Der Befehl INDEX
Damit können Selektionsindizes oder andere Funktionen der Mittelwerte in TBT TABTabellen berechnet werden. Mit Hilfe von CALC-analogen Befehlen werden neue Variablen erzeugt, für die keine Varianzanalyse durchgeführt wird, die nur als letzte Spalten
an die TBT TAB-Tabellen angehängt werden. Ein Selektionsindex rechnet sich z.B. wie
folgt:
INDEX
1
X4=-0.5*X1-1.33*X2+0.77*X3+100
oder
INDEX
1
Index=2*TS%+Ertrag+Standf
Der Befehl muß als erste Größe die Anzahl der zu erstellenden Index-Variablen
aufweisen. Die Größe NVAR im LATTICE- und ANOVA-Befehl muß die neuen Variablen
enthalten, ebenso natürlich dann VARIABLES.
Mit Hilfe einer Funktion MC zur Berechnung von Mittelwerten von Standardprüfgliedern (Mean of Checks) können auch Relativwerte erzeugt werden, etwa für die
Ertragswertzahl des Bundessortenamtes mit zwei verschiedenen Gewichten für den
Trockensubstanzgehalt TS%:
INDEX 2 CH Ertrag=MC(Ertrag,1,2,3)
CH TS%=MC(TS%,1,2,3)
CH Stdf=MC(Stdf,1,2,3)
INDX1=Ertrag/CH Ertrag*100+2.5*(TS%-CH TS%*100)+1.0*(Stdf-CH Stdf)
INDX2=Ertrag/CH Ertrag*100+1.5*(TS%-CH TS%*100)+1.0*(Stdf-CH Stdf)
Hierbei werden zuerst für drei Merkmale Ertrag, TS% und Stdf die Standardsortenmittel aus den Mittelwerten der Prüfglieder 1, 2 und 3 berechnet und den Hilfsgrößen
CH Ertrag, CH TS% und CH Stdf zugewiesen. Anschließend werden zwei Indexvariablen INDX1 und INDX2 mit unterschiedlichen Gewichten gebildet. Da zwei zusätzliche
Index-Variablen in den TBT-Tabellen erscheinen sollen, beginnt INDEX mit 2.
Auf Grund einer Index-Variablen kann natürlich auch eine Sortierung der TBTTabellen über die $S-Option erfolgen, siehe Befehl TBT TAB (8.1).
8.3 Der Befehl PLOT
Mit diesem Befehl können Korrelationsdiagramme (Scatterplots) erzeugt werden.
8
35
PLOT/Q X1.X2 X2.X3 ...
etwa
PLOT/2 X3.X2 Ertrag.TS%
Der erste Bezeichner gibt die Variablennummer oder den Variablennamen, die für
die y-Achse bzw. Ordinate verwendet werden soll, der zweite Bezeichner nach dem
Punkt die Variable für die x-Achse oder Abszisse. Es können mehrere Plots durch
Anfügen weiterer Variablenpaare, getrennt durch ein oder mehrere Leerzeichen, angefordert werden.
Wenn die erste und zweite Variable gleich ist, etwa in:
PLOT X1.X1 TKG.TKG
dann werden die Beobachtungswerte der einzelnen Wiederholungen geplottet. Solche Diagramme dienen dazu, Ausreißer oder andere auffallende Beobachtungswerte
im Datenmaterial aufzufinden. (Gilt nur in Verbindung mit LATTICE). Genauer gesagt,
werden bei zwei Wiederholungen die Beobachtungswerte der ersten Wiederholung
auf diejenigen der zweiten Wiederholung geplottet, bei mehr als zwei Wiederholungen
werden die Beobachtungswerte jeder Wiederholung auf die Mittelwerte über alle Wiederholungen geplottet. Beim Gitter werden die Beobachtungswerte zuvor natürlich für
die unvollständigen Blöcke korrigiert.
Die maximale Zahl der Diagramme je Lauf ist 40.
Der Qualifier Q gibt die Zahl der Diagramme, die je Seite ausgedruckt werden:
Q = 1 ein Diagramm je Seite (Voreinstellung)
= 2 zwei Diagramme je Seite (für DIN-A4-Formate geeignet)
= 3 drei Diagramme je Seite.
Wenn PLOT in Verbindung mit einem ANOVA-Aufruf benutzt wird, werden für alle in
TBT TABLE genannten einfaktoriellen Mittelwerte Diagramme erzeugt.
Im Diagramm, siehe Kap. 2, werden die Punkte fortlaufend nach den Nummern der
TBT TAB- bzw. der Prüfgliedmittelwerttabelle durchnummeriert. Mehrfachbelegungen
werden durch einen Stern * mit nachfolgender Ziffer, z.B. *3, gekennzeichnet, wobei
am rechten Rand, dann unter *3 die entsprechenden Prüfgliednummern der Mehrfachbelegung aufgelistet sind. Die Standard-Prüfglieder sind als Punkte unterstrichen.
Die Regressionsgerade von y auf x ist durch einen Schrägstrich / in der y-Achse
und einen weiteren am rechten Rand markiert, so dass von Hand die Regressionsgerade eingezeichnet werden kann. Die Mittelwerte sind durch ein M auf der x- und y-Achse
vermerkt. Wenn die Grenzdifferenz berechenbar ist, wird diese durch eine Folge von D
auf den Achsen visualisiert. Unter Miss. ist die Zahl der Punkte, die wegen fehlender
Werte fehlen angegeben.
8.4 Der Befehl PPLOT
Mit diesem Befehl können Korrelationsdiagramme (Scatterplots) für zwei Variablen in
PostScript erzeugt werden. Die Ausgabe wird auf eine separate Datei *.ps geschrieben.
PPLOT/n X1.X2
etwa
PPLOT/1 Ertrag.TS%
8
36
Es wird ein Streudiagramm für die Variable X1 auf der y-Achse und X2 auf der xAchse gezeichnet. Standardsorten, siehe CHECKS, werden darin mit einee fettgedruckten Nummer verzeichnet. Desweiteren wird die Regressionsgerade, das Versuchsmittel und die beiden Grenzdifferenzen eingezeichnet.
Mit dem Qualifier n kann die Spalte im Namen der Prüfglieder (bzw. im Pedigree)
definiert werden, die als Diagrammsymbol statt eines kleinen Kreises verwendet werden soll.
8.5 Der Befehl ERROR
Für das Verrechnen von Versuchsserien kann der Befehl ERROR benutzt werden. Dadurch ist es möglich, *.mnv-Dateien ohne Änderung miteinzubinden.
ERROR Faktorsymbol Spaltenzahl
oder
ERROR
Zahl der zu poolenden Versuche
Spaltenzahl
wobei Faktorsymbol auf den Faktor hinweist, der durch die Einzelversuche (z.B. Orte)
repräsentiert wird und natürlich im dazugehörigen FACTORS-Befehl vertreten sein muß.
Die Spaltenzahl gibt an, in welcher Datenspalte VAR, DFE, SE, LSD, CHEC, MEAN beginnt. Durch diese werden die entsprechenden Schätzwerte aus den Einzelversuchen
eingebracht. Voreinstellung für die Spaltenzahl ist 12. Beispiele sind etwa:
ERROR P 7
ERROR Q
Besitzt man eine andere Zahl von Versuchen, deren Fehler in der Serie gepoolt werden soll, kann man statt dem Faktorsymbol auch direkt die Zahl der zu poolenden
Versuche angeben.
Ein solcher Import von Fehlervarianzen ist natürlich nur sinnvoll, wenn die Variablen unverändert bleiben. Werden CALC-Befehle benutzt, treffen diese Fehler nicht
mehr zu. Wenn der ERROR-Befehl falsch gewählt wird, resultiert oft ein TOO MUCH
LEVEL-Fehler. Daher beachte folgendes:
1. VAR-, DFE-, SE-, LSD-, CHEC- oder MEAN-Zeilen können in beliebiger Reihenfolge
bzw. eine beliebige Auswahl daraus und an beliebiger Stelle im Datensatz gegeben werden. Wichtig sind nur DFE- und SE-Zeilen, wobei die DFE-Zeilen vor den
SE-Zeilen stehen müssen.
2. VAR ... MEAN darf daher nicht (genauer nicht an der durch obige Spaltenzahl
angegebenen Position) in Prüfgliednamen auftauchen, um Verwechslungen zu
vermeiden.
3. Die Namen VAR ... MEAN müssen unter den Identifikatoren der Daten enthalten
sein. Deren Zeilen müssen durch genauso viele Identifikatoren wie die normalen
Daten spezifiziert sein.
4. Wenn kein CHECK-Befehl gegeben wird, wird die Relativwertberechnung aufgrund
der eingelesenen CHEC-Zeilen durchgeführt. Ist jedoch ein CHECK-Befehl vorhanden, werden die CHECK-Mittelwerte neu berechnet.
Beispiel für einen Serien-Input, siehe auch psdanov-6 in psdanov.dat:
9
WINKE, WÜRMER, WÄNDE
37
!!
SERIES OF RYE EXPERIMENTS
FACTORS
PLACES = 3
TREAT = 25
MODEL
P + T + TP
ANOVA
2
9
9
CHECKS
24 25
ERROR
P
8
TBT_TAB
TP T
RUN
117001 DFE 12
16
0 16
16
23
0
0
0
117001 SE
4.79 2.17 0 0.86 .82
.40
0
0
0
117001 LSD 14.77 6.51 0 2.59 2.45
1.16
0
0
0
117001 CHEC 0
0
0 0
0
0
0
0
0
117001 001 79.77 130.36 .00 1.21 4.88 23.00 .00 .00 .00
117001 002 73.90 133.93 .00 1.32 6.00 23.00 .00 .00 .00
117001 003 74.78 132.86 .00 2.00 7.00 22.50 .00 .00 .00
obiges ist der Anfang der .MNV-Datei des ersten Versuchs,
es folgen weiter alle .MNV-Dateien der Serie.
EOD
STOP
8.6 Der Befehl OMISS
Damit können fehlende Werte (Missing data) in der sekundären Output-Datei mit
speziellen Werten gekennzeichnet werden, was bei der Benutzung von Datenbanken
erwünscht sein kann.
OMISS Liste von Zahlen
Es müssen NVAR Zahlen angegeben werden, so dass für jede zu analysierende
Variable eine Zahl zur Kennzeichnung der fehlenden Werte vorliegt. Etwa bei NVAR
=4
OMISS 0 -9 0 99.99
Wird OMISS weggelassen, wird jeder fehlende Wert in der sekundären Ausgabedatei
mit Stern * gekennzeichnet. Voreinstellung ist also OMISS mit einer Liste von Nullen.
9
Winke, Würmer, Wände
(1) In der Biologie werden Beobachtungen meist höchstens 3 Stellen genau gemessen,
so dass Mittlere Abweichungsquadrate oder Varianzkomponenten nicht mehr
als 5 bis 6 Stellen genau sein können. Selbst wenn ein Computerprogramm mehr
Stellen ausgeben sollte, sollten Sie nur die biologisch sinnvollen Stellen entnehmen.
(2) Es ist nicht möglich, dass PLABSTAT jeden Fehler bei der Eingabe entdeckt und
eine korrekte Meldung liefert. Zum Beispiel, wenn Sie schreiben:
ANOVA 10 10 100
weil Sie aus Versehen die letzte Null der Zeile doppelt eingeben. Dieser Befehl
ist natürlich legal, so dass PLABSTAT anfängt zu rechnen und vielleicht an ganz
anderer Stelle, hier etwa zu wenig Speicherplätze, meldet. Daher sollte in Fällen
mit unerwarteten Fehlern, zuerst das richtige Schreiben der PLABSTAT-Befehle
überprüft werden.
9
WINKE, WÜRMER, WÄNDE
38
Selbstverständlich wird ein Programm immer auch Fehler enthalten, die abgestellt gehören. Daher ist der Autor Ihnen dankbar, wenn Sie solche Fehler ihm
weitergeben.
(3) Einige Grenzen sind im Programm gesetzt:
Maximale Zahl der Faktoren in ANOVA
= 10
Maximale Zahl der Variablen
= 350
(eingeschlossen die Konstanten in CALCULATE)
Maximale Zahl von fehlenden Werten in LATTICE = 150
Auch einige andere Datenfelder haben eine fixierte Größe. Wenn nötig, können
diese Beschränkungen nach einer weiteren Compilierung nach oben gesetzt werden. Im Zweifelsfalle wenden Sie sich an die Stelle, von der Sie das Programm
bezogen haben.
10 LITERATURVERZEICHNIS
10
39
Literaturverzeichnis
ANDERSON, R.L. and T.A. BANCROFT, 1952. Statistical Theory in Research. Mc
Graw-Hill, New York.
ANSCOMBE, F.J. and J.W. TUKEY, 1963. The examination and analysis of residuals.
Technometrics 5, 141-160.
BAKER, R.J. and R.I.H. MCKENZIE, 1967. Use of control plots in yield trials. Crop
Sci. 7, 335-337.
BENETT, C.A. and N.L. FRANKLIN, 1954. Statistical Analysis in Chemistry and Chemical Industry. Wiley, New York.
BERK, K., 1987. Computing for incomplete repeated measures. Biometrics 43, 385-398.
BLISS, C.I., 1967. Statistics in Biology. Vol. 1. McGraw-Hill, New York.
BURNHAM, K.P. and D.R. ANDERSON, 1998. Model Selection and Inference. A Practical Information-Theoretic Approach. Springer, New York.
CHANDRA, S., 1991. Optimal planning of unreplicated field trials in recurrent selection. Dissertation Hohenheim.
COCHRAN, W.G., 1951. Testing a linear relation among variances. Biometrics 7, 1732.
COCHRAN, W.G., 1957. Analysis of covariance: Its nature and uses. Biometrics 13,
261-281.
COCHRAN, W.G. and G.M. COX, 1957. Experimental designs. Wiley, New York.
DRAPER, N.R. and H. SMITH, 1998. Applied Regression Analysis. 3rd ed. Wiley, New
York.
FEDERER, W.T., 1955. Experimental Designs. Mcmillan Comp., New York.
GOULDEN, C.H., 1952. Methods of Statistical Analysis. Wiley, New York.
HARTLEY, H.O., 1956. A plan for programming analysis of variance for general purpose computers. Biometrics 12, 110-122.
HEALY, M.J.R. and M.H. WESTMACOTT, 1956. Missing values in experiments analyzed on automatic computers. Appl. Statist. 5, 203-206.
HENDERSON, C.R., 1953. Estimation of variance and covariance components. Biometrics 9, 226-252.
JENSEN, N.F., 1976. Floating checks for plant breeding nurseries. Cereal Research
Communications 4, 285-295.
KEMPTON, R.A., 1984. The design and analysis of unreplicated field trials. Proc. of
Fifth Meeting of the EUCARPIA Section Biometrics in Plant Breeding, Hohenheim, Vortr. Pflanzenzüchtg. 7, 219-242.
40
KEMPTON, R.A. and P.N. FOX (eds.), 1997. Statistical Methods for Plant Variety Evaluation. Chapman&Hall, London.
KNAPP, S.J. and W.C. BRIDGES, 1987. Confidence interval estimators for heritability
for several mating and experimental designs. Theor. Appl. Genet. 73, 759-763.
LE ROY, H.L. und W. GLUCKOWSKI, 1961. Die Bestimmung der Varianzkomponenten im a.b.c-Faktorenversuch mit ungleichen Klassenfrequenzen. Biometr. Zeitschrift 3, 73-91.
MODE, C.J. and H.F. ROBINSON, 1959. Pleiotropism and the genetic variance and
covariance. Biometrics 15, 518-537.
PATTERSON, H.D. and E.R. WILLIAMS, 1976. A new class of resolvable incomplete
block designs. Biometrika 63, 83-92.
PERKINS, J.M. and J.L. JINKS, 1968. Environmental and genotype-environmental
components of variability. III. Multiple lines and crosses. Heredity 23, 339-356.
PREECE, D.A., 1971. Iterative procedures for missing values in experiments. Technometrics 13, 743-753.
SEARLE, S.R., 1971. Linear Models. Wiley, New York.
SEARLE, S.R., 1982. Technical reports on variance component estimation. Cornell
Univ. See http://www.biom.cornell.edu/Publications/aco.html.
SNEDECOR, G.W. and W.G. COCHRAN, 1967, 6th ed.; 1980, 7th ed. Statistical Methods. Iowa State University Press, Ames.
TIETJEN, G.L., 1974. Exact and approximate tests for unbalanced random effects designs. Biometrics 30, 573-581.
UTZ, H.F., 1972. Die Zerlegung der GenotypxUmwelt-Interaktionen. EDV in Medizin
und Biologie 3, 52-59.
UTZ, H.F., 1978. Ein Algol-60-Programm fuer die Analyse von balancierten faktoriellen Versuchsanlagen. EDV in Medizin und Biologie 9, 34.
WILLIAMS, E.R., 1977. Iterative analysis of generalized lattice designs. Austr. J. Statist. 19, 39-42.
WILLIAMS, E., PIEPHO, H.-P., and WHITAKER, D., 2011. Augmented p-rep designs.
Biom. J. 53, 19-27
WRIGHT, A.J., 1971. The analysis and prediction of some two factor interactions in
grass breeding. J.agric. Sci., Camb. 76, 301-306.
YATES, F., 1933. The analysis of replicated experiments when the field results are incomplete. Emp.J.Exp.Agric. 1,129-142.
YATES,F. 1936. A new method of arranging variety trials involving a large number of
varieties. J. agric. Sci., Camb. 24, 424-455.
41
YATES,F. and W.G. COCHRAN, 1938. The analysis of groups of experiments. J. agric.
Sci., Camb. 28, 556-580.
ANHANG A
Liste der Befehle
ANHANG A
!
!
42
Liste der Befehle
Text bis zum Ende der Zeile
Text nach ! wird als Kommentar angesehen
BASIC/Q
NROW
NIDT
NINPT
NVAR
LATTICE/Q
T
S
K
R
NINPT
NVAR
ANOVA/Q
NIDT
NINPT
NVAR
UNREP/Q
NPARZ NROW NCOL NSTD NIDT NINPT NVAR
[siehe 3.2.1]
[siehe
[siehe
[siehe
[siehe
4.1.1]
5.1.1]
6.1.1]
7.1.1]
mit NROW
NIDT
= Zahl der Versuchseinheiten oder Zeilen im Datensatz
= Zahl der alphanumerischen Felder, welche die Datenzeile
identifizieren
NVAR = Zahl der zu analysierenden Variablen
T = Zahl
S = Zahl
(bei
K = Zahl
(bei
R = Zahl
der Prüfgliedern
der unvollständigen Blöcke je Wiederholung
Blockversuch, S=1)
der Parzellen je unvollständigem Block
Blockversuch, S=1)
der Wiederholungen
mit 4-ziffrigem Qualifier Q (Voreinstellung 1110):
MISS = 0 Nullen nicht als fehlende Werte behandeln
= 1 Nullen als fehl. Werte behandeln (Voreinstellung)
EXTR = 0 kein Test auf Ausreißer oder extreme Werte
= 1 Test der Residuen auf Ausreißer (Voreinstellung)
= 2 Test der Residuen und Effekte auf Ausreißer (nur ANOVA)
PRIN = 0 keine Ausgabe der Varianzanalysetabellen (nur LATTICE)
= 1 normaler Druck
(Voreinstellung)
= 2 Ausgabe der Effekte statt Mittelwerte (nur LATTICE)
Spearmanschen Korrelationskoeff. drucken (nur BASIC)
= 3 erweitertes Drucken bei fehlenden Werten
(nur ANOVA und LATTICE)
NEWF = 0 Mittelwerte nicht auf sek. Datei sichern (Voreinstellung)
= 1 Mittelwerte auf sekundärer Ausgabedatei sichern
= 2 transformierte (event. adj.) Parzellenwerte sichern
= 3 adj. Mittelwerte und Parzellenwerte sichern (nur LATTICE)
Zusätze
für formatiertes Einlesen der Daten hänge $F mit einem FORTRAN-ähnlichen
Format an, z.B.
ANOVA
6 0 5 5
$F 15X, 2(F2.1), F5.2, 3X, F4.1
für Ausgeben der Effekte der unvollständigen Blöcke auf sekundäre
Ausgabedatei bzw. für "augmented designs" mit n angehängten Parzellen
LATTICE
. . .
$An
[siehe 5.1.1]
für unsortierte und unvollständige Datensätze, z.B.
ANOVA
. . .
$
2(1)
5(3)
[siehe 6.1.11]
ANHANG A
Liste der Befehle
43
INPUT Variablenliste (jeweils erste 5 Zeichen von Bedeut.) [siehe 3.2.2]
CALCULATE X2=X6/X7*100 X3=X3*X4-100 ! einige Beispiele
[siehe 3.2.3]
X2=LN(X2)
X3=SQRT(X8)
X4=EXP(X4)
X5=ARCSINST(X10)
X15=X1>0.5
X15=X3==100
X15=X14+(X1>=0.5)*10
VARIABLE NAMES
Liste von Texten
(erste 5 Zeichen werden benutzt)
[siehe 3.2.4]
Befehle nur im Zusammenhang mit ANOVA (Einfacher Blockversuch als Beispiel)
[siehe 6.1.2 und 6.1.7]
-----------------------------------------------------------------------------FACTORS
TREAT=15 REPLICATION = 3
(beachte: als erste Zeile bringen)
[siehe 6.1.2]
MODEL
R + T + RT (benutze jeweils das erste Zeichen des Faktornamens)
[siehe 6.1.3]
RANDOM
R T
[siehe 6.1.4]
RESTRICT
X1
[siehe 6.1.10]
MEANS
RT TA
[siehe 6.1.5]
EFFECTS
TA
[siehe 6.1.5]
RANKS
TA
[siehe 6.1.5]
SUBINT
RT
[siehe 6.1.6]
TBT_TAB
T
$F
$T
$S
$V
(ist außerdem notwendig, wenn Qualifier NEWF=1 oder
PLOT benutzt werden soll)
2(F5.0), 3(F5.1), ... für Formatierung
Text ...
für Überschrift
[siehe 8.1]
X2
für Sortierung
X3p X3a X1 Ertr.p für Variablenwahl
HERIT T
oder HERIT T:C
[siehe 6.1.8]
GENOT/Q name
z.B.
GENOT T oder GEN T:BC
mit name = Effekt-Kurzzeichen
[siehe 6.1.9]
Q = 1 zusätzlich Varianz-Kovarianz-Analysen
------------------------------------------------------------------------------FIT/Q
Y X1 X2 ... (nur mit BASIC, je Regression eine Zeile)
z.B. FIT X5
X1 X2
mit 3-ziffrigem Qualifier Q (Voreinstellung 111):
[siehe 4.1.2]
PRIN = 0
nur Regressionsanalysen ausgeben
= 1
Kovarianzmatrix der Regressionskoeffizienten
zusätzlich ausgeben
(Voreinstellung)
= 2
Kovarianzmatrix der Variablen zusätzlich ausgeben
RSDL = 0
Residuen nicht ausgeben
= 1
Test auf Ausreißer
(Voreinstellung)
= 2
gefittete Werte und Residuen auf sekund. Datei ausgeben
ICPT = 0
Regression ohne y-Achsenabschnitt
= 1
Regression mit y-Achsenabschnitt (Voreinstellung)
ANHANG A
NAMES OF TR/Q
Liste der Befehle
Liste von Texten
44
(mit Voreinstellung erste 5
Zeichen benutzt)
NAMES/12
[siehe 3.2.5]
mit Q = Länge des Textes, z.B.
oder bei ANOVA:
Q = Faktorsymbol und Länge des Textes ,
CHECKS
z.B.
NAMES/T12
Liste von Prüfgliednummern oder *
[siehe 3.2.6]
bei ANOVA mit Qualifier Faktorsymbol, z.B. CHECKS/T 24
CSV/Q Liste von fünf Identifikatoren
[siehe 3.2.7]
mit Q = E für englisches csv-Format (Dezimalpunkt und Komma)
= G für deutsches csv-Format (Dezimalkomma und Strichpunkt)
INDEX 1
PLOT/Q
mit
X4=-0.5*X1-1.33*X2+0.77*X3+100
X11=MC(X2,1,2,3)
X1.X2
X5.X2 X3.X3 ! als Beispiele
Q = 1 ein Diagramm je Seite (Voreinstellung)
= 2
zwei Diagramme je Seite
= 3
drei Diagramme je Seite
[siehe
8.2]
[siehe
8.3]
PPLOT/n Xi.Xj
[siehe 8.4]
PostScript-Scatterdiagramm für Xi auf Xj
n = n-tes Zeichen im Pedigree wird statt einer Nummer gezeichnet
ERROR P n
[siehe 8.5]
mit P = Symbol des Faktors der Einzelversuche
(oder Zahl der Versuche mit DFE- und SE-Zeilen)
n = Spalte, in der DFE, .. in den Daten steht (Voreinstellung 12)
OMISSListe von NVAR Zahlen
[siehe
8.6]
RUN
[siehe 3.2.8]
nach RUN folgt der eigentliche Datensatz
EOD
STOP
[siehe 3.2.9]
[siehe 3.2.10]
ANHANG B
Beispiele
ANHANG B
45
Beispiele
Mehrere Datenbeispiele sind in drei Dateien zu finden:
1. Beispiele mit BASIC in der Datei psdbasc.dat
PSDBASC-1 = Einfaches Beispiel mit PLOT
PSDBASC-2 = mit Korrelationsmatrix
PSDBASC-3 = Test zur multiplen Regression (Amer. Statist. 1984)
PSDBASC-4 = Multiple lineare Regress. (SNEDECOR und COCHRAN, 1980, S. 336)
PSDBASC-5 = Polynomiale Regression (SNEDECOR und COCHRAN, 1980, S. 399)
PSDBASC-6 = Orthogonale Polynome (SNEDECOR und COCHRAN, 1980, S. 405)
PSDBASC-7 = Regression durch den Nullpunkt (SNEDECOR und C., 1980, S. 173)
PSDBASC-8 = Spearman’s correlation (SNEDECOR und C., 1980, S. 192)
2. Beispiele mit LATTICE in der Datei psdlatt.dat
PSDLATT-1 = Zweisatzgitter (COCHRAN und COX, S. 406 and 413)
PSDLATT-2 = Randomisierter vollständiger Blockversuch (RCB)
mit CALCULATE, CHECKS, INDEX und PLOT
PSDLATT-3 = Dreisatz-Rechteckgitter (COCHRAN und COX, S. 418)
PSDLATT-4 = Dreisatz-Rechteckgitter (FEDERER, 1955, S. 347)
mit Gebrauch von Qualifier
PSDLATT-5 = 10*8 Generalisiertes Gitter
PSDLATT-6 = Dreisatzgitter mit verschiedenen Arten von fehlenden Werten
PSDLATT-7 = Randomisierter vollständiger Blockversuch (RCB)
mit verschiedenen Arten von fehlenden Werten
PSDLATT-8 = 5*5 Zweisatzgitter (SCHNELL, 1957)
PSDLATT-9 = 7*3 Generalisiertes Gitter mit 3 Wiederholungen
3. Beispiele mit ANOVA in der Datei psdanov.dat
PSDANOV-1 = Spaltanlage (SNEDECOR and COCHRAN, 1980, S. 327)
PSDANOV-2 = Randomisierter vollständiger Blockversuch (RCB)
mit CALCULATE, CHECKS, INDEX und PLOT
PSDANOV-3 = 3-faktorielles Experiment (SNEDECOR and COCHRAN, 1980, S. 318)
mit TBT TAB und MEANS
PSDANOV-4 = Unterteilung einer Zweifaktor-Interaktion, phänotyp. Stabilitätsanalyse,
(YATES and COCHRAN, 1938)
PSDANOV-5 = North Carolina Design I
PSDANOV-6 = Versuchsserie bei Roggen
mit ERROR und INDEX
PSDANOV-7 = Berechnung von Erwartungswerten der MQ
in einer Spaltanlage über Orte und Jahre
4. Beispiele mit UNREP in der Datei psdunrep.dat
PSDUNREP = Beispielsdaten für Standardanlagen und gleitende Mittelwerte
ANHANG C
MODEL-Zeilen für einige Versuchsanlagen
ANHANG C
1. Einfaktorieller vollständig randomisierter Blockversuch
mit Varianten und Wiederholungen; event. über Orte, Jahre und Regionen
Einzelversuch:
Serie über Orte:
Serie über Orte
und Jahre:
Serie über Regionen:
Serie über Regionen
und Jahre:
MODEL W + V + WV
MODEL O + W:O + V + VO + WVO
MODEL J + O + JO + W:JO
+ V + VJ + VO + VJO + WVJO
MODEL R + O:R + W:RO
+ V + VR + VO:R + WVRO
MODEL J + R + JR + O:R + JO:R + W:JRO
+ V + VJ + VR + VJR + VO:R + VJO:R
+ WVJRO
2. Zweifaktorieller Versuch in vollständig randomisierter Blockanlage
Faktor A, Faktor T, die A.T Kombinationen innerh. Wiederh. voll randomisiert;
event. über Orte, Jahre und Regionen
Einzelversuch:
Serie über Orte:
Serie über Orte
und Jahre:
und Jahre:
MODEL W + A + T + AT + WAT
MODEL O + W:O + A + T + AT
+ AO + TO + ATO + WATO
+ A + T + AT + AJ + TJ + ATJ
+ AO + TO + ATO + AJO + TJO + ATJO
+ WATJO
+ A + T + AT + AR + TR + ATR
+ AO:R + TO:R + ATO:R + WATRO
+ A + T + AT + AJ + TJ + ATJ
+ AR + TR + ATR + AJR + TJR + ATJR
+ AO:R + TO:R + ATO:R
+ AJO:R + TJO:R + ATJO:R + WATJRO
46
ANHANG C
3. Zweifaktorielle Spaltanlage
Faktor A in Großteilstücken, Faktor T in Kleinteilstücken innerh. Großteilstücken;
Einzelversuch:
Serie über Orte:
Serie über Orte
und Jahre:
und Jahre:
MODEL W + A + WA/ + T + AT + WAT
MODEL O + W:O + A + AO + WA:O/
+ T + AT + TO + ATO + WATO
+ A + AJ + AO + AJO + WA:JO/
+ T + TJ + TO + TJO
+ AT + ATJ + ATO + ATJO + WATJO
+ A + AR + AO:R + WA:RO/
+ T + TR + TO:R
+ AT + ATR + ATO:R + WATRO
+ A + AJ + AR + AJR + AO:R + AJO:R
+ WA:JRO/
+ T + TJ + TR + TJR + TO:R + TJO:R
+AT +ATJ +ATR +ATJR +ATO:R +ATJO:R
+ WATJRO
4. Zweifaktorielle Streifenanlage
Faktor A in Großteilstücken, Faktor T in dazu ”gekreuzten” Großteilstücken;
Einzelversuch:
Serie über Orte:
Serie über Orte
und Jahre:
und Jahre:
MODEL W + A + WA/ + T + WT/ + AT + WAT
MODEL O + W:O + A + AO + WA:O/
+ T + TO + WT:O/
+ AT + ATO + WATO
+ A + AJ + AO + AJO + WA:JO/
+ T + TJ + TO + TJO + WT:JO/
+ AT + ATJ + ATO + ATJO + WATJO
+ A + AR + AO:R + WA:RO/
+ T + TR + TO:R + WT:RO/
+ AT + ATR + ATO:R + WATRO
+ A + AJ + AR + AJR + AO:R + AJO:R
+ WA:JRO/
+ T + TJ + TR + TJR + TO:R + TJO:R
+ WT:JRO/
+ AT +ATJ +ATR +ATJR +ATO:R +ATJO:R
+ WATJRO
47

plabstat - Universität Hohenheim

Transcription

Similar documents

Ankündigungstext - Johannes Gutenberg