Hinweise zur Gestaltung einer einfachen Datentabelle

Hinweis: Falls man die Daten nicht selbst auswerten will, ist es empfehlenswert, sich mit jenen zu besprechen, die mit ihnen arbeiten sollen.

Aufbau der Datentabelle:

- Die folgenden Hinweise beziehen sich vor allem auf Tabellen eines bekannten Kalkulationsprogrammes, weil dieses sehr verbreitet ist und es dabei sehr oft Probleme gibt. Andere Formate wie dBase, SPSS und Access geben den Aufbau teilweise vor, und vermeiden dadurch viele Schwierigkeiten.

- Alle Daten müssen in einer einzigen Tabelle stehen, d.h. Untergruppen von Fällen (z.B. Versuchsgruppe, Kontrollgruppe) dürfen nicht in getrennten Tabellen stehen.

Beispiel eines Teiles einer Datentabelle:

.

.

.

.

.

.

.

.

.

.

.

.

.

.

Kommentar...

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

...

...

Studien-gruppe

.

Geburtsdatum

Gesch lecht

Erstdia gnose datum

.

.

.

.

.

gruppe

pat_id

gebdatum

geschl

diagdatu

diagnose

groesze

...........

.

.

1

1

01.07.1935

2

06.01.2002

NHL/L/CB

156

...

.

.

1

2

04.03.1921

2

08.03.2001

MDS/RA

174

...

.

.

1

736

05.06.1975

1

09.04.2001

MDS/RA

182

...

.

.

1

821

.

2

09.04.2002

MDS/RA

177

...

.

.

2

993

06.07.1931

1

08.11.2001

.

-9

...

.

.

2

4

11.09.1919

2

.

MDS/RA

-9

...

.

.

2

5

07.03.1947

-9

06.12.2001

.

183

...

.

.

3

26

01.02.1933

2

01.04.2000

NHL/L/LB

179

...

.

.

3

83

18.10.1982

2

04.04.1994

NHL/L/IB

155

...

.

.

3

112

.

2

.

MDS/RAS

173

...

.

.

3

11

.

-9

08.07.1999

MDS/RAEB

171

...

.

.

...

...

...

...

...

...

...

...



- Die Daten müssen einen geschlossenen Block bilden. Die Zeile unmittelbar über den Daten muß die Bezeichnungen der Merkmale (=Spalten) enthalten.

- Jede Zeile stellt einen Fall (zB Patienten) dar, jede Spalte ein Merkmal.

- Regeln für Merkmalsbezeichnungen:

- Merkmalsbezeichnungen dürfen maximal 8 Zeichen lang sein.

- Sie dürfen nur Buchstaben, Ziffern und den Unterstrich (_) enthalten (Umlaute, scharfes ß, Minus, Punkt, Schrägstrich, griechische Buchstaben, sonstige Zeichen sind verboten).

- Sie müssen mit einem Buchstaben beginnen.

- Groß- und Kleinschreibung ist erlaubt, wird aber ignoriert.

- Jede Merkmalsbezeichnung darf nur einmal vorkommen.

- Oberhalb, unterhalb und neben der Datentabelle können beliebige Kommentare stehen; sie werden aber ignoriert.

- Insbesondere können zur Erleichterung der Dateneingabe, Kontrolle und Dokumentation in den Zeilen über den Merkmalsbezeichnungen lange Merkmalsnamen oder Kommentare stehen. Sie werden aber bei der Auswertung ignoriert.

- Die Reihenfolge der Fälle in den Zeilen und der Merkmale in den Spalten ist beliebig, weil sie bei der Auswertung ignoriert wird.

- Farben und Schriftattribute sind beliebig, weil sie ignoriert werden. Dementsprechend eignen sie sich aber auch nicht zur Kennzeichnung von Untergruppen. Diese müssen durch ein geeignetes Merkmal gekennzeichnet sein.

Kodierung der Daten:

- Standardstatistikprogramme verarbeiten üblicherweise folgende Datenformate:

- numerisch ("echte" Zahlen, aber nicht: "27-310", "<720", "88 11 312", "26$", "3.000,844", "28cm")

- Datum (vollständige Datumsangaben mit Tag, Monat, Jahr, aber nicht: "03/2002", "Juni 44", "3.Quartal")

- Text (alles, was nicht numerisch oder Datum)

- Ein Merkmal (=eine Tabellenspalte) darf immer nur ein Format haben.

Bei ursprünglich numerischen Daten wie Meßwerten, Alter, Gewicht, etc. liegt es nahe, sie quasi ohne weitere Kodierung als numerische Daten einzugeben. Ebenso gibt man vollständige Datumsangaben im Format eines Datums ein.

Sind nicht alle Werte eines Merkmales einem Typ zuzuordnen, zB weil von manchen Meßwerten nur bekannt ist, daß sie über dem Meßbereich lagen (zB < 500), dann müssen diese Werte mit einem eigenen, rein numerischen Kode versehen werden, der keinen gemessenen Wert darstellen darf, und daher eindeutig interpretierbar ist (zB 1000, wenn gemessene Werte maximal 700 erreichen .können).

Unvollständige Datumsangaben müssen ebenso behandelt werden. Falls sie bei einem Merkmal häufig vorkommen, weil zB oft nur Monat und Jahr bekannt sind, liegt es nahe, das Datum als drei getrennte numerische Merkmale für Tag, Monat und Jahr zu verarbeiten, oder als ein numerisches, achtstelliges numerisches Merkmal (zB 00051984 für Mai 1984 oder 00002001 für irgendwann im Jahre 2001).

Bei Merkmalen, die ursprünglich nicht numerisch sind, (Geschlecht, Familienstand, Diagnose,...) ist zwischen einfacher Verarbeitbarkeit (d.h. numerische Kodierung) und besserer Verständlichkeit der Datentabelle (Text-Kodierung) abzuwägen.

Wenn numerisch kodiert wird, sollten alle in Frage kommenden Merkmale nach dem selben Schema kodiert werden (zB ja=1, nein=2, positiv=1, negativ=2, ...).

Wenn als Text kodiert eingegeben wird, sollte auch dieser möglichst einheitlich und kurz eingegeben werden (zB ja=j, nein=n, weiblich=w, ... und nicht: ja=j oder J oder JA oder true, weiblich=w oder f oder W,...). Kunterbunt kodierte Text ist praktisch kaum auswertbar.

Fehlende Werte bei numerisch kodierten Merkmalen sollten durch einen eigenen Kode gekennzeichnet werden. Sofern es möglich ist, ist ein einheitlicher Kode für alle numerisch kodierten Merkmale günstig.

In vielen Fällen sind nur positive gültige Werte möglich; in diesen bietet sich ein negativer Kode (zB -9) an.

Es kann sinnvoll sein, in der Kodierung zwischen faktisch fehlenden Werten und logisch fehlenden Werten zu unterscheiden (zB Zahl der Schwangerschaften - fehlend bei Frauen =-9, bei Männern, da dem derzeitigen Stand der Biologie entsprechend, unzutreffend =-8).

Dokumentation der Kodierung der Daten:

Die Dokumentation der Kodierung muß in einer eigenen Tabelle stehen. Diese Tabelle sollte folgende Spalten enthalten:

- Merkmalsbezeichnung

- Typ des Merkmales (numerisch, Datum, Text)

- Einheit bzw. Kodierung

- genauere Beschreibung des Merkmales und Kommentare

Achtung auf spezielle Probleme bei Excel®-Dateien:

- ausgeblendete Zeilen oder Spalten:

In Excel® ist es möglich, Zeilen oder Spalten auszublenden. Das geschieht gelegentlich unabsichtlich. Diese ausgeblendeten Daten werden aber wie sichtbare in die Auswertung übernommen und stiften Verwirrung.

- ausgeblendete Jahrhundertangaben in Datumsfeldern:

Excel® ergänzt Datumsangabe automatisch (und oft falsch!) um das Jahrhundert und das Jahrtausend, wenn diese nicht eingegeben werden. Je nach Formateinstellung ist die Ergänzung sichtbar oder versteckt. In die Auswertung werden aber automatisch die (oft falsch) ergänzten Angaben übernommen.

- Zahlen, die als Text interpretiert werden:

Zahlen werden von Excel® nicht immer als Zahlen betrachtet. Das ist je nach Excel®-Version leichter oder schwieriger zu erkennen und nur mühsam zu ändern.

- Dezimaltrennzeichen:

Je nach Ländereinstellung und benutzerdefinierten Einstellungen im Betriebssystem gelten entweder der Punkt oder der Beistrich als Dezimaltrennzeichen. Nur wenn das jeweils richtige Zeichen verwendet wird, werden die betroffenen Daten als Zahl interpretiert.

Weitere nützliche Hinweise findet man unter: http://www.meduniwien.ac.at/medstat/consulting/datenmatrix.htm

Stand: 23. 3.2006