Nichtparametrische Korrelation < Stochastik < Hochschule < Mathe < Vorhilfe
|
Status: |
(Frage) beantwortet | Datum: | 20:05 Mo 27.09.2004 | Autor: | yogu77 |
Ich habe diese Frage in keinem Forum auf anderen Internetseiten gestellt
habe folgendes Problem: ich möchte einen Zusammenhang zwischen intervallskalierten nicht normalverteilten Daten (intraoperativ gemessene Spannung der Bauchdecke) und weiteren Daten (z.B. Geschlecht, Alter etc.)mittels Rangkorrelation nach Kendall tau überprüfen.
1) Müssen diese weiteren Daten auch intervallskaliert sein oder reicht ordinalskaliert aus?
2) Habe gelesen, dass bei nominalskalierten dichotomen Daten (z.B. Geschlecht) die biseriale Korrelation verwendet werden muss? Ist hier Normalverteilung Voraussetzung (der Spannung)?
3) Welchen "Korrelationstest" nehme ich bei nominalskalierten Daten mit mehr als zwei Merkmalsausprägungen (Faszienqualität gut, mittel, schlecht)?
Vielen Dank für Eure Hilfe
Yoko
|
|
|
|
Hallo Yoko!
> habe folgendes Problem: ich möchte einen Zusammenhang
> zwischen intervallskalierten nicht normalverteilten Daten
> (intraoperativ gemessene Spannung der Bauchdecke) und
> weiteren Daten (z.B. Geschlecht, Alter etc.)mittels
> Rangkorrelation nach Kendall tau überprüfen.
Zunächst mal eine Zwischenfrage? Wieso hast Du Dich für den Kendall [mm] $\tau$-Wert
[/mm]
entschieden? Ist denn die Voraussetzung erfüllt, dass Du zweidimensionale Daten
(also wirklich zusammenhängende Paare) beobachtet hast? Das scheint mir beim Geschlecht
z.B. nicht der Fall zu sein, da ja schlecht eine Person für zwei verschiedene Geschlechter
Daten liefern kann
> 1) Müssen diese weiteren Daten auch intervallskaliert sein
> oder reicht ordinalskaliert aus?
Ich denke, das ist egal. Sogar nominalskaliert müsste funktionieren. Dadurch sollen die Daten ja nur in zwei (oder mehrere Gruppen) eingeteilt werden.
> 2) Habe gelesen, dass bei nominalskalierten dichotomen
> Daten (z.B. Geschlecht) die biseriale Korrelation verwendet
> werden muss? Ist hier Normalverteilung Voraussetzung (der
> Spannung)?
Leider sagt mir die biseriale Korrelation gerade nichts. Hört sich aber nur danach an, dass man zwei Messreihen vorliegen hat. Oder steckt da mehr dahinter? Normalverteilung muss nicht Voraussetzung sein. Wenn Du die Idee mit den Rängen aufrecht erhalten möchtest, bietet sich der Kruskal-Wallis-Test an. Da brauchst Du keine normalverteilten Daten. Und man testet die Nullhypothese, ob die Verteilungen der verschiedenen Gruppen übereinstimmen.
> 3) Welchen "Korrelationstest" nehme ich bei
> nominalskalierten Daten mit mehr als zwei
> Merkmalsausprägungen (Faszienqualität gut, mittel,
> schlecht)?
Auch hierfür kannst Du den Kruskal-Wallis-Test verwenden.
Vielleicht noch ein Zusatz:
Du möchtest ja auf Zusammenhänge testen. Dazu fällt einem als erstes der Begriff Unabhängigkeit ein, und deshalb sucht man nach Korrelationstests. Der Kruskal-Wallis-Test überprüft ja die Gleichheit von verschiedenen Verteilungen, was man aber so interpretieren kann, dass bei Ablehnung der Nullhypothese das Merkmal, nach dem die Gruppen eingeteilt worden sind (z.B. Geschlecht) einen Einfluss auf die Daten hat, also ein Zusammenhang existiert.
Ich hoffe, ich konnte Dir ein wenig weiterhelfen. Ist alles recht schwierig, wenn man die Daten nicht vor sich hat.
Liebe Grüße
Brigitte
|
|
|
|
|
Status: |
(Frage) beantwortet | Datum: | 12:17 Di 28.09.2004 | Autor: | yogu77 |
Hallo Brigitte,
vorab erstmal Danke für die erste Hilfestellung.
> Zunächst mal eine Zwischenfrage? Wieso hast Du Dich für den Kendall [mm] mm]\tau[/mm]-Wert [/mm] entschieden? [...] Das scheint mir beim Geschlecht z.B. nicht der Fall zu sein [...]
genau hier wollte ich die biseriale Rangkorrelation verwenden um einen Zusammenhang zu überprüfen. Davor wollte ich die Stichproben vergleichen mit U-Test nach Mann-Whitney (bei z.B. Geschlecht) bzw. H-Test nach Kruskal-Wallis (bei z.B. Diagnose; maligne - benigne - entzündlich). Ist das nicht richtig? Kannst Du mir nochmals - leicht verständlich - "abhängig" und "unabhängig" erklären?
> Leider sagt mir die biseriale Korrelation gerade nichts. Hört sich aber nur danach an, dass man zwei Messreihen vorliegen hat. Oder steckt da mehr dahinter?
in dem Buch, welches ich mir gekauft habe, steht "[...] die den Zusammenhang eines Alternativmerkmals (z.B. männlich/weiblich) mit Randwerten eines ´serialen´ Merkmals (z.B. psychische Belastbarkeit) abbildet." Ich dachte dies entspricht meiner Situation, in der ich überprüfen möchte, ob es zwischen den gemessenen Spannungen einen Zusammenhang mit dem Geschlecht gibt?
> Vielleicht noch ein Zusatz: Du möchtest ja auf Zusammenhänge testen. Dazu fällt einem als erstes der Begriff Unabhängigkeit ein, und deshalb sucht man nach Korrelationstests. Der Kruskal-Wallis-Test überprüft ja die Gleichheit von verschiedenen Verteilungen, [...], dass bei Ablehnung der Nullhypothese das Merkmal, nach dem die Gruppen eingeteilt worden sind (z.B. Geschlecht) einen Einfluss auf die Daten hat, also ein Zusammenhang existiert.
heisst das, es spielt keine Rolle, ob ich Stichproben vergleiche oder einen Zusammenhang mittels Korrelation überprüfe? Wenn ich beides durchführe, ist das dann doppelt gemoppelt?
Noch eine letzte Frage: das andere Untersuchungsziel bei mir ist, ob die Narbenbruchentstehung (ja/nein) mit verschiedenen Parametern zusammenhängt (Spannung, Geschlecht, Diagnose...). In dem Buch stehen für Stichprobenvergleiche
- Vierfelder-Chi-Quadrat-Test für dichotom vs. dichotom, z.B. Hernie vs. Geschlecht?
- k x 2-Chi-Quadrat Test für dichotom vs. nominal/ordinal, z.B. Hernie vs. Diagnose, Hernie vs. Faszienqualität? - multiple lineare Korrelation ist doch nicht möglich, weil Hernie dichotom ist?
für Überprüfung von Zusammenhängen
- Phi-Koeffizienz für dichtom vs. dichtom?
- Cramers Index 2 x 3 dichtoom vs. nominal?
Vielen Dank
Yoko
|
|
|
|
|
Hallo Yoko!
> > Zunächst mal eine Zwischenfrage? Wieso hast Du Dich für
> den Kendall [mm]mm]\tau[/mm]-Wert[/mm] entschieden? [...] Das scheint mir
> beim Geschlecht z.B. nicht der Fall zu sein [...]
> genau hier wollte ich die biseriale Rangkorrelation
> verwenden um einen Zusammenhang zu überprüfen. Davor wollte
> ich die Stichproben vergleichen mit U-Test nach
> Mann-Whitney (bei z.B. Geschlecht) bzw. H-Test nach
> Kruskal-Wallis (bei z.B. Diagnose; maligne - benigne -
> entzündlich). Ist das nicht richtig? Kannst Du mir nochmals
> - leicht verständlich - "abhängig" und "unabhängig"
> erklären?
Ist die biseriale Rangkorrelation dasselbe wie Kendall's [mm] $\tau$? [/mm] Vielleicht liegt hier das Problem...
U-Test und H-Test sind jedenfalls in Ordnung. Damit überprüfst Du ja einen Zusammenhang.
Ich habe es so verstanden, dass bei Kendall's [mm] $\tau$ [/mm] Paare von Daten vorliegen, d.h. zu einer bestimmten Variablen
jeweils zwei Beobachtungen. Z.B. werden bei einer Person zwei verschiedene Dinge gemessen oder bewertet. Die Daten sind jeweils ordinalskaliert. Liegt die Spannung der Bauchdecke auch nur ordinalskaliert vor?
Verzeih meine Unkenntnis, aber wie wird denn die Spannung der Bauchdecke gemessen, oder vielmehr: in welcher Einheit?
Das sind doch Realisierungen eines stetigen Merkmals, oder? Natürlich kannst Du daraus auch wieder ordinalskalierte Daten machen. Aber meine Frage bleibt, ob gleichzeitig mehrere Spannungen gemessen werden können. Und ich vermute, das ist nicht der Fall. Die Daten aus der einen Messreihe haben (zeilenweise) zunächst mal nichts mit den Daten der anderen zu tun. Oder?
Vielleicht liegt darin das Missverständnis.
> in dem Buch, welches ich mir gekauft habe, steht "[...]
> die den Zusammenhang eines Alternativmerkmals (z.B.
> männlich/weiblich) mit Randwerten eines ´serialen´ Merkmals
> (z.B. psychische Belastbarkeit) abbildet." Ich dachte dies
> entspricht meiner Situation, in der ich überprüfen möchte,
> ob es zwischen den gemessenen Spannungen einen Zusammenhang
> mit dem Geschlecht gibt?
Das erkläre ich mir so, dass man zu ein- und derselben Sache (!) - zum Beispiel Bewertung von Bildern oder meinetwegen auch psychische Belastbarkeit in hyothetischen Situationen - sowohl Mann als auch Frau um eine Rangfolge bittet. Aber bei der Bauchdeckenspannung sehe ich so einen Zusammenhang nicht.
> > Vielleicht noch ein Zusatz: Du möchtest ja auf
> Zusammenhänge testen. Dazu fällt einem als erstes der
> Begriff Unabhängigkeit ein, und deshalb sucht man nach
> Korrelationstests. Der Kruskal-Wallis-Test überprüft ja die
> Gleichheit von verschiedenen Verteilungen, [...], dass bei
> Ablehnung der Nullhypothese das Merkmal, nach dem die
> Gruppen eingeteilt worden sind (z.B. Geschlecht) einen
> Einfluss auf die Daten hat, also ein Zusammenhang
> existiert.
heisst das, es spielt keine Rolle, ob ich Stichproben
vergleiche oder einen Zusammenhang mittels Korrelation
überprüfe? Wenn ich beides durchführe, ist das dann doppelt
gemoppelt?
Ich denke, es funktioniert beides. Man kann ja auch darauf testen, ob die Korrelation signifikant von 0 verschieden ist. Für zwei Messreihen könntest Du ja z.B. auch den Run-Test nehmen, um die zwei Stichproben miteinander zu vergleichen. Es gibt einfach mehrere Möglichkeiten, hier Tests durchzuführen. Von doppelt gemoppelt würde ich da nicht reden.
Ansonsten meine ich nur, dass Kendall's [mm] $\tau$ [/mm] hier nicht so gut passt. Ein Rangkorrelationskoeffizient (nach Spearman) passt sehr wohl.
> Noch eine letzte Frage: das andere Untersuchungsziel bei
> mir ist, ob die Narbenbruchentstehung (ja/nein) mit
> verschiedenen Parametern zusammenhängt (Spannung,
> Geschlecht, Diagnose...). In dem Buch stehen für
> Stichprobenvergleiche
> - Vierfelder-Chi-Quadrat-Test für dichotom vs. dichotom,
> z.B. Hernie vs. Geschlecht?
> - k x 2-Chi-Quadrat Test für dichotom vs. nominal/ordinal,
> z.B. Hernie vs. Diagnose, Hernie vs. Faszienqualität? -
> multiple lineare Korrelation ist doch nicht möglich, weil
> Hernie dichotom ist?
> für Überprüfung von Zusammenhängen
> - Phi-Koeffizienz für dichtom vs. dichtom?
> - Cramers Index 2 x 3 dichtoom vs. nominal?
Sorry, jetzt reicht mindestens mein medizinischer Fachverstand nicht aus, um das zu beantworten :-(
Dichotom bedeutet wohl, dass nur zwei verschiedene Merkmalsausprägungen auftreten (z.B. Geschlecht). Aber was ist Hernie? Wenn es auch was mit 2 Ausprägungen ist, stimme ich bei 1) zu.
Was die Faszienqualität ist, weiß ich nicht. Für ordinale Merkmale funktionieren meiner Ansicht nach zusätzlich die oben genannten Tests (oft mit Bindungen, wenn manche Ausprägungen mehrmals vorkommen). Aber [mm] $\chi^2$-Unabhängigkeitstests [/mm] sind OK.
Multiple lineare Regression in Abhängigkeit vom Geschlecht z.B. macht meiner Meinung nach keinen Sinn. Da stimme ich Dir zu.
Die letzten beiden Ausdrücke habe ich noch nie gehört. Tut mir leid.
Ich hoffe, ich habe Dich jetzt nicht noch weiter verwirrt. Hast Du denn vielleicht noch jemand anderen, dem Du Deine Daten mal zeigen könntest und der sich mit der Statistik ein wenig auskennt?
Liebe Grüße
Brigitte
|
|
|
|
|
Status: |
(Frage) reagiert/warte auf Reaktion | Datum: | 21:22 Di 28.09.2004 | Autor: | yogu77 |
Hallo Brigitte,
nochmals Danke, dass Du Dir hierfür Zeit nimmst. Nein, leider kenn ich sonst niemanden dem ich meine Daten zeigen könnte. Sind halt nur Mediziner
> Ist die biseriale Rangkorrelation dasselbe wie Kendall's [mm]\tau[/mm]?
soweit ich verstanden habe nicht.
> Z.B. werden bei einer Person zwei verschiedene Dinge gemessen oder bewertet. Die Daten sind jeweils ordinalskaliert. Liegt die Spannung der Bauchdecke auch nur ordinalskaliert vor?
nein, sie sind intervallskaliert aber leider nicht normalverteilt und dann müssen doch nicht parametrische Tests verwendet werden. Die Spannung wurde in Kilopond gemessen (mittels Federwaagen). Es wurde bei jeder Person vor Operationsende die Spannung an unterschiedlichen Orten bzgl. des Bauchschnittes gemessen. Auf Nabelhöhe und jeweils 5cm, 10cm und 15cm oberhalb und unterhalb des Nabels sowie im Verhältnis zur Gesamtschnittlänge bei ein Viertel, der Hälfte und drei Viertel der Länge.
Alle gemessenen Spannungen möchte ich jetzt hinsichtlich verschiedener Einflussfaktoren untersuchen, wie Geschlecht, Alter, Gewicht etc., um zu überprüfen ob hier ein Zusammenhang besteht. Was empfiehlst Du denn hier?
> Ansonsten meine ich nur, dass Kendall's [mm]\tau[/mm] hier nicht so gut passt. Ein Rangkorrelationskoeffizient (nach Spearman) passt sehr wohl.
kannst Du nochmals erläutern wieso Du das meinst? (ich habe Kendall gewählt, weil er weniger empfindlich gegenüber Ausreissern ist)
> Sorry, jetzt reicht mindestens mein medizinischer Fachverstand nicht aus, um das zu beantworten :-(
sorry, habe mich eigentlich bemüht keine medizinischen Fachbegriffe zu verwenden. Ist mir so hineingerutscht. "Hernie" ist ein Bruch (wie etwa ein Leistenbruch). Eine Komplikation bei Bauchoperationen.
> Was die Faszienqualität ist, weiß ich nicht.
das ist die Qualität der Bauchwand. Diese wurde in gut, mittel und schlecht eingeteilt.
> Ich hoffe, ich habe Dich jetzt nicht noch weiter verwirrt.
Leider schon...
Trotzdem danke,
Yoko
|
|
|
|
|
Hallo Yoko!
> nochmals Danke, dass Du Dir hierfür Zeit nimmst. Nein,
> leider kenn ich sonst niemanden dem ich meine Daten zeigen
> könnte. Sind halt nur Mediziner
>
> > Ist die biseriale Rangkorrelation dasselbe wie Kendall's
> [mm]\tau[/mm]?
> soweit ich verstanden habe nicht.
OK. Also dann versuchen wir es doch mal zu konkretisieren. Zu Kendall's [mm] $\tau$ [/mm] schau doch bitte mal hier rein:
http://www.quantlet.com/mdstat/scripts/estat_zko/ktau/estat/bpreview/001_kendallstau.html
Für ein Beispiel siehe hier:
http://www.quantlet.com/mdstat/scripts/estat_zko/ktau/estat/bpreview/006_kendallstau.html
Im Beispel wird vielleicht erkennbar, was ich meine: Die Gutachter werden gebeten, eine komplette Rangfolge für die 7 Standorte abzugeben. Dadurch entsteht für jeden Standort ein Paar von Bewertungen.
Ich nehme an, dass Du mit der biserialen Korrelation das hier meinst:
http://www.matheboard.de/lexikon/Korrelationskoeffizient,definition.htm#Rangkorrelation_nach_Spearman
Dann ist das die Rangkorrelation nach Spearman, die ich auch schon erwähnt hatte, und die für Dein Problem meiner Ansicht nach auch geeignet ist.
> > Z.B. werden bei einer Person zwei verschiedene Dinge
> gemessen oder bewertet. Die Daten sind jeweils
> ordinalskaliert. Liegt die Spannung der Bauchdecke auch nur
> ordinalskaliert vor?
> nein, sie sind intervallskaliert aber leider nicht
> normalverteilt und dann müssen doch nicht parametrische
> Tests verwendet werden.
Wie gesagt: U-Test und H-Test finde ich vernünftig.
> Die Spannung wurde in Kilopond
> gemessen (mittels Federwaagen). Es wurde bei jeder Person
> vor Operationsende die Spannung an unterschiedlichen Orten
> bzgl. des Bauchschnittes gemessen. Auf Nabelhöhe und
> jeweils 5cm, 10cm und 15cm oberhalb und unterhalb des
> Nabels sowie im Verhältnis zur Gesamtschnittlänge bei ein
> Viertel, der Hälfte und drei Viertel der Länge.
> Alle gemessenen Spannungen möchte ich jetzt hinsichtlich
> verschiedener Einflussfaktoren untersuchen, wie Geschlecht,
> Alter, Gewicht etc., um zu überprüfen ob hier ein
> Zusammenhang besteht. Was empfiehlst Du denn hier?
So, jetzt weiß ich wenigstens genau, worum es geht.
Eine wichtige Frage ist, was Du mit den verschiedenen Messungen auf dem Bauch anfängst. Es ist zwar toll, so viele Daten zu haben, aber leider kann man sie nicht als Realisierungen von identisch verteilten Zufallsvariablen ansehen. Denn am Rand sollte die Spannung wohl eine andere sein als in der Mitte. Gleichzeitig werden sie aber irgendwie voneinander abhängen. Es macht also meiner Ansicht nach keinen Sinn, alle diese Daten gleichzeitig in einen Test reinzuschmeißen. Du könntest natürlich für jeden Messpunkt auf dem Bauch einen eigenen Test durchführen. Weiß nicht, ob Du das so geplant hattest. Wie viele Personen haben denn bei dem Versuch mitgemacht?
Schauen wir uns mal einen bestimmten Messpunkt auf dem Bauch an. Getrennt nach Geschlechtern (zB)
hast Du zwei Messreihen und kannst die oben erwähnten Tests durchführen.
Beim Alter (resp. Gewicht) kannst Du Intervalle bilden und bekommst mehrere Messreihen (-> Kruskal-Wallis-Test).
> > Ansonsten meine ich nur, dass Kendall's [mm]\tau[/mm] hier nicht
> so gut passt. Ein Rangkorrelationskoeffizient (nach
> Spearman) passt sehr wohl.
> kannst Du nochmals erläutern wieso Du das meinst? (ich
> habe Kendall gewählt, weil er weniger empfindlich gegenüber
> Ausreissern ist)
Vielleicht interpretiere ich das ja auch falsch, was Kendall's [mm] $\tau$ [/mm] angeht, aber ich verstehe es so, dass man prüft,
ob positive Veränderungen in der ersten Messreihe auch positive Veränderungen in der zweiten Messreihe hervorrufen. Also bei o.g. Beispiel, wenn ein Standort von Gutachter 1 besser bewertet wird als ein anderer Standort, sieht der Gutachter 2 diesen Vergleich auch so? Dafür benutzt man Kendall's [mm] $\tau$. [/mm] Mir ist/war eben nicht klar, wie Du das auf Deine Daten beziehen möchtest. Vielleicht möchtest Du die verschiedenen Messstellen auf dem Bauch dadurch berücksichtigen; das konnte ich vorher nicht ahnen. Darüber muss ich aber noch mal nachdenken.
Was die Ausreißer angeht: Da wir ohnehin nur (transformierte) ordinalskalierte Daten betrachten, ist es doch egal, was die Ausreißer machen. Der Rang zieht das ja alles auf die Menge [mm] $\{1,\ldots,n\}$ [/mm] zusammen (bei $n$ Messwerten). Dieses Argument ist mir nicht klar.
> > Sorry, jetzt reicht mindestens mein medizinischer
> Fachverstand nicht aus, um das zu beantworten :-(
> sorry, habe mich eigentlich bemüht keine medizinischen
> Fachbegriffe zu verwenden. Ist mir so hineingerutscht.
> "Hernie" ist ein Bruch (wie etwa ein Leistenbruch). Eine
> Komplikation bei Bauchoperationen.
>
> > Was die Faszienqualität ist, weiß ich nicht.
> das ist die Qualität der Bauchwand. Diese wurde in gut,
> mittel und schlecht eingeteilt.
Wieder was gelernt Die Aussagen meines letzten Postings ändern sich dadurch aber nicht.
> > Ich hoffe, ich habe Dich jetzt nicht noch weiter
> verwirrt.
> Leider schon...
O nein. Das tut mir leid.
Konnte ich denn jetzt wenigstens etwas weiterhelfen?
Vielleicht findet sich ja hier auch noch jemand, der was zu Deinem Problem sagen kann...
Liebe Grüße
Brigitte
|
|
|
|
|
Status: |
(Mitteilung) Reaktion unnötig | Datum: | 09:46 Mi 29.09.2004 | Autor: | Brigitte |
Hallo Yoko!
Was mir noch eingefallen ist:
Was Rang-Tests angeht, kann ich folgendes Buch empfehlen:
Lehmann: Nonparametrics, Statistical Methods Based on Ranks, MCGraw-Hill.
Es ist zwar nicht in erster Linie für Mediziner geschrieben und (wie Du siehst) auf englisch. Aber es stehen viele Beispiele drin, und vielleicht findest Du ja dort auch was Ähnliches zu Deinem Problem. In der Literatur zur Biostatistik kenne ich mich leider nicht aus; sonst würde ich Dir dort was empfehlen.
Ansonsten kannst Du ja mal versuchen, die Statistiker Deiner Uni (wenn es dort welche gibt) am mathematischen Institut zu löchern. Vielleicht freuen die sich ja mal über ein angewandtes Problem
Liebe Grüße
Brigitte
|
|
|
|