Statystyka i analiza danych II: program

 

 

Projekt Centrum Zastosowań Matematyki został zakończony w 2015 roku

Projekt Centrum Zastosowań Matematyki został zakończony w 2015 roku

Projekt Centrum Zastosowań Matematyki został zakończony w 2015 roku. W latach 2012-2015 zorganizowaliśmy 5 konferencji, 6 warsztatów tematycznych oraz 3 konkursy...

 
Między teorią a zastosowaniami – matematyka w działaniu

Między teorią a zastosowaniami – matematyka w działaniu

Na stronie III edycji konferencji „Między teorią a zastosowaniami – matematyka w działaniu” zamieściliśmy abstrakty oraz harmonogram.

 
 

dr inż. Wojciech Artichowicz, prof. Marian W. Kembłowski (Politechnika Gdańska): Klasyfikacja i regresja metodą wektorów nośnych.

Maszyna wektorów nośnych (support vector machine – SVM) to narzędzie z dziedziny statystycznej teorii uczenia (Statistical Learning Theory). Stosowane jest w zagadnieniach regresji (prognozy) i klasyfikacji. Podejście to zostało stworzone przez Vladimira N. Vapnika (Bell Labs) jako alternatywa dla sieci neuronowych, która nie posiada ich wad. Zagadnienie klasyfikacji polega na przyporządkowaniu elementu na podstawie jego cech do jednej z możliwych grup. Przykładem zastosowania klasyfikacji jest diagnoza stanu np. obiektu lub człowieka (np. sprawny / uszkodzony, zdrowy / chory itp.). Regresja polega na znalezieniu funkcji, która możliwie najlepiej oddaje wartości zbioru danych. Klasyczne podejścia do regresji i klasyfikacji są zawodne w przypadku danych wielowymiarowych, czyli danych najczęściej spotykanych w praktyce. Szczególnie trudne wówczas jest określanie postaci związków regresyjnych. Podejście oparte o SVM nie wymaga znajomości równań wiążących zmienne objaśniające ze zmienną objaśnianą. Co więcej w naturalny sposób metoda SVM uogólnia się do zagadnień nieliniowych, bez wzrostu stopnia skomplikowania obliczeń. Model klasyfikacyjny buduje się w oparciu o zbiór uczący, czyli dane na temat cech i ich odpowiedniego przyporządkowania. W zagadnieniu regresji dany jest jeden zbiór punktów i odpowiadających im wartości funkcji. Maszyna wektorów nośnych z powodzeniem została zastosowana w medycynie (np. sekwencjonowania DNA) i technice (np. analiza obrazu, prognozowanie stanów systemów hydrologicznych). Obecnie dostępnych jest kilka wysokiej jakości bibliotek i programów implementujących obliczenia SVM, zatem nie ma potrzeby ich samodzielnej implementacji.

Tematyka warsztatów obejmie teoretyczne podstawy maszyn wektorów nośnych, a także zagadnienia praktyczne w postaci przykładów obliczeniowych. Ponadto omówione zostanie także dostępne oprogramowanie z zakresu SVM.


mgr Mariusz Kaszubowski (Politechnika Gdańska): Statystyka w medycynie - metody porównywania pomiarów.

Porównywanie pomiarów ilościowych:

  • błąd a precyzja pomiaru
  • korelacja parametryczna i nieparametryczna
  • regresja liniowa
  • jednoczynnikowa analiza wariancji
  • metoda Bland-Ałtamana
  • przykłady

Porównywanie pomiarów jakościowych:

  • tablice kontyngencji
  • test niezależności \chi^2 (oraz wersje skorygowanego \chi^2)
  • współczynnik kappa Cohena
  • przykłady

dr Grzegorz Krzykowski (Uniwersytet Gdański): Statystyczna analiza cech jakościowych w badaniach medycznych.
Warsztaty zostaną przeprowadzone w formie wykładu o charakterze konwersatorium. Kanwą warsztatów będą aktualnie opracowywane projekty badawcze w obszarze medycyny. Treść warsztatów obejmuje

  1. Sytuacje i przykłady badań, w których pojawiają się zmienne jakościowe. Wstępna analiza statystyczna i interpretacja efektów wnioskowania decyzyjnego w zakresie cech binarnych.
  2. Klasyczne i współczesne metody klasyfikacji.
    1.  Drzewa klasyfikacyjne i regresyjne i ogólniej metody data mining.
    2. Ocena jakości klasyfikatorów. Krzywe ROC i AUC.
    3. Dyskryminacja logistyczna
  3. Modele opisujące zależności zmiennych jakościowych, analiza log liniowa. O ile w przypadku zmiennych ciągłych pojęcie związku między zmiennymi najczęściej jest jasno sformułowane, to w przypadku zmiennych jakościowych na ogół nie można powiedzieć, że zmienna obserwowana jest funkcyjnie związana z zmienną objaśniającą. Analiza związku przebiega w specjalny sposób i interpretacja także nie jest taką, jaką chętnie byśmy zaakceptowali.
  4. Metody bayesowskie. Praktyczne korzyści płynące z zastosowania metod bayesowskich są oczywiste. Napotykamy jednak na ogromne kłopoty obliczeniowe i zachodzi konieczność stosowania zaawansowanych procedur komputerowych. Z tych powodów popularne pakiety statystyczne nie obsługują tych metod. Spróbujemy zmierzyć się z tym zagadnieniem wykorzystując narzędzia oparte na języku R.


dr hab. n. o zdr. inż. Aleksander Owczarek (Śląski Uniwersytet Medyczny w Katowicach): Statystyczne aspekty epidemiologii klinicznej.

1. Omówienie celowości przeprowadzania badań przesiewowych

2. Ocena jakości testu diagnostycznego

3. Czułość, swoistość, PPV i NPV testu diagnostycznego.

4. Prawdopodobieństwo pre i post-test, wskaźnik wiarygodności.

5. Tabele wielodzielcze (2×2) w analizie danych – zadania dla uczestników.

6. Krzywe ROC.

7. Miary efektu: różnica ryzyka, NNT, OR, RR, ryzyko przypisane ekspozycji – zadania dla uczestników.

8. Błędy

Celem warsztatów jest zapoznanie uczestników z metodami statystycznymi stosowanymi we współczesnej epidemiologii, w tym przedstawienie konstrukcji i zastosowania krzywych ROC, tabel wielodzielczych 2, poprawki Yatesa, testu \chi^2 (uwzględnienie zasad stosowania testów  Fishera), wyznaczania ilorazu szans i ryzyka względnego oraz ich interpretacja. Ponadto, w ramach warsztatów przedstawione zostaną najczęstsze błędy systematyczne w epidemiologii pojawiające się w trakcie analizy danych.

dr Monika Piwowar (Uniwersytet Jagielloński): Analiza danych z technik wysokoprzepustowych w zastosowaniach medycznych.

W statystycznej analizie danych genetycznych stosuje się szereg analiz m.in. do oceny: rozkładu analizowanych danych (HWE), statystyk opisowych (PIC, HET), sprawdzania nierównowagi sprzężeń (LD). Szereg analiz stosowanych jest do oceny grup osób chorych w odniesieniu do zdrowych (CaseControl, TDT) i to w zależności od tego czy są spokrewnione czy nie.

W analizach danych genomicznych, proteomicznych czy metabolomicznych w celu uzyskania wyjaśnienia relacji miedzy dużymi zbiorami danych coraz częściej sięga się po wielowymiarowe techniki statystyczne. W przypadku danych wysoko przepustowych np. z mikromacierzy, ekspresja genów jest reprezentowana przez dziesiątki tysięcy zmiennych (detekcja wielu wariantów transkrypcyjnych) przy równoczesnej niewielkiej liczbie obserwacji (prób wykonanych w określonych warunkach). W takich przypadkach klasyczne metody wielowymiarowe są niewystarczające (brak precyzji interpretacji biologicznej. Dlatego rozwijane są modyfikacje np. regulowanej analizy kanonicznej (rCCA), która umożliwia analizę danych z duża liczbą zmiennych niezależnych przy niewielkiej liczbie obserwacji. Dostępne jest również rozwinięcie techniki regresji metodą najmniejszych kwadratów (tj. sPLS), której celem jest redukcja zmiennych (“odszumienie” zbioru danych), dzięki, czemu w uzasadniony matematycznie sposób (przy określonych założeniach) zawęża się zbiór zmiennych włączanych do modelu. Umiejętne zastosowanie opisanych metod (właściwe spojrzenie na budowanie modelu kanonicznego czy regresyjnego) w analizie danych np. medycznych dostarcza wyników, które mogą mieć duże znaczenie na etapie wyciągania wniosków istotnych z klinicznego punktu widzenia.


dr Anna Stanisławska-Sachadyn (Gdański Uniwersytet Medyczny): Zastosowanie analiz statystycznych w badaniach biomedycznych.

Zastosowanie analiz statystycznych w badaniach biomedycznych jest powszechne i ma znaczenie podstawowe. Z uwagi na liczne potencjalne czynniki modyfikujące przebieg choroby lub stan homeostazy w przypadku jednostkowym, analiza statystyczna populacji stanowi często jedyną opcję oceny wpływu określonego czynnika oraz stwarza pole do współpracy specjalistów w naukach przyrodniczych i matematycznych. Bez umiejętnego zastosowania licznych analiz statystycznych nie jest możliwe zbadanie związku między czynnikami genetycznymi lub zmiennymi biochemicznymi, a chorobą, w dużych populacjach.

Wykład będzie dotyczył podstaw analizy SNP (ang. single nucleotide polymorphism, polimorfizm jednonukleotydowy) oraz danych biochemicznych w badaniach populacyjnych w naukach biomedycznych. Przedstawione zostaną statystyki opisowe zmiennych, analiza odstępstwa w rozkładzie genotypów od reguły Hardy’ego-Weinberga, analiza typu rozkładu zmiennych ciągłych, dobór odpowiedniego testu do analiz zależność genotyp-fenotyp biochemiczny, zastosowanie regresji liniowej oraz modeli regresji liniowej w analizach zależności genotyp-fenotyp biochemiczny, a także testów nieparametrycznych, opis sytuacji, która wymaga zastosowania poprawki metodą Bonferroniego dla wielokrotnych powtórzeń. Dla populacji typu przypadki-kontrole przedstawione zostanie użycie ilorazu szans w analizie rozkładu częstości genotypów oraz biochemicznych zmiennych kategoryzowanych w celu określenia udziału czynników genetycznych i biochemicznych w chorobie. Przedstawiona zostanie analiza typu Kaplan-Meier (tzw. krzywa przeżycia) dla oceny czasu przeżycia w odpowiedzi na występowanie zmiennej modyfikującej np. genotypu lub stosowanego leku w chorobie. Przedstawione zostaną podstawowe problemy w analizie danych mikromacierzowych poziomu metylacji DNA uzyskanych przy zastosowaniu platformy Infinium 450K firmy Ulmina.

Przykładom analiz będzie towarzyszyć wyjaśnianie niezbędnych pojęć z zakresu genetyki i biochemii.

Wykład wprowadzi kursantów w podstawowe techniki analizy danych genetycznych i biochemicznych w badaniach biomedycznych.