tcga-bulk-data-preprocessing-with-omicverse
Guide Claude through ingesting TCGA sample sheets, expression archives, and clinical carts into omicverse, initialising survival metadata, and exporting annotated AnnData files.
Installation
Pick a client and clone the repository into its skills directory.
Installation
About this skill
Guide Claude through ingesting TCGA sample sheets, expression archives, and clinical carts into omicverse, initialising survival metadata, and exporting annotated AnnData files.
How to use
Przygotuj trzy pliki z portalu GDC Data Portal: plik sample sheet (gdc_sample_sheet..tsv), rozpakowany katalog z archiwami ekspresji (gdc_download_/) oraz katalog z plikami klinicznymi (clinical.cart.*/).
Zaimportuj omicverse i zainicjalizuj obiekt pyTCGA, podając ścieżki do pobranych plików. Następnie uruchom metodę adata_init(), która automatycznie zbuduje macierz AnnData zawierającą warstwy surowych zliczeń, FPKM i TPM.
Zapisz zainicjalizowane dane do pliku HDF5 (.h5ad) z kompresją gzip, aby móc je szybko załadować w przyszłości bez konieczności ponownego przetwarzania.
Zainicjalizuj metadane i informacje o przeżywalności, uruchamiając metody adata_meta_init() (mapowanie ID genów na symbole i informacje o pacjentach) oraz survial_init() (przygotowanie danych do analiz przeżywalności).
Przeprowadź analizę przeżywalności dla wybranego genu, podając jego nazwę i warstwę danych (np. 'deseq_normalize'), lub uruchom analizę dla wszystkich genów jednocześnie — pamiętaj, że pełna analiza może trwać kilka minut dla dużych zestawów.
Wyeksportuj ostateczne wyniki, zapisując obiekt AnnData z wynikami analiz przeżywalności do pliku HDF5.