geniml
This skill should be used when working with genomic interval data (BED files) for machine learning tasks. Use for training region embeddings (Region2Vec, BEDspace), single-cell ATAC-seq analysis (scEmbed), building consensus peaks (universes), or any ML-based analysis of genomic
Installation
Pick a client and clone the repository into its skills directory.
Installation
About this skill
This skill should be used when working with genomic interval data (BED files) for machine learning tasks. Use for training region embeddings (Region2Vec, BEDspace), single-cell ATAC-seq analysis (scEmbed), building consensus peaks (universes), or any ML-based analysis of genomic regions. Applies to BED file collections, scATAC-seq data, chromatin accessibility datasets, and region-based genomic feature learning.
How to use
Zainstaluj geniml za pomocą menedżera pakietów uv, uruchamiając polecenie
uv pip install geniml. Jeśli planujesz używać zależności uczenia maszynowego (PyTorch i inne), zainstaluj wersję rozszerzoną:uv pip install 'geniml[ml]'.Przygotuj swoje pliki BED zawierające interwały genomowe, które chcesz analizować. Upewnij się, że dane są w standardowym formacie BED (kolumny: chromosom, początek, koniec, opcjonalnie dodatkowe informacje).
Tokenizuj pliki BED, używając referencji wszechświata genomowego. Ten krok konwertuje interwały genomowe na tokeny, które mogą być przetwarzane przez model.
Wytrenuj model Region2Vec na tokenizowanych danych, aby uzyskać embeddingi regionów genomowych. Model uczy się nienadzorowanych reprezentacji wektorowych, które odzwierciedlają podobieństwo między regionami na podstawie ich sąsiedztwa i kontekstu.
Wygeneruj embeddingi dla swoich regionów i użyj ich do wyszukiwania podobieństwa, grupowania lub jako cech wejściowych do dalszych modeli uczenia maszynowego. Embeddingi mogą być również wykorzystane do analizy metadanych, jeśli pracujesz z danymi scATAC-seq lub innymi etykietami eksperymentalnymi.
Zapoznaj się z dokumentacją referencyjną w pliku
references/region2vec.md, aby poznać szczegółowe parametry, zaawansowane przepływy pracy i przykłady dostosowane do Twojego przypadku użycia.