pytdc
Therapeutics Data Commons. AI-ready drug discovery datasets (ADME, toxicity, DTI), benchmarks, scaffold splits, molecular oracles, for therapeutic ML and pharmacological prediction.
Installation
Pick a client and clone the repository into its skills directory.
Installation
About this skill
Therapeutics Data Commons. AI-ready drug discovery datasets (ADME, toxicity, DTI), benchmarks, scaffold splits, molecular oracles, for therapeutic ML and pharmacological prediction.
How to use
Zainstaluj PyTDC za pomocą pip: uruchom polecenie
uv pip install PyTDCw terminalu. Jeśli chcesz zaktualizować do najnowszej wersji, użyjuv pip install PyTDC --upgrade. Wszystkie wymagane zależności (numpy, pandas, scikit-learn i inne) zainstalują się automatycznie.Zaimportuj odpowiednią kategorię problemu do swojego skryptu Pythona. Wybierz jedną z trzech kategorii:
single_preddla predykcji właściwości molekularnych,multi_preddla interakcji lek-cel lub lek-lek, albogenerationdla generowania nowych molekuł.Załaduj dataset, tworząc instancję zadania i podając nazwę datasetu. Na przykład:
data = Task(name='nazwa_datasetu'), gdzie Task pochodzi z wybranej kategorii problemu.Podziel dane na zbiory treningowy, walidacyjny i testowy za pomocą metody
get_split(). Określ metodę podziału (np.scaffolddla podziału na podstawie szkieletów molekularnych), seed dla powtarzalności i frakcje podziału:split = data.get_split(method='scaffold', seed=1, frac=[0.7, 0.1, 0.2]).Pobierz dane w preferowanym formacie (DataFrame Pandas lub inny) używając
get_data(format='df'). Teraz masz gotowy dataset z prawidłowymi podziałami do trenowania i ewaluacji modelu.Trenuj swój model uczenia maszynowego na zbiorze treningowym i ewaluuj na zbiorze testowym, korzystając ze standaryzowanych metryk dostępnych w PyTDC dla danego zadania farmakologicznego.