M
molfeat
Molecular featurization for ML (100+ featurizers). ECFP, MACCS, descriptors, pretrained models (ChemBERTa), convert SMILES to features, for QSAR and molecular ML.
Installation
Pick a client and clone the repository into its skills directory.
Installation
About this skill
Molecular featurization for ML (100+ featurizers). ECFP, MACCS, descriptors, pretrained models (ChemBERTa), convert SMILES to features, for QSAR and molecular ML.
How to use
- Zainstaluj molfeat za pomocą menedżera pakietów: uruchom
uv pip install molfeat. Jeśli potrzebujesz pełnego zestawu featurizerów (w tym modele transformerów takie jak ChemBERTa), użyjuv pip install "molfeat[all]". Dla konkretnych modeli możesz zainstalować tylko potrzebne zależności, np.molfeat[transformer]dla modeli opartych na transformerach. - Zaimportuj klasę Calculator z molfeat.calc – to główny interfejs do featuryzacji. Calculatory to obiekty, które konwertują pojedyncze molekuły na wektory cech. Mogą przyjmować zarówno obiekty RDKit
Chem.Moljak i łańcuchy SMILES. - Wybierz odpowiedni featurizer w zależności od zadania: dla QSAR i predykcji właściwości użyj deskryptorów molekularnych lub ECFP, dla głębokich sieci neuronowych rozważ pretrenowane embeddingi takie jak ChemBERTa, dla wirtualnego screeningu i wyszukiwania podobieństwa użyj fingerprint'ów takich jak MACCS.
- Utwórz instancję wybranego calculatora i przekaż mu molekułę lub SMILES:
features = calculator(smiles_string). Wynik to wektor numeryczny gotowy do użycia w modelu uczenia maszynowego. - Jeśli przetwarzasz wiele molekuł, skorzystaj z wbudowanego przetwarzania równoległego i pamięci podręcznej – molfeat automatycznie optymalizuje wydajność dla dużych zbiorów danych.
- Zintegruj otrzymane cechy z pipelineami scikit-learn lub frameworkami do głębokich sieci neuronowych (TensorFlow, PyTorch) w zależności od wybranego algorytmu uczenia maszynowego.