sentencepiece
Language-independent tokenizer treating text as raw Unicode. Supports BPE and Unigram algorithms. Fast (50k sentences/sec), lightweight (6MB memory), deterministic vocabulary. Used by T5, ALBERT, XLNet, mBART. Train on raw text without pre-tokenization. Use when you need
Installation
Pick a client and clone the repository into its skills directory.
Installation
About this skill
Language-independent tokenizer treating text as raw Unicode. Supports BPE and Unigram algorithms. Fast (50k sentences/sec), lightweight (6MB memory), deterministic vocabulary. Used by T5, ALBERT, XLNet, mBART. Train on raw text without pre-tokenization. Use when you need multilingual support, CJK languages, or reproducible tokenization.
How to use
Zainstaluj SentencePiece za pomocą pip: uruchom polecenie
pip install sentencepiecew terminalu. Upewnij się, że masz zainstalowany Python 3.6 lub nowszy.Przygotuj plik tekstowy zawierający dane treningowe (np.
data.txt). Tekst powinien być surowy – SentencePiece sam obsługuje Unicode i nie wymaga wstępnego tokenizowania ani czyszczenia.Wytrenuj model tokenizera za pomocą API Pythona: zaimportuj moduł
sentencepiece, a następnie użyjSentencePieceTrainer.train()z parametrami:input='data.txt'(ścieżka do pliku),model_prefix='m'(prefiks nazwy modelu),vocab_size=8000(rozmiar słownika – dostosuj do swoich potrzeb) imodel_type='bpe'(algorytm BPE dla większości przypadków).Po treningu otrzymasz dwa pliki:
m.model(wytrenowany model) im.vocab(słownik). Przechowuj je w bezpiecznym miejscu – będą potrzebne do tokenizacji.Załaduj model i tokenizuj nowy tekst: zaimportuj
sentencepiece, otwórz model poleceniemspm.SentencePieceProcessor()i metodąload()wskaż ścieżkę dom.model, następnie użyjencode()do konwersji tekstu na tokeny lubdecode()do odwrotnej operacji.Jeśli pracujesz z wieloma językami lub językami CJK, nie zmieniaj ustawień domyślnych – SentencePiece automatycznie obsługuje wszystkie znaki Unicode bez dodatkowej konfiguracji.