H
huggingface-tokenizers
Fast tokenizers optimized for research and production. Rust-based implementation tokenizes 1GB in u003c20 seconds. Supports BPE, WordPiece, and Unigram algorithms. Train custom vocabularies, track alignments, handle padding/truncation. Integrates seamlessly with transformers.
Installation
Pick a client and clone the repository into its skills directory.
Installation
About this skill
Fast tokenizers optimized for research and production. Rust-based implementation tokenizes 1GB in u003c20 seconds. Supports BPE, WordPiece, and Unigram algorithms. Train custom vocabularies, track alignments, handle padding/truncation. Integrates seamlessly with transformers. Use when you need high-performance tokenization or custom tokenizer training.
How to use
- Zainstaluj bibliotekę tokenizers za pomocą pip install tokenizers. Jeśli planujesz pracować z modelami transformers, dodaj transformers do instalacji: pip install tokenizers transformers.
- Załaduj pretrenowany tokenizer z HuggingFace Hub, importując klasę Tokenizer i wywołując metodę from_pretrained() z nazwą modelu, na przykład bert-base-uncased. Ta metoda pobierze konfigurację tokenizera z repozytorium.
- Koduj tekst, przekazując ciąg znaków do metody encode() załadowanego tokenizera. Metoda zwraca obiekt zawierający listę tokenów (tokens) i ich identyfikatory numeryczne (ids).
- Aby trenować własny tokenizer od zera, użyj klasy BpeTrainer, WordPieceTrainer lub UnigramTrainer w zależności od wybranego algorytmu. Przekaż pliki treningowe i parametry konfiguracyjne, takie jak rozmiar słownika.
- Dla zaawansowanych przypadków użyj funkcji alignment tracking, aby śledzić mapowanie między tokenami a ich pozycjami w oryginalnym tekście – przydatne przy ekstrakcji informacji lub analizie tekstu.
- Integruj tokenizer z pipelinami przetwarzania NLP, łącząc go z modelami transformers – biblioteka jest zoptymalizowana do pracy z tym ekosystemem.