Polski model językowy inspirowany PLLuM - demokratyzacja AI dla języka polskiego
WronAI to open-source projekt mający na celu stworzenie efektywnego polskiego modelu językowego, który można trenować i uruchamiać na sprzęcie konsumenckim. Projekt wykorzystuje najnowsze techniki optymalizacji jak QLoRA, gradient checkpointing i kwantyzację do osiągnięcia maksymalnej wydajności przy minimalnych wymaganiach sprzętowych.
WronAI bazuje na sprawdzonych rozwiązaniach:
# Klonowanie repozytorium
git clone https://github.com/wronai/llm.git
cd llm
# Utworzenie i aktywacja wirtualnego środowiska (zalecane)
python -m venv wronai-env
source wronai-env/bin/activate # Linux/Mac
# wronai-env\Scripts\activate # Windows
# Instalacja dependencies
pip install -r requirements.txt
# Alternatywna instalacja w przypadku problemów (instalacja pakietów pojedynczo)
# pip install torch transformers accelerate peft datasets evaluate
# pip install bitsandbytes scipy tokenizers sentencepiece regex spacy
# pip install beautifulsoup4 requests aiohttp scrapy
# pip install pyyaml omegaconf loguru rich
# pip install wandb
# Przygotowanie danych
python scripts/prepare_data.py
# Trening modelu
python scripts/train.py --config configs/default.yaml
# Inferencja
python scripts/inference.py --model checkpoints/wronai-7b --prompt "Opowiedz o Polsce"
Uwaga: Jeśli napotkasz problem z instalacją modelu języka polskiego (
pl_core_news_sm
), możesz kontynuować pracę z projektem. Model ten jest opcjonalny i używany tylko do niektórych zaawansowanych funkcji przetwarzania tekstu.
Model | Parametry | VRAM | Polish Score | Licensing |
---|---|---|---|---|
WronAI-7B | 7B | 8GB | 7.2/10 | Apache 2.0 |
PLLuM-8x7B | 46.7B | 40GB+ | 8.5/10 | Custom |
Bielik-7B | 7B | 14GB | 7.8/10 | Apache 2.0 |
WronAI/
├── configs/ # Konfiguracje treningowe
├── data/ # Skrypty do obsługi danych
├── docs/ # Dokumentacja
├── models/ # Definicje architektur
├── scripts/ # Skrypty treningowe i inferencji
├── tests/ # Testy jednostkowe
├── notebooks/ # Jupyter notebooks z przykładami
├── checkpoints/ # Wytrenowane modele
└── requirements.txt # Zależności Python
Zapraszamy do współpracy! Zobacz CONTRIBUTING.md aby dowiedzieć się jak możesz pomóc:
Ten projekt jest dostępny na licencji Apache 2.0. Zobacz LICENSE po szczegóły.
WronAI - Demokratyzacja polskiej sztucznej inteligencji 🇵🇱🤖