Streaming odpowiedzi to nowa funkcjonalność w goLLM, która znacząco poprawia wydajność generowania kodu poprzez wykorzystanie modularnego adaptera Ollama. Dzięki temu rozwiązaniu, odpowiedzi z modelu LLM są przetwarzane strumieniowo, co pozwala na:
Modularny adapter Ollama implementuje obsługę streamingu, która pozwala na przetwarzanie odpowiedzi z modelu LLM w czasie rzeczywistym, bez konieczności oczekiwania na całą odpowiedź. Proces wygląda następująco:
Aby włączyć streaming w interfejsie wiersza poleceń, użyj parametru --adapter-type modular
:
# Generowanie kodu ze streamingiem
gollm generate "Stwórz klasę użytkownika" --adapter-type modular
Streaming jest domyślnie włączony w modularnym adapterze, więc nie ma potrzeby dodatkowej konfiguracji.
Jeśli korzystasz z API goLLM w swoim kodzie, możesz włączyć streaming w następujący sposób:
from gollm.main import GollmCore
# Inicjalizacja goLLM
gollm = GollmCore()
# Generowanie kodu ze streamingiem
result = await gollm.handle_code_generation(
"Stwórz klasę użytkownika",
context={
'adapter_type': 'modular',
'use_streaming': True
}
)
Możesz skonfigurować domyślne zachowanie streamingu w pliku konfiguracyjnym gollm.json
:
{
"llm": {
"provider": "ollama",
"adapter_type": "modular",
"use_streaming": true
}
}
Jeśli mimo użycia parametru --adapter-type modular
adapter nie przełącza się na modularny, sprawdź:
pip install gollm[llm]
OLLAMA_ADAPTER_TYPE
nie jest ustawiona na inną wartośćgollm.json
nie ma konfliktujących ustawieńJeśli mimo włączenia streamingu nadal występują problemy z wydajnością:
Streaming jest obecnie obsługiwany tylko przez modularny adapter Ollama. Inne adaptery (HTTP, gRPC) nie obsługują streamingu i będą działać w trybie standardowym.