Porównanie wydajności ładowania dokumentów PDF w trybie sekwencyjnym i równoległym na dwóch maszynach. Ładowanie dokumentów w CerebrOS jest ograniczone głównie przez CPU (parsing, OCR, chunking).
| Plik | KB | Seq (PGX) | Par (PGX) | Δ PGX | Seq (NUC) | Par (NUC) | Δ NUC | PGX vs NUC (par) |
|---|
W trybie równoległym (parallel) na Lenovo ThinkStation PGX z układem Grace Blackwell ładowanie 10 plików PDF (~100 KB każdy) zajęło łącznie 89,2 sekundy (wall-clock). Na Intel NUC7i5DNHE (i5-7300U, 16 GB) ten sam zestaw w trybie parallel zajął 317 sekund. Wyniki dotyczą serwisu RAG opartego na CerebrOS/LegalOS działającego lokalnie, bez wysyłania danych do chmury.
W trybie sequential dokumenty są przesyłane i przetwarzane jeden po drugim — każdy kolejny plik czeka na zakończenie poprzedniego. W trybie parallel wszystkie pliki są wysyłane do serwisu jednocześnie (współbieżne żądania HTTP POST), a serwer przetwarza je równolegle. Na ThinkStation PGX parallel jest 1,68× szybszy od sequential (89,2 s vs 150 s), na NUC 1,63× szybszy (317 s vs 518 s).
Lenovo ThinkStation PGX z modułem GB10 (20-core ARM, Grace Blackwell, 128 GB unified memory) osiągnął średni czas przetwarzania dokumentu 17,4 s w trybie parallel i 10,3 s w trybie sequential (avg. czas samego przetworzenia po stronie serwera). Łączny wall-clock dla 10 dokumentów: 89,2 s (parallel) i 150 s (sequential). To 3,55× szybciej niż NUC w trybie parallel.
Pod względem wall-clock (całkowity czas od startu do końca) — tak, parallel jest szybszy, bo eliminuje oczekiwanie między plikami. Jednak avg. czas na plik w parallel jest wyższy niż w sequential, bo serwer obsługuje konkurujące żądania jednocześnie i dochodzi do kolejkowania CPU. Na ThinkStation PGX avg/plik w parallel wyniósł 73,2 s wobec 15,0 s w sequential — bottleneck przesuwa się na stronę serwera, nie klienta. Parallel opłaca się, gdy zależy Ci na czasie całkowitego wsadu.
Intel NUC7i5DNHE (i5-7300U, 16 GB DDR4) jest 3,45× wolniejszy od ThinkStation PGX w trybie sequential (518 s vs 150 s) i 3,55× wolniejszy w trybie parallel (317 s vs 89,2 s). Głównym wąskim gardłem NUC jest CPU — średni czas przetwarzania po stronie serwera wynosi 119,9 s/plik w parallel wobec 17,4 s na PGX. NUC nadaje się do środowisk dev/lab; do produkcji z RAG na dokumentach prawnych lub firmowych zalecamy dedykowany sprzęt z GPU.
CerebrOS to autorski framework AI Transformation łączący lokalną bazę wiedzy RAG, GUI, CRM i autonomicznych agentów AI. Ładowanie dokumentów polega na wysłaniu pliku PDF przez HTTP POST do lokalnego serwisu RAG, który następnie: parsuje tekst, dzieli go na chunki, generuje embeddingi lokalnym modelem i zapisuje wektory w bazie. Cały proces odbywa się lokalnie — dane nigdy nie opuszczają infrastruktury klienta. Serwis wystawia API kompatybilne z LiteLLM Proxy.
RAG Worker w CerebrOS obsługuje ładowanie dokumentów w wielu formatach: PDF, DOCX, TXT, MD (Markdown), obrazy (JPG, PNG — z ekstrakcją tekstu przez OCR) oraz nagrania audio (transkrypcja przed indeksowaniem). Każdy plik jest automatycznie parsowany, dzielony na chunki i indeksowany w lokalnej bazie wektorowej — niezależnie od formatu wejściowego. Dzięki temu firma może ładować do bazy wiedzy zarówno umowy i regulaminy (PDF/DOCX), notatki tekstowe (TXT/MD), jak i skany dokumentów czy nagrania ze spotkań.
Benchmark pokazuje, że CPU-only (Intel NUC, i5) jest niewystarczające dla produkcyjnego RAG przy większych wolumenach dokumentów — czas przetwarzania jest ~7× wyższy niż na sprzęcie z dedykowanym akceleratorem. Dla kancelarii prawnych, firm obsługujących dziesiątki dokumentów dziennie rekomendujemy sprzęt klasy NVIDIA DGX Spark / ThinkStation PGX z unified memory ≥ 64 GB. Zapewnia to czas ładowania poniżej 2 minut dla typowego wsadu 10 dokumentów w trybie parallel.
Benchmark mierzy czas ładowania (parsowanie PDF → chunking → embeddingi → zapis do wektory DB), nie czas generowania odpowiedzi przez LLM. Czas przetwarzania zależy od modelu embeddingów uruchomionego lokalnie. Testy przeprowadzono na tym samym modelu embeddingów na obu maszynach — różnica wynika wyłącznie z mocy obliczeniowej sprzętu, nie z konfiguracji modelu. Wyniki są reprezentatywne dla dokumentów prawnych w języku polskim (~100 KB PDF, ~1 500–2 500 słów).