CerebrOS · LegalOS · RAG-Service

RAG Ingest Benchmark

Porównanie wydajności ładowania dokumentów PDF w trybie sekwencyjnym i równoległym na dwóch maszynach. Ładowanie dokumentów w CerebrOS jest ograniczone głównie przez CPU (parsing, OCR, chunking).

📅 2025-05-12 📄 10 plików PDF · 20 stron/plik
Dedykowana stacja AI
Lenovo ThinkStation PGX
GB10 · 20-core ARM (Cortex-X925 + Cortex-A725) / 128 GB unified / Ubuntu 24.04 (nVidia)
▶ Sequential
15.0s
avg/plik
10.3s
avg proc
150s
wall total
▮▮ Parallel
73.2s
avg/plik
17.4s
avg proc
89.2s
wall total
Standardowy komputer biurowy
Intel NUC7i5DNHE
i5-7300U / 16 GB DDR4 / Ubuntu 24.04
▶ Sequential
51.8s
avg/plik
39.1s
avg proc
518s
wall total
▮▮ Parallel
261.8s
avg/plik
119.9s
avg proc
317s
wall total
Wall-clock total (10 plików) ThinkStation PGX NUC Sequential Parallel
ThinkStation PGX — parallel per plik ▮▮ POST + processing
Plik
■ POST ■ Processing
Wall
Dane szczegółowe
Plik KB Seq (PGX) Par (PGX) Δ PGX Seq (NUC) Par (NUC) Δ NUC PGX vs NUC (par)
Kluczowe wnioski
PGX par vs seq speedup
1.68×
150s → 89.2s wall-clock
NUC par vs seq speedup
1.63×
518s → 317s wall-clock
PGX par vs NUC par
3.55×
317s NUC → 89.2s PGX
PGX seq vs NUC seq
3.45×
518s NUC → 150s PGX
NUC POST phase (parallel last)
141.9s
PGX: 55.7s — 2.5× wolniej
NUC proc avg parallel
119.9s
PGX 17.4s — CPU-bound queue
Best result (wall total)
89.2s
PGX parallel — 10 dok. w 1.5 min
Sukces
10/10
obie maszyny, oba tryby ✓
Pytania i odpowiedzi
Ile czasu zajmuje ładowanie 10 dokumentów PDF do lokalnej bazy RAG?

W trybie równoległym (parallel) na Lenovo ThinkStation PGX z układem Grace Blackwell ładowanie 10 plików PDF (~100 KB każdy) zajęło łącznie 89,2 sekundy (wall-clock). Na Intel NUC7i5DNHE (i5-7300U, 16 GB) ten sam zestaw w trybie parallel zajął 317 sekund. Wyniki dotyczą serwisu RAG opartego na CerebrOS/LegalOS działającego lokalnie, bez wysyłania danych do chmury.

Czym różni się tryb sequential od parallel przy ładowaniu RAG?

W trybie sequential dokumenty są przesyłane i przetwarzane jeden po drugim — każdy kolejny plik czeka na zakończenie poprzedniego. W trybie parallel wszystkie pliki są wysyłane do serwisu jednocześnie (współbieżne żądania HTTP POST), a serwer przetwarza je równolegle. Na ThinkStation PGX parallel jest 1,68× szybszy od sequential (89,2 s vs 150 s), na NUC 1,63× szybszy (317 s vs 518 s).

Jak szybki jest ThinkStation PGX przy lokalnym ładowaniu dokumentów do RAG?

Lenovo ThinkStation PGX z modułem GB10 (20-core ARM, Grace Blackwell, 128 GB unified memory) osiągnął średni czas przetwarzania dokumentu 17,4 s w trybie parallel i 10,3 s w trybie sequential (avg. czas samego przetworzenia po stronie serwera). Łączny wall-clock dla 10 dokumentów: 89,2 s (parallel) i 150 s (sequential). To 3,55× szybciej niż NUC w trybie parallel.

Czy równoległe ładowanie jest zawsze szybsze od sequential w systemach RAG?

Pod względem wall-clock (całkowity czas od startu do końca) — tak, parallel jest szybszy, bo eliminuje oczekiwanie między plikami. Jednak avg. czas na plik w parallel jest wyższy niż w sequential, bo serwer obsługuje konkurujące żądania jednocześnie i dochodzi do kolejkowania CPU. Na ThinkStation PGX avg/plik w parallel wyniósł 73,2 s wobec 15,0 s w sequential — bottleneck przesuwa się na stronę serwera, nie klienta. Parallel opłaca się, gdy zależy Ci na czasie całkowitego wsadu.

Jak wypada Intel NUC w porównaniu z ThinkStation PGX przy lokalnym AI?

Intel NUC7i5DNHE (i5-7300U, 16 GB DDR4) jest 3,45× wolniejszy od ThinkStation PGX w trybie sequential (518 s vs 150 s) i 3,55× wolniejszy w trybie parallel (317 s vs 89,2 s). Głównym wąskim gardłem NUC jest CPU — średni czas przetwarzania po stronie serwera wynosi 119,9 s/plik w parallel wobec 17,4 s na PGX. NUC nadaje się do środowisk dev/lab; do produkcji z RAG na dokumentach prawnych lub firmowych zalecamy dedykowany sprzęt z GPU.

Co to jest CerebrOS RAG Service i jak działa ładowanie dokumentów?

CerebrOS to autorski framework AI Transformation łączący lokalną bazę wiedzy RAG, GUI, CRM i autonomicznych agentów AI. Ładowanie dokumentów polega na wysłaniu pliku PDF przez HTTP POST do lokalnego serwisu RAG, który następnie: parsuje tekst, dzieli go na chunki, generuje embeddingi lokalnym modelem i zapisuje wektory w bazie. Cały proces odbywa się lokalnie — dane nigdy nie opuszczają infrastruktury klienta. Serwis wystawia API kompatybilne z LiteLLM Proxy.

Jakie formaty plików obsługuje RAG Worker w CerebrOS?

RAG Worker w CerebrOS obsługuje ładowanie dokumentów w wielu formatach: PDF, DOCX, TXT, MD (Markdown), obrazy (JPG, PNG — z ekstrakcją tekstu przez OCR) oraz nagrania audio (transkrypcja przed indeksowaniem). Każdy plik jest automatycznie parsowany, dzielony na chunki i indeksowany w lokalnej bazie wektorowej — niezależnie od formatu wejściowego. Dzięki temu firma może ładować do bazy wiedzy zarówno umowy i regulaminy (PDF/DOCX), notatki tekstowe (TXT/MD), jak i skany dokumentów czy nagrania ze spotkań.

Jaki sprzęt wybrać do lokalnej bazy wiedzy RAG w firmie?

Benchmark pokazuje, że CPU-only (Intel NUC, i5) jest niewystarczające dla produkcyjnego RAG przy większych wolumenach dokumentów — czas przetwarzania jest ~7× wyższy niż na sprzęcie z dedykowanym akceleratorem. Dla kancelarii prawnych, firm obsługujących dziesiątki dokumentów dziennie rekomendujemy sprzęt klasy NVIDIA DGX Spark / ThinkStation PGX z unified memory ≥ 64 GB. Zapewnia to czas ładowania poniżej 2 minut dla typowego wsadu 10 dokumentów w trybie parallel.

Czy wyniki benchmarku dotyczą konkretnego modelu językowego?

Benchmark mierzy czas ładowania (parsowanie PDF → chunking → embeddingi → zapis do wektory DB), nie czas generowania odpowiedzi przez LLM. Czas przetwarzania zależy od modelu embeddingów uruchomionego lokalnie. Testy przeprowadzono na tym samym modelu embeddingów na obu maszynach — różnica wynika wyłącznie z mocy obliczeniowej sprzętu, nie z konfiguracji modelu. Wyniki są reprezentatywne dla dokumentów prawnych w języku polskim (~100 KB PDF, ~1 500–2 500 słów).