Zapytaj Kodeks pokonał modele ChatGPT, Gemini i Claude w teście na aplikację adwokacką 2025

Zapytaj Kodeks osiągnął bardzo dobre wynik w teście na aplikację adwokacką i radcowską 2025, wyraźnie wyprzedzając ChatGPT, Gemini i Claude zarówno pod względem liczby poprawnych odpowiedzi, jak i trafności wskazania podstaw prawnych. Wyniki te pokazują, że specjalistyczne modele językowe zasilane obowiązującymi przepisami i orzeczeniami, mogą przewyższyć ogólne modele językowe w zadaniach wymagających precyzyjnej znajomości polskiego prawa.

Egzamin prawniczy jako naturalny benchmark dla AI

Egzamin wstępny na aplikację adwokacką i radcowską to jeden z najbardziej wymagających sprawdzianów wiedzy prawniczej w Polsce. Składa się ze 150 pytań jednokrotnego wyboru i weryfikuje przede wszystkim znajomość przepisów oraz umiejętność ich prawidłowego zastosowania.

W standardowym egzaminie wystarczy zaznaczyć poprawną odpowiedź A, B lub C, nie ma obowiązku podawania podstawy prawnej. W naszym teście dodaliśmy jednak dodatkowe utrudnienie: aby odpowiedź została uznana za poprawną, model musiał nie tylko wskazać właściwą odpowiedź, lecz także podać dokładną, aktualną podstawę prawną.

Dzięki temu test stał się jeszcze bardziej wymagającym i precyzyjnym narzędziem do oceny praktycznych kompetencji modeli językowych w kontekście prawa.

Metodologia

Do porównania wykorzystano oficjalny arkusz egzaminacyjny z 2025 roku. Wszystkie modele otrzymały identyczny zestaw 150 pytań. Ocenie poddano trzy elementy:

  1. Poprawność odpowiedzi

  2. Poprawność wskazania podstawy prawnej

  3. Zgodność odpowiedzi i podstawy prawnej jednocześnie.

W teście udział wzięły cztery portale:

  • Zapytaj Kodeks - Platforma AI dla prawników z dostępem do aktów prawnych.

  • ChatGPT (GPT5).

  • Gemini (2.5 Flash).

  • Claude (Sonnet 4.5).

Zapytaj Kodeks osiągnął wyśmienitą skuteczność

Wyniki testu

Zapytaj Kodeks jako jedyny model uzyskał perfekcyjny wynik 150/150 poprawnych odpowiedzi. Wskazał też prawidłową podstawę prawną w 141 przypadkach. Pozostałe modele uzyskały znacząco niższe wyniki w tej kategorii: ChatGPT - 108, Gemini - 96, Claude - 64.

To właśnie wskazanie podstaw prawnych było kluczowym elementem różnicującym. Modele ogólne często potrafiły udzielić poprawnej odpowiedzi, ale nie były w stanie prawidłowo uzasadnić jej przepisem prawa. W wielu przypadkach wskazywały nieaktualne lub błędne artykuły ustaw.

Wyniki testu

Test został przeprowadzony jednorazowo (“One shot”), bez uśredniania wyników z wielu prób. Kolejne podejścia mogłyby dać nieco inne rezultaty.

Dlaczego specjalistyczny model wypadł lepiej

Przewaga Zapytaj Kodeks wynika z jego architektury i dostępu do aktualnych źródeł prawa. Model korzysta z baz aktów prawnych i orzecznictwa w czasie rzeczywistym, co pozwala mu wskazywać dokładne, obowiązujące przepisy. Nie opiera się na ogólnych skojarzeniach ani przestarzałej wiedzy.

Ponadto został zoptymalizowany do analizy struktury polskich ustaw oraz orzeczeń sądowych. Modele ogólne (takie jak ChatGPT, Gemini i Claude) bazują na uogólnionej wiedzy i często nie radzą sobie z lokalnymi niuansami prawnymi ani z numeracją artykułów.

Znaczenie wyników

Dla studentów i aplikantów
Zapytaj Kodeks może być realnym wsparciem w przygotowaniach do egzaminów wstępnych. Nie tylko pozwala szybko sprawdzić odpowiedź, ale też pomaga zrozumieć, dlaczego dana odpowiedź jest prawidłowa, wskazując konkretną podstawę prawną.

Dla prawników
Wyniki pokazują, że specjalistyczne modele mogą znacząco przyspieszyć research prawny i zwiększyć dokładność pracy. Wskazywanie podstaw prawnych jest jednym z najbardziej czasochłonnych elementów analizy automatyzacja tego etapu ma dużą wartość praktyczną.

Dla branży AI
Test pokazuje, że dopasowanie domenowe i aktualność danych są kluczowe. Modele ogólne mogą być imponujące w wielu zadaniach, ale w dziedzinach wymagających wysokiej precyzji, takich jak prawo, specjalizacja daje wymierne korzyści.

Podsumowanie

Specjalistyczne platformy AI osiągają lepsze wyniki niż modele ogólne w zadaniach wymagających wysokiej precyzji, aktualności i głębokiego rozumienia kontekstu. Wyniki testu na aplikację adwokacką 2025 pokazują, że Zapytaj Kodeks potrafi skutecznie odpowiadać na pytania egzaminacyjne i prawidłowo wskazywać podstawy prawne, czego nie są w stanie osiągnąć nawet najnowsze modele ogólne.