O projekcie

Respublica jest autorskim projektem badawczo-technologicznym rozwijanym we współpracy z Fundacją im. Ignacego Kapicy w ramach inicjatywy KapicAI. Projekt łączy historię, archiwistykę, przetwarzanie języka naturalnego oraz nowoczesne metody wyszukiwania informacji w dużych zbiorach danych źródłowych.

Celem Respublici jest udostępnienie współczesnemu odbiorcy historii dawnej Rzeczpospolitej zapisanej w księgach sądowych, rejestrach i innych materiałach archiwalnych. Projekt nie ogranicza się do biernej prezentacji źródeł — jego ambicją jest stworzenie narzędzia, które pozwala zadawać pytania, odnajdywać tropy badawcze i odkrywać konkretne osoby, sprawy, konflikty, miejscowości oraz zjawiska społeczne utrwalone w dawnych aktach.

System przetwarza i organizuje materiał źródłowy pochodzący z zachowanych ksiąg sądowych oraz rejestrów, w tym dokumentów dostępnych publicznie w serwisie szukajwarchiwach.gov.pl. Dane te są następnie transkrybowane, porządkowane, indeksowane i przygotowywane do wyszukiwania przy użyciu metod właściwych dla współczesnych systemów opartych na dużych modelach językowych oraz technikach retrieval augmented generation.

Pytania zadawane przez użytkowników portalu Respublica są analizowane przez algorytmy, które przeszukują bardzo duży korpus jednostek redakcyjnych utworzonych na podstawie rzeczywistych aktów sądowych: wyroków, pozwów, relacji woźnych, opisów sporów, zapisów majątkowych, wykazów ruchomości, dokumentów dotyczących długów, zastawów, dziedziczenia oraz innych zdarzeń odnotowanych w dawnych księgach.

Takie podejście pozwala spojrzeć na historię nie wyłącznie przez pryzmat wielkich wydarzeń politycznych, ale również przez codzienne doświadczenie ludzi żyjących kilkaset lat temu: ich sporów, majątków, relacji rodzinnych, zobowiązań, konfliktów sąsiedzkich i praktyki działania dawnego wymiaru sprawiedliwości.

Infrastruktura obliczeniowa

Realizacja projektu w tej skali wymaga dostępu do zaawansowanej infrastruktury obliczeniowej. Kluczowe znaczenie ma tutaj wsparcie Akademickiego Centrum Komputerowego Cyfronet AGH, które udostępnia zasoby superkomputera Helios — jednej z najważniejszych infrastruktur obliczeniowych dostępnych dla polskiej nauki.

Helios, nieprzypadkowo nazywany „Bogiem Słońca”, jest hybrydowym systemem superkomputerowym zaprojektowanym do obsługi wymagających zadań naukowych, analitycznych i sztucznej inteligencji. Jego architektura obejmuje zasoby CPU, GPU oraz infrastrukturę przeznaczoną do pracy z dużymi zbiorami danych. Dzięki temu możliwe jest prowadzenie obliczeń, które w klasycznym środowisku serwerowym byłyby niepraktyczne, zbyt kosztowne albo po prostu niewykonalne w rozsądnym czasie.

W przypadku Respublici moc obliczeniowa Heliosa umożliwia przetwarzanie dużych partii materiału źródłowego, przygotowywanie danych do indeksacji, budowanie reprezentacji wektorowych oraz testowanie mechanizmów wyszukiwania semantycznego. Bez takiej infrastruktury rozwój systemu o podobnej skali wymagałby nieporównywalnie większych nakładów organizacyjnych i finansowych.

Automatyzacja i rozwój bazy wiedzy

Respublica została zaprojektowana jako system możliwie zautomatyzowany. Nowe transkrypcje będą stopniowo włączane do bazy wiedzy, a następnie przetwarzane w ramach powtarzalnego procesu obejmującego kontrolę danych, segmentację materiału, indeksację i przygotowanie do wyszukiwania.

Dzięki temu projekt może rozwijać się wraz z przyrostem opracowanego materiału źródłowego. Każda kolejna księga zwiększa możliwości systemu, poszerza zakres możliwych pytań i pozwala lepiej rekonstruować sieć osób, miejsc, spraw oraz zjawisk obecnych w dawnych aktach.

Charakter odpowiedzi i praca ze źródłami

Odpowiedzi generowane przez Respublicę mają charakter popularnonaukowy i eksploracyjny. Ich zadaniem jest pomagać w odnajdywaniu interesujących wątków, wskazywać możliwe kierunki dalszej kwerendy oraz ułatwiać pracę z dużym, trudnym i rozproszonym materiałem źródłowym.

Każda odpowiedź systemu powinna być czytana razem ze wskazanymi przez niego źródłami. Respublica nie zastępuje krytycznej analizy dokumentu, lecz ma ją przyspieszać, porządkować i czynić łatwiej dostępną. W zastosowaniach badawczych, genealogicznych, publikacyjnych lub wymagających wysokiej pewności konieczna jest weryfikacja odpowiedzi na podstawie przywołanych materiałów źródłowych.

Jest to szczególnie ważne dlatego, że zarówno dane źródłowe, jak i ich transkrypcje mogą być przygotowywane z udziałem modeli sztucznej inteligencji. Modele te, zwłaszcza przy pracy z rękopisami, materiałem uszkodzonym, słabo czytelnym, archaicznym lub zapisanym w języku kancelaryjnym, mogą popełniać błędy oraz tworzyć odczyty pozornie wiarygodne, lecz niewystarczająco oparte na samym źródle.

Dotyczy to w szczególności imion, nazwisk, nazw miejscowych, dat, kwot oraz szczegółowych relacji między osobami. Dlatego ograniczone zaufanie do wyniku nie jest słabością projektu, ale elementem rzetelnej metodologii pracy ze źródłami. Respublica pokazuje tropy, przyspiesza kwerendę i porządkuje materiał, natomiast ostateczna interpretacja zawsze powinna należeć do świadomego użytkownika pracującego ze źródłem.

Idea projektu

Respublica powstała z przekonania, że nowe technologie mogą realnie poszerzyć dostęp do historii. Dawne księgi sądowe zawierają ogromną liczbę opowieści, które przez stulecia pozostawały zamknięte w archiwach, dostępne głównie dla wąskiego grona specjalistów. Projekt ma pomóc w ich ponownym odkrywaniu — w sposób nowoczesny, skalowalny i zrozumiały dla współczesnego odbiorcy.

Jest to jednocześnie eksperyment technologiczny, narzędzie popularyzacji historii oraz próba stworzenia pomostu między klasyczną pracą źródłową a możliwościami, jakie daje współczesna sztuczna inteligencja.

Życzę wszystkim miłego użytkowania, ciekawych odkryć i owocnych poszukiwań.

Michał Werpachowski