Über das Projekt

Respublica ist ein eigenständiges Forschungs- und Technologieprojekt, das in Zusammenarbeit mit der Ignacy-Kapica-Stiftung im Rahmen der Initiative KapicAI entwickelt wird. Es verbindet Geschichte, Archivwissenschaft, die Verarbeitung natürlicher Sprache und moderne Methoden der Informationssuche in großen Beständen von Quelldaten.

Ziel von Respublica ist es, die in Gerichtsbüchern, Registern und anderen Archivmaterialien festgehaltene Geschichte der alten Rzeczpospolita einem heutigen Publikum zugänglich zu machen. Das Projekt beschränkt sich nicht auf eine passive Präsentation der Quellen — sein Anspruch ist es, ein Werkzeug zu schaffen, das es erlaubt, Fragen zu stellen, Forschungsspuren zu verfolgen und konkrete Personen, Fälle, Konflikte, Ortschaften sowie gesellschaftliche Phänomene zu entdecken, die in alten Akten überliefert sind.

Das System verarbeitet und ordnet Quellenmaterial aus erhaltenen Gerichtsbüchern und Registern, darunter Dokumente, die öffentlich auf szukajwarchiwach.gov.pl verfügbar sind. Diese Daten werden anschließend transkribiert, geordnet, indexiert und für die Suche aufbereitet — mit Methoden, wie sie für moderne, auf großen Sprachmodellen und Retrieval-Augmented-Generation-Techniken beruhende Systeme charakteristisch sind.

Die von den Nutzern des Respublica-Portals gestellten Fragen werden von Algorithmen analysiert, die einen sehr großen Korpus redaktioneller Einheiten durchsuchen, der auf der Grundlage realer Gerichtsakten erstellt wurde: Urteile, Ladungen, Berichte der Gerichtsboten, Beschreibungen von Streitigkeiten, Vermögenseinträge, Verzeichnisse beweglicher Güter, Dokumente zu Schulden, Pfändern, Erbschaften sowie weitere in den alten Büchern vermerkte Ereignisse.

Ein solcher Ansatz erlaubt es, die Geschichte nicht nur durch das Prisma großer politischer Ereignisse zu betrachten, sondern auch durch die alltägliche Erfahrung von Menschen, die vor mehreren Jahrhunderten lebten: ihre Streitigkeiten, Besitzungen, Familienbeziehungen, Verpflichtungen, Nachbarschaftskonflikte und die Praxis der alten Gerichtsbarkeit.

Recheninfrastruktur

Die Umsetzung eines Projekts dieses Umfangs erfordert Zugang zu fortschrittlicher Recheninfrastruktur. Von zentraler Bedeutung ist hier die Unterstützung des Akademischen Rechenzentrums Cyfronet AGH, das die Ressourcen des Supercomputers Helios bereitstellt — einer der wichtigsten Recheninfrastrukturen, die der polnischen Wissenschaft zur Verfügung stehen.

Helios, nicht zufällig nach dem „Sonnengott” benannt, ist ein hybrides Supercomputersystem, das für anspruchsvolle wissenschaftliche, analytische und KI-Aufgaben konzipiert wurde. Seine Architektur umfasst CPU- und GPU-Ressourcen sowie Infrastruktur für die Arbeit mit großen Datensätzen. Dadurch lassen sich Berechnungen durchführen, die in einer klassischen Serverumgebung unpraktisch, zu kostspielig oder in vertretbarer Zeit schlicht undurchführbar wären.

Im Fall von Respublica ermöglicht die Rechenleistung von Helios die Verarbeitung großer Mengen an Quellenmaterial, die Aufbereitung von Daten für die Indexierung, den Aufbau von Vektorrepräsentationen und das Testen von Mechanismen der semantischen Suche. Ohne eine solche Infrastruktur würde die Entwicklung eines Systems vergleichbaren Umfangs einen ungleich größeren organisatorischen und finanziellen Aufwand erfordern.

Automatisierung und Ausbau der Wissensbasis

Respublica wurde als ein möglichst automatisiertes System konzipiert. Neue Transkriptionen werden schrittweise in die Wissensbasis aufgenommen und anschließend in einem wiederholbaren Prozess verarbeitet, der Datenkontrolle, Segmentierung des Materials, Indexierung und Vorbereitung für die Suche umfasst.

Dadurch kann das Projekt mit dem Zuwachs an aufbereitetem Quellenmaterial wachsen. Jedes weitere Buch erweitert die Möglichkeiten des Systems, vergrößert die Bandbreite möglicher Fragen und erlaubt es, das Netz aus Personen, Orten, Fällen und Phänomenen in den alten Akten besser zu rekonstruieren.

Charakter der Antworten und Arbeit mit Quellen

Die von Respublica erzeugten Antworten haben populärwissenschaftlichen und explorativen Charakter. Ihre Aufgabe ist es, beim Auffinden interessanter Stränge zu helfen, mögliche Richtungen weiterer Recherche aufzuzeigen und die Arbeit mit umfangreichem, schwierigem und verstreutem Quellenmaterial zu erleichtern.

Jede Antwort des Systems sollte zusammen mit den von ihm angegebenen Quellen gelesen werden. Respublica ersetzt nicht die kritische Analyse eines Dokuments, sondern soll sie beschleunigen, ordnen und leichter zugänglich machen. Für Forschungs-, genealogische, Publikations- oder andere Zwecke mit hohem Sicherheitsbedarf müssen die Antworten anhand der angeführten Quellenmaterialien überprüft werden.

Das ist besonders wichtig, weil sowohl die Quelldaten als auch ihre Transkriptionen unter Mitwirkung von KI-Modellen erstellt werden können. Solche Modelle — vor allem bei der Arbeit mit Handschriften, beschädigtem, schwer lesbarem, archaischem oder in Kanzleisprache verfasstem Material — können Fehler machen und Lesarten erzeugen, die plausibel wirken, aber nicht hinreichend in der Quelle selbst begründet sind.

Dies betrifft insbesondere Vornamen, Nachnamen, Ortsnamen, Daten, Beträge sowie detaillierte Beziehungen zwischen Personen. Ein begrenztes Vertrauen in das Ergebnis ist daher keine Schwäche des Projekts, sondern Teil einer soliden Methodik der Quellenarbeit. Respublica zeigt Spuren, beschleunigt die Recherche und ordnet das Material, während die endgültige Interpretation stets bei einem bewussten, mit der Quelle arbeitenden Nutzer liegen sollte.

Die Idee des Projekts

Respublica entstand aus der Überzeugung, dass neue Technologien den Zugang zur Geschichte tatsächlich erweitern können. Alte Gerichtsbücher enthalten eine enorme Zahl von Geschichten, die über Jahrhunderte in Archiven verschlossen blieben und vor allem einem engen Kreis von Fachleuten zugänglich waren. Das Projekt soll helfen, sie neu zu entdecken — auf moderne, skalierbare und für ein heutiges Publikum verständliche Weise.

Es ist zugleich ein technologisches Experiment, ein Werkzeug zur Popularisierung der Geschichte und der Versuch, eine Brücke zwischen klassischer Quellenarbeit und den Möglichkeiten der heutigen künstlichen Intelligenz zu schlagen.

Ich wünsche allen viel Freude bei der Nutzung, interessante Entdeckungen und ertragreiche Recherchen.

Michał Werpachowski