LinkedIn Beitrag vom 22.4.2026


Article cover image


–>> Du bist unterwegs und kannst das KI-Logbuch gerade nicht lesen? Dann hör Dir die KI-generierte Podcast-Version dieser Ausgabe an – einfach auf Play drücken. <<–


Liebe Neugierige, Kreative, Entdecker*innen,

letzte Woche Freitag durfte ich in der Bonner Zentrale der Deutsche Telekom der Vereinigung der WirtschaftsarchivarInnen eine Auswahl einiger Telekom Use Cases für KI vorstellen. Unheimlicherweise ploppte dann etwas später am selben Tag eine Fortune-Meldung in meiner Timeline auf: 241 Websites, darunter 23 große Nachrichtenhäuser wie die New York Times und USA Today, haben dem Internet Archive die Tür vor der Nase zugeschlagen. Begründung: Angst vor KI-Scraping. Kollateralschaden: das Gedächtnis des Netzes. Und wenn man das dann konsequent zuende denkt, dann stoßen neugierige Menschen wie ich auf einmal auf ein leises, kleines Stück Forschung aus Großbritannien, das 2026 vielleicht ja mehr bewegt als all die Schlagzeilen dieser Woche.

„Das Archiv ist zuerst das Gesetz dessen, was gesagt werden kann.“ Michel Foucault

Worum geht es? Um nichts weniger als die Frage, wer die Deutungshoheit über unsere Sammlungen behält, wenn KI an ihnen und durch sie lernt. Vielleicht liegt es auch an meinen sehr angenehmen Erfahrungen it den Archiv Kolleg:innen vom Freitag, aber ich musste mir das Thema „Archive & KI“ mal genauer anschauen, besonders jetzt, da ich diese wissenschaftliche Arbeit gefunden hatte; eine „Fügung“ aus Großbritannien, die die Arbeit von Archivar*innen leise in eine neue Denkrichtung bringen könnte.


Das FLAME-Papier: „AI Preparedness Guidelines for Archivists

Im Februar 2026 hat die britisch-irische Archives & Records Association unter CC-BY-Lizenz eine Handreichung veröffentlicht, die außerhalb der Zunft kaum jemand registriert hat. Die „AI Preparedness Guidelines for Archivists„, verfasst von @Giovanni Colavizza (Universität Kopenhagen und Bologna) und Lise Jaillant (Loughborough University) im Rahmen des FLAME-Projekts, stellen eine These auf, die in ihrer Ruhe fast radikal ist: nicht das Modell entscheidet, sondern die Sammlung.

Das klingt banal, ist es nicht. Und deshalb kann man es uns allen auch nicht verübeln, wenn die meisten Menschen lieber auf das nächste GPT-Version starren statt auf Archivar*innen, die gerade mit den großen KI Unternehmen verhandeln, unter welchen Bedingungen KI überhaupt sinnvoll mit Kulturerbe umgeht. Das Papier definiert vier Säulen, und jede davon ist nüchtern im besten Sinne: Vollständigkeit (dokumentiere, was digitalisiert ist, was fehlt und warum), Metadaten und Zugang (Provenienz darf nicht überschrieben werden), Datentypen und Formate (Ableitungen vereinheitlichen, Originale nie antasten), anwendungsspezifische Metriken (was heißt „Erfolg“ für dieses konkrete KI-Projekt?).

Und dann kommt der Clou. Die drei Workflows, die die Autor*innen empfehlen, sind nicht gerade die technik-euphorischsten. Sie heißen Metadaten-Entwurf, Sensitivity Review (Erkennung schützenswerter oder belasteter Inhalte) und retrieval-basierte Zugangsinterfaces – also RAG, nicht Blackbox-Training. Eine Nuance? Nein. Ein fundamentaler Unterschied, der darüber entscheidet, ob Deine Familienbriefe, Firmenakten oder Stadtarchiv-Fotos eines Tages in einem intransparenten Modell verschwinden – oder ob sie abfragbar, attributierbar und widerrufbar bleiben.

Das erinnert mich an die leisen ISO-Normen der 90er Jahre, die heute jeden Webbrowser der Welt regeln. Und genau deshalb ist dieses paper so wichtig: Weil es Archivar*innen die Sprache an die Hand gibt, in der sie mit CTOs, Rechtsabteilungen und KI-Anbietern verhandeln können. Ohne diese Sprache verhandeln sie nicht, sie übergeben lediglich Wissen von einer Prozesskette, die sie kontrollieren in eine, die sich der Kontrolle der Achivar:innen entzieht. Ich habe das Dokument intensiv gelesen. Beim zweiten Mal mit einem Lächeln. Weil akademische Handreichungen selten so praktisch sind.


Zwei Schauplätze: Wayback-Blockade und Virginias Protokoll

Die Wayback-Front: Am 16. März 2026 hat die Electronic Frontier Foundation einen bemerkenswert klaren Text veröffentlicht. Joe Mullin argumentiert: Wer das Internet Archive sperrt, stoppt nicht die KI-Industrie. Er löscht das Netz-Gedächtnis. Die Wayback Machine ist keine Trainingsbibliothek, sondern Zeitmaschine – das, was nach einer stillen Redaktionskorrektur noch lesbar bleibt. Mark Graham, Direktor der Wayback Machine, betont, dass technische Maßnahmen gegen Massen-Extraktion übrigens längst existierten. Das eigentliche Problem: Publisher verwechseln Bibliothek mit Beutequelle. Und zahlen Archivierung mit einem Stück (vorgeschobener?) Öffentlichkeit.

Das Virginia-Protokoll: An der University of Virginia hat Dean of Libraries Leo Lo am 21. Januar 2026 in seinem Vortrag „Memory Without Origin“ ein Protokoll vorgestellt, das deutsche Bundes- und Landesarchive aufmerksam lesen sollten. Drei Säulen: Provenance und Attribution, Donor- und Community-Pflichten, institutionelle Kontrolle – also das ausdrückliche Recht, KI-Nutzung zu stoppen. Der Kern: Irreversible Modelle (klassisches Training, das Daten einsaugt und nicht mehr hergibt) bekommen nur Zugang, wenn Provenienz auf Item-Ebene und belastbare Attribution garantiert sind. Retrieval-basierte interne Modelle dürfen durchaus lesen. Ich stelle mir Lo’s Ansatz als pragmatische Lösung zwischen Panik und Ausverkauf vor.


Schon gewusst?

Ich schrieb es oben bereits. Das Internet Archive selbst nutzt KI längst konstruktiv. Die Organisation hat ein eigenes Machine-Learning-Modell trainiert, das automatisch Seitenumbrüche in gescannten Büchern vorschlägt. Resultat laut Internet-Archive-Blog: die Verarbeitungsrate hat sich verdoppelt. Und die Beschreibung von Zeitschriften und Zeitungsausgaben ist von 40 auf 10 Minuten pro Titel geschrumpft. Nicht schlecht für eine NGO, die viele reflexhaft unter „KI-Opfer“ ablegen.


Tips und Tricks: So wird Deine Sammlung AI-ready

  1. Inventarisiere, was fehlt. Klingt paradox, ist aber Grundlage. Jede Lücke in Deiner Digitalisierung ist eine Leerstelle im KI-Ergebnis. Dokumentiere sie explizit.

  2. Friere Deine Originale ein. Jede Transformation – OCR, HTR, Farbnormalisierung – gehört in eine Ableitungs-Ebene. Das Original bleibt unangetastet. Immer.

  3. Schreibe Provenienz als Code. Originaldateiname, Ordnerstruktur, Aufbewahrungskontext – all das gehört in maschinenlesbare Metadaten, nicht in ein PDF-Anschreiben.

  4. Starte mit RAG, nicht mit Training. Retrival Based Augmententierte Systeme halten Deine Daten in Deiner Hand. Fine-Tuning gibt sie weg. Der Unterschied ist kein technischer, sondern ein politischer.

  5. Definiere „Erfolg“ pro Projekt. Ein gutes HTR-Modell für Sütterlin ist ein anderes als eines für Maschinenschrift der 1950er. Metriken folgen dem Bestand, nicht umgekehrt.


Top Links

  • Tool der Woche: Transkribus – die genossenschaftlich getragene AI-Plattform für Handschrifterkennung, mit über 90 institutionellen Mitgliedern. Datenhoheit bleibt bei den Nutzenden. Die 2026er Roadmap setzt auf Named-Entity-Recognition, Smart-Extract-Modelle und explizite Opt-in-Signale, wann externe LLMs zum Einsatz kommen.

  • Studie der Woche: Retrieval-Augmented Generation for Natural Language Art Provenance Searches von Mathew Henrickson – getestet an 10.000 Datensätzen des Getty Provenance Index. Ein sauberes Beispiel, wie RAG Provenienz-Recherche mehrsprachig und frei von starren Metadatenschemata macht.

  • Best Practice: Das Bundesarchiv-Kolonialakten-Projekt – rund 10.000 Akten des Reichskolonialamts, überwiegend in Sütterlinschrift, per KI vollständig durchsuchbar. Ein stilles, aber eindrucksvolles Beispiel dafür, wie Archiv-KI konkrete historische Verantwortung unterstützt.


Fazit

Archive sind keine „Data Lakes“, auch wenn man das in Tech-Konferenzen manchmal hört. Sie sind Gedächtnisorte, mit Regeln, Pflichten und einem Ethos, das sich über Jahrhunderte bewährt hat. Die guten Nachrichten aus Koblenz – rund 2,17 Millionen Euro zusätzliches Bundesgeld für KI-Einsatz, Digitalen Lesesaal und Stasi-Unterlagen im Haushalt 2026 – zeigen: Politik fängt an, das zu begreifen. Die britischen Guidelines zeigen: Archivar*innen können den Ton mitbestimmen. Die EFF zeigt: Wir müssen die Bibliothek gegen ihre eigene Blockade verteidigen.

Für mich ist das die eigentliche Geschichte dieser Woche. Nicht das nächste Modell. Nicht der nächste Benchmark. Sondern die Frage, wer Zugriff auf Euer, auf unser kollektives Gedächtnis bekommt und auch unter welchen Bedingungen das geschehen soll. Aber dafür brauchen wir eine informierte Öffentlichkeit! Und genau deshalb schreibe ich KI-Logbücher wie dieses hier: ich möchte nicht glauben, dass es für das so wichtige und spannende Thema Künstliche Intelligenz keine informierte Öffentlichkeit geben soll.

Die nächsten fünf Jahre werden nicht von den größten Modellen geprägt, sondern von den klügsten Sammlungen und unerwarteten Use Cases rund um das Thema, von Menschen, die wissen, was sie haben und was sie nicht wieder hergeben möchten.

„Wer die Vergangenheit kontrolliert, kontrolliert die Zukunft. Wer die Gegenwart kontrolliert, kontrolliert die Vergangenheit.“ George Orwell

Danke, dass Du auch diese Ausgabe bis hierhin begleitet hast. Ich bin neugierig: Wenn Du selber im Bereich Archive beschäftigt bist: Wie geht Ihr in Euren Organisationen mit dem Verhältnis von Archiv und KI um? Fine-Tuning oder RAG? Digital oder noch analog? Ich lese alles.

Euer Arno


Archives vs. AI: Who actually controls our cultural memory?


Dear curious, creative, explorers,

last Friday, I had the opportunity to present a selection of Deutsche Telekom’s AI use cases to the Association of Business Archivists at Deutsche Telekom’s headquarters in Bonn. Strangely enough, a little later that same day, a Fortune article popped up on my timeline: 241 websites, including 23 major news outlets such as The New York Times and USA Today, have shut the door in the face of the Internet Archive. Reason: fear of AI scraping. Collateral damage: the memory of the web. And if you think this through to its logical conclusion, curious people like me suddenly stumble upon a quiet, small piece of research from the UK that might just have a greater impact in 2026 than all the headlines from this week.

„The archive is first the law of what can be said.“ Michel Foucault

What’s this all about? Nothing less than the question of who retains interpretive authority over our collections when AI learns from them and through them. Perhaps it’s also due to my very pleasant experiences with the Archive colleagues on Friday, but I had to take a closer look at the topic of “Archives & AI,” especially now that I’d found this academic paper, a “stroke of luck” from the UK that could quietly steer the work of archivists in a new direction.


The FLAME Paper: AI Preparedness Guidelines for Archivists

In February 2026, the British-Irish Archives & Records Association published, under a CC-BY licence, a handbook that almost nobody outside the profession has noticed. The „AI Preparedness Guidelines for Archivists“, authored by Giovanni Colavizza (Copenhagen and Bologna) and Lise Jaillant (Loughborough) within the FLAME project, makes a claim that in its calmness is almost radical: it is not the model that decides, it is the collection.

Sounds banal but far from in reality it isn’t. While everyone stares at the next GPT version, archivists are right now negotiating the conditions under which AI can deal sensibly with cultural heritage at all. The paper defines four pillars, each sober in the best sense: completeness (document what is digitised, what is missing, and why), metadata and access (provenance must not be overwritten), data types and formats (standardise derivatives, never touch originals), application-specific metrics (what does „success“ mean for this specific project?).

And then comes the twist. The three workflows the authors recommend are not the tech-euphoric ones. They are metadata drafting, sensitivity review (detecting harmful or restricted content), and retrieval-based access interfaces, so RAG, not black-box training. A nuance? No. A fundamental difference that decides whether your family letters, corporate files or city archive photographs vanish one day into an opaque model, or remain queryable, attributable and revocable.

It reminds me of those quiet ISO standards from the 1990s that today govern every web browser in the world. And that is exactly why it is my gem: because it gives archivists the language in which they can negotiate with CTOs, legal departments and AI vendors. Without that language, they don’t negotiate they hand over. I read the document twice. The second time with a smile. Because academic handbooks are rarely this practical.


Two Side Stages: The Wayback Blockade and Virginias Protocol

First, the Wayback front. On 16 March 2026 the Electronic Frontier Foundation published a refreshingly clear text. Joe Mullin’s argument: whoever shuts the Internet Archive out is not stopping the AI industry they are erasing the web’s memory. The Wayback Machine is not a training library, but a time machine: what remains readable after a quiet editorial correction. Mark Graham, director of the Wayback Machine, points out that technical controls against mass extraction already exist. The real problem: publishers confuse library with hunting ground. And they pay for archiving with a piece of public sphere. (Pretext?)

Second, Virginia’s protocol. At the University of Virginia, Dean of Libraries Leo Lo introduced on 21 January 2026 — in his lecture „Memory Without Origin“ a protocol that German federal and state archives would do well to read. Three pillars: provenance and attribution, donor and community obligations, institutional control — meaning the explicit right to stop AI use. The core: irreversible models (classical training that absorbs data and won’t give it back) only get access if item-level provenance and meaningful attribution are guaranteed. Retrieval-based internal models, on the other hand, may well read. A pragmatic line between panic and sell-out.


Did you know?

The Internet Archive itself has long been using AI constructively. The organisation trained a custom machine-learning model to automatically suggest page boundaries in scanned books. Result: throughput has doubled. And description time for magazines and newspapers fell from 40 to 10 minutes per item. Not bad for an NGO that so many reflexively file under „AI victim“.


Tips and Tricks: Making Your Collection AI-Ready

  1. Inventory what is missing. Sounds paradoxical, but it is foundational. Every gap in your digitisation is a void in the AI output. Document it explicitly.

  2. Freeze your originals. Every transformation OCR, HTR, colour normalisation — belongs in a derivative layer. The original stays untouched. Always.

  3. Write provenance as code. Original file names, folder structures, custodial context all of this belongs in machine-readable metadata, not in a PDF cover letter.

  4. Start with RAG, not with training. Retrieval-augmented systems keep your data in your hand. Fine-tuning gives it away. The difference is not technical, it is political.

  5. Define „success“ per project. A good HTR model for Sütterlin script is not the same as one for 1950s typewriter text. Metrics follow the collection, not the other way around.


Top Links

  • Tool of the Week: Transkribus the cooperatively governed AI platform for handwriting recognition, with more than 90 institutional members. Data sovereignty stays with users. The 2026 roadmap features named-entity recognition, Smart Extract models, and explicit opt-in signals whenever external LLMs are invoked.

  • Study of the Week: „Retrieval-Augmented Generation for Natural Language Art Provenance Searches“ by Mathew Henrickson tested on 10,000 records from the Getty Provenance Index. A clean example of how RAG makes provenance research multilingual and free from rigid metadata schemes.

  • Best Practice: The Bundesarchiv Colonial Records Project roughly 10,000 files of the Reich Colonial Office, largely in Sütterlin handwriting, fully searchable thanks to AI. A quiet but impressive example of how archival AI can support concrete historical responsibility.


Conclusion

Archives are not „data lakes“, no matter how often one hears it at tech conferences. They are places of memory, with rules, duties and an ethos that has held up for centuries. The good news from Koblenz around 2.17 million euros additional federal funding for AI use, the Digital Reading Room and Stasi records in the 2026 budget — shows: politics is beginning to understand this. The British guidelines show: archivists can co-set the tone. And the EFF shows: we must defend the library against its own blockade.

For me, that is the real story of this week. Not the next model. Not the next benchmark. But the question of who gets access to your collective memory and on what terms.

I am convinced: the next five years will not be shaped by the largest models, but by the smartest collections. By people who know what they have and what they will not give away.

„Who controls the past controls the future. Who controls the present controls the past.“ George Orwell, „1984“ (1949)

Thank you for staying with me to the end of this edition. Write to me in the comments: how do you handle the relationship between archive and AI in your organisations? Fine-tuning or RAG? Digital or still analogue? I read everything.

Yours, Arno


Alle Links dieser Ausgabe / Link list

Zusätzliche Recherche-Links (nicht direkt im Text verlinkt)



Draft – saved

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert