Verrijken en delen

Eén van de interessante aspecten aan het digitale tijdperk is dat we gegevens kunnen recombineren. Niet alleen kunnen we digitale collecties aanleggen, we kunnen ook, met meer of minder inspanning, die collecties samenvoegen om een rijker of betekenisvoller geheel te krijgen. Dat is fijn – maar het gaat nooit zonder moeite, en er moeten altijd keuzes voor worden gemaakt. Over een paar van die aspecten wil ik het in deze blogpost hebben.

Brieven en Correspondenten rond 1900 (BC1900) is een mooi voorbeeld van zo’n recombinatie. Een collectie brieven van Verwey die nog niet eerder beschikbaar was, is gecombineerd met de bestaande collectie brieven van en aan Witsen en een aantal in druk uitgegeven correspondenties, aangeleverd en gedeeltelijk voor dat doel gedigitaliseerd door de DBNL. Vervolgens is een grote inspanning gedaan om de brieven op vergelijkbare wijze te presenteren en van vergelijkbare en uniforme metadata te voorzien. Van de correspondenten zijn daarbij nog uitgebreide gegevens verzameld over (vooral) hun maatschappelijke activiteit. Daarmee is de collectie een mooi voorbeeld van een gecentraliseerde en verrijkte collectie.

Er zijn ook andere benaderingen voor recombinatie. Het Duitse CorrespSearch is een voorbeeld van een site die geen brieven verzamelt, maar alleen gegevens over brieven. Digitale en niet-digitale brievenedities kunnen op een gestandaardiseerde manier gegevens aanleveren over de uitgegeven brieven. Daarbij gaat het (vooralsnog) alleen om de namen van de correspondenten, de datum en de plaats van verzending en ontvangst. Via de site van CorrespSearch kan correspondentie-overstijgend naar brieven worden gezocht, op persoon, op plaats of op tijd, maar voor het tonen van een gevonden brief gaat de gebruiker naar de site van de betreffende editie – als die er is. Het is mogelijk dat de gebruiker een bibliotheek moet opzoeken, als de editie alleen gedrukt is. Er is, anders dan in BC1900, in CorrespSearch geen full-text zoekmogelijkheid over de verschillende collecties.

BC1900 en CorrespSearch bevinden zich ergens op een schaal die loopt van niets delen naar alles delen. Aan het ene uiteinde worden centraal helemaal geen gegevens bewaard: op het moment dat een gebruiker een collectie-overstijgende vraag stelt, wordt een zoekvraag gestuurd naar de verschillende sites (een ‘federated search’). Op de site connectedhistories worden zo verschillende bronnen voor de Britse geschiedenis toegankelijk gemaakt. De volgende stap op de schaal is het delen van metadata, dan komt het delen van ook de data, zoals transcriptie en afbeeldingen, en tenslotte, maar dat is misschien een theoretisch geval, staat aan het eind van de schaal de site die de volledige inhoud van aangesloten sites zou overnemen.

CorrespSearch is een voorbeeld van een collectie die centraal alleen beperkte metadata bewaart. Het is een toepassing van het wijdverbreide ‘portaal’-model. Vaak wordt daarbij gebruik gemaakt van het Protocol for Metadata Harvesting van het Open Archives Initiative, maar CorrespSearch heeft een eigen interface gedefinieerd. Op een vergelijkbaar model als CorrespSearch functioneert ook Early-Modern Letters Online (EMLO). EMLO verzamelt metadata van vroegmoderne correspondenties, waaronder ook de metadata van een aantal door Huygens ING uitgegeven correspondenties, zoals die van Hugo de Groot en Antoni van Leeuwenhoek. Een opvallend aspect van EMLO is dat in sommige gevallen ook de aanleverende instantie alleen metadata bezit: de betreffende brief kan ook ongepubliceerd zijn.

BC1900 is een voorbeeld van de volgende stap: de centrale site die ook inhoud van de samenstellende sites overneemt. Het behoeft geen betoog dat dit een arbeidsintensiever model is dan dat van het portaal op basis van metadata: waar het voor de portaalsite alleen nodig is om afspraken over een paar metadatavelden te maken, moet de site die inhoud overneemt een behoorlijke inspanning leveren om inhoud uit de samenstellende onderdelen op overeenkomstige wijze te presenteren. Niet voor niets is er aan BC1900 door een team van mensen jaren gewerkt. Zo zijn aan de brieven uit gedrukte uitgaven alsnog afbeeldingen van de pagina’s gekoppeld. Maar er is ook inhoud die BC1900 niet heeft overgenomen: bijvoorbeeld de noten van de bezorgers in de gedrukte uitgaven zijn wel op de DBNL te vinden, maar niet op BC1900.

Ook het ePistolarium, de door Huygens ING bijeengebrachte verzameling geleerdenbrieven, is een voorbeeld van een verzamelsite. (En ook hier zijn de noten uit de samenstellende edities niet overgenomen). Overigens is het grootste deel van de inhoud van het ePistolarium ook toegankelijk via EMLO. Het is een goede illustratie van het beginsel dat inhoud naar verschillende inzichten en op verschillende manieren toegankelijk kan worden gemaakt. Ook in het ePistolarium is tijd gestoken in de uniformiteit en kwaliteit van de metadata. Daarnaast is bij het ePistolarium geëxperimenteerd met ontsluiting op basis van automatisch bepaalde overeenkomst tussen brieven (door middel van topic modelling).

Het ligt voor de hand dat de extra curatie-inspanning die de verzamelsite vereist, alleen zal worden geleverd voor een collectie die ook inhoudelijk samenhangt. In principe is een correspondentienetwerk altijd open, en dat is ook de filosofie van CorrespSearch: elke academisch uitgegeven correspondentie is welkom, want gecorrespondeerd wordt er door alle tijden en gesloten netwerken (mensen die alleen onderling corresponderen) zullen er niet veel bestaan. Maar bij een zo open netwerk is het onbegonnen werk om een collectie te integreren. Dat kan alleen bij een overzichtelijk netwerk, zoals dat van de culturele elite van Nederland rondom de vorige eeuwwisseling.

De belangrijkste verrijking die in BC1900 is aangebracht, is de beschrijving van maatschappelijke activiteiten van de betrokken correspondenten. Hier is geen sprake meer van de collecties op één lijn brengen, hier is een geheel nieuwe klasse van gegevens toegevoegd. Ook een dergelijke inspanning is alleen haalbaar voor een site die niet al te groot is, en waarschijnlijk alleen zinvol voor een site waar de ontsloten correspondentie in tijd en plaats begrensd is. De site is er nu nog niet op ingericht, maar op termijn maakt dit nieuwe analysemethoden als netwerkanalyse en distant reading mogelijk. Je kunt analyses uitvoeren van bijvoorbeeld het woordgebruik van correspondenten uit verschillende maatschappelijke velden of netwerkvisualisaties maken waarbij de betrokkenheid bij bepaalde tijdschriften wordt meegenomen.

Brieven en Correspondenten rond 1900 biedt daarmee veel meer dan de samenstellende delen. Het is een goed voorbeeld van het toevoegen van contextuele informatie aan een digitale collectie waardoor die collectie plotseling inherent digitaal wordt, een collectie waarvoor een papieren equivalent niet langer denkbaar is. Nu is het de taak van de onderzoekers de bruikbaarheid hiervan te beproeven.

Peter Boot

Posted on