|
|
Voor ruim anderhalve euro per pagina ontsluit de Koninklijke Bibliotheek in Den Haag acht miljoen historische krantenpagina’s. Vooral wetenschappers gaan profiteren van deze grootschalige digitalisering, denkt projectleider Astrid Verheusen. In 2011 staan alle pagina’s doorzoekbaar on line. In Nederland verschenen in de afgelopen vier eeuwen meer dan zevenduizend landelijke, regionale en lokale dagbladtitels. “In de krant van vandaag wordt morgen de vis verpakt. Hoewel kranten gedrukt worden voor één dag, is de informatie tijdloos. Dagbladen zijn een waardevolle bron voor onderzoek naar het functioneren van de samenleving, de politiek en de economie van een land. Ook geven kranten een goed beeld van de ontwikkelingen door de tijd op het gebied van kunst, literatuur, wetenschap en taal. De kwetsbaarheid van het materiaal en de enorme hoeveelheden papier waren tot nu toe de belangrijkste beperkingen bij het gebruiken van kranten als onderzoeksobject. Massadigitalisering biedt hiervoor een oplossing.” Dat schreef de Koninklijke Bibliotheek bij de start van het project in augustus 2006. De werkelijkheid is weerbarstig. Het kostte liefst twee jaar voordat het digitaliseren van kranten – acht miljoen pagina’s, met circa 25 miljard woorden - daadwerkelijk van start kon gaan. Geld speelde een rol. Net zoals de vraag: welke kranten wel en welke niet? Een wetenschappelijke adviescommissie adviseert de Koninklijke Bibliotheek over de selectie van de belangrijkste titels vanaf 1618 - toen de eerste krant in Nederland verscheen - tot aan de twintigste eeuw. En wat zijn de beste standaarden om de digitale informatie ook over vijftig of honderd jaar nog toegankelijk te hebben? Projectleider digitalisering kranten Astrid Verheusen van de Koninklijke Bibliotheek geeft leiding aan een team van zes mensen. Zij zorgden voor de financiering van 12,5 miljoen euro, waarbij het ministerie van Onderwijs & Wetenschappen de hoofdmoot voor zijn rekening nam. Ze regelden de verplichte Europese aanbesteding, waardoor het Duitse bedrijf CCS - Content Conversion Specialists - nu hoofdaannemer is. Ze begeleiden ook de groep wetenschappers die de selectiecriteria samenstelt, controleren de kranten op volledigheid en – een van de lastigste onderdelen van het project – proberen de auteursrechten van journalisten, fotografen en illustratoren veilig te stellen. Astrid Verheusen: “Kranten ouder dan 75 jaar vormen geen probleem, op jongere uitgaven kan het auteursrecht van toepassing zijn. We proberen dat met uitgevers en de organisaties van free lancers zo goed mogelijk te regelen. Daarbij gaat het om duizenden contacten. Voor een deel is al overeenstemming bereikt, voor een ander deel zal dat in de loop van de komende jaren nog moeten gebeuren.” De uitverkoren kranten gaan compleet in hun leggers naar M&R uit Kampen. Dit bedrijf sloot een overeenkomst met CCS uit Hamburg en neemt het daadwerkelijke scanwerk voor zijn rekening. Per maand zullen zo’n 200.000 krantenpagina’s worden gedigitaliseerd. In drie jaar tijd komen alle acht miljoen pagina’s beschikbaar. Begin 2009 worden de eerste resultaten online voor iedereen beschikbaar. CCS zorgt ervoor dat de pagina’s met behulp van Optical Caracter Reading doorzoekbaar worden en voegt metadata toe. De Koninklijke Bibliotheek hanteert strakke en strenge criteria bij de metadata. De beschrijvende en structurele metadata staan ten dienste van de zoekfunctionaliteit op de website. Beschrijvende metadata bevatten bibliografische gegevens, zoals auteur, titel of datum van uitgave. De structurele metadata geven informatie over de structuur van het bestand zoals: paginering, bladzijden, paragrafen, indexen en inhoudsopgave. Het kan ook de relatie tussen de materialen vastleggen, zoals een hoofdstuk uit een boek of een plaatje uit een bepaald document. Technische metadata beschrijven de technische kenmerken van de masterbestanden, zoals gegevens over de gebruikte scanner, de resolutie, bitdiepte, kleur en lichtbron. Voor het vastleggen worden verschillende standaarden gebruikt. Volgens Verheusen is het geen bezwaar dat Duitsers die de Nederlandse taal niet machtig zijn de metadata toevoegen. “Voor een groot deel gaat dat automatisch, er komt erg weinig interpretatie of handwerk aan te pas.” De gedigitaliseerde kranten zijn doorzoekbaar op ieder woord in de tekst en worden opgenomen in de Databank Digitale Dagbladen, een project van de Koninklijke Bibliotheek dat gefinancierd wordt door het Nationaal Programma Grootschalige Onderzoeksfaciliteiten. Aan de specificaties en het ontwerp van de website wordt nu gewerkt. Ook lopen er aanbestedingsprojecten om tijdschriften op een zelfde manier digitaal te gaan ontsluiten. Leon van Velzen [Media Facts, september 2008]
Standaarden moeten collectie voor toekomst zeker stellen Voor het ontsluiten van collecties werkt de Koninklijke Bibliotheek met open standaarden. Voor de beschrijvende metagegevens wordt Dublin Core gebruikt. Eigen elementen kunnen nodig zijn als de specifieke metagegevens niet in Dublin Core voorkomen. De beschrijvende metagegevens worden in XML-formaat opgeslagen. Voor de structurele metagegevens wordt MPEG21-DIDL gebruikt. Deze metagegevens leggen de hiërarchische relaties vast, die binnen het materiaal aanwezig zijn: bij een krant bijvoorbeeld bestaat een editie uit pagina's en iedere pagina bestaat uit artikelen. In MPEG21-DIDL wordt vastgelegd welke bestanden hier bij betrokken zijn (afbeeldingen en tekstbestanden). Om een zoekresultaat te kunnen krijgen van een afzonderlijk artikel uit een krant, dat een onderdeel is van een of meerdere pagina's, moet de lay-out van een pagina gereconstrueerd worden. Hiervoor is de XML standaard Alto ontwikkeld. Na segmentatie van de tekst in afzonderlijke onderdelen, door speciale software, kan de lay-out in Alto worden vastgelegd. Met Alto kan daarna de lay-out van een pagina worden gereconstrueerd en kunnen ook op ieder gewenst moment nieuwe afgeleiden, zoals PDF-bestanden, worden gemaakt. Alto wordt internationaal veelvuldig toegepast in krantendigitalisering. Alle bestanden zullen met persistente URL's benaderbaar zijn. Dat wil zeggen dat de URL niet verandert als de fysieke opslagplaats van het bestand wijzigt. Voor deze persistente URL's wordt gebruik gemaakt van een resolver die iedere URL vertaalt naar de fysieke bestandslocatie en het opgevraagde bestand doorstuurt naar de gebruiker. Het indexeren van de fulltext en van de beschrijvende metagegevens gaat met behulp van een K2-zoekmachine van Verity.
(Bron: website Koninklijke Bibliotheek) |
Vragen of opmerkingen naar: redactie§magazijn.nl
© 1998 - 2010 | Uitgeverij Het Nederlands Magazijn bv
|