TitreAll we need is news preservation: harvesting digital newspapers at the Bibliothèque nationale de France
Type de publicationArticle de colloque/conférence
Année de publication2014
AuteursClément Oury
Tertiary AuthorsAnge Aniesa
Nom du colloqueIFLA WLIC 2014. Libraries, Citizens, Societies: Confluence for Knowledge. Session 170 - All we need is news - knowledge production and dissemination through news media
Date de la réunion2013/08/20
OrganisateurIFLA
Lieu du colloqueLyon, Forum 2
Résumé

Acquiring, promoting and giving access to press collections is a major objective for heritage institutions, which need to address the accelerating shift from analogue to digital documentation in order to maintain the continuity of their missions. At the National library of France (Bibliothèque nationale de France or BnF), this mission has mainly been performed in the framework of legal deposit. In 2006, a new law on copyright extended this legal deposit to the internet: its scope covers all kinds of news websites, from digital equivalents of printed newspapers to journalists’ blogs and news aggregation portals. During the last ten years, the BnF has experimented two different approaches to ensure the preservation of online news: direct deposit of electronic publications and web harvesting of freely accessible new websites; the latter has been more successful than the former. In order to cover subscription based content, the BnF is experimenting currently a third solution, as a mix of what worked in the two first approaches: web harvesting through agreements with producers. This paper intends to present this third approach, and to explain how the BnF tried to implement it through a dedicated project, the “subscription-based press project”. This project launched in late 2012 relies on the possibility of giving the robot a login and a password, in order to let it identify itself as a subscriber. Then, the robot is able to access and copy the protected content. Even though the crawling part was technically the most critical one, this project covered all parts of the documentary lifecycle: from selection to long term preservation, including quality control, cataloguing and access in reading rooms. The paper presents the different steps of the project, its successes and achievements (in terms of collection, technical innovation and human resources), its limits, and considers its future evolutions. Acquérir, valoriser et donner accès aux collections de presse est un objectif majeur pour les instituions patrimoniales, qui doivent aborder la transition accélérée vers la documentation numérique pour maintenir la continuité de leurs missions. A la Bibliothèque nationale de France, cette mission a été principalement menée dans le cadre du dépôt légal. En 2006, une nouvelle loi sur le droit d’auteur a étendu ce dépôt légal à l’internet : son champ recouvre tous les types de sites de presse, des versions numériques des journaux imprimés aux blogs de journalistes et aux portails d’actualités. Au cours des dix dernières années, la BnF a expérimenté deux approches différentes pour assurer la préservation de la presse en ligne : le dépôt direct des publications électroniques et la collecte de sites de presse accessibles gratuitement, cette dernière approche ayant été la plus efficace. Afin de couvrir tout le contenu accessible sur inscription, la BnF expérimente actuellement une troisième voie, une combinaison de ce qui fonctionne dans les deux premières approches : une collecte web reposant sur des accords avec les producteurs. Cet article vise à présenter cette troisième approche et expliquer comment la BnF essaie de l’installer au travers d’un projet dédié, le « projet Presse payante ». Ce projet commencé fin 2012 repose sur la possibilité de donner au robot un identifiant et un mot de passe pour qu’il s’identifie en tant qu’abonné. Dès lors, ce robot est en capacité d’accéder au contenu et de le copier. Même si, d’un point de vue technique, l’activité de collecte s’est avérée la plus cruciale, ce projet a couvert l’ensemble du cycle de vie du document : de sa sélection à sa préservation à long terme, en passant par son contrôle qualité et sa mise à disposition dans les salles de lecture. L’article présente les différentes étapes du projet, ses réussites (en terme de collection, d’innovation technique et de ressources humaines), ses limites, et envisage ses évolutions futures.

URLhttp://library.ifla.org/1026/1/170-oury-en.pdf
Champ de recherche: 
all we need is news preservation harvesting digital newspapers at the bibliotheque nationale de france ifla wlic 2014 libraries citizens societies confluence for knowledge session 170 all we need is news knowledge production and dissemination through news media 20130820 pacquiring promoting and giving access to press collections is a major objective for heritage institutions which need to address the accelerating shift from analogue to digital documentation in order to maintain the continuity of their missions at the national library of france bibliotheque nationale de france or bnf this mission has mainly been performed in the framework of legal deposit in 2006 a new law on copyright extended this legal deposit to the internet its scope covers all kinds of news websites from digital equivalents of printed newspapers to journalists blogs and news aggregation portals during the last ten years the bnf has experimented two different approaches to ensure the preservation of online news direct deposit of electronic publications and web harvesting of freely accessible new websites the latter has been more successful than the former in order to cover subscription based content the bnf is experimenting currently a third solution as a mix of what worked in the two first approaches web harvesting through agreements with producers this paper intends to present this third approach and to explain how the bnf tried to implement it through a dedicated project the subscriptionbased press project this project launched in late 2012 relies on the possibility of giving the robot a login and a password in order to let it identify itself as a subscriber then the robot is able to access and copy the protected content even though the crawling part was technically the most critical one this project covered all parts of the documentary lifecycle from selection to long term preservation including quality control cataloguing and access in reading rooms the paper presents the different steps of the project its successes and achievements in terms of collection technical innovation and human resources its limits and considers its future evolutionsppnbspppacquerir valoriser et donner acces aux collections de presse est un objectif majeur pour les instituions patrimoniales qui doivent aborder la transition acceleree vers la documentation numerique pour maintenir la continuite de leurs missions a la bibliotheque nationale de france cette mission a ete principalement menee dans le cadre du depot legal en 2006 une nouvelle loi sur le droit dauteur a etendu ce depot legal a linternet son champ recouvre tous les types de sites de presse des versions numeriques des journaux imprimes aux blogs de journalistes et aux portails dactualites au cours des dix dernieres annees la bnf a experimente deux approches differentes pour assurer la preservation de la presse en ligne le depot direct des publications electroniques et la collecte de sites de presse accessibles gratuitement cette derniere approche ayant ete la plus efficace afin de couvrir tout le contenu accessible sur inscription la bnf experimente actuellement une troisieme voie une combinaison de ce qui fonctionne dans les deux premieres approches une collecte web reposant sur des accords avec les producteurs cet article vise a presenter cette troisieme approche et expliquer comment la bnf essaie de linstaller au travers dun projet dedie le projet presse payante ce projet commence fin 2012 repose sur la possibilite de donner au robot un identifiant et un mot de passe pour quil sidentifie en tant quabonne des lors ce robot est en capacite dacceder au contenu et de le copier meme si dun point de vue technique lactivite de collecte sest averee la plus cruciale ce projet a couvert lensemble du cycle de vie du document de sa selection a sa preservation a long terme en passant par son controle qualite et sa mise a disposition dans les salles de lecture larticle presente les differentes etapes du projet ses reussites en terme de collection dinnovation technique et de ressources humaines ses limites et envisage ses evolutions futuresp httplibraryiflaorg10261170ouryenpdf lyon forum 2 clement oury ange aniesa
Retour en haut de page