Publié par Ressi

S'applique aux numéros publiés et contenus disponibles au public.

N° Spécial DLCM

Ressi — 15 février 2022

Editorial

Le Swiss Research Data Day 2020 (SRDD2020) organisé par le projet Data Life-Cycle Management (DLCM, https://dlcm.ch) a eu lieu le 22 octobre 2020 dans les murs de la Haute école de gestion de Genève (HEG-GE) en Suisse.

Un mot de bienvenue et une présentation annonçant le lancement d’OLOS, la solution suisse de gestion des données de recherche, ont démarré la journée. L’essentiel du programme et ses différentes parties se sont déroulés en ligne moyennant des sessions parallèles durant le colloque.

Ajoutées à ces dernières, cinq conférences plénières ont été données par Patrick Furrer de swissuniversities, Christine Pirinoli de la Haute école spécialisée de Suisse occidentale (HES-SO), Nancy McGovern du Massachusetts Institute of Technology (MIT) et Hrvoje Stancic de l’Université de Zagreb (UNIZG). La conférence de clôture, sur la gestion des données massives, a été donnée par Alberto Pace, qui a explicité les enjeux de ce domaine au sein du Centre Européen de Recherche Nucléaire (CERN).

Cette troisième édition des SRDD a donné naissance à une édition spéciale de la présente revue, réunissant les papiers présentés par plusieurs intervenants du 22 octobre. Ces papiers sont structurés en cinq thématiques.

L’une de ces thématiques est les données de recherche ouvertes et l’enjeu de leur gouvernance. A cet égard, deux illustrations sont présentées : une stratégie de gestion des données de la recherche développée pour NCCR Robotics et un portfolio proposé par l’équipe du Swiss Institute of Bioinformatics comprenant des bases de données et outils en ligne pour gérer les données scientifiques.

Une seconde thématique est celle de la gestion des données de recherche et des dimensions éthiques, légales, financières et académiques afférentes. A ce niveau, plusieurs intervenants ont apporté des cas pratiques, tels que DMLawTool et ses fonctionnalités qui offrent un arbre décisionnel facilitant la prise de décisions pour les questions juridiques relatives à la gestion des données, les 12 projets pilotes conduits par la ZHAW dans le cadre du projet DLCM, et d’autres questions de copyright et problématiques liées aux licences ouvertes.

Une thématique plus stratégique donne lieu à des retours d’expérience pertinents de l’UNIL et l’ETHZ.

Les deux dernières thématiques couvrent d’une part les compétences qu’implique le traitement des données ouvertes et d’autre part des cas pratiques de plusieurs chercheurs de l’EPFL et notamment du projet européen FAIR4Health, rapportant diverses expériences en matière de préparation des données en vue de leur partage et ré-exploitation. Dans cet ordre d’idées, le MOOC de DLCM a été présenté.

Plusieurs institutions, chercheurs, professionnels et experts ont suivi et contribué à cette rencontre. Au total, 42 conférenciers de plusieurs pays (Suisse, Allemagne, France, Hongrie, Croatie et Etats Unis) ont retenu l’attention de plus de 311 inscrits, qui ont suivi par Zoom ou par YouTube Live nos 28 présentations.

Je tiens à remercier chaleureusement l’équipe RESSI qui a accueilli nos articles scientifiques issus du SRDD2020 dans ce numéro spécial. Mes remerciements vont aussi à tous nos partenaires, conférenciers et bénévoles pour leur confiance et leur contributions précieuses.

Bonne lecture !

Basma Makhlouf ShabouProf.
Dr. Basma Makhlouf Shabou
OLOS, Présidente (https://olos.swiss)

_________________________________________________

The Swiss Research Data Day 2020 (SRDD2020) organized by the Data Life-Cycle Management (DLCM, https://dlcm.ch) took place on 22th October 2020 at the Geneva School of Business Management (HEG-GE) in Switzerland.

A welcome and a presentation announcing the launch of the swiss research data management solution, OLOS, started the day. The main points of the program and its different parts were held online through parallel sessions during the symposium.

In addition, five plenary speeches were given by Patrick Furrer from swissuniversities, Christine Pirinoli from the University of Applied Science and Arts Western Switzerland (HES-SO), Nancy McGovern from the Massachusetts Institute of Technologies (MIT) and Hrvoje Stancic from the University of Zagreb (UNIZG).

The closing conference, on massive data management, was given by Alberto Pace who reported the challenges of this field within European Organization for Nuclear Research (CERN).

This third edition of the SRDD gave birth to a special issue of this review, bringing together papers presented by several speakers from October 22. These papers are structured in five themes.

One of these themes focused on open research data and the issue of their governance. In this respect, two illustrations were presented: a research data management strategy developed for NCCR Robotics and a portfolio proposed by the Swiss Institute of Bioinformatics team including online databases and tools to manage scientific data.

A second theme of research data management and the related ethical, legal, financial and academic dimensions was addressed. Several speakers provided practical case studies, such as the DMLawTool and its decision tree functionality, helping to take decisions for data management related legal issues, the 12 pilot projects conducted by ZHAW in the framework of the DLCM project, and many other copyright and open licensing issues.

A more strategic theme was addressed with relevant feedback from UNIL, ETHZ.

Then, the two last themes cover on the one hand the skills involved in handling open data and on the other hand practical cases from several EPFL researchers and notably from the European project FAIR4Health reporting various experiences in preparing data for sharing and re-use. In this context, the DLCM MOOC was presented.

Several institutions, researchers, professionals and experts attended and contributed to this meeting. In total, 42 speakers from several countries (Switzerland, Germany, France, Hungary, Croatia and the United States) captured the attention of more than 311 registrants who followed our 28 presentations via Zoom or YouTube Live.

I would like to warmly thank the RESSI team for hosting the scientific papers resulting from the SRDD 2020 in this special issue. My thanks also go to all our partners, speakers and volunteers for their trust and valuable contribution.

Enjoy your reading!

Prof. Dr. Basma Makhlouf Shabou
OLOS, President (https://olos.swiss)

Publié par Ressi

Vous devez vous connecter pour poster des commentaires
1 fichier attaché

N°21 décembre 2020

Ressi — 15 février 2021

Sommaire - N° 21, Décembre 2020

Éditorial n° 21

Visions d'ailleurs :

Apprendre « en commun » : L’expérience des ateliers de contribution à Wikipédia dans les bibliothèques publiques de Montréal - Marie D. Martel

Études et recherche :

Données médicales et dossiers patients comme actifs informationnels : la gouvernance de l’information dans les hôpitaux universitaires suisses - Anna Hug
Formation en gestion des données de recherche: propositions de dispositifs d’e-learning pour le projet DLCM - Marielle Guirlet, Manuela Bezzi, Manon Bari

Ouverture des données de recherche dans le domaine académique suisse : outils pour le choix d’une stratégie institutionnelle en matière de dépôt de données - Marielle Guirlet

L’océrisation d’imprimés anciens : les sciences de l’information au service des Humanités - Florence Burgy

Comptes-rendus d'expériences :

The Knowledge & Learning Commons – a library’s evolution driving cultural change at the United Nations in Geneva - Viviane Brunne, Sigrun Habermann

La place des ressources documentaires des bibliothèques académiques dans la lutte contre les Fake News. Le cas du COVID-19 - Benoît Epron, Séverine Gaudard

Les bibliothèques face à la vague - Florence Burgy, Benoît Epron

Comptes-rendus d'événements :

A review of the Swiss Research Data Day 2020 (SRDD2020): 48 experts shared their experiences on emergent approaches in Open Science - Pierre-Yves Burgi, Lydie Echernier

Conférence annuelle LIBER 2020 online : compte rendu d’évènement - Piergiuseppe Esposito

Recensions :

Histoire d'une (r)évolution : l'informatisation des bibliothèques genevoises 1963-2018 - Alex Boder

The No-nonsense guide to research support and scholarly communication (2020) - Thomas Pasche

Publié par Ressi

Vous devez vous connecter pour poster des commentaires

Histoire d'une (r)évolution : l'informatisation des bibliothèques genevoises 1963-2018

Ressi — 15 février 2021

Alex Boder, HEG Genève

Histoire d’une (r)évolution : l’informatisation des bibliothèques genevoises, 1963-2018

Publié en 2019, cet ouvrage, disponible en version papier et électronique, marque par son imposante densité mais également par sa qualité de mise en page.

Il constitue une somme considérable et précieuse de l’histoire de l’informatisation des bibliothèques genevoises. Près de 400 pages qui au final ne se limitent pas à la seule Genève puisqu’intelligemment il met en perspective ces développements sous un angle régional, national et parfois international.

Ces 55 ans d’histoire en onze chapitre constituent une importante et inédite contribution, qui n’a pas d’équivalent et qui représente une référence en la matière. Ce livre fourmille d’évènements, d’informations, de lieux et de personnes qui ont contribué à la mise en place et l’évolution de l’informatique documentaire. Ces 400 pages, très bien structurées, où à chaque fin de chapitre une bibliographie est ajoutée, se voient agrémentées d’outils indispensables pour une consultation aisée : profonde table des matières, liste des sigles, index des personnes citées et frise temporelle.

Cela saute aux yeux que cet ouvrage est le fruit d’un travail considérable, mené de main de maître par ses deux auteurs, porteurs d’une vaste et riche expérience : Gabrielle von Roten à qui le livre est dédié et Alain Jacquesson.

Gabrielle von Roten a dirigé le Service de coordination des bibliothèques universitaires de Genève puis a été en charge de la Coordination locale RERO (Réseau des bibliothèques de Suisse occidentales). Elle a été membre active de différents comités et commissions de bibliothèques au niveau régional et national. Elle nous a malheureusement quitté le 27 mai 2019 mais a pu transmettre ses commentaires sur les dernières épreuves de cette édition.

Alain Jacquesson, auteur de nombreuses publications de référence dans le domaine, a dirigé l’Ecole de bibliothécaires puis le réseau des Bibliothèques municipales de Genève puis enfin la Bibliothèque de Genève où il termine sa carrière en 2007.

Témoins de leur temps et surtout ayant vécu les premières informatisations réalisées dans les institutions, ils n’ont cessé de côtoyer les différents acteurs qui au cours des années ont marqué de leur empreinte les évolutions technologiques de l’informatique documentaire à Genève. Ces derniers sont chaleureusement remerciés pour l’aide apportée par leur témoignage et la documentation qu’ils ont pu fournir.

Les auteurs ont méticuleusement recueilli les éléments indispensables à la constitution de cet ouvrage. Appuyé par des sources riches et très variées, ce livre a le mérite d’en donner un sens qui nous éclaire sur ce qui a marqué l’informatisation des bibliothèques à Genève.

Cet ouvrage présente plusieurs intérêts et évite le piège d’une narration purement chronologique même si en annexe une judicieuse frise temporelle nous aide à contextualiser les événements au cours du temps dans une perspective à la fois genevoise, nationale et internationale.

Il a cette qualité de porter un regard sous plusieurs angles. De par sa valeur historique mais également scientifique par le soin apporté dans sa réalisation.

Après une introduction qui nous expose les grandes étapes marquantes, les auteurs mettent en lumière les organisations internationales établies à Genève qui ont été pionnières dans l’informatisation de leurs bibliothèques et ont continué à réaliser des solutions souvent innovantes dans ce domaine. Suit un chapitre sur les bases de données documentaires et les services qui ont été mis en place dans certaines bibliothèques pour en faciliter la constitution et la consultation. C’est au chapitre 4, le plus volumineux, que les auteurs nous détaillent les réalisations des bibliothèques scientifiques et patrimoniales. C’est finalement conséquent puisque ces bibliothèques ont été un important moteur dans la mise en place du réseau RERO qui a tant marqué les usagers des bibliothèques. Il évoque les conflits, les échecs mais également les alliances et les réussites.

La lecture publique et les bibliothèques scolaires ne sont bien entendu pas oubliées et sont traitées par la suite, après avoir dédié un chapitre sur l’impact de l’apparition de la micro-informatique au sein des institutions.

C’est d’ailleurs l’aspect technique et parfois complexe de la migration et de la retroconversion des données qui est traité dans le chapitre suivant.

Tous ces aspects techniques ne pouvaient s’expliquer sans évoquer, au neuvième chapitre, la formation à l’informatique documentaire. Les différentes écoles, cours et formations continues sont présentés avec une approche chronologique puis un sous-chapitre est consacré à la recherche, la recherche appliquée en particulier.

L’ouvrage se termine avec les deux derniers chapitres. Le dixième, qui traite des bibliothèques numériques, aborde les grands chantiers informatiques touchant périodiques, affiches, manuscrits, livres anciens, thèses, supports audio et video, logithèque, archives ouvertes, etc. mais également des services et des médiations organisés autour du numérique comme InterroGE ou Labo-Cité en exemple. Puis, l’ouvrage se termine avec le onzième et dernier chapitre sous forme de conclusion qui n’en est pas une pour nos bibliothèques puisqu’il traite de l’avenir et des immenses défis qui attendent les bibliothèques face ou avec l’informatique. Tous deux ont dorénavant un destin fortement lié lorsqu’on touche du doigt les perspectives d’avenir offertes par l’intelligence artificielle, le « deep learning » et le « big data » qui ne manqueront pas de transformer nos bibliothèques.

Il est certain que cette « Histoire d’une (r)évolution » a pour qualité de permettre à tout professionnel ou tout utilisateur (genevois) de se remémorer avec plaisir les événements, lieux ou personnes qui ont contribué à l’effort numérique des bibliothèques de Genève tout en les mettant en perspective pour aider à se forger une idée sur le futur qui les attend.

Bibliographie

JACQUESSON, Alain, VON ROTEN, Gabrielle, 2019. Histoire d'une (r)évolution : l'informatisation des bibliothèques genevoises, 1963-2018. Genève : L'Esprit de la Lettre Editions. 389 p.
ISBN 9782940587117

Publié par Ressi

Vous devez vous connecter pour poster des commentaires

Editorial n° 21

Ressi — 5 février 2021

Editorial n°21

C’est un vingt-et-unième numéro riche en contributions de recherche que nous avons le plaisir de vous présenter.

Ce numéro comporte une innovation de taille : la rubrique Visions d’ailleurs.

Cette rubrique consiste à donner un aperçu des préoccupations, des pratiques et des sujets de recherche de spécialistes en sciences de l’information en dehors des frontières de la Suisse, et constitue ainsi un témoignage sur une expérience, une recherche ou encore un point de vue spécifique depuis l’étranger.

Le comité de rédaction a en effet pensé que cela pouvait constituer un apport instructif et complémentaire pour les lecteurs de RESSI et susciter des idées et échanges fructueux.

Cette rubrique est inaugurée par Marie Martel, professeure adjointe à l’EBSI de Montréal. Son article intitulé « Apprendre en commun : l’expérience des ateliers de contribution à Wikipedia dans les bibliothèques publiques de Montréal » relate une expérience très intéressante du rôle possible des bibliothèques au service de l’inclusion numérique, en l‘occurrence dans la réalisation et conduite des ateliers de contribution à Wikipedia, et en démontre les limites et les impacts.

Dans la rubrique Etudes et Recherches, vous trouverez un premier article intitulé Données médicales et dossiers patients comme actifs informationnels : la gouvernance de l’information dans les hôpitaux universitaires suisses. Ecrit par Anna Hug Buffo, archiviste principale aux Hôpitaux Universitaires de Genève (HUG), l’article fait un état des lieux des composantes de la gouvernance de l’information dans les hôpitaux universitaires suisses et propose un schéma général des flux des données médicales et de leurs diverses réutilisations.

Une deuxième contribution, signée par Marielle Guirlet, Manuela Bezzi et Manon Bari, diplômées du Master en Sciences de l'Information HEG, HES-SO (2020) intitulée Formation en gestion des données de recherche: propositions de dispositifs d’e-learning pour le projet DLCM, donne des recommandations et des propositions d’options pour la conception d’un dispositif de formation d’e-learning en gestion des données de recherche.

Une troisième contribution, signée également par Marielle Guirlet, co-auteure du précédent article, est intitulée Ouverture des données de recherche dans le domaine académique suisse : outils pour le choix d’une stratégie institutionnelle en matière de dépôt de données. L’article donne les informations nécessaires pour aider les institutions universitaires suisses à choisir leur stratégie de dépôt des données de recherche : soit orienter ses chercheurs et chercheuses vers un dépôt existant (et lequel) soit créer un nouveau dépôt, et il donne les spécifications que ce dépôt doit remplir.

Un quatrième et dernier article de recherche, signée Florence Burgy, assistante HES dans la filière Information documentaire de la HEG-Genève est intitulée L’océrisation d’imprimés anciens : les sciences de l’information au service des Humanités. Il relate le projet de recherche mené en collaboration avec le Bodmer Lab, qui a consisté à océriser des imprimés latins de la Renaissance, afin d’en obtenir une transcription et la rendre explorable par la recherche plein texte. Il donne les conclusions des tests d’océrisation faits avec plusieurs logiciels, dont Tesseract, qui a fourni les meilleurs résultats.

Dans la rubrique « Compte rendus d’expérience », nous vous proposons une contribution en anglais, signée Viviane Brunne et Sigrun Habermann, respectivement, Programme Manager à la bibliothèque des Nations Unies à Genève (UNOG) et manager de la même bibliothèque, intitulée The Knowledge & Learning Commons – a library’s evolution driving cultural change at the United Nations in Geneva. Cet article retrace le développement de l’Espace commun «Savoirs et formation des Nations Unies Genève, Commons» depuis ses premières étapes expérimentales vers un programme plus structuré, conçu en co-création avec ses utilisateurs. Il analyse également les expériences plus récentes tirées du semi-confinement dû au Covid-19, et propose des pistes de développement.

RESSI se devait aussi, en cette année de crise sanitaire et de fermeture temporaire des bibliothèques en Suisse de faire un bilan de l’utilisation des bibliothèques pendant cette période. On trouvera donc un premier article de Benoît Epron, professeur HES associé dans la filière Information documentaire de la HEG-Genève et de Séverine Gaudard, co-responsable de la PME Clio-Archives. Intitulé La place des ressources documentaires des bibliothèques académiques dans la lutte contre les Fake News : le cas du COVID-19, il relate les enseignements d’un projet sur 6 mois et donne des pistes pour accroître le rôle des bibliothèques universitaires dans la lutte contre les fake news. Et un deuxième, également de Benoît Epron et de Florence Burgy, assistante HES à la HEG-Genève, intitulé Les bibliothèques face à la vague, synthétise les pratiques d’utilisation de la bibliothèque - y compris d’e-books- lors du semi-confinement du printemps 2020, en prenant l’exemple de plusieurs bibliothèques romandes (bibliothèque municipale de Vevey la Médiathèque Valais, la BCUL-site Riponne) et de Bibliomedia,

Pour la rubrique Compte rendu d’événement, on trouvera deux contributions.

La première émane de Piergiuseppe Esposito, chargé de missions à la BCU Lausanne. Intitulée Conférence annuelle LIBER 2020 online, elle résume les sujets et débats évoqués à la conférence annuelle LIBER, (Ligue des Bibliothèques Européennes de Recherche) qui s’est tenue à distance, en juin 2020, sur le thème Building Trust with Research Libraries.

La seconde, rédigée en anglais et intitulée A review of the Swiss Research Data Day 2020 (SRDD2020): 48 experts shared their experiences on emergent approaches in Open Science a été écrite par Lydie Echernier et Pierre-Yves Burgi, et revient sur le symposium Swiss Research Data Day 2020, qui s’est tenu à Genève, à distance, en octobre 2020. Les auteurs sont respectivement coordinatrice du projet DLCM, Division Systèmes et technologies de l'information et de la communication (STIC) à l’Université de Genève, et directeur du projet DLCM, directeur SI adjoint, Division Systèmes et technologies de l'information et de la communication (STIC) à l’Université de Genève.

Pour la rubrique des recensions, on trouvera le compte rendu de l’ouvrage d’Alain Jacquesson, ancien directeur de la BGE et membre du comité de rédaction de RESSI, et Gabrielle von Roten, ancienne cheffe du service de coordination des bibliothèques universitaires de Genève, Histoire d’une (r)évolution : l’informatisation des bibliothèques genevoises, 1963-2018 sous la plume d’Alex Boder, maître d’enseignement dans la filière Information documentaire de la HEG-Genève.

Finalement, on trouvera la recension de l’ouvrage intitulé The non-sense guide to research support and Scholarly Communication de Claire Sewell, recension signée Thomas Pasche, assistant HES dans la filière Information documentaire de la HEG-Genève. L’ouvrage détaille les rôles possibles des bibliothécaires dans le domaine de l’aide à la recherche académique.

Nous vous souhaitons une très bonne lecture et nous remercions vivement les auteurs de cette édition, ainsi que les fidèles - et les nouveaux ! - réviseurs, et ceux qui ont contribué à la mise en ligne de RESSI.

Nous sommes prêts à recevoir vos propositions d’article à tout moment, et nous vous encourageons à faire part de vos commentaires sur l’évolution de RESSI et à contribuer à faire connaître RESSI autour de vous.

Le Comité de rédaction

Publié par Ressi

Vous devez vous connecter pour poster des commentaires

Les bibliothèques face à la vague

Ressi — 2 février 2021

Benoît Epron, Professeur HES, Haute Ecole de Gestion, Genève

Florence Burgy, Assistante HES, Haute Ecole de Gestion, Genève

Les bibliothèques face à la vague

1. Introduction : bouleversements et adaptations

Au printemps dernier, en Suisse romande comme ailleurs, le quotidien de toutes et tous se voyait bouleversé par une crise sans précédent. Gestes barrières, (semi-)confinement, fermetures des commerces non-essentiels et des lieux de culture, on aurait pu croire que laterre s’était arrêtée de tourner. La stupeur des premiers instants a cependant rapidement laissé place à une reprise de l'activité dans tous les secteurs ou presque, demandant à chacune et chacun de faire preuve de souplesse, de créativité, voire d’être prêt à se réinventer.

Les bibliothèques romandes n’ont pas été en reste. Pour elles, la nouvelle tombe le 13 mars 2020 : fermeture des bibliothèques, avec effet immédiat. Confusion, stupeur, et annulations en série. Nul ne sait combien de temps cela durera, nul ne sait que prévoir. Le samedi des bibliothèques tombe immédiatement à l’eau, et d’autres événements suivront. On ferme. Certaines institutions, comme la BCUL, voyant la vague arriver, avaient prévu un plan de crise, et notamment une marche à suivre en cas de fermeture complète. Toutes les bibliothèques n’ont malheureusement pas pu aussi bien se préparer, à l’instar de bien des institutions et entreprises en Romandie et ailleurs.

Mais rapidement, on se réorganise, on s’adapte, on cherche des solutions, et c’est tant mieux, car cette première phase de confinement n’est qu’un début. Elle sera suivie de plusieurs autres étapes avec des modalités variées (semi-confinement, fermeture des salles de lecture mais accès au prêt-retour…).

A l’heure actuelle, des restrictions d’accès sont encore régulièrement mises en place pour les bibliothèques académiques comme pour la lecture publique. Ces changements se font depuis un an au rythme de l’évolution des indicateurs épidémiologiques et conduisent aujourd’hui à une forme de “routine” de l’adaptation permanente du fonctionnement des bibliothèques. Cette adaptabilité permanente a entraîné, pour les professionnels des bibliothèques, la mise en place de plans ou de protocoles activables rapidement.

Dans cet article, nous traiterons de quelques aspects de ces adaptations, pour les personnels et les publics habituels des bibliothèques mais aussi pour toute une population de nouveaux utilisateurs qui émerge à l’occasion de cette crise. Nous présenterons ainsi la façon dont certaines de ces bibliothèques ont fait face à cette situation exceptionnelle, sur la base d’un travail de recherche documentaire ainsi que d’entretiens avec plusieurs professionnels des bibliothèques, à savoir Mme Mylène Badoux (Bibliothèque de Vevey), Mme Valérie Bressoud-Guérin (Médiathèque Valais), M. Laurent Albenque (BCUL - Site Riponne) et M. Laurent Voisard (Bibliomedia), qui ont bien voulu répondre à nos questions.

2. Fermées… aux collaborateurs

2.1. Tous en télétravail ?

Le facteur principal de bouleversement de l’activité des bibliothèques au cours de l’année 2020 est l’impossibilité d’accéder physiquement à certains espaces des bâtiments. Cette limitation concerne notamment l’accès aux espaces de travail pour le personnel des bibliothèques. Le passage rapide, massif et brutal au télétravail, qui concerne de nombreuses institutions et entreprises, et pas seulement les bibliothèques, bien entendu, revient dans nos entretiens avec des éclairages particuliers.

Dans certains cas, comme pour la Médiathèque Valais, les locaux permettent une distanciation physique suffisante pour maintenir la majorité des équipes sur place, et la fermeture permet en définitive de dégager du temps pour accélérer le traitement des documents et s’occuper de projets “laissés en rade”. À Lausanne aussi, dans les locaux de Bibliomedia, certains employés choisissent de venir sur place, lorsque l’agencement des espaces de travail le permet.

La BCUL est, quant à elle, passée plus massivement au télétravail en mettant en place un tournus d’employés volontaires pour assurer le suivi des tâches ne pouvant être effectuées à distance, et notamment maintenir une activité de prêts/retours des documents imprimés. Ce tournus sera maintenu à la sortie de la première vague, car il est indispensable pour permettre l’ouverture des sites.

Le point qui est revenu régulièrement dans nos entretiens est la problématique de la mise en place de nouveaux outils de travail en ligne pour assurer la coordination et le pilotage de l’activité (médiation des ressources et services en ligne, communication sur des aspects pratiques…). Sur ce point, des aspects très concrets (équipement à domicile, connexion suffisante…) ont rencontré des considérations plus complexes (formalisation d’échanges habituellement informels, disponibilité d’un support technique, enjeux d’une éventuelle confidentialité des échanges en fonction des outils utilisés…).

2.2. Rôles « non-essentiels » ?

Au-delà de ces questionnements opérationnels, des sujets plus délicats à appréhender ont également émergé. Ainsi, les notions d’équipe et de service public sont évoquées, lors de nos entretiens mais également plus largement dans la communauté professionnelle. Cette notion de “faire équipe” apparaît ainsi lors de la deuxième séance du séminaire BiblioCovid initié et animé par Raphaëlle Bats (http://raphaellebats.blogspot.com/2020/04/bibliocovid19-synthese2.html ). Dans la synthèse de cette séance on retrouve la préoccupation des bibliothécaires à accompagner les équipes dans un contexte où le rôle et les services de la bibliothèque sont qualifiés de “non-essentiels”, un terme dur à entendre pour des employés d’institutions culturelles qui ressentent au quotidien l’importance de leur travail pour leurs publics, quels qu’ils soient.

Ainsi, ce n’est pas seulement des questions de management et d’animation mais aussi des enjeux de légitimité et de sens du service public de la bibliothèque qui émergent au cours de cette période.

3. Fermées… aux publics

La fermeture des locaux physiques des bibliothèques implique bien entendu non pas uniquement le personnel des bibliothèques, mais aussi leurs publics. Il ressort de nos analyses que cette “disparition” de la bibliothèque comme espace a remis au centre des réflexions des questionnements plus anciens sur la place de la bibliothèque comme “espace public”.

3.1. Animations et médiation

Pour les bibliothèques de lecture publique, l’année 2020 aura été largement consacrée à l’adaptation de leurs activités de médiation culturelle. En effet, face à l’impossibilité d’accueillir les publics dans leurs espaces, les bibliothèques ont tenté de transformer leurs évènements et animations prévues dans des formats en ligne.

La Médiathèque Valais a ainsi dû annuler ses manifestations à l’occasion du samedi des bibliothèques. Idem pour Bibliomedia, avec la nécessaire adaptation de ses formations, des annulations ou des transformations pour pouvoir être maintenues dans une version en ligne, avec donc des publics et des modalités de médiation réinventées. Pour la bibliothèque de Vevey, même nécessité d’adapter un riche programme d’animations (café littéraire, conférences…).

Dans tous les cas, l’objectif est bien de continuer à proposer aux publics des moments d’échanges, des “points de contact” avec les usagers pour continuer à “faire vivre” la bibliothèque et répondre également aux besoins des personnes, confinées également, et à la recherche d’espaces d’échanges et de rencontres. On retrouve ainsi une autre modalité de proposition d’un espace virtuel dans lequel le rôle de médiateur de la bibliothèque se maintient et se transforme.

Cette adaptation des évènements des bibliothèques ne s’est évidemment pas faite sans difficultés. Le premier aspect est l’adaptation à ces nouvelles modalités. Pour Bibliomedia par exemple, c’est l’adaptation de son Printemps de la Poésie en une version mieux adaptée aux circonstances, “De ma fenêtre”. Pour Vevey c’est la production de vidéos à mettre en ligne ou encore pour la Médiathèque Valais cela passe par le fait de filmer des conteuses pour diffuser plus largement cette animation via les réseaux sociaux.

Les contraintes techniques constituent déjà un premier obstacle. Organiser, à distance, ces nouveaux évènements, maîtriser les outils de captation ou de diffusion, autant de points sur lesquels les bibliothécaires ont dû progresser très rapidement.

Avec cette “virtualisation” des évènements en bibliothèque émergent naturellement de nouveaux questionnements, notamment sur les publics concernés par ces offres. Les retours vont également dans le même sens, à savoir un double mouvement d’ouverture et d’élargissement des publics au-delà des zones géographiques habituelles et à l’inverse, l’impossibilité pour certains publics de participer ou de bénéficier de ces offres en raison d’équipements ou de compétences insuffisants vis-à-vis des outils numériques nécessaires.

Dans ce mouvement c’est une redéfinition des publics qui s’opère, dépassant la seule contrainte physique de mobilité pour en voir émerger d’autres liées à la littératie numérique ou aux moyens de connexion. En ce sens, cette transformation questionne le projet fondamental des bibliothèques de servir tous les publics, sans contraintes ou discriminations.

3.2. Collections et pratiques de lecture

À la BCUL comme ailleurs, la limitation des places de travail, voire leur suppression, a induit naturellement une baisse des visites des usagers. Ce phénomène a été paradoxalement accompagné d’une hausse des emprunts de documents imprimés. Ce croisement des courbes implique que le recours au catalogue, devenu le seul point d’accès aux collections, a progressé.

Le soir de l’annonce officielle, la BCUL, qui suit son plan de crise, maintient ses guichets ouverts jusqu’à 22h afin de permettre à ses lecteurs de “faire le plein”. Cette initiative rencontre un franc succès, avec une affluence jamais vue dans cette tranche horaire.

Cette sollicitation forte des collections de la bibliothèque n’est cependant pas propre à la BCUL et, au-delà de l’anecdote, les autres bibliothèques ont également observé une croissance importante de certains pans de leur activité.

Pendant les périodes de fermeture, la Médiathèque Valais a largement développé un service qu'elle proposait de façon très limitée auparavant, le prêt postal. La BCUL a proposé un service de distribution individuelle des ouvrages pour les enseignants et les chercheurs, lorsque le campus était de nouveau accessible. De plusieurs façons les bibliothèques ont imaginé et mis en place des services pour maintenir un accès à leurs collections d’imprimés.

Dans le même temps, elles ont naturellement renforcé et communiqué sur leurs offres de ressources numériques. Ainsi, l’offre de livres numériques eLectures de la BCUL a vu son nombre d’inscrits augmenter de 523% par rapport à la même période en 2019 et le nombre de livres numériques empruntés a crû de 57%.

Bibliomedia et sa plateforme e-bibliomedia ont naturellement été un point d’observation central pour l’évolution des pratiques. Ainsi, à cette occasion, la plateforme e-bibliomedia a vu 14 nouvelles bibliothèques la rejoindre. Ce sont ainsi 10’000 lecteurs en plus inscrits sur la plateforme et un nombre moyen de prêts mensuels qui est passé de 6000 à 8400, avec un pic à 13500 prêts en avril. Cet engouement pour le livre numérique a entraîné un net dépassement des budgets initialement prévus, de l’ordre de CHF 25’000.-.

La forte croissance de l’utilisation des livres numériques en bibliothèques n’est pas spécifique au contexte suisse. Plusieurs études ou articles font aussi état d’une évolution similaire dans d’autres pays.

4. Un usage des ressources numériques en croissance globale

Dans le reste du monde, on observe en effet des tendances similaires. Ainsi, aux Etats-Unis la crise du COVID a entraîné des évolutions importantes dans ce domaine. Overdrive, principal acteur du prêt de livres numériques dans les bibliothèques américaines a observé une augmentation de 50% des emprunts pour la période courant jusqu’à l’été 2020. Dans les écoles primaires, l’adhésion à la plateforme Sora qui propose des livres numériques et des livres audios a augmenté de 80% (ce sont 38’000 écoles de 71 pays qui utilisent le système aujourd’hui) et le nombre d’ouvrages empruntés a triplé (https://goodereader.com/blog/digital-library-news/289-million-ebooks-were-borrowed-from-the-public-library-in-2020 ).

En France, le système PNB (Prêt Numérique en Bibliothèque) a également largement bénéficié des périodes de confinement. Pour la période de janvier à mai 2020 le nombre de prêts a augmenté de 106% par rapport à la même période en 2019 (http://pretnumeriqueenbibliotheque.fr/acces-simplifie-au-livre-numerique-un-pari-presque-gagne/). Rien que pour le mois d’avril, le nombre de prêts a été multiplié par 3.5.

Dans ces différents contextes, la croissance forte du prêt de livres numériques s’est accompagnée d’un nécessaire effort de facilitation des accès et des procédures. Cela a pris la forme de formulaires en ligne, d’actions d’autonomisation des usagers comme à la Médiathèque Valais, ou encore cela a coïncidé avec le lancement de l’application Baobab pour PNB et le déploiement de licences LCP pour les livres numériques.

L’environnement des bibliothèques et des usagers a également beaucoup évolué au cours de cette crise. Internet Archive a ainsi ouvert très largement sa bibliothèque de livres numériques en proposant une “bibliothèque d’urgence nationale”, sans limitation d’accès aux plus de 2 millions d’ouvrages empruntables pour une durée de 14 jours (dont 60’000 environ en français). Face aux réactions très vives des associations américaines d’éditeurs et d'auteurs, ce fonctionnement a été supprimé au mois de juin.

Dans les différents pays observés se pose la même question : est-ce que le pic mesuré au cours de l’année 2020 est l’amorce d’une modification durable et pérenne des usages ou s’agit-il uniquement d’un effet conjoncturel de la crise ?

Pour les situations suisses et françaises, le déploiement de la solution Baobab, qui simplifie grandement le parcours de l’utilisateur pour le prêt de livres numériques en bibliothèques pourrait constituer un élément de soutien au maintien de ces pratiques.

Ce qui est en tout cas largement anticipé par les bibliothèques américaines c’est une crise du financement des bibliothèques par les collectivités locales dont les budgets risquent d’être largement touchés par les conséquences économiques de la crise du Covid-19, et qui pourraient donc trouver dans les budgets des bibliothèques une source d’économies.

Ce glissement des pratiques vers des supports numériques est lié à plusieurs éléments (confinement, fermeture des librairies, limitation des déplacements…). L’évolution est également observable pour certains types de publics comme les étudiants. Le passage à l’enseignement à distance a considérablement modifié les usages des étudiants par rapport aux manuels avec par exemple une croissance de 23% des dépenses en manuels numériques pour les étudiants américains, (https://publishingperspectives.com/2020/11/aap-course-materials-spending-report-23-percent-up-e-textbooks-usa-covid19/) au détriment de tous les autres formats.

5. Conclusion : fluctuations ou mutations durables ?

Les limitations d’accès aux espaces des bibliothèques au cours de l’année 2020 ont évidemment placé la fourniture de ressources numériques comme un service essentiel en bibliothèque. Pour plusieurs bibliothèques, une offre de ressources de ce type était déjà disponible mais celle-ci a été développée et mise en valeur. Ainsi, la Médiathèque Valais a accéléré l’intégration d’une plateforme de films en ligne, tout en cherchant à valoriser les podcasts de ses précédentes animations. La BCUL a fait la promotion de ressources au-delà des livres numériques, comme Assimil et Vodeclic. Ces efforts de valorisation des ressources numériques ont porté leurs fruits avec des niveaux d’utilisation en croissance.

Globalement, les différentes bibliothèques interrogées ont pu observer des courbes d’évolution des usages similaires pour l’ensemble des ressources en ligne. Un pic d’utilisation très net se produit dans les premiers temps du confinement, une réaction réflexe face au risque de ne plus pouvoir accéder à des contenus sur le long terme. Ce pic est suivi d’un repli progressif des usages pour se stabiliser à un niveau supérieur d’environ 25% au niveau pré-covid. Cette période aura donc entraîné avant tout une valorisation renforcée des offres de ressources numériques déjà proposées par les bibliothèques mais parfois peu mises en avant ou à l’accès trop complexe pour les usagers.

Pour l’animation culturelle et les espaces des bibliothèques, l’année 2020 aura également entraîné des réflexions en profondeur sur la façon d’appréhender le rôle de la bibliothèque. Cette crise intervient en effet à une période où beaucoup de bibliothèques ont entamé et développé des projets et des réflexions sur la valeur ajoutée de leurs espaces et sur les attentes du public. Ainsi, en transposant tant bien que mal leurs animations culturelles en ligne, les bibliothèques ont initié deux trajectoires a priori opposées. Elles ont touché des publics à distance qui dépassent leurs sphères d’influence habituelles, à la fois géographiques et sociologiques. Dans le même temps, une partie de leurs lecteurs ont été exclus, pour des raisons techniques, de compétences informationnelles ou de pratiques, de cette offre culturelle. Ce double processus, de même que leur statut d’acteurs publics “non-essentiels”, initiera probablement des débats professionnels passionnants pour les années à venir.

À un niveau plus général, la crise sanitaire de l’année 2020 a été un accélérateur très efficace de mutations déjà amorcées ou pendantes depuis plusieurs années. C’est le cas pour les offres de ressources numériques mais également pour le télétravail, la formation à distance ou l’optimisation des parcours usagers dans les démarches en ligne, et il est probable que cela obère un simple retour au “monde d’avant”.

Publié par Ressi

Vous devez vous connecter pour poster des commentaires

La place des ressources documentaires des bibliothèques académiques dans la lutte contre les Fake News. Le cas du COVID-19

Ressi — 22 janvier 2021

Benoît Epron, professeur associé à la HEG-Genève

Séverine Gaudard, collaboratrice scientifique pour le projet, HEG-Genève

La place des ressources documentaires des bibliothèques académiques dans la lutte contre les Fake News. Le cas du COVID-19

1. Introduction

Comme toutes les crises, la crise du Covid-19 est une période propice à la diffusion de fausses informations, de contre-vérités ou de théories du complot. En effet, le besoin d’informations pour comprendre, anticiper ou se rassurer est exacerbé et les citoyens sont naturellement à la recherche de réponses ou de renseignements. Face à cette demande, les médias d’informations (journaux, TV, radio) sont évidemment en première ligne. Ces mécanismes de diffusion d’information sont aujourd’hui largement intégrés aux réseaux sociaux qui favorisent de fait la diffusion et la propagation d’informations sensationnelles, sans tenir compte de leur véracité. La diffusion de ces fausses informations complexifie la réponse à la crise sanitaire qui nécessite l’adhésion de la population aux mesures mises en place par les autorités. L’Organisation mondiale de la Santé effectue d’ailleurs un parallèle entre la circulation du virus et celle des fausses informations et sensibilise à la lutte pour « immuniser le public contre la désinformation ». Le paradoxe de cette situation réside en grande partie dans le fait que les informations n’ont jamais été aussi nombreuses et accessibles. En effet, dans cet « écosystème » informationnel, deux logiques se conjuguent, d’une part la circulation accélérée de l’information par les plateformes d’échanges et d’autre part l’ouverture de plus en plus large de la documentation scientifique.

La question à laquelle ce projet propose d’apporter des réponses est la place et le rôle que peuvent jouer les bibliothèques académiques dans cette lutte contre la mésinformation. En effet, en gérant et en traitant au quotidien des ressources scientifiques, les bibliothèques académiques disposent des ressources, de compétences et d’une légitimité importantes. La problématique de ce projet est donc d’identifier à la fois les stratégies mises en œuvre par les bibliothèques académiques dans ce domaine mais aussi l’usage qui est fait par les médias des ressources scientifiques disponibles.

Dans le cadre de l’appel à projet COVID-19 du domaine Economie et Services de la HES-SO nous avons bénéficié d’un soutien (assistant HES à 10%) pour un projet de 6 mois réalisé au cours du deuxième semestre 2020. Les éléments présentés ci-dessous s’appuient en grande partie sur les résultats de ce projet.

2. Méthodologie

Un premier axe de ce projet a consisté à constituer un corpus d’articles publiés par les médias d’information en Suisse romande traitant du Covid-19 et de deux thématiques : la 5G et l’hydroxychloroquine. La 5G est une technologie largement débattue, de plus, de nombreuses fausses informations en lien avec le Covid-19 et la 5G circulent. Quant à l’hydroxychloroquine, les débats et résultats de nombreuses recherches autour de ce médicament ont régulièrement été relayés dans la presse pendant la période de semi-confinement en Suisse, entre le 16 mars et le 19 juin 2020. L’urgence de trouver un remède au Covid-19 a démultiplié les recherches menées sur cette molécule présentée comme un remède miracle ou considérée comme inutile voire dangereuse. Les articles correspondant à ces deux thématiques publiés pendant la période extraordinaire(1) dans les 10 principaux journaux et sources d’informations quotidiens de Suisse romande ont été répertoriés. Ils ont été classés en 3 niveaux selon que les références citées permettent au public de remonter jusqu’à la source de l’information : 1) aucune référence citée ; 2) les informations citées sont suffisantes pour retrouver la source en faisant une simple recherche ; 3) un lien direct mène à la source citée.

Le second axe a pour but de repérer les stratégies de valorisation mises en place par les bibliothèques de Suisse romande au moyen d’observations et d’une enquête. Les observations ont porté sur 4 universités, une école polytechnique fédérale et 25 hautes écoles spécialisées de Suisse romande, soit un total de 30 institutions. Les éléments observés sont les informations en lien avec le Covid-19 mises à disposition du public sur le site ou la page web de la bibliothèque pendant la période de semi-confinement. Les données récoltées ont été classées en 4 niveaux selon les informations mises à disposition du public : 1) aucune information sur des ressources académiques en lien avec le Covid-19 ; 2) informations sur les publications scientifiques exceptionnellement ouvertes par les éditeurs (en lien avec le Covid-19 ou non) ; 3) liens vers des publications externes en lien avec le Covid-19 ; 4) liens vers des ressources internes en lien avec le Covid-19. Ces informations ont été complétées par une veille sur les actions de communication et de valorisation mises en place par des bibliothèques hors de Suisse romande.

Afin de compléter ces deux axes, une troisième approche se focalisant sur les publications scientifiques des chercheur-euse-s de Suisse romande nous a paru essentielle. Dans une logique de science ouverte, nous nous sommes concentrés sur les publications en lien avec le Covid-19 présentes dans les archives ouvertes des universités et autres hautes écoles de Suisse romande. Les publications associées au mot-clé « Covid-19 » des archives ouvertes suivantes ont été répertoriées: Archives ouvertes UNIGE, SERVAL, et RERO doc. Nous avons ensuite utilisé l’outil Altmetric Bookmarklet pour déterminer si elles avaient fait l’objet de citations dans les médias de Suisse romande.

3. Résultats

3.1 Bibliothèques

Les bibliothèques qui ont le plus valorisé leurs ressources en lien avec le Covid-19 sont les bibliothèques de médecine et de santé. Selon les observations menées sur les sites et pages web des bibliothèques de 30 bibliothèques académiques de Suisse romande, 2 bibliothèques ont obtenu le niveau 4 (Figure 1).

Figure 1 : Actions mises en place par les bibliothèques

L’importance des actions de valorisation et de communication mises en place par les bibliothèques des domaines de la médecine et la santé s’explique de plusieurs manières ; ces bibliothèques disposent de ressources pertinentes dans leur catalogue à mettre en avant, elles sont habituées à collaborer avec du personnel de santé et disposent d’un statut hybride, en étant rattachées à la fois aux universités et institutions médicales.

Les ressources ouvertes de manière exceptionnelle par les éditeurs scientifiques ont été largement relayées. Selon les observations, 50% des bibliothèques académiques les ont mises en avant pendant le semi-confinement. Après les informations pratiques (fermeture, horaires d’ouvertures ou modalités de prêts), qui ont fait l’objet de communications de la part de toutes les bibliothèques ayant répondu à l’enquête, il s’agit de l’information qui a été la plus relayée auprès du public des bibliothèques académiques. Il serait également intéressant pour les bibliothèques d’observer statistiquement les variations dans les accès aux ressources proposées. Cela permettrait de déterminer si au-delà de l’effet d’annonce, cette ouverture a eu des conséquences tangibles sur les pratiques documentaires des chercheurs.

Les publications scientifiques en lien avec le Covid-19 disponibles dans les archives ouvertes des universités et autres hautes écoles de Suisse romande ne sont pas mises en valeur. 76 publications scientifiques sur la thématique du Covid-19 ont été identifiées à la fin de la période extraordinaire dans les différentes archives ouvertes institutionnelles (53 sur SERVAL, 20 sur l’archive ouverte UNIGE, et 3 sur RERO Doc). D’après l’analyse de ces 76 publications avec Altmetric Bookmarklet, aucune de ces publications n’a été citée d’une manière satisfaisante pour être reconnue par l’outil utilisé qui se base sur le DOI. Nous observons ainsi une occasion manquée de mettre en avant les résultats de la recherche scientifique effectuée dans les institutions de Suisse romande. Le fait que ces articles soient centralisés et ouverts au public perd de son intérêt si les archives ouvertes ne sont utilisées que comme un dépôt et ne font pas partie de la stratégie de valorisation de l’information scientifique des universités et autres hautes écoles.

Les réponses à l’enquête confirment les résultats des observations en ligne : aucun service de fact-checking sur le Covid-19 n’a été créé par une bibliothèque académique romande. Des services de Questions-réponses comme InterroGE ont évidemment vu arriver des questions relatives au Covid. Les réponses proposées sont principalement construites à partir de documents issus de l’administration et de grandes organisations (comme l’OMS) ou d’articles de presse. Les quelques articles scientifiques pointés dans les réponses sont issus de plateformes comme PLOS et de chercheurs hors Suisse. Les bibliothèques disposent pourtant de toutes les ressources nécessaires à la mise en place d’un tel service : l’accès à l’information scientifique via le catalogue de la bibliothèque ainsi que des professionnels avec des compétences en matière de recherche d’information. Accompagner le public dans sa recherche d’information fait partie des missions des bibliothèques, qu’il s’agisse de répondre directement à des questions posées par le public ou de vérifier les faits entourant des fausses informations largement relayées. Cette action de médiation aurait pu être à destination du grand public, mais elle pourrait aussi être relayée auprès des journalistes. Il s’agit également d’un moyen de mettre en avant les ressources de la bibliothèque ainsi que l’utilité d’une telle institution dans une période de crise.

Près de la moitié des répondant-e-s estiment que leur bibliothèque ne dispose pas de ressources en lien avec le Covid-19. 12 répondant-e-s à l’enquête sur 26, soit 46 %, répondent négativement à la question « Votre bibliothèque possède-t-elle des ressources en lien avec le Covid-19 ? ». Et seuls 27 % prévoient d’acquérir par la suite des ressources en lien avec le Covid-19. La crise a des impacts dans tous les domaines, ainsi, même les bibliothèques qui ne sont pas spécialisées dans la santé sont susceptibles d’acquérir des ressources sur le sujet. Cela renvoie à un fonctionnement des politiques d’acquisition qui suivent plutôt des logiques disciplinaires ou politiques. Les bibliothèques académiques pourraient se positionner davantage comme des acteurs de la circulation de l’information et des connaissances vers un public élargi, dépassant les limites du monde universitaire. Ces résultats interrogent également sur la maîtrise et la connaissance des fonds constitués de flux et de bouquets de revues, non contrôlés par les bibliothécaires.

3.2 Presse

Dans 89.5% des productions journalistiques étudiées, les informations ne sont pas suffisantes pour retrouver la source des références citées. Les résultats de ces observations soulignent le fait que seuls 4 articles sur l’échantillon (composé de 38 articles de presse et vidéos, 26 articles sur le Covid-19 et la chloroquine ou l’hydroxychloroquine et 12 articles sur le Covid-19 et la 5G) fournissent des informations suffisantes afin de permettre aux lecteurs et lectrices de remonter jusqu’à la source de l’information présentée. Seul un article de presse contient un lien direct vers l’article scientifique qui fait l’objet de l’article, 3 autres contiennent des informations suffisantes (les résultats de la recherche, le titre de la publication ainsi que le nom d’un ou plusieurs des auteurs). Aucun article ne fait de lien vers une ressource académique disponible directement dans une institution suisse romande comme le catalogue d’une bibliothèque ou les archives ouvertes d’une université ou haute école.

Un des éléments qui est apparu lors de l’analyse de l’échantillon de productions journalistiques est l’importance qui est donnée à des expert-e-s pour analyser les résultats des études ainsi que la situation sanitaire. La parole d’expertes ou experts est ainsi considérée comme une source fiable, citée parfois au détriment de références à des sources d’informations scientifiques. Si les professionnels de la santé ont évidemment un important rôle de médiateurs à jouer, les sources académiques devraient être plus fréquemment mises en avant. Si le format d’article contenant des réactions de spécialistes est privilégié, c’est certainement parce que celui-ci est apprécié des lecteurs et lectrices. En privilégiant ce format, tout en mettant à disposition dans les mêmes articles des références pertinentes et faciles d’accès, les journalistes peuvent sensibiliser un nouveau public et l’inviter à vérifier les sources mises à disposition.

4. Exemples d’actions de valorisation hors de Suisse romande

Afin de mettre en commun les ressources des différentes bibliothèques, de travailler en réseau et d’éviter les redondances, il est également utile de centraliser les actions effectuées. Dans un système décentralisé comme la Suisse, cela paraît compliqué à mettre en place. En France, c’est sur le site du Ministère de l’Enseignement Supérieur, de la Recherche et de l’Innovation que l’on retrouve une liste des initiatives des acteurs du supérieur en lien avec le Covid-19, comprenant l’accompagnement documentaire et les bibliothèques.

Certaines bibliothèques ont créé des services de fact-checking spécifiques sur le Covid-19, c’est le cas notamment de la bibliothèque de l’Université de Toronto qui répond chaque semaine à une question sur le Covid-19 en citant ses sources avec les informations scientifiques disponibles au moment de la réponse. Un exemple qui prouve que les bibliothèques ont les moyens nécessaires à la mise en place d’un tel service. D’autres bibliothèques, comme celle d’Old Dominion University en Virginie, ont mis en place des formations sous forme de workshop en ligne pour « Apprendre des stratégies pour combattre la désinformation sur la santé » en lien avec le Covid-19. En éduquant le public aux techniques pour repérer les fausses informations, les bibliothécaires permettent de responsabiliser le public et participent à l’éducation aux médias.

La crise du Covid-19 a favorisé les échanges entre professionnels de l’information sur la question des fake news. L’IFLA a notamment organisé une série de 4 webinaires intitulés « Fake News : Impact on Society » qui permet de présenter plusieurs projets de bibliothèques et associations des bibliothèques en lien avec les fake news. Le séminaire « Les bibliothèques en temps de crise » de l’ENSSIB donné par Raphaëlle Bats qui a réuni des bibliothécaires francophones en ligne a également consacré une session le 13 novembre 2020 aux fake news à l’heure du Covid-19 en bibliothèque.

5. Recommandations

Les bibliothèques académiques gagneraient à mettre en place une meilleure coordination entre bibliothèques d’universités et hautes écoles. Si l’on prend l’exemple des pages pour mettre en avant les publications des éditeurs scientifiques, ces pages auraient pu être réalisées en collaboration entre plusieurs bibliothèques puis diffusées. Nous constatons que la crise du Covid-19 n’a pas eu pour effet une remise en question des pratiques en bibliothèque. Nous observons que les actions de communication mises en place sont très variables d’une bibliothèque à l’autre ; certaines bibliothèques ne disposant pas des mêmes ressources ou compétences en raison des domaines spécifiques auxquels elles sont rattachées ou de leur taille bénéficieraient d’un tel travail en réseau.

Nous avons observé que les bibliothèques académiques ne sont pas un canal privilégié par les journalistes. En mettant en place une fonction dédiée à la relation médias dans les services communication des bibliothèques, elles amélioreraient leur visibilité et élargiraient leur public en incluant les journalistes. Des formations spécifiques des bibliothèques à destination des journalistes qui porteraient sur les recherches d’information au sein des catalogues, des archives ouvertes ainsi que sur la citation des sources dans les publications journalistiques pourraient également être envisagées. Ces actions auraient pour résultat de faciliter l’accès à l’information scientifique au public au travers des médias, ce qui permettrait d’aller vers une science citoyenne. C’est également l’occasion de valoriser le travail des universités et des bibliothèques et d’ainsi valoriser leur image auprès du grand public. Pour ce faire, une meilleure collaboration au sein des institutions est également nécessaire. Nous observons un certain cloisonnement entre les différents acteurs de la recherche scientifique : les chercheur-euse-s, les bibliothèques et la communication. En ayant accès aux publications scientifiques, les bibliothécaires ont les moyens d’être au courant des recherches en cours et des résultats publiés. Elles ont intérêt à valoriser ces informations, d’autant plus qu’elles sont amenées à devoir continuellement légitimer leur existence.

6. Conclusion

La période particulière que nous connaissons depuis le mois de février 2020 touche évidemment l’ensemble de la société et donc les bibliothèques universitaires. Cette crise sanitaire intervient dans un double contexte informationnel : d’une part une circulation accélérée de l’information, et parfois de fausses informations, via les réseaux sociaux notamment et d’autre part un accès à la documentation scientifique qui n’a jamais été aussi facilité.

Pourtant, ces deux sphères informationnelles semblent peu poreuses, il manque un acteur pouvant jouer un rôle de passeur, d’intermédiaire entre le monde académique et le grand public. Les bibliothèques ont sur ce point un rôle essentiel à jouer. En étant habituées à gérer des informations scientifiques au quotidien et en étant au contact du public, les bibliothèques sont les mieux placées pour occuper cet espace laissé vacant.

Ce rôle a évidemment une grande importance pour les bibliothèques académiques qui voient ainsi une opportunité de se positionner auprès du grand public comme référentes en matière de lutte contre les fake news. Cela leur permet également de renforcer leur visibilité et d’être par la suite mieux intégrées aux politiques publiques. Pour les autorités qui ont besoin, en période de crise sanitaire, de faire passer des messages, notamment concernant les mesures sanitaires, pouvoir s’appuyer sur un acteur comme la bibliothèque permet également de pouvoir compter sur un intermédiaire fiable qui est déjà en possession des compétences et ressources nécessaires pour éduquer le public.

Cette crise aura ainsi permis de mettre en évidence ce besoin et la place que les bibliothèques universitaires peuvent y occuper. Les périodes de fermeture et l’obligation ou la forte recommandation de télétravail auront également bouleversé les habitudes des bibliothécaires. La crise aura ainsi renforcé le besoin de trouver de nouveaux lieux – physiques ou virtuels - d’échanges entre les professionnels de l’information, de celles et ceux qui la produisent à celles et ceux qui la diffusent ainsi qu’entre les professionnels des bibliothèques académiques. Si ce travail en réseau est déjà une réalité sur le terrain, il reste à le rendre plus visible en ligne, notamment au travers de services partagés entre plusieurs bibliothèques universitaires.

Notes

(1)Les termes « situation extraordinaire » et « semi-confinement » désignent la période du 16 mars au 19 juin 2020.

Publié par Ressi

Vous devez vous connecter pour poster des commentaires

Apprendre « en commun » : L’expérience des ateliers de contribution à Wikipédia dans les bibliothèques publiques de Montréal

Ressi — 20 janvier 2021

Marie D. Martel, professeure adjointe, EBSI (Université de Montréal)

Apprendre « en commun » : L’expérience des ateliers de contribution à Wikipédia dans les bibliothèques publiques de Montréal

1. Contexte

Wikipédia célèbre ses 20 ans cette année. Née en 2001, la rencontre inévitable entre cette dernière et le monde des bibliothèques n’a guère tardé. Du rejet à la suspicion puis à la collaboration, des initiatives conjointes se mettent en place à partir de 2012, tant dans les bibliothèques universitaires que publiques, sous la forme de journées contributives, ou édit-a-thons, qui constituent encore aujourd’hui un des principaux scénarios de médiation wikipédienne. Dans cette mouvance, des ateliers de contribution ont été déployés et intégrés dans le calendrier régulier de certaines institutions québécoises comme à la Grande bibliothèque et dans le réseau des Bibliothèques de Montréal. Les retombées de ces activités sont à géométrie variable, oscillant entre l’enthousiasme et la déception, mais d’une façon générale, il est reconnu que ce n’est pas la performance (soit le nombre de participant.e.s ou le nombre de contributions) qui constitue un bon indicateur pour mesurer la valeur de ces activités. L’impact est ailleurs et nous y reviendrons par le biais de ce récit ethnologique qui est porté par les questions : Comment pourrait-on créer une communauté créatrice de savoirs communs numériques en bibliothèque ? Comment pourrait-on évaluer et accroître l’impact des ateliers contributifs impliquant les bibliothèques et Wikipédia - ou plus généralement, les projets soutenus par la fondation Wikimédia ?

Nos analyses et nos conclusions, ancrées dans une pratique réflexive(1), sont principalement influencées par les situations observées directement sur le terrain au cours de ces dernières années à organiser, animer, expérimenter des ateliers de contribution en bibliothèque(2). Après une brève chronologie des initiatives québécoises, nous explorerons momentanément un cadre de référence visant à inscrire ces actions dans un contexte qui les justifie en regard des finalités et des missions des bibliothèques aujourd’hui. Cette « réflexion sur l’action » nous permettra de partager un certain nombre de constats instructifs en s’attachant particulièrement aux leçons que l’on peut tirer pour faciliter l’aménagement social de ce projet wikipédien en bibliothèque et valoriser encore l’apport de ces ateliers contributifs au sein des communautés.

2. Les bibliothèques québécoises et Wikipédia : Un bref historique

Le premier motif de l’intérêt des bibliothèques à l’endroit de l’encyclopédie a été d’abord été critique. À partir de 2005, plusieurs études en sciences de l’information analysent ce projet d’encyclopédie libre et questionnent la qualité du contenu de Wikipédia (son étendue, son actualité, sa fiabilité) et son statut d’ouvrage de référence au sens traditionnel du terme(3).

À partir de 2010, la British Library entreprend une collaboration avec la Wikimedia Foundation et une première expérience de wikipédienne en résidence dans cette même institution révèle les nombreuses opportunités issues du croisement entre Wikipédia et les institutions de mémoire(4). Les avantages en termes de valorisation du patrimoine et des collections numériques qui sont extraites dans le cadre des projets GLAMs (pour Galleries, LIbraries, Archives, Museums) aident peu à peu à dissiper la méfiance, et en même temps les réserves sur la qualité du contenu tendent à s’estomper.

Au Québec, plutôt que de passer par les institutions de mémoire, c’est d’abord par le biais de journées contributives à l’échelle locale que seront scellées les premières relations entre Wikipédia et le monde des bibliothèques. Un atelier consacré à Jean Talon(5), premier intendant de la Nouvelle-France, se déroule à la bibliothèque de l’Université Laval le 18 février 2012(6). Une année plus tard, le 6 avril 2013, à la Bibliothèque Mile End (aujourd’hui Mordecai-Richler) se tient la première activité de type édit-a-thon en bibliothèque publique au Québec. L’activité porte sur le Projet Mile End, lancé au mois de février, initié par l’organisme d’histoire locale, Mémoire du Mile End, et le chapitre Wikimédia Canada. La bibliothèque met son espace et la documentation sur le quartier à la disposition des participant.e.s et une bibliothécaire du réseau des bibliothèques de Montréal est du nombre des contributeurs(7).

Plus tard, la même année, le samedi 19 octobre 2013, lors d’une journée organisée par l’Association canadienne française pour l’avancement des sciences (ACFAS) et Wikimédia Canada dans le cadre du Mois international de la contribution francophone, se tient un atelier de contribution qui inaugure un partenariat soutenu entre Bibliothèque et archives nationales du Québec (BAnQ), et Wikimédia Canada(8). Ce premier événement à la bibliothèque nationale se prolonge dans le programme des Mardi, c’est Wiki, des ateliers qui se tiennent tous les premiers mardis du mois depuis 2014 en proposant une formation, plus qu’un atelier à proprement parler, réunissant conjointement des formateurs wikipédiens et des bibliothécaires. BAnQ est progressivement devenue un des partenaires canadiens les plus actifs du mouvement des GLAMs en s’investissant dans une diversité de projets tant de médiation que d’extraction de ses collections dont des fonds d’archives photographiques(9).

Du côté des bibliothèques de Montréal, les activités reprendront sur une base régulière entre 2016 et 2018, avec plus d’une vingtaine d’ateliers contributifs(10). Ces initiatives ont été menées, dans la très grande majorité des cas, en collaboration avec le Café des savoirs libres (CSL), un collectif rassemblant des bibliothécaires et des libristes engagés dans la création des communs du savoir. Suite à une invitation lancée au réseau des bibliothèques, ces ateliers mensuels accueillent entre 6 et 10 participant.e.s par événement. Les rencontres comptent principalement des membres du CSL qui reviennent à toutes les activités, quelques usagers et généralement un membre du personnel de la bibliothèque dont la participation est, selon le cas, plus ou moins instrumentale. Certains usagers participants viennent de l’extérieur de Montréal, mais leur provenance est surtout locale. Les événements se déroulent les soirs de la semaine entre 17h et 20h. Après une programmation nomade se déplaçant dans une bibliothèque différente à chaque séance, une stratégie alternative est progressivement privilégiée avec une série de rencontres récurrentes dans une même bibliothèque dans le but d’explorer la possibilité de démarrer une communauté locale d’adeptes qui deviendrait autonome dans la durée.

En plus des ateliers locaux, quelques édit-a-thons thématiques ont été organisés en lien avec le Festival international de la bande dessinée de Montréal, la Journée internationale des femmes, le Mois de l’art et des rites funéraires, le centenaire de la bibliothèque centrale de Montréal, etc. Après 2018, les rendez-vous des ateliers contributifs dans les Bibliothèques de Montréal sont devenus plus irréguliers, CSL ayant choisi de poursuivre son engagement à la bibliothèque de la Cinémathèque québécoise où la structure s’était engagée de façon intentionnelle dans l’organisation de ces activités avec un projet sur les « Savoirs communs du cinéma »(11). Avant ce déménagement, la période d’activités qui s’étendait de 2016 à 2018 a été l’occasion de recueillir une série d’observations, d’expérimenter différents scénarios d’usage, d’interroger aussi le sens et la portée de ces ateliers en bibliothèque: c’est cet épisode que nous allons considérer.

3. Un cadre de référence pour mieux comprendre les bibliothèques wikipédiennes

Pourquoi organiser ce type d’activités, à savoir des ateliers contributifs wikipédiens, plutôt que d’autres actions en bibliothèque ? Les raisons qui expliquent et justifient la collaboration entre les milieux documentaires et la Fondation Wikimedia sont nombreuses et relativement bien documentées depuis quelques années. On peut en rappeler quelques-unes : la convergence des missions autour de l’accès libre aux savoirs; un intérêt soutenu pour la connaissance appuyée par des sources fiables. En particulier à cette époque où l’on discute âprement de post-vérité et de fausses nouvelles, les édit-a-thons offrent l’occasion de créer des contenus en ligne en pressant les éditeurs de recourir à des sources d’information fiables - incidemment susceptibles d’être trouvées en bibliothèque, ce qui permet du même coup de valoriser les collections. Ces activités deviennent aussi un excellent tremplin pour améliorer les compétences en littératie de l’information non seulement en initiant une réflexion critique sur les sources, mais aussi sur le caractère construit de l’information et sur les licences régissant l’accès et l’usage des savoirs(12). Pour plusieurs participants, l’atelier wikipédien devient un atelier de littératie numérique qui permet de combler tour à tour des lacunes tant en matière d’alphabétisation technologique, de pratiques numériques ou de valeurs associés à la culture et la citoyenneté numérique.

Au plan international, l’IFLA (International Federation of Libraries Association) a produit en 2016 une étude d’opportunité sur les bénéfices d’une collaboration avec Wikipédia, dans laquelle cette association invite les bibliothécaires à s’engager davantage pour faire de leur bibliothèque, une bibliothèque wikipédienne(13). Cet argumentaire appuie la reconnaissance de Wikipédia comme source d’information et défend son rôle comme plate-forme pour la culture et les connaissances locales qui sont soutenues par les bibliothèques publiques. Au moment où l’IFLA met à disposition cette étude, elle lance une seconde campagne de contribution mondiale auprès de la communauté des bibliothécaires. Cette campagne, menée entre le 15 janvier et le 3 février 2017, encourage les bibliothécaires à ajouter une source (au moins) dans l’encyclopédie libre. Imaginez un monde où chaque bibliothécaire ajouterait une référence de plus à Wikipédia... dit l’accroche de cette campagne qui se déroule désormais chaque année depuis 2017(14)

Les activités wikipédiennes bénéficient d’un discours sur les bibliothèques dirigées par la communauté (« community-led ») et d’une vision de la bibliothèque qui supportent les capacités créatives des publics. Dans cette veine, R. D. Lankes, auteur influent en bibliothéconomie, soutient que la finalité des bibliothèques consiste à « faciliter la création de connaissances dans les communautés en vue d’améliorer la société.»(15)

On assiste, par conséquent, à l’émergence de dispositifs qui sont de plus en plus structurés dans le milieu des bibliothèques à travers les associations internationales, la formation, la théorie et la pratique. Pour les bibliothécaires, en particulier, membres de CSL, cette initiative est aussi, de façon prioritaire, en phase avec un discours sur les bibliothèques comme « maisons des communs », c’est-à-dire comme espace de création, de valorisation et de défense des savoirs libres.(16)

Du point de vue du contexte interne, notamment celui de la Direction des Bibliothèques de Montréal, les ateliers de contribution dans le réseau s’inscrivent dans le Plan d’action Montréal Ville intelligente et numérique en contribuant au développement des compétences numériques. Ces activités ont été identifiées comme des indicateurs de la réalisation du Chantier sur la littératie numérique constituant une des actions de ce plan pour les bibliothèques de Montréal. Cet intérêt venu de services extérieurs à celui des bibliothèques ont contribué à légitimer cet engagement. Les ateliers étaient aussi alignés sur le Plan stratégique des Bibliothèques de Montréal 2016-2019 qui visait à « Consolider et développer des services, des programmes et des activités de littératie numérique et technologique.»(17) .

4. Carnet de terrain : Des constats et des enjeux

Chaque atelier s’avère une occasion inédite de s’interroger sur le format, les ressources nécessaires, les finalités et les retombées du projet, afin d’en tirer des leçons et de bonifier la proposition.

a. L’espace 1 : le territoire et l’équipement. Le modèle est au départ inspiré des ateliers mobiles des voyageurs du code avec l’intention de se déplacer à chaque séance dans une nouvelle bibliothèque(18). L’hypothèse est qu’une rencontre animée par l’équipe de CSL suffira à poser les bases d’une communauté wikipédienne locale qui poursuivra ensuite de manière autonome les ateliers à la façon d’un club de lecture. Un des premiers obstacles très basiques est l’équipement dont la quantité et la qualité sont variables d'un établissement à l’autre. Les bibliothèques n’avaient pas toujours l’équipement informatique requis pour recevoir une dizaine de participants, et les usagers, même avertis d’apporter leurs propres outils (suivant la formule BYOD) ne sont pas toujours dotés d’autre chose que d’un téléphone portable. En outre, l’intention de conduire des ateliers, mais surtout de créer une dynamique d’apprentissage actif et collaboratif, amènent progressivement les organisateurs à délaisser le cadre rigide du laboratoire informatique et le format de la « classe ». Cette orientation appelle un ajustement en termes d’équipements mobiles adaptés à une configuration spatiale flexible. La solution proposée par la Direction des bibliothèques de Montréal consiste à mettre sur pied une flotte d’ordinateurs portables rangés dans des valises que transportent les bibliothécaires membres de CSL. Un projecteur portatif complète l'équipement et les bibliothèques fournissent généralement l’écran, sinon le mur blanc pour la présentation et la démonstration.

Il est apparu assez évident, toutefois, qu’une seule séance pour établir une communauté numérique était pour le moins utopique. Le modèle sédentaire et la voie de l’accompagnement sur un même site, avec un ancrage communautaire dans la durée, associé à un programme thématique basée sur une série de rencontres typiquement sur le modèle des « clubs » offrent des conditions plus favorables et productives.

b. Le temps : le programme et les heures d’ouverture. Le point précédent pose déjà un repère en matière de temporalité en privilégiant une périodicité que nous avons identifiée comme mensuelle en se fondant sur les disponibilités des participants. Par ailleurs, en considérant que ce sont des activités bénévoles qui se déroulent généralement le soir, l’enjeu des heures d’ouverture en soirée s’est posé puisque les horaires des bibliothèques à Montréal ne sont pas toujours compatibles avec cette contrainte. Pour y surseoir, les bibliothèques sont retenues en tenant compte de leur accessibilité ou, le cas échéant, en proposant une activité en dehors de leurs horaires habituels.

c. La collaboration : 1+1+1. Ces ateliers sont d’abord portés par l’engagement du collectif CSL qui constitue un premier levier de collaboration - avec son noyau de participants réguliers. L’originalité des ateliers montréalais consiste à accueillir conjointement des formateurs liés à Wikimédia et aussi à Openstreetmap (OSM), parfois eux-mêmes membres de CSL, qui diversifient la proposition en présentant aussi la cartographie libre; ce qui permet également d’accroître les publics intéressés. De plus, dans les arrondissements où l’on retrouve une société d’histoire active, les ateliers de contribution suscitent un intérêt particulier avec un désir de s’impliquer; ces organisations locales représentent un second levier de collaboration. La démarche tend à confirmer que les communautés ne se créent pas ex-nihilo mais plutôt en s’attachant aux projets des communautés d’intérêts déjà existantes sur le territoire(19). Encore faut-il que la bibliothèque, troisième levier de la collaboration, entretienne déjà des relations significatives avec des organismes culturels, éducatifs ou des groupes ayant des affinités ou des expertises spécifiques(20).

d. Le personnel : mobilisation et coapprentissage. Malgré la bonne volonté et l’intérêt manifeste d’accueillir ces ateliers par les gestionnaires des bibliothèques, la participation du personnel sur le terrain, pour différentes raisons, s’est avérée un autre enjeu notable. La première année, en dépit des invitations explicites adressées aux bibliothécaires dans les bibliothèques visitées, aucun d’entre eux n’a participé aux ateliers à l’exception de deux - et dont l’un avait été fortement incité, sinon contraint, de le faire par sa hiérarchie. Ces expériences nous ont amenés à créer une typologie en trois temps comprenant « le bibliothécaire qui ouvre la porte » (et qui se sauve); « le bibliothécaire qui dit un mot pour légitimer l’activité » (et qui se sauve - mais qui revient de temps à autres pour vérifier que tout est encore légitime); et, enfin, le bibliothécaire qui s’assoit, ce qui est un signe d’attention plus marqué, mais pour dix minutes - parce qu’il n’ose pas se sauver considérant qu’il reconnaît des collègues qui font partie du collectif.

Toutefois, les organisateurs des ateliers avaient dès le départ pour objectif d’initier au moins un membre de la bibliothèque aux rudiments de la contribution, y voyant un élément stratégique pour la pérennité des apprentissages et la mise en place d’une communauté durable. La deuxième année, cette demande est devenue une condition pour accepter de conduire un atelier dans une bibliothèque qui proposait sa candidature. Cette nouvelle condition a permis de former une dizaine de bibliothécaires dans le réseau et, en même temps, de créer les pages des bibliothèques hôtes sur lesquelles ceux-ci s’exerçaient. On peut suggérer d’expliquer cette attitude relativement peu volontariste a priori par l’état de sous-dotation affectant les bibliothèques montréalaises, autant que québécoises. Selon nous, l’enjeu était également d’ordre culturel, en termes professionnels, et découlait d’une conception de l’offre qui est abordée dans la perspective d’une prestation de services, où la bibliothèque définit son engagement communautaire, non pas sur le mode d’une approche de « planification en collaboration avec la communauté »(21), mais à partir d’un rôle instrumental ⎼ fort utile au demeurant pour ce type de programmes venus de l’extérieur mais plus limité en termes d’investissements relationnels ⎼ de « prêteuse de salle ». Les ateliers contributifs n’étaient pas assimilables, selon CSL, à un atelier comme un autre, il comportait une invitation à expérimenter une forme de médiation professionnelle négociée en commun. L’enjeu de l’engagement du personnel n’a jamais été tout à fait résolu et les activités ont été interprétées, au final, comme des situations avec une portée interculturelle où les bibliothécaires-hôtes sont appelés à expérimenter, comme les autres, le passage d’une culture de la prestation de services à une culture de la relation communautaire (community-led) et de la culture numérique, conçu en termes de participation active, de collaboration, d’échanges horizontaux, de bricolage de matériaux et de contenus pour créer des communs numériques qui émergent avec de nouveaux savoirs professionnels.

e. L’espace 2 : L’aménagement social. Cette intention relationnelle avec un parti pris pour la culture numérique était portée par un questionnement touchant le design des ateliers. Les observations et les notes de terrain indiquent trois approches, trois prototypes avec des pratiques socio-spatiales distinctes qui ont été expérimentées et qui se sont succédé dans le but d’aménager les rencontres et l’apprentissage « en commun ». Un tableau comparatif présente les caractéristiques de ces prototypes en annexe(22).

Prototype 1 : « La classe » ou le plan en rangée (voir schéma 1). Le premier dispositif adopté est celui de la salle fermée avec une organisation des participants en rangée sur le modèle de la classe. Les séances sont des formations de type magistral où les contenus sont abordés de manière aussi détaillée que possible en trois heures à peu près. Même si l’intention est de mettre en pratique les acquis, la durée de la présentation est telle que le volet atelier est généralement évacué. Les échanges, les collaborations, les contributions sont quasi absents. La conférence est donnée par les experts de Wikipédia et d’Openstreetmap. De nouvelles personnes se joignent à chaque séance bien qu’il était envisageable que des participant.e.s reviennent et suivent les déplacements des activités à travers le réseau des bibliothèques. Le modèle de la classe est aussi celui qui est privilégié à la Grande bibliothèque au même moment, et si les rencontres ne sont pas nomades, la rétention des participant.e.s est aussi faible.

Figure 1 : La classe

Prototype 2 : Le séminaire ou le plan en « U » (voir schéma 2). Le second scénario est un modèle de transition qui reflète l’intention de rompre avec le cours magistral pour se rapprocher d’un format de rencontre informel, moins centré sur le formateur, plus actif et, en ce sens, plus près de ce qui est annoncé et visé, c’est-à-dire, un atelier avec un volet “hands on”. La salle est organisée de manière à placer les tables en forme de U avec un écran et un projecteur au sommet du U pour la présentation. Les participant.e.s se côtoient, ils peuvent se voir. La rencontre prévoit deux parties d’une durée égale, soit une présentation donnée par les représentants de Wikimania Canada et de OpenStreetMap Montréal, suivie d’un atelier d’initiation. Peu à peu, une version alternative de ce modèle se met en place, ce qui représente un changement notable : ce sont les bibliothécaires membres de CSL qui commencent à prendre en charge la partie consacrée à la formation sur Wikipédia.

Figure 2 : La classe

Sans avoir procédé à une évaluation de l’impact en bonne et due forme, le critère associé au volet contributif apparaît plus conséquent, certains participants ouvrent un compte, apprivoisent les plate-formes (Wiki ou OSM), contribuent au sujet de leur choix ou à ceux qui sont proposés en lien avec des articles touchant le quartier ou la bibliothèque. Un accompagnement est pratiqué et des conversations surviennent, non seulement, par le biais des Q et R aux présentateurs, mais aussi entre les membres du CSL et les participants. Du point de vue du nombre de participants, de la rétention ou du nombre de contributions, les résultats sont à peine plus éloquents. En revanche, les apprentissages acquièrent une qualité expérientielle et suscitent un intérêt; les échanges deviennent le mode de communication qui occupent une part significative de la rencontre.

Prototype 3 : Le café ou le plan en îlot (voir schéma 3). Est-ce que l’on pourrait faire mieux « en commun » ? En faisant un retour sur les activités, en interrogeant les partenaires de Wikimédia Canada, OSM, des organismes locaux et des sociétés d’histoire, l’effort de conception suivant a porté sur les moyens d’accroître la sensibilisation aux savoirs communs, de rehausser les compétences, des participants comme celles des membres de CSL en matière d’édition. et de contribuer davantage aux données communautaires. En saisissant l’opportunité de l’invitation de la bibliothèque Mordecai-Richler de devenir des presque « wikipédien en résidence » dans le cadre de la programmation saisonnière, CSL a conçu un nouveau prototype d’atelier : le café. Cette nouvelle approche visait moins à créer et former une communauté, finalement extérieure aux formateurs-commoners que de reconnaître simplement que CSL faisait partie de la communauté en s’y identifiant ⎼ avec l’espoir que la bibliothèque ferait peut-être le même cheminement.

Figure 3 : Le café

Ce modèle met l’accent sur l’engagement de CSL lui-même dans les projets locaux tout en partageant les pratiques de commoners avec les personnes qui voudraient éventuellement se joindre : « La communauté numérique, c’est nous ». La salle est organisée en îlots de travail rapprochés qui favorise les échanges personnalisés, souvent en binôme. Il n’y a plus de cours, de formation, de conférence, seulement un mot de bienvenue avec un rappel des principes, de quelques faits, de la philosophie des savoirs libres, et la séance est consacrée à la contribution et à l’entraide qu’elle requiert presque inévitablement. C’est le design d’atelier dont les attributs s’apparentent le plus au tiers-lieu ou aux learning commons avec une approche basée sur la convivialité et les conversations qui soutiennent des apprentissages informels.

Après quelques séances dans une salle fermée, les participants réguliers de CSL ont jugé que les ateliers gagneraient à se dérouler dans un espace ouvert dans la bibliothèque, notamment parce que cette configuration pouvait favoriser différents degrés de participation. Les usagers de la bibliothèque qui y travaillaient étaient naturellement prévenus de la tenue d’un atelier dans les heures précédant celui-ci par l’entremise d’une signalisation appropriée, et ils avaient le loisir d’écouter (ou de se retrancher dans une zone plus silencieuse), éventuellement de se rapprocher, puis de se joindre aux activités. Ce qui s’est effectivement produit dans certains cas. Il n’y a pas eu plus d’usagers participants, mais pas moins. Dans un tel contexte, les participants du CSL n’étaient plus seulement présents pour donner une formation, mais pour contribuer aux pages et aux projets qui étaient à l’ordre du jour et de ce point de vue, les rencontres s’avéraient non seulement plus productives mais aussi plus satisfaisantes en termes de réalisation et d’apprentissage.

Prototype 3 : "Café"

5. Discussion : La question des retombées et de l'évaluation de l'impact

Un modèle d’atelier et l’évaluation de l’impact. Les questions de départ étaient les suivantes: Comment pourrait-on créer une communauté créatrice de savoirs communs numériques en bibliothèque ? Comment évaluer et accroître l’impact des ateliers contributifs impliquant les bibliothèques et Wikipédia - ou plus généralement, les projets soutenus par la fondation Wikimédia ? La première question a guidé l’ensemble de cette démarche expérientielle, faites d’observations et d’analyse, et a conduit à la proposition d’une série de conditions pratiques décrivant un modèle d’atelier notamment en termes socio-spatiaux : un espace ouvert, des îlots de travail pour des petits groupes, un temps consacré à la théorie réduit au minimum versus un temps dédié à la pratique étendu au maximum; un programme thématique situé avec une résonance locale; une approche orientée sur les apprenants dans un cadre informel, où tout le monde peut servir de référent et d’aide et pas seulement les formateurs en titre. Notons que CSL a introduit une contrainte supplémentaire à ce sujet en proposant une rotation chez les formateurs : la responsabilité de la présentation est attribuée à un membre différent de CSL à chaque séance, ce qui concourt non seulement à stabiliser les connaissances, mais aussi à développer des compétences d’éditeur et de médiateur numérique, ainsi qu’une confiance, en tant que wikipédien. Les membres, bibliothécaires et libristes, si l’on veut pointer des comportements, ont adopté une pratique plus régulière en matière d’édition tout en consolidant, en tant que groupe, des habitudes de travail et en rehaussant, par itération, leur capacité de communauté éditrice dont profiteront d’autres projets par la suite.

Ces retombées au final n’ont pas été celles qui au départ avaient été anticipées par le collectif. Les objectifs qui visaient à rehausser les capacités en termes de production de savoirs communs ont été réalisés principalement du côté des bibliothécaires membres de CSL, mais sans équivalent du côté des personnels des bibliothèques ou des usagers rencontrés et à peu près sans effet sur la rétention et le nombre de contributions. On ne peut pas, pour autant, nier la sensibilisation aux savoirs communs numériques et à la contribution wikipédienne effectuée à travers ces dizaines de rencontres menées auprès des bibliothécaires-hôtes et des usagers ⎼ bien que l’on ne puisse pas rapporter des effets véritablement durables. Néanmoins, les bibliothèques de l’arrondissement du Plateau (dont la Bibliothèques Mordecai-Richler fait partie) ont initié de leur propre chef quelques ateliers wikipédiens à la suite de ce programme. On peut également penser que ces interventions auront concouru à promouvoir la bibliothèque comme actrice dans l’éducation au numérique et à changer la perception de celle-ci non plus seulement comme lieu de diffusion mais comme place de création, en adoptant un rôle en amont de la chaîne de la production des connaissances ⎼ alors qu’on la situe traditionnellement plutôt à la fin(23).

Ces retombées évoquées qui témoignent d’un succès mitigé donnent à penser que les bibliothèques publiques disposent d’un réel potentiel pour se poser comme actrices de la transition numérique et médiatrice des savoirs communs, mais que de nombreux obstacles gênent encore l’adoption d’un rôle plus significatif sur ce plan. Le problème ici résiderait dans la transition entre une culture de la prestation de services en bibliothèque qui peine à s’opérer en faveur d’une approche orientée «community-led» ou «critical librarianship», les deux étant souvent interconnectées, basées sur la triade «équité-diversité-inclusion» et structurées par le développement de capacités et la participation comme leviers d’une infrastructure de justice sociale. D’autres obstacles sont identifiés tels que des mécanismes préférentiels, ancrés dans le capitalisme, favorisant des savoirs ou des produits culturels issus du monde marchand, une compréhension stratégique approximative des enjeux numériques actuels, une maîtrise inégale des outils technologiques, le manque de personnel, etc.

À partir d’ici, cette réflexion sur l’impact se poursuivra en recourant aux catégories du modèle d’évaluation de l’impact issu de Project Outcome de Public Libraries Association (PLA) qui s’intéresse à la mesure de ce qui se fait par le biais des actions de bibliothèque, plutôt qu’à la mesure de la quantité ou de la performance (soit le nombre de participants, de contributions, etc.) reliées à celles-ci(24). Les critères d’évaluation dans le cadre de Project Outcome prennent en compte i. les apprentissages, les connaissances, ii. la confiance, iii. les transformations comportementales et iv. la perception du rôle de la bibliothèque et sa promotion. L’impact des ateliers contributifs impliquant les bibliothèques et Wikipédia ⎼ et en vue de compléter la réponse à la seconde question ⎼ pourrait être accru en tirant parti du modèle d’atelier présenté ainsi qu’en mesurant les retombées à l’aide d’évaluations inspirées de l’approche de PLA. La réflexion sur la démarche décrite a été guidée par cette approche de l’évaluation de l’impact a posteriori, mais de nouvelles initiatives gagneraient à procéder à une évaluation plus formelle en situation par le biais d’un moment réservé à la fin des ateliers, permettant aux participants de répondre aux questionnaires qui sont fournis à cet effet via la méthode de PLA.

La littératie numérique et l’évaluation de l’impact. Cette approche converge avec les constats et les suggestions que l’on trouve dans la littérature, à savoir que ce n’est pas une mesure de la performance qui importe, mais plutôt les bénéfices notamment sur le plan des apprentissages liés à l’amélioration des compétences informationnelles et numériques :

In my view, the most successful edit-a-thons are not just about producing the greatest number of citations, new articles, backlinks, and image uploads. The fact is, a significant impact on the encyclopedia itself will take time and dedication from repeat contributors, not just sporadic interjections by newbies. As wonderful and fulfilling as those first edits might be in terms of meeting educational or information literacy goals, they might only gain you a handful of quality paragraphs on Wikipedia.org. And while the Wikimedia community might be tempted to try and measure success by the number of new recruits that are converted into committed contributors and editors, I’m not sure this is the only measure of success either. Edit-a-thons can be about an unquantifiable opening of minds, and learning about where Wikipedia— and, crucially, the verifiable, factual sources it cites— fit into the modern information ecosystem. Edits happen, certainly, but the best events could just as reasonably be called “learn-a-thons.”(25)

Il faut noter que l’outil d’évaluation de l’impact dans Project Outcome comporte spécifiquement un questionnaire pour évaluer les activités de médiation numérique à court terme, à moyen terme et à long terme.

Soulignons par ailleurs, en revenant sur le sujet des politiques publiques encadrant des initiatives de cette nature, que celles-ci tendent à devenir toujours plus explicites et rendre plus prégnantes leurs raisons d’être. Depuis la tenue de ces activités, la publication d’un référentiel sur la compétence numérique(26) ainsi qu’une volonté de soutenir « l’éducation au numérique »(27) dans une perspective nationale ainsi que, incidemment, la promotion des ressources éducatives libres, offrent de nouveaux appuis qui interpellent directement les bibliothèques publiques.

L’agenda 2030 et l’évaluation de l’impact. Selon Lankes, comme nous avons vu ci-dessus, la mission de la bibliothèque consiste à faciliter la création de savoirs dans les communautés - un énoncé fortement aligné sur un projet de création de savoirs communs numériques - avec cette finalité qui l'accompagne et visant à «améliorer la société». Or, cette finalité gagne aujourd’hui à être mise en rapport et explicitée en se fondant sur le programme de l’agenda 2030 des Nations-Unis et les 17 objectifs de développement durable (ODDs) qui le composent.(28)

Déjà promoteur de la médiation wikipédienne, l’IFLA est aussi activement impliquée dans la réalisation des objectifs de cet agenda(29). Selon les initiatives, les ateliers wikipédiens sont susceptibles de figurer parmi les actions visant l’atteinte de ces ODD comme par exemple, l’objectif 2 pour une « éducation de qualité », et visant la réduction des barrières à l’accès ou l’objectif 16 touchant « la paix, la justice et les institutions efficaces » en lien avec la lutte contre les fausses nouvelles, ou encore l’objectif 17 en favorisant « les partenariats pour la réalisation des objectifs » et en soulignant les liens créées entre les communautés, et pour les communautés, par l’entremise de ces projets.

Les objectifs de développement durable de l’agenda 2030 comportent un ensemble de cibles auxquelles sont rattachés des indicateurs élaborés pour l’évaluation de l’impact et qui peuvent être mis à contribution à cette fin comme au service de la seconde question (accroissement de l'impact des bibliothèques).(30)

6. Conclusion : D’autres expériences et pistes d’action pour les savoirs communs

Nous avons exploré un modèle d’atelier numérique avec ses avantages, en termes de mise en capacité de création de savoirs communs par la contribution wikipédienne, et ses limites, quant à l’adhésion du personnel des bibliothèques-hôtes ou même de leurs usagers. Ses obstacles, avons-nous suggéré, pourraient être atténués en privilégiant certains aménagements socio-spatiaux, mais surtout un engagement communautaire intentionnellement participatif.

À la lumière de cette démarche expérientielle, d’autres pistes, dans cette mouvance, peuvent encore être pointées. D’abord, par l’entremise des associations et des écoles en sciences de l’information et des bibliothèques, il importe de continuer à discuter des opportunités de ces collaborations entre les bibliothèques et Wikipédia tout en encourageant les activités d’apprentissage et les ateliers contributifs avec des wikipédiens; de promouvoir activement les projets locaux visant à documenter et valoriser et relier les données culturelles, sociales, communautaires, historiques, territoriales; de conduire ce plaidoyer en l’insérant dans le cadre de l’agenda 2030 et d’une responsabilité socio-environnementale assumée de la part des bibliothèques. Un projet wikipédien peut, à ce titre, être abordé à la façon d’un projet-pilote permettant d’expérimenter les approches de type «community-led», où la relation et la participation avec les groupes locaux sont abordées comme des leviers critiques pour la planification, la programmation et aussi la transformation.

Dans cette perspective, et pour concrétiser cette proposition, que ce soit, par exemple, dans le cadre de la Journée du livre et du droit d’auteur ou d’autres événements, la création et l’enrichissement des contenus des pages des créateurs et créatrices, de leurs œuvres, des listes afférentes liées à la culture locale, montréalaise et québécoise offrent des avenues de collaboration qui sont étroitement en phase avec la mission séculaire des bibliothèques(31). Cette contribution aux communs de la connaissance doit s’étendre à Wikidata. Cette base de connaissances ouverte, qui centralise en données structurées, ouvertes et liées, les données créées à travers une diversité de langues et de cultures, permet, non seulement de maintenir l’information à jour à travers l’ensemble des versions linguistiques de Wikipédia, mais aussi d’assurer la présence des cultures et des savoirs locaux, voire leur existence et leur coexistence, au sein de l’environnement numérique. Et sans revenir à des questions de performance, ou de nombre de contributions ou de contributeurs, l’engagement collaboratif et la responsabilité partagée des bibliothèques publiques en réseau, de même que l’accompagnement à cette littératie des données auprès des créateurs et de leurs publics, pourraient faire une différence dans la découvrabilité de la culture locale et nationale en étendant l’accès de ces mondes à découvrir parmi les mondes connectés.

Un autre exemple de projet pourrait consister à créer une collaboration 1+1+1 en bibliothèque impliquant des wikipédiens et des groupes locaux ou des scientifiques qui sont actifs sur le plan de l’engagement écologique. Cette alliance visant à consolider la littératie à la fois numérique et environnementale, pourrait porter cette fois sur la création des articles ou l’enrichissement des contenus liés aux savoirs rattachés à ces enjeux et discutés par les climato-sceptiques. En tablant non pas sur les nuisances des innovations technologiques, mais sur le potentiel participatif de la culture numérique dans la production des contenus, leur mise en réseau et leur valorisation à grande échelle, de telles initiatives pourraient avoir des retombées politiques significatives à l’heure de la crise climatique(32). Dans cette convergence des transitions, si l’on retient ces discours, qui se jouent sur les savoirs communs, la capacité numérique des bibliothèques publiques dans une perspective autant locale, que nationale et internationale, pourrait avoir un impact non négligeable sur l’atterrissage des humains et des non-humains dans un monde durablement habitable(33).

Annexe 1

Tableau comparatif des caractéristiques des trois prototypes

Notes

(1)Dans la perspective des travaux de Donald Schön sur l’épistémologie professionnelle : The Reflective Practitioner: How professionals think in action. London: Temple Smith, 1983.

(2)Au moment de cette démarche expérientielle, j’étais bibliothécaire dans les bibliothèques de Montréal et membre du collectif du Café des savoirs libres (CSL), c’est à partir de ce double point de vue et sur la base des compte-rendus des ateliers wikipédiens de CSL que la narration est construite. Je remercie François Charbonnier, bibliothécaire et membre du CSL, avec qui le travail de synthèse relié à cette démarche expérientielle a été mené et dont certains résultats ont été présentés à l’occasion de la conférence Wikimania 2017 à Montréal :https://upload.wikimedia.org/wikipedia/commons/7/76/Pr%C3%A9sentation_wikimania_CSL_11092017fin.pdf. Je voudrais aussi remercier Pascale F. Chartier, Pierre Choffet, Marina Gallet, Danielle Noiseux, Josée Plamondon, membres réguliers du CSL, et Benoit Rochon, de Wikimédia Canada, qui ont participé et signficativement contribué à ce projet.

(3)Les premiers articles sur Wikipédia dans la littérature savante remonteraient à 2004.“The sum of all human knowledge”: A systematic review of scholarly research on the content of Wikipedia http://onlinelibrary.wiley.com/doi/10.1002/asi.23172/full /

(4)https://en.wikipedia.org/wiki/Wikipedia:GLAM/About

(5)https://fr.wikipedia.org/wiki/Jean_Talon

(6)https://commons.wikimedia.org/wiki/Category:Journ%C3%A9e_contributive_%C3%A0_l%27Universit%C3%A9_Laval,_Qu%C3%A9bec

(7)http://mile-end.qc.ca/2013/03/journee-contributive-le-mile-end-dans-wikipedia/ et https://fr.wikipedia.org/wiki/Projet:Quartier_Mile_End

(8)https://fr.wikipedia.org/wiki/Wikip%C3%A9dia:Mois_de_la_contribution/2013/Montr%C3%A9al et https://commons.wikimedia.org/wiki/Category:Journ%C3%A9e_contributive_Acfas_-_BAnQ

(9)http://www.banq.qc.ca/activites/wiki/wiki-mardi.html et https://fr.wikipedia.org/wiki/Wikip%C3%A9dia:BAnQ/Mardi,_c%27est_Wiki_!

(10)https://fr.wikipedia.org/wiki/Wikip%C3%A9dia:Caf%C3%A9_des_savoirs_libres. Toutes les activités ne sont pas documentées sur la page projet du CSL.

(11)Le projet Savoirs communs du cinéma de la Cinémathèque québécoise : https://scc.hypotheses.org/1351

(12)Une étude rapporte que 96% des instructeurs dans les milieux universitaires estiment que Wikipédia est plus utile pour enseigner la littératie de l’information que les exercices traditionnels. https://blog.wikimedia.org/2017/06/19/wikipedia-information-literacy-study/

(13) https://www.ifla.org/files/assets/hq/topics/info-society/iflawikipediaandpubliclibraries.pdf et https://www.ifla.org/node/11131

(14)Les événements #1lib1ref se déroulent même depuis quelques années à raison de deux fois par an.

(15)Lankes, R.D. (2016) Expect More.

(16)Dujol, Lionel (ed.). 2017. Communs du savoir et bibliothèques. Paris : Éditions du cercle de la librairie.

(17) http://bibliomontreal.com/abonnez-vous/wp-content/uploads/2018/03/plan_strategique_bibliotheques_mtl_20162019.pdf

(18)Les Voyageurs du code offrent des ateliers mobiles qui se constituent comme des communautés numériques. http://voyageursducode.fr/

(19)Leveraging Wikipedia : Connecting Communities of Knowledge, edited by Merrilee Proffitt, American Library Association, 2018, p.37

(20)Autrement, on peut le voir comme une occasion de créer ces liens dans l’esprit des bibliothèques dirigées par la communauté mais cette capacité communautaire est inégalement répartie dans l’approche et la culture des bibliothèques du réseau, ce qui est un enjeu.

(21)Selon l’approche de planification en collaboration avec la communauté que l’on retrouve dans la trousse d’outils également connue sous le nom de « Working Together » qui sert de référentiel pour la bibliothéconomie canadienne : https://www.vpl.ca/working-together-community-led-libraries-toolkit.

(22)Cette réflexion sur les prototypes a été amorcée dans le cadre d’une présentation réalisé avec François Charbonnier, bibliothécaire et membre du CSL, dans le cadre de la conférence Wikimania à Montréal en 2017 : https://upload.wikimedia.org/wikipedia/commons/7/76/Pr%C3%A9sentation_wikimania_CSL_11092017fin.pdf

(23)Voir à ce sujet : Berthiaume, G. (2020). “If You Want to Go Far, Go Together: The Collaboration among the GLAM Community in Canada (2016–2019).” Research Library Issues, no. 300 : 10. https://doi.org/10.29242/rli.300.2.

(24)Project Outcome : http://www.ala.org/pla/initiatives/performancemeasurement

(25)Merrilee Proffitt, ed. (2018). Leveraging Wikipedia : Connecting Communities of Knowledge, American Library Association.

(26)MEES. Cadre de référence sur la compétence numérique : http://www.education.gouv.qc.ca/references/tx-solrtyperecherchepublicationtx-solrpublicationnouveaute/resultats-de-la-recherche/detail/article/cadre-de-reference-de-la-competence-numerique/

(27)https://www.cse.gouv.qc.ca/wp-content/uploads/2020/11/50-0534-SO-eduquer-au-numerique.pdf

(28)Programme des Nations-Unies pour le développement. https://www.undp.org/content/undp/fr/home/sustainable-development-goals.html

(29)IFLA. Libraries, Development and the United Nations 2030 Agenda : https://www.ifla.org/libraries-development.

(30)Cadre mondial d’indicateurs relatifs aux objectifs et aux cibles du Programme de développement durable à l’horizon 2030. https://unstats.un.org/sdgs/indicators/Global%20Indicator%20Framework_A.RES.71.313%20Annex.French.pdf ou https://sdg.humanrights.dk/fr/goals-and-targets

(31)https://fr.wikipedia.org/wiki/Mile_End_(Montr%C3%A9al)#Livres et https://fr.wikipedia.org/wiki/Outremont#Fictions_dont_l.27action_se_situe_.C3.A0_Outremont_.28ou_qui_r.C3.A9f.C3.A8rent_.C3.A0_Outremont.29

(32)Monnoyer-Smith, L. (2017). Transition numerique et transition ecologique. Annales des Mines - Responsabilité et environnement, 87(3), 5-7. https://doi.org/10.3917/re1.087.0005

(33)Pour reprendre l’esprit du titre et le propos de Bruno Latour dans Où atterrir ? Comment s'orienter en politique. Éditions La Découverte.

Publié par Ressi

Vous devez vous connecter pour poster des commentaires

L’océrisation d’imprimés anciens : les sciences de l’information au service des Humanités

Ressi — 22 décembre 2020

Florence Burgy, Haute Ecole de Gestion, Genève

Résumé

Cet article présente un projet de recherche, en collaboration avec le Bodmer Lab, qui a consisté à océriser des imprimés latins de la Renaissance, afin d’en obtenir une transcription et de la rendre explorable par la recherche plein texte.

Quatre logiciels d’océrisation gratuits et open source ont été testés, avec comme métriques la précision, le rappel, et la F-mesure (F1) au niveau des caractères et au niveau des mots. Tesseract et OCR4all étaient les plus performants, mais ce dernier présentait un problème technique qui rendait son utilisation complexe. Tesseract, qui présentait alors une F1 de 78.62% (caractères) et 31.78% (mots) a donc été retenu pour la suite du projet.

Différentes méthodes ont été testées pour améliorer les résultats obtenus. Toutes les méthodes n’étaient pas nécessairement efficaces, mais grâce à certaines, une F1 de 80.06% au niveau des caractères et de 34.58% au niveau des mots a pu être obtenue.

Abstract

This article presents a research project, in collaboration with Bodmer Lab, which consisted of using an OCR software on Latin prints from the Renaissance, in order to obtain a transcription and make it explorable through full-text research.

Four free and open source OCR software were tested, with accuracy, recall, and F-measurement (F1) at character and word level as metrics. Tesseract and OCR4all were the best performers, but the latter presented a technical problem that made its use complex. Tesseract, which at the time had an F1 of 78.62% (characters) and 31.78% (words) was therefore chosen for the rest of the project.

Different methods were tested to improve the results obtained. Not all methods were necessarily effective, but thanks to some of them, an F1 of 80.06% at character level and 34.58% at word level could be obtained.

Zusammenfassung

Dieser Artikel stellt ein Forschungsprojekt in Zusammenarbeit mit dem Bodmer-Lab vor, das darin bestand, ein OCR-software mit lateinischen Drucken aus der Renaissance zu benutzen, um eine Transkription zu erhalten und sie durch Volltextforschung erforschbar zu machen.

Vier freie und open source OCR software wurden getestet, wobei Genauigkeit, Rückruf und F-Messung (F1) auf Zeichen- und Wortebene als Metriken verwendet wurden. Am besten schnitten Tesseract und OCR4all ab, wobei letzteres ein technisches Problem aufwies, das seine Anwendung komplex machte. Daher wurde Tesseract, das zu diesem Zeitpunkt einen F1 von 78,62% (Zeichen) und 31,78% (Wörter) hatte, für den Rest des Projekts gewählt.

Es wurden verschiedene Methoden getestet, um die erzielten Ergebnisse zu verbessern. Nicht alle Methoden waren notwendigerweise effizient, aber dank einiger von ihnen konnte eine F1 von 80,06% auf Zeichenebene und 34,58% auf Wortebene erreicht werden.

Mots-Clés:

Humanités numériques, OCR, Reconnaissance Optique de Caractères, Intelligence Artificielle, Bodmer Lab, Tesseract

L’océrisation d’imprimés anciens : les sciences de l’information au service des Humanités

1. L’imprimeur et la machine

1.1. Les Humanités numériques

« Allier les humanités à l’informatique ou aux technologies numériques. » : comme l’explique Pierre Mounier dans son ouvrage daté de 2018, il ne s’agit pas là d’une idée neuve. On pourrait en effet en observer des applications dans les années 1960-1970 déjà, voire dès la fin de la seconde guerre mondiale (Mounier 2018), mais c’est avec la démocratisation de l’informatique et le développement des sciences de l’information que cette idée et sa mise en application ont commencé à s’imposer globalement. Ces pratiques sont très variées, couvrant toutes les étapes de la recherche, de la création, du traitement et de la gestion de données à la valorisation de résultats et de documents sources. L’expression « Humanités numériques », « Digital Humanities » en anglais, née tardivement, au début des années 2000 (Mounier 2018), apparaît donc comme un « big tent », un vaste terme englobant un très grand nombre d’usages et de techniques (Terras 2016).

En Suisse romande, cette évolution a notamment été marquée par l’ouverture du DHLAB de l’EPFL par Frédéric Kaplan en 2012 (EPFL 2020), auquel sont liés des cursus de formation Bachelor, Master et PhD, ainsi que par la création d’une chaire en Humanités numériques à l’Université de Genève en 2019 (Université de Genève 2020). En parallèle, et depuis 2014, un autre projet fait beaucoup parler de lui : le Bodmer Lab.

1.2. Le Bodmer Lab et la collection de Bry

Le Bodmer Lab se définit comme “un projet de recherche et de numérisation issu d'un partenariat entre l'Université de Genève et la Fondation Martin Bodmer” (Bodmer Lab 2019), dont l’objectif est de rendre accessible à un large public des documents provenant de la Bibliotheca Bodmeriana. Cette collection, que Martin Bodmer voulait “bibliothèque de la littérature mondiale” (Bodmer Lab 2019) au sens où l’entendait Goethe, regroupe en effet de nombreux ouvrages anciens, rares et fragiles, dont la valeur historique est unique. La numérisation de ces documents permet de les faire connaître et de les rendre exploitables par des chercheurs comme par le grand public. Un important travail de mise en valeur et de médiation complète ce processus.

Au sein de la Bibliotheca Bodmeriana, certains ensembles de documents présentent une structure suffisamment cohérente pour pouvoir être considérés comme des sortes de sous-collections. Ce fait a mené le Bodmer Lab à traiter ces ensembles, ou “constellations”, de manière indépendante et à en confier l’étude à des spécialistes des domaines concernés (Bodmer Lab 2019).

L’une de ces “constellations” est la collection de Bry, qui rassemble des récits de voyage de l’époque des Grandes découvertes. Cette collection exceptionnelle de vingt-neuf volumes illustrés par des gravures et datant des XVIe et XVIIe siècles est divisée en deux parties : les « Grands Voyages », ou India occidentalis, qui retracent l’exploration des Amériques, et les « Petits Voyages », ou India orientalis, qui concernent essentiellement les voyages en Afrique et en Asie. Ces ouvrages sont l’œuvre de l’éditeur-imprimeur liégeois Théodore de Bry (1528-1598) et de ses descendants. Ces volumes rares sortent de leur atelier de Francfort entre 1590 et 1634 et sont édités en plusieurs langues (Bodmer Lab 2019).

La première édition latine de cette collection, que la Fondation Bodmer possède dans son intégralité, est déjà numérisée et accessible en ligne sur le site du Bodmer Lab (Bodmer Lab 2019), mais il est impossible pour le moment d’y effectuer une recherche plein texte.

1.3. L’océrisation : un enjeu des Humanités numériques

Cette problématique est directement liée à un enjeu majeur des Humanités numériques : l’océrisation. De l’acronyme OCR, pour Optical Character Recognition, reconnaissance optique de caractères en français, il s’agit d’une technologie qui permet d’identifier des caractères dans un document numérisé au format image et de les extraire dans un format texte lisible par un humain comme par une machine, de manière totalement automatisée.

Si certains logiciels permettent aisément cette conversion avec des documents récents, cette tâche est rendue bien plus ardue avec des documents anciens. En effet, l’état du papier et de l’encre, la grande variété des polices de caractères et des mises en page et la méthode de numérisation sont parmi les éléments qui influent sur les performances d’un logiciel.

La collection de Bry est un exemple intéressant de document pour lequel un simple logiciel OCR ne suffit pas. Après un état de l’art de la technologie OCR, le présent article présente les méthodes et résultats d’un projet de recherche visant à tester différents logiciels d’océrisation afin de sélectionner le mieux adapté à ladite collection, Tesseract, puis à l’entraîner et à en optimiser les paramètres dans le but d’obtenir une transcription automatique au plus proche de l’original, avec un objectif de 95% de caractères et mots corrects.

2. OCR : un état de l’art

Le présent état de l’art s’articulera selon deux axes. Le premier présentera la technologie OCR dans son état actuel, en retraçant brièvement son histoire, en expliquant son fonctionnement et en présentant des méthodes d’évaluation des logiciels OCR. Le second axe présentera les développements récents dans le domaine de l’océrisation, et se focalisera plus précisément sur la problématique des documents anciens et des langues anciennes.

2.1. OCR – une technologie mature

2.1.1. Origines et développement de l’OCR

La technologie connue sous le nom d’OCR a vu le jour dans la première moitié du XXème siècle. Malgré de premiers développements intéressants, l’idée de créer des machines capables de lire les caractères et les chiffres est restée un rêve jusque dans les années 1950 (Mori, Suen, Yamamoto 1992). C’est à cette époque que l’OCR trouve son marché et se développe non seulement comme technologie mais comme produit commercial, sous l’impulsion, entre autres, de David Shepard, fondateur de Intelligent Machines Research Corporation (Nagy 2016).

Les progrès dans ce domaine sont rapides, et il serait impossible de citer les nombreuses recherches entreprises au cours des soixante dernières années. Mentionnons cependant la machine de Jacob Rabinow, développée dans les années 1960 et permettant de lire et trier les adresses postales américaines, et celle de Kurzweil, dans les années 1970, permettant la reconnaissance et la lecture de textes aux aveugles (Nagy 2016). Un historique plus complet des développements dans ce domaine à cette époque se trouve dans l’ouvrage de Herbert F. Schantz, The history of OCR, optical character recognition (Schantz 1982). Notons en outre que, dans un article proposant un panorama de l’évolution des technologies de l’information dans les années 1990, le développement des OCR est mentionné parmi les progrès importants (Bowers 2018).

Plus proche de nous, le projet de numérisation Google Books, entamé en 2004, a permis une grande reconnaissance de la technologie OCR et des possibilités qu’elle offre (Nagy 2016). En 2005, la mise à disposition du premier logiciel OCR libre, Tesseract (Smith 2007), ouvre la voie à une large diffusion de cette technologie (Blanke, Bryant, Hedges 2012).

Depuis, de nombreux projets de recherche dans ce domaine ont vu le jour, mais il est important de mentionner le plus influent au niveau européen, IMPACT. Ce projet à financement européen lancé en 2008 vise à proposer des outils et des méthodes de travail permettant l’océrisation de documents historiques numérisés avec un très haut niveau de précision (Balk, Ploeger 2009). L’aboutissement principal de ce projet est la création du centre de compétences IMPACT (IMPACT 2013) qui propose des outils, des lexiques et des numérisations pouvant servir de données d’entraînement.

2.1.2. Fonctionnement et perfectionnement

Avant l’océrisation, une numérisation de qualité est indispensable. Il est habituellement recommandé de choisir un format TIFF non compressé et de préparer les numérisations, en rognant les parties sans texte des images, par exemple (Zhou 2010), ceci afin de simplifier le travail de l’OCR. En outre, il existe des méthodes d’évaluation automatique des numérisations, permettant d’assurer une précision optimale des OCR (Brener, Iyengar et Pianykh 2005).

L’océrisation à proprement parler se déroule en quatre phases : le prétraitement, ou preprocessing, la segmentation, ou layout analysis, la reconnaissance, ou recognition, et le post-traitement, ou post-processing (Blanke, Bryant, Hedges 2012). La première phase consiste essentiellement à supprimer le bruit puis binariser pour distinguer les caractères (valeur des pixels 1) du fond (valeur des pixels 0). La seconde permet de repérer les lignes de textes et de délimiter les caractères. La troisième implique une extraction et une classification des features pour reconnaître lesdits caractères (Anugrah, Bintoro 2017), et la dernière phase consiste à corriger l’output pour diminuer le taux d’erreurs (Blanke, Bryant, Hedges 2012).

Pour cette dernière phase, plusieurs méthodes sont utilisées. Le machine learning, ou apprentissage supervisé, est rapidement apparu comme une solution efficace. Un article de 1992 précise déjà que l’usage du machine learning a permis aux auteurs de corriger 46% des erreurs d’océrisation avec un taux de précision de 91% sans intervention humaine (Sun et al. 1992).

De nos jours, le machine learning demeure l’une des solutions les plus recommandées pour la correction, souvent couplée avec l’utilisation de modèles de langue et de dictionnaires (Kissos, Dershowitz 2016). Ces deux procédés nécessitent néanmoins la présence de données d’entraînement fiables, c’est-à-dire des textes numérisés du même type et océrisés parfaitement, les ground truth. Certains chercheurs ont cependant tenté de proposer des méthodes de correction en l’absence de ground truth, basées notamment sur le traitement de l’information contextuelle, avec des résultats plutôt satisfaisants (Ghosh et al. 2016).

Des méthodes plus récentes proposent l’usage d’apprentissage statistique (Mei et al. 2018) ou encore de la distance de Levenshtein, qui permet de mesurer la différence entre des chaînes des caractères (Hládek et al. 2017). Un outil open source développé dans le cadre du projet IMPACT, PoCoTo, permet d’accélérer le repérage et la correction d’erreurs sur la base de modèles de langues correspondants (Vobl et al. 2014).

Des démarches moins techniques, mais non moins demandeuses en matière de ressources humaines, sont également en usage, tel le crowdsourcing, qui permet d’impliquer des volontaires pour corriger les erreurs de l’OCR (Clematide, Furrer, Volk 2016). Ce crowdsourcing peut prendre des formes diverses, à l’image des jeux créés par la Biodiversity Heritage Library et testés avec succès (Seidman et al. 2016) En Suisse, la plateforme e-newspaperarchives.ch propose une fonctionnalité de correction d’OCR.

2.1.3. Évaluation des performances

Dans un projet d’océrisation, il est essentiel d’évaluer les performances des logiciels OCR afin de sélectionner le mieux adapté et/ou d’optimiser celui sélectionné. Dans les années 1990 déjà, une équipe de l’Information Science Research Institute publiait annuellement les résultats de tests de précision des logiciels OCR disponibles sur le marché à l’époque. Leur méthode consistait à océriser un échantillon aléatoire de documents de différentes natures (journaux, textes de lois etc.) et en différentes langues afin d’estimer lequel présentait le moins d’erreurs.

La métrique principale utilisée dans leurs recherches est la précision des caractères, selon le calcul suivant : , où n représente le nombre de caractères de l’output (Rice, Jenkins, Nartker 1996).

Cette métrique est encore utilisée de nos jours et enrichie. Un article de 2018 (Karpinski, Lohani, Belaïd 2018) propose en effet les calculs suivants :

Erreurs = caractères ajoutés + caractères omis + caractères substitués.

Caractères corrects = caractères de l’output – erreurs.

Précision = caractères corrects / caractères dans l’output (Hypothesis zone). Il s’agit de fait de la métrique utilisée par l’Information Science Research Institute présentée ci-dessus

Rappel = caractères corrects / caractères dans l’input (Reference zone).

Ces mêmes calculs peuvent être étendus aux mots entiers afin de déterminer si la segmentation a été effectuée correctement (Saber et al. 2016).

Pour permettre de faire la balance entre précision et rappel, la moyenne harmonique de ces métriques, nommée « F-mesure », ou F₁, a également été utilisée. Elle se calcule ainsi :

où est la précision et le rappel (Sasaki 2007).

Ceci permet en effet de prendre ces deux métriques en compte au sein d’un seul calcul (Bao, Zhu 2014). Un outil open source, ocrevaluation, a été développé pour permettre d’automatiser ces calculs sur la base des ground truth et des outputs proposés par l’OCR sélectionné (Carrasco 2014).

2.2 OCR - un champ de recherche en mouvement

2.2.1. Réseaux neuronaux artificiels

Parmi les avancées récentes dans le domaine de l’océrisation, l’utilisation de réseaux neuronaux artificiels est en pleine expansion. Le machine learning, au sens d’apprentissage supervisé, est déjà une pratique bien établie dans le domaine, mais l’usage d’apprentissage non-supervisé permet de nouveaux progrès.

En 2014 déjà, un article propose un état de l’art de l’usage des réseaux de neurones pour le prétraitement des documents avant océrisation (Rehman, Saba 2014). Cette technologie permet en effet de faciliter le repérage des lignes de textes, la segmentation et l’extraction de features, mais à l’époque de cet article, de nombreux problèmes se posent encore quant à ses limites, et au temps et à la masse de données d’entraînement nécessaires à son bon fonctionnement.

Un article de 2016 propose l’utilisation de la back propagation avec descente du gradient, qui permet de limiter la répercussion des erreurs. Dans cet article, les réseaux neuronaux sont essentiellement utilisés pour la classification et la reconnaissance des caractères à partir des pixels, et les résultats sont très positifs avec les caractères alphanumériques anglais. Les auteurs soulignent cependant que, dans le cas d’autres écritures, et entre autres celles présentant des ligatures entre les lettres, les résultats sont peu satisfaisants (Afroge, Ahmed, Mahmud 2016).

Dans un article de 2017 cité plus haut, des réseaux neuronaux sont également utilisés pour l’extraction de features et la classification, et les auteurs recommandent de procéder à une réduction du bruit au préalable pour réduire le temps d’entraînement du réseau neuronal et améliorer ses performances (Anugrah, Bintoro 2017).

Enfin, un article de 2019 présente un exemple d’ICR, pour intelligent character recognition – un OCR spécialement entraîné pour reconnaître les textes manuscrits – qui utilise un CNN, ou convolutional neural network, un type de réseau neuronal utilisé surtout pour la reconnaissance d’images non-textuelles. Cette technologie permet en effet de reconnaître une plus grande variété de caractères et de signes de ponctuation, d’après les auteurs (Ptucha et al. 2019).

Bien que les technologies présentées ici n’ont pas pu être utilisée dans le cadre du projet présenté ci-après, elles demeurent un champ de recherche que de futurs projets devront prendre en compte autant que possible.

2.2.2. Multilinguisme et systèmes d’écriture divers

L’un des domaines dans lesquels l’océrisation avance considérablement est la grande variété de langues et de formes d’écritures pour lesquelles un OCR peut proposer des résultats satisfaisants. Certaines langues non-européennes, comme le japonais ou le mandarin, ont très vite trouvé leur place au sein de la recherche dans ce domaine, du fait du vaste marché possible. D’autres, moins répandues ou moins connues des chercheurs, ne reçoivent de l’attention que depuis peu.

C’est le cas, par exemple, des langues d’Inde, comme l’odia (Dash, Puhan, Panda 2017), le bangla, le devanagari, le tamoul etc. (Kumar et al. 2018). D’autres, comme l’arabe et le farsi, sont des objets de recherche depuis longtemps, mais nécessite encore du travail du fait de la complexité de leur système alphabétique et numérique (Amin Shayegan, Aghabozorgi 2014 ; Alghamdi, Teahan 2017). Il en est de même pour le finnois, dont la richesse des inflexions rend les résultats des OCR encore parfois hasardeux (Järvelin et al. 2016).

Ces langues ont cependant l’avantage d’être dotées d’une production écrite riche, offrant une abondance de données d’entraînement. D’autres, comme le yiddish et l’occitan, présentent une faible quantité de données disponibles. Dans ce type de cas, la création de lexiques et l’établissement de traits spécifiques des langues et des caractères en amont est conseillé, afin d’améliorer les résultats de l’apprentissage supervisé (Urieli, Vergez-Couret 2013).

2.2.3. Documents historiques et langues anciennes

Imprimés anciens

L’océrisation de documents historiques est l’un des champs de recherche phares dans le domaine. En effet, les imprimés anciens présentent de grandes variations quant aux typographies utilisées, et l’usage ou non de ligature ainsi que l’état général du document sont des éléments pouvant limiter les performances des OCR.

Dans un article de 2015, la Bibliothèque Nationale d’Autriche présentait ses projets « Austrian Books Online », « Austrian Newspapers Online » et « Europeana Online », des projets de numérisations et d’océrisation permettant la recherche plein-texte dans des documents historiques. Parmi les problèmes rencontrés, les auteurs notent l’utilisation contrainte de lexiques et modèles de langue modernes, mal adaptés à ce type de documents n’ayant pas de modèles de langues anciennes à disposition. Ils notent cependant que le projet IMPACT, mentionné plus haut, a entre autres permis de reconnaître l’importance de l’implémentation de lexiques et de modèles de langues anciennes adaptés. L’OCR seul ne peut pas tout faire (Kann, Hintersonnleitner 2015).

S’assurer que l’OCR est entraîné avec des données adéquates est donc indispensable, qu’il s’agisse de données linguistiques, au point de faire intervenir la technicité de la linguistique de corpus (Tumbe 2019), ou de signes d’écriture. En effet, certaines langues ont subi une évolution rapide de leur système d’écriture au cours de leur histoire. Un article de 2016 présente le cas d’imprimés roumains produits entre le XVIIIème et le XXème siècle, dont l’écriture a beaucoup évolué, passant du cyrillique à différentes versions simplifiées de cet alphabet, puis enfin à l’écriture latine.

Là aussi, l’entraînement de l’OCR s’est fait à l’aide de données spécifiques – des lettres cyrilliques et latines roumaines des différentes époques concernées. Sans ces données, les performances du logiciel étaient fort limitées (Cojocaru et al. 2016).

Très récemment, un projet de l’Université de Würzburg en Allemagne a abouti à la création d’un logiciel libre, OCR4all, spécialement conçu pour traiter des imprimés anciens (Jost 2019). Cet outil a fait partie de ceux testés dans le cadre du projet présenté ici.

Manuscrits

La problématique des écritures se posent d’autant plus dans le cas de textes manuscrits, qui présentent de nombreuses difficultés pour les chercheurs dans le domaine de l’océrisation, et pour les humanités numériques en général.

Dominique Stutzmann, chargée de recherche à l’Institut de recherche et d’histoire des textes (IRHT), écrivait en 2017 que « [l]es années qui s'ouvrent sont certainement celles d'une interaction intense, aux bénéfices réciproques, entre l'homme et la machine en paléographie » (Stutzmann 2017), la paléographie étant l’étude et la transcription de manuscrits anciens.

En effet, beaucoup de chercheurs se penchent actuellement sur la question, et une compétition a même été organisée pour stimuler la recherche dans le domaine de la paléographie numérique. Un article de 2017 en retrace le déroulement, les méthodes développées dans ce cadre et les résultats, plutôt positifs (Kestermont, Christlein, Stutzmann 2017).

Un article plus récent encore se penche sur Transkribus, une plateforme libre de HTR, ou handwritten text recognition, et en démontre l’efficacité, dans le cas du corpus testé du moins (Muehlberger et al. 2019). La paléographie numérique a de beaux jours devant elle.

Langues anciennes : le cas du latin

Ne pouvant aborder le cas de toutes les langues anciennes, nous nous focaliserons sur le latin, et plus spécifiquement le latin de l’époque moderne, ou Early Modern Latin, car il s’agit de la langue qui concerne le projet de recherche présenté dans cet article.

Du fait de son corpus extrêmement riche, le latin est une langue ancienne qui a depuis longtemps intéressé les chercheurs dans le domaine de l’océrisation. En 2006 par exemple, un article signale que les OCR de l’époque ne sont pas adaptés au traitement de cette langue, et propose l’implémentation de modèles de langue spécifiques, une solution déjà mentionnée plus haut (Reddy, Crane 2006).

Une problématique propre au latin, qui concerne également notre projet, est celle des abréviations. En effet, il est très fréquent de rencontrer des abréviations dans les textes latins, manuscrits comme imprimés. Par exemple, « dns » peut remplacer dominus, le seigneur, ou encore un tilde sur une voyelle signale généralement qu’elle est suivie d’un « m » ou d’un « n ». Un logiciel OCR ne peut pas a priori traiter ce type de cas. Pourtant, un article de 2003 propose déjà une solution, via un algorithme permettant de déterminer les résolutions possibles d’une abréviation et de sélectionner la meilleure en fonction du contexte (Rydberg-Cox 2003).

Actuellement, certains outils tentent de répondre à ces problèmes en se spécialisant dans le traitement de textes anciens, comme OCR4all mentionné plus haut, voire dans les textes latins, comme Latinocr.org, qui propose des jeux de données d’entraînement.

3. Tests de logiciels OCR

La première partie du projet consistait à tester différents logiciels d’océrisation open source afin de déterminer lequel offrait les meilleurs résultats sans post-correction. Ce chapitre présente cette phase du projet.

3.1 OCR sélectionnés

Pour des raisons de faisabilité, il n’était pas possible de tester tous les logiciels OCR gratuits et open source disponibles, et le choix s’est donc porté sur quatre d’entre eux. Tesseract et OCR4all ont été sélectionnés car ce sont ceux que la littérature récente mentionne le plus, et Kraken et Calamari, car ce sont les forks les plus à jour d’OCRopy, anciennement OCRopus, un projet également très présent dans la littérature.

3.1.1. Tesseract

Tesseract est un logiciel d’océrisation développé initialement par Hewlett Packard entre 1984 et 1994, puis rendu open source en 2005 (Smith 2007). Il a ensuite été repris en 2006 par Google, qui en assure depuis la maintenance et l’a mis à disposition sous la licence Apache-2.0 sur github.com/tesseract-ocr. Il a pour avantage de proposer des modèles pré-entraînés dans de nombreuses langues, avec la possibilité de combiner les modèles entre eux. Il autorise en outre la création de modèles sur la base de numérisations.

3.1.2. Kraken

Kraken est un fork du projet OCRopy, lancé en 2007 par Thomas Breuel, du Deutsches Forschungszentrum für Künstliche Intelligenz, avec le soutien de Google (Breuel 2007). Kraken est supposé rectifier certains problèmes que posent OCRopus, mais présente des fonctionnalités similaires. Comme Tesseract, il propose quelques modèles pré-entraînés et offre la possibilité d’en entraîner soi-même. Il est développé en Python, conçu pour être utilisé sur Linux, et a son site dédié : kraken.re.

3.1.3. Calamari

Le logiciel d’océrisation Calamari, lancé en 2018, est basé sur les projets OCRopy et Kraken. Il est également implémenté en Python et utilise des réseaux neuronaux artificiels pour optimiser ses résultats (Wick, Reul, Puppe 2018). Il est disponible en ligne sur github.com/Calamari-OCR.

3.1.4. OCR4all

OCR4all est un projet de l’Université de Würzburg en Allemagne lancé en 2019. Il a été conçu pour traiter les documents historiques et est doté d’une interface qui facilite son utilisation, sans que des connaissances en informatiques préalables soient nécessaires (Jost 2019). Le projet, qui intègre déjà différents logiciels, tels que Calamari et Kraken, est en cours d’intégration de Tesseract pour la reconnaissance de caractères. Il est à disposition du public sur github.com/OCR4all.

3.2. Méthodologie

3.2.1. Données d’entraînement

Le jeu de données étant composé de 29 livres numérisés contenant plus d’une centaine de pages chacun, 29 images ont été sélectionnées comme données d’entraînement, chacune extraite de l’un des 29 livres. Cette sélection, faite au hasard à l’aide d’un script Python a permis d’obtenir un échantillon de chacun des livres, ceux-ci pouvant présenter des variantes au niveau de la typographie.

Ces numérisations ont ensuite été transcrites manuellement dans des fichiers textes afin d’obtenir le ground truth, la « transcription-témoin », c’est-à-dire l’objectif à atteindre pour l’OCR. Ceci permet de mesurer les performances des différents logiciels à tester.

Ces transcriptions ont en outre été réalisées de deux manières différentes : une première transcription dite « diplomatique », au plus proche du document, et donc au plus proche des résultats qu’un logiciel OCR devrait pouvoir obtenir, et une seconde transcription dite « normalisée », qui servira de base à la post-correction.

Dans cette dernière les abréviations ont été résolues et des choix ont été faits pour simplifier la recherche et la lecture du texte. Le caractère æ a été remplacé par ae, les i et les j ont tous été remplacés par des i et les u et les v ont tous été remplacés par des u, sauf lorsqu’il s’agissait de chiffres romains. Ces choix ont été faits sur la base d’habitudes de recherches en latin et de règles d’orthographe usuelle de cette langue.

3.2.2. Logiciels et paramétrage

Pour chacun des logiciels d’océrisation choisis, les tests ont été effectués en trois phases.

La première phase consistait à tester les différents logiciels avec leur modèle standard, leurs paramètres par défaut et sans aucune modification de notre part. Ceci a permis, sur un premier test, de voir quel logiciel était le plus performant, avec ses réglages de base. Les résultats sortis étaient alors totalement bruts.

Lors de la seconde phase, d’autres modèles que ceux standards ont été testés avec différents réglages proposés par chaque logiciel. Ceci a ainsi permis de comparer les performances de chaque logiciel avec différents paramètres. Les résultats sortis ont été comparés à ceux de la phase précédente, afin de pouvoir déterminer quels paramètres avaient une influence positive sur les premiers résultats.

Lors de la troisième et dernière phase de l’évaluation des différents logiciels, un pré-traitement a été effectué sur les images de notre jeu de test, afin de les retravailler et de voir si cela permettait d’optimiser les résultats.

Toute cette phase d’évaluation a permis de comparer les modèles d’apprentissage et la qualité des outputs de chacun des logiciels, afin de sélectionner le plus performant. Ces océrisations et calculs de résultats pouvant être longs, un script de threading permettant de lancer l’océrisation de plusieurs images en parallèle a été créé, afin de gagner du temps.

3.2.3. Métriques

Pour mesurer la performance des logiciels testés, des métriques usuelles dans le domaine des Sciences de l’Information ont été utilisées, à savoir la précision et le rappel (Burgy, Gerson, Schüpbach 2020b). La moyenne harmonique, ou F₁, a également été utilisée afin de faire la balance entre les deux.

Comme il s’agit de texte, ces métriques ont été utilisées à la fois à l’échelle des caractères et à l’échelle des mots (Burgy, Gerson, Schüpbach 2020b), ceci afin de pouvoir mieux décider quelles stratégies choisir pour l’entraînement des modèles et la post-correction, en vue d’optimiser les résultats. De manière générale, il est fréquent que les résultats au niveau des mots soient moins bons qu’au niveau des caractères, car il suffit qu’un caractère soit incorrect pour que le mot entier soit considéré comme faux.

La distance de Levenshtein, qui permet de comparer deux chaînes de caractères et de repérer le nombre de caractères ajoutés, supprimés ou substitués, a également été utilisée. L’algorithme qui effectue cette opération donne en sortie une somme des erreurs (arvindpdmn, 2019), ce qui a été utile dans le calcul des métriques précédentes.

Pour obtenir un retour visuel, la librairie « difflib » qui affiche les caractères ajoutés, supprimés et substitués, a été utilisée. Cela permet de vérifier quelles parties des outputs présentent des erreurs.

Figure 1 : comparaison d’une transcription (gauche) avec un output de Tesseract (droite) grâce à la librairie "difflib"

Comparaison d’une transcription (gauche) avec un output de Tesseract (droite) grâce à la librairie "difflib"

3.3. Sélection finale

Par suite de la première phase de tests, les résultats obtenus avec Kraken et Calamari n’étaient pas satisfaisants. Avec OCR4all, les résultats étaient très bons, mais l’outil présentait un défaut problématique, à savoir qu’il tournait en boucle infinie lorsqu’il était confronté à une page blanche. Ce problème pouvant être un obstacle de taille et ralentir considérablement le travail, surtout au moment de l’océrisation de l’ensemble de la collection de Bry, le choix s’est finalement porté sur Tesseract. La totalité des tests des trois autres outils et leurs résultats sont disponibles dans le mémoire de recherche (Burgy, Gerson, Schüpbach 2020a).

4. Test en trois phases de Tesseract

4.1. Tesseract – phase 1

Dans la première phase de test avec Tesseract, le logiciel a été utilisé avec son modèle standard anglais et ses paramètres par défaut. Les premiers résultats sont déjà encourageants au niveau des caractères avec une F₁ de 76%.

Les résultats au niveau des mots sont en revanche bien plus faibles. La F₁ est de 31,4%, pour des raisons mentionnées plus haut.

Figure 2 : Tesseract – phase 1 – modèle anglais

Quelques problèmes ont cependant été repérés. Dans le cas de pages vides, par exemple, le script Python de calcul automatique des métriques ne parvient pas à comparer les deux fichiers – la transcription et l’output – et produit des résultats incohérents. Afin de calculer les différentes métriques, il faut en effet connaître le nombre de caractères corrects ainsi que le nombre de caractères du ground truth (la transcription).

Dans le cas d’une transcription ne comportant pas de texte, le nombre de caractères corrects et le nombre de caractères de la transcription seront toujours égaux à 0 et fourniront toujours un résultat de 0 (ou une erreur de division par 0). Il a donc été décidé de définir automatiquement les valeurs de la précision, du rappel et de la F₁ dans ce cas précis.

Figure 3 : numérisation d'une page blanche de la collection de Bry et output de Tesseract

Dans le cas ci-dessus, la transcription contient 0 caractères. L’OCR, lui, a trouvé 10 caractères (espaces compris), tous faux. Les calculs des différentes métriques seront alors les suivants :

P = 0/10 = 0

R = 0/0 → Division par 0 !

Dans tous les cas, les résultats des métriques donneront 0 ou une division par 0. Donc en définissant les résultats à 0, on peut limiter les risques de résultats incalculables sans fausser ces derniers.

Dans le cas de numérisations comportant des typographies différentes ou des gravures, les résultats tendent à chuter, car le logiciel peine à les traiter et cherche des caractères là où il n’y en a pas. Dans l’exemple ci-dessous, on peut voir que Tesseract a « trouvé » des caractères dans la gravure.

Figure 4 : numérisation d'une page de la collection de Bry comportant une image ; transcription et output de Tesseract

Enfin, dans la plupart des numérisations, une partie du texte de la page adjacente est visible. Tesseract tend à océriser ces caractères également, ce qui influe sur la précision. La figure ci-dessous illustre bien cette problématique, car on voit de nombreux caractères ajoutés – surlignés en vert – au début de la plupart des lignes de l’output.

Figure 5 : numérisation d'une page de la collection de Bry dont la page adjacente est visible ; transcription et output de Tesseract.

Ces observations ont été très utiles pour les phases suivantes.

4.2. Tesseract – phase 2

Dans la seconde phase, différents modèles proposés par Tesseract ont été testés, en sélectionnant des langues relativement proches du latin, à savoir les modèles allemand (deu), anglais (eng), espagnol (spa), français (fra), italien (ita), et latin (lat) bien entendu. Plusieurs de ces modèles ont été également combinés entre eux. Les résultats au niveau des caractères montrent que le modèle anglais testé dans la phase 1 se fait légèrement dépasser par la combinaison des modèles espagnol et anglais avec une F₁ de 76.32%.

Figure 6 : Tesseract – phase 2 – modèles de langues – caractères

Au niveau des mots, le meilleur modèle est le modèle latin avec une F₁ de 35.75%, suivi par la combinaison des modèles espagnol et anglais avec une F₁ de 31.51%.

Figure 7 : Tesseract – phase 2 – modèles de langues – mots

Le choix de l’ordre des modèles dans une combinaison est crucial. En effet, la combinaison espagnol/anglais offre de bien meilleurs résultats que la combinaison anglais/espagnol.

Il est également intéressant de noter que, bien que la F₁ de la combinaison espagnol/anglais soit la plus élevée, ce n’est pas forcément le cas pour la précision et le rappel. On peut voir ici que le modèle avec la précision la plus élevée est le modèle anglais tandis que le modèle avec le rappel le plus élevé est le latin.

De fait, il est frappant de voir que le modèle latin, pourtant la langue de cette édition de la collection de Bry, a un taux de rappel si élevé, alors que sa précision est la plus mauvaise de tous les modèles testés. En effet, le modèle latin gère bien moins bien les espaces blancs et les marges ainsi que les images, et ajoute beaucoup de caractères incorrects.

En outre, le modèle latin donne des résultats moins bons lorsqu’il est confronté à des typographies différentes. Cela peut s’expliquer par la manière dont ces différents modèles sont entraînés. En effet, certaines langues vivantes, comme l’anglais, permettent de créer de vastes jeux de données d’entraînement présentant des typographies variées, alors que, pour le latin, la quantité de données à disposition est moindre, et les résultats s’en ressentent (theraysmith, 2017).

Ces deux problématiques sont visibles dans l’exemple ci-dessous.

Figure 8 : comparaison d'une transcription avec un output modèle latin (centre) et modèle anglais (droite)

Dans cette phase, différents paramètres de segmentation de pages (ou psm) qu’implémente Tesseract ont également été testés :

0 = Orientation and script detection (OSD) only.

1 = Automatic page segmentation with OSD.

2 = Automatic page segmentation, but no OSD, or OCR

3 = Fully automatic page segmentation, but no OSD. (Default)

4 = Assume a single column of text of variable sizes.

5 = Assume a single uniform block of vertically aligned text.

6 = Assume a single uniform block of text.

7 = Treat the image as a single text line.

8 = Treat the image as a single word.

9 = Treat the image as a single word in a circle.

10 = Treat the image as a single character.

11 = Sparse text. Find as much text as possible in no particular order.

12 = Sparse text with OSD.

13 = Raw line. Treat the image as a single text line

Le graphique ci-dessous présente les résultats obtenus au niveau des caractères avec les six paramètres de segmentation les plus performants et le modèle anglais. On voit bien que la meilleure segmentation pour notre problème est la numéro 4 avec une F₁ de 77,84%. La 1 et la 3 viennent ensuite, avec toutes les deux une F₁ de 76,32%.

Figure 9 : Tesseract – phase 2 – psm – caractères

Au niveau des mots, les meilleures segmentations sont la 1 et la 3, avec une F₁ de 31,51%.

Figure 10 : Tesseract – phase 2 – psm – mots

Ces résultats ont permis d’aiguiller les décisions de la dernière phase.

4.3. Tesseract – phase 3

Pour la dernière phase, les meilleurs paramètres identifiés précédemment (modèle espagnol/anglais et segmentation 1 ou 4) ont été utilisés afin de vérifier si un pré-traitement sur les images permet d’améliorer les résultats.

Trois types de pré-traitements différents ont été testés :

Modification de l’image en nuance de gris (threshold)
Modification de la taille de l’image (resample)
Modification de la taille et modification en nuance de gris (full)

La méthode threshold consiste à modifier tous les pixels dépassant un certain seuil de couleur. Tout pixel plus clair que le seuil donné, 20% dans le cas présent, sera automatiquement transformé en pixel blanc. Tout autre pixel sera modifié en pixel noir.

La méthode resample consiste à rogner l’image en fonction de sa position dans le livre. Si la page est un recto (page de droite dans un livre), 400 pixels sont rognés de la gauche de l’image et 200 de la droite, et inversement si la page est un verso. Cela permet de supprimer assez facilement les pages adjacentes visibles. Néanmoins, comme les valeurs sont fixes, il est possible que le script rogne trop et qu’une partie du texte soit perdu.

La méthode full utilise les deux méthodes ci-dessus. Pour chacune de ces trois méthodes, une bordure blanche a en outre été ajoutée sur l’image, comme la documentation de Tesseract le conseille (Cimon 2019). Toutes les modifications ont été faites à l’aide de la librairie « ImageMagick », disponible sur imagemagick.org.

Les résultats obtenus montrent que ces méthodes peuvent améliorer la qualité des outputs. En effet la précision au niveau des caractères augmente de 0.9%, le rappel de 0.79% et la F₁ de 0.78%.

Figure 11 : Tesseract – phase 3 – modèle « spa+eng » – pré-traitement des images – caractères

Au niveau des mots, une légère amélioration des résultats est aussi visible. On observe une augmentation de 0.28% en précision, une perte de 1.16% en rappel et une augmentation de 0.27% en F₁.

Figure 12 : Tesseract – phase 3 – modèle « spa+eng » – pré-traitement des images – mots

Ces trois méthodes de pré-traitement sont encore naïves et méritent d’être améliorées, mais il est d’ores et déjà possible d’affirmer que le pré-traitement des images augmente effectivement les résultats.

En définitive, la combinaison des modèles espagnol et anglais avec une segmentation de type 1 ou 4 semble être la méthode la plus adaptée au problème. Un pré-traitement sur les images augmente également légèrement les résultats. À ce stade, une F₁ de 78.62% au niveau des caractères et de 31.78% au niveau des mots peut être obtenue. Il faut également noter que Tesseract est un logiciel stable, robuste et facile à utiliser qui n’a posé aucun problème de prise en main, ce qui est un avantage non négligeable.

5. Optimisation de l’océrisation

La suite de ce projet consistait à tester différentes méthodes pour améliorer les résultats de l’OCR sélectionné, Tesseract, en utilisant des techniques de pré-traitement des inputs, de post-correction des outputs, ou en utilisant des fonctionnalités du logiciel lui-même.

5.1. Méthodes

Plusieurs méthodes ont été testées :

Pré-traitement intelligent des images
Correction brute des outputs
- Transformation systématique des caractères
- Suppression de caractères indésirables
- Suppression des caractères non alphanumériques
Utilisation d’un corpus latin pour la création d’un dictionnaire
- Remplacement des mots selon une distance de modification définie
Utilisation de l’outil de post-correction PoCoTo
Création d’un modèle Tesseract personnalisé

5.2. Pré-traitement intelligent des images

Comme vu dans Tesseract – phase 3, un pré-traitement intelligent des images peut améliorer les résultats des océrisations.

Pour ce faire, un algorithme de recherche permettant de savoir si la page actuellement traitée est un recto ou un verso a été créé dans le cadre du projet. En fonction de cela, un autre algorithme, développé dans ce même cadre, va trouver la position idéale pour rogner l’image et l’effectuer à l’aide de « ImageMagick », mentionné dans Tesseract – phase 3.

L’algorithme de sélection de l’orientation de la page calcule la somme des niveaux de gris de chaque pixel de la colonne de pixels la plus à droite et la plus à gauche de l’image. La somme la plus petite permet d’indiquer si l’image est un recto ou un verso.

A priori, cet algorithme fonctionne uniquement avec le jeu de données du projet, car le Bodmer Lab a pour habitude de cadrer ses numérisations en gardant une partie de la page adjacente ainsi qu'un fond noir sur le bord opposé. Ainsi, en déterminant quel côté est “le plus foncé”, il est possible de savoir si la page est un recto ou un verso.

Sur l’image suivante, la partie droite (en rouge) comporte uniquement des pixels noirs. Un pixel noir ayant une valeur d’environ 0 (dépendant de la luminosité de la pièce au moment de la numérisation), la somme sera petite. Inversement, la partie de gauche (en vert), aura une somme bien plus élevée. On peut donc dire que cette image est un recto car la somme la plus faible est celle de droite.

Figure 13 : détection des zones à rogner selon notre algorithme dans une numérisation extraite de la collection de Bry

Lorsque l’on sait si l’image est un recto ou un verso, il faut déterminer quel pourcentage de l’image doit être rogné pour enlever le surplus de la page adjacente. Pour ce faire, un algorithme dont c’est l’objectif a été créé. Si la page est recto, l’algorithme va calculer la somme des couleurs de chaque colonne entre la gauche et le centre de l’image. Ces sommes sont stockées dans un tableau. Par la suite, l’algorithme va récupérer l’indice de la valeur la plus faible dans ce tableau. Cet indice signale l’endroit où l’image doit être rognée.

Le processus est presque le même si l’on travaille sur un verso. La seule différence réside dans le calcul des sommes des colonnes de pixels. L’algorithme ne partira pas de la gauche vers le centre mais de la droite vers le centre.

Figure 14 : image non rognée et image rognée avec bordure blanche

Ces deux algorithmes ont également été utilisés avec différents paramètres pour en créer plusieurs versions. En effet, dans certains cas, le rognage était trop important et une partie du texte était alors perdue. Pour éviter cela, il a fallu faire des tests en divisant la valeur du rognage (crop) par son quart, son tiers et sa moitié.

Le script permettant l’appel à ImageMagick est le suivant :

Dans le cas d’une image recto :

convert imagePath -gravity West -chop chopx0 -trim -trim -resample -bordercolor white -border 20x20 savePath

Dans le cas d’une image verso :

convert imagePath -gravity East -chop chopx0 -trim -trim -resample -bordercolor white -border 20x20 savePath

Il suffit de remplacer les valeurs italiques soulignées par les valeurs récupérées dans l’algorithme.

Grâce à ces trois algorithmes, il est possible de supprimer la page adjacente sur l’image actuellement traitée. Avec la meilleure version de l’algorithme, la F₁ passe de 78.62% à 79.23% au niveau des caractères et de 31.78% à 32.14% au niveau des mots.

Figure 16 : Tesseract – pré-traitement intelligent – caractères

Figure 17 : Tesseract – pré-traitement intelligent – mots

5.3. Correction brute des outputs

Après avoir appliqué les algorithmes de pré-traitement et océrisé l’ensemble des images rognées dans Tesseract, il est possible d’améliorer encore les résultats en effectuant une post-correction sur les outputs.

Pour ce faire, plusieurs algorithmes ont été testés :

Suppression de tous les caractères différents d’un caractère d'espacement (vertical ou horizontal), d’une lettre (minuscule ou majuscule) ou d’un chiffre

Par la suite, remplacement de tous les v par des u et les j par des i, du fait de l’équivalence de ces lettres en latin

Uniquement de tous les v par des u et les j par des i
Suppression de tous les caractères différents d’une lettre (minuscule ou majuscule), d’un chiffre, d’un point, d’une virgule, d’un espace ou d’un retour à la ligne

Par la suite, remplacement de tous les v par des u et les j par des i

Suppression de tous les caractères différents d’une lettre (minuscule ou majuscule), d’un chiffre, d’un double point, d’un tiret, d’un espace ou d’un retour à la ligne

Par la suite, remplacement de tous les v par des u et les j par des i

Suppression de tous les caractères différents d’une lettre (minuscule ou majuscule), d’un double point, d’un tiret, d’un espace ou d’un retour à la ligne

Par la suite, remplacement de tous les v par des u et les j par des i

Les résultats montrent qu’un simple remplacement des lettres v et j améliore les résultats. En effet, la F₁ passe de 79.23% à de 80.06% au niveau des caractères, et de 32.14% à 34.58% au niveau des mots.

Figure 18 : Tesseract – correction brute – caractères

Figure 19 : Tesseract – correction brute – mots

5.4. Utilisation d’un corpus latin pour la création d’un dictionnaire

Une autre méthode de post-correction envisageable était la modification directe des mots sur la base d’un corpus de textes latins. La librairie « symspellpy », disponible sur pypi.org/project/symspellpy, a été utilisée afin de créer le dictionnaire et de calculer la distance d’édition des mots. Pour le corpus, celui de Latinocr.org, mentionné dans l’état de l’art et qui se trouve sur ryanfb.github.io/latinocr/resources.html, a été utilisé.

L’algorithme suivant a ensuite été créé :

Cet algorithme utilise la librairie « symspellpy » pour comparer chaque mot avec ceux du dictionnaire. Pour ce faire, il est nécessaire de définir une distance de recherche maximale (2, dans notre cas). Cette distance limite les résultats aux mots qui ont une distance d’édition de maximum deux caractères.

Tesseract trouve parfois des espaces au milieu des mots. Afin de pouvoir les corriger automatiquement avec l’algorithme, il a fallu comparer chaque mot et celui qui le suit avec le dictionnaire. De cette manière, si un mot a été coupé en deux, il est possible de le traiter.

Plusieurs versions de cet algorithme ont été testées :

Distance de suggestion du mot < distance de suggestion du mot et de celui qui le suit
Distance de suggestion du mot <= distance de suggestion du mot et de celui qui le suit
Distance de suggestion du mot et de celui qui le suit < distance de suggestion du mot
Distance de suggestion du mot et de celui qui le suit <= distance de suggestion du mot

Aucune de ces versions n’a pu améliorer les résultats. Au contraire, ils baissent d’environ 5%. Cela est dû au fait que chaque mot va essayer d’être corrigé par rapport à un mot du corpus – même s’il est correct, pour autant que la distance d’édition soit inférieure ou égale à 2. De ce fait, la précision, le rappel et la F₁, que ce soit au niveau des caractères ou des mots, baissent.

Figure 20 : Tesseract – corrections par dictionnaire – caractères

Figure 21 : Tesseract – corrections par dictionnaire – mots

Ce problème peut s’expliquer entre autres par la complexité du latin, qui est une langue à cas. Dans la plupart des dictionnaires latins, un nom va être présenté sous la forme consul, -is, m., ce qui veut dire que c’est un mot masculin de la 3ème déclinaison, qui prend donc -is comme terminaison au génitif. Ce mot pourrait cependant apparaître sous des formes comme consules ou consulibus, mais le dictionnaire ne contient pas ces formes, évidentes pour un latiniste, mais non pour un ordinateur.

Il aurait cependant été intéressant de pousser plus loin l’expérience des dictionnaires, méthode de post-correction reconnue dans le domaine de l’océrisation, mais, pour des raisons de faisabilité, il a fallu s’en tenir là.

5.5. Utilisation de l’outil de post-correction PoCoTo

Une autre méthode de post-correction testée consistait à utiliser le logiciel PoCoTo. Il s’agit d’un logiciel de post-correction développé dans le cadre du projet IMPACT et permettant de corriger les erreurs des logiciels OCR (Vobl et al. 2014). Les avantages et limites de ce logiciel ont rapidement pu être repérées.

PoCoTo prend en input les images a océriser ainsi que leur océrisation au format HOCR. Ce format enregistre l’océrisation de chaque caractère (comme avec le format texte) mais également la position de la portion d’image qui lui a fait découvrir ce caractère. Il est donc possible par la suite, grâce à PoCoTo, de vérifier manuellement si l’output correspond au ground truth et de la corriger au besoin. Ceci est cependant long, car l’on corrige chaque mot un à un.

Figure 22 : capture d'écran du logiciel PoCoTo en cours d'utilisation

Une seconde option de PoCoTo permet de télécharger des profilers. Actuellement, il est possible de télécharger des profilers en latin, en grec ou en allemand pré-entraînés. Il est également possible de créer son propre profiler.

Ces derniers stockent les erreurs courantes des OCR pour un langage en particulier, afin d’effectuer une correction « semi-automatique » des outputs. Le profiler va détecter si un mot souvent reconnu incorrectement par les OCR se trouve dans l’un des outputs et propose une correction. Néanmoins, tout se fait depuis une interface graphique et une intervention humaine est alors obligatoire.

Figure 23 : capture d'écran du logiciel PoCoTo en cours d'utilisation avec le système de profiler latin

Cette obligation d’avoir une intervention humaine est chronophage et, au vu du temps disponible pour ce projet, il n’a pas été possible d’intégrer cet outil dans la post-correction.

5.6. Création d’un modèle Tesseract personnalisé

La dernière méthode d’optimisation des résultats testée est la création d’un modèle Tesseract personnalisé. Cette fonctionnalité est rendue possible par l’outil open source multi-plateforme, QT Box Editor, disponible sur github.com/zdenop/qt-box-editor. Cet outil offre la possibilité de corriger manuellement la segmentation des caractères sur la numérisation ainsi que chaque caractère identifié, afin de pouvoir créer un modèle basé sur les typographies de la collection de Bry.

Cette méthode a été testée en dernier car la création d’un modèle personnalisé prend un temps considérable mais n’assure pas pour autant d’améliorer les résultats. En outre, il y a de fortes chances que ce modèle ne soit pas réutilisable pour d’autres collections, étant donné que le logiciel s’entraîne à reconnaitre les typographies spécifiques de cette collection.

Tesseract préconise d’avoir au minimum trois fois chaque caractère dans un jeu d'entraînement, et trois images contenant la plupart des caractères ont alors été sélectionnées pour créer notre jeu de données. Une de ces images comporte une gravure afin que Tesseract apprenne également à ne pas y reconnaître de texte. Finalement, le travail fourni sur ces trois numérisations correspond à une vérification et correction manuelle d’environ 6'200 caractères.

Figure 24 : capture d’écran de QT Box Editor pendant la vérification et correction des caractères

Cette ébauche de modèle a permis d’obtenir des résultats relativement positifs, au vu du peu de données ayant servi à sa création, mais c’est bien sûr insuffisant par rapport aux autres tests. L’idée reste cependant intéressante, et, si le temps permet de traiter quelques images de plus, les résultats pourraient peut-être dépasser ceux des modèles testés auparavant.

Figure 25 : Tesseract – modèle personnalisé – caractères

Figure 26 : Tesseract – modèle personnalisé – mots

5.7. Résultats finaux

À la suite de tous ces tests, la F₁ maximale obtenue est de 80.06% au niveau des caractères, et de 34.58% au niveau des mots. L’objectif de 95% au niveau des caractères et des mots n’est pas atteint, mais il a tout de même été possible de s’en rapprocher.

6.Conclusion et perspectives futures

Après avoir testé quatre logiciels d’océrisation, dont deux ont très vite posé des problèmes techniques (Kraken et Calamari), deux logiciels présentent de bonnes performances. Tesseract, lors du meilleur test, atteint une F₁ de 78.62% au niveau des caractères et de 31.78% au niveau des mots (voir Tesseract – phase 3). OCR4all est également performant, mais présente un problème technique qui le met malheureusement hors course. Il est cependant recommandé de suivre l’évolution du problème technique posé par OCR4all car, s’il est réglé, ce logiciel pourraient alors devenir un excellent choix.

En utilisant différentes méthodes de pré-traitement et de post-correction, il a été possible de faire monter les résultats de Tesseract à une F₁ de 80.06% au niveau des caractères et de 34.58% au niveau des mots (voir Résultats finaux). Le chemin est encore long jusqu’au 95%, mais la voie est à présent ouverte pour de futurs essais.

Ce projet était limité dans le temps, et il a été frappant de découvrir la durée nécessaire à ce type de travail, chaque paramètre modifié nécessitant une nouvelle itération et un nouveau temps de calcul. Il est de ce fait compréhensible qu’une technologie aussi ancienne que l’océrisation soit toujours en développement, du fait de sa complexité et de l’immense variété des données qu’elle traite.

Ce projet d’océrisation est un exemple parmi tant d’autres, mais il permet de donner un aperçu des logiciels OCR, des technologies et méthodes de travail qui leur sont liées, du traitement des imprimés anciens, de la complexité de la langue latine etc., et ainsi de mieux comprendre en quoi l’océrisation est un enjeu des Humanités numériques… et des sciences de l’information. Un tel projet nécessite en effet des connaissances et compétences à la fois en sciences humaines et en informatique, et c’est au cœur des Humanités numériques ainsi que des sciences de l’information que l’on peut trouver des profils de chercheurs correspondant aux besoins du domaine.

Bibliographie

AFROGE, Shyla, AHMED, Boshir et MAHMUD, Firoz, 2016. Optical character recognition using back propagation neural network. In : 2nd International Conference on Electrical, Computer Telecommunication Engineering (ICECTE), Rajshahi, 8-10 décembre 2016 [en ligne]. Décembre 2016. pp. 1–4. [Consulté le 28 août 2019]. Disponible à l’adresse : https://ieeexplore.ieee.org/document/7879615

ALGHAMDI, Mansoor et TEAHAN, William, 2017. Experimental evaluation of Arabic OCR systems. PSU Research Review [en ligne]. 28 novembre 2017. Vol. 1, no. 3, pp. 229–241. [Consulté le 28 août 2019]. Disponible à l’adresse : http://www.emeraldinsight.com/doi/10.1108/PRR-05-2017-0026

AMIN SHAYEGAN, Mohammad et AGHABOZORGI, Saeed, 2014. A new method for Arabic/Farsi numeral data set size reduction via modified frequency diagram matching. Kybernetes [en ligne]. 29 avril 2014. Vol. 43, n°5, pp. 817–834. [Consulté le 28 août 2019]. Disponible à l’adresse : http://www.emeraldinsight.com/doi/10.1108/K-10-2013-0226

ANUGRAH, Rio et BINTORO, Ketut Bayu Yogha, 2017. Latin letters recognition using optical character recognition to convert printed media into digital format. Jurnal Elektronika Dan Telekomunikasi [en ligne]. Décembre 2017. Vol. 17, n°2, pp. 56–62. [Consulté le 28 août 2019]. Disponible à l’adresse : https://www.jurnalet.com/jet/article/view/163

ARVINDPDMN [pseudonyme], 2019. Levenshtein distance. Developedia [en ligne]. 3 septembre 2019. Mis à jour le 4 septembre 2019. [Consulté le 11 novembre 2019]. Disponible à l’adresse : https://devopedia.org/levenshtein-distance

BALK, Hildelies et PLOEGER, Lieke, 2009. IMPACT : working together to address the challenges involving mass digitization of historical printed text. OCLC Systems & Services: International digital library perspectives [en ligne]. 30 octobre 2009. Vol. 25, n°4, pp. 233–248. [Consulté le 28 août 2019]. Disponible à l’adresse : https://www.emeraldinsight.com/doi/full/10.1108/10650750911001824

BAO, Ping et ZHU, Suoling, 2014. System design for location name recognition in ancient local chronicles. Library Hi Tech [en ligne]. 10 juin 2014. Vol. 32, n°2, pp. 276–284. [Consulté le 28 août 2019]. Disponible à l’adresse : http://www.emeraldinsight.com/doi/10.1108/LHT-07-2013-0101

BEINERT, Wolfgang 2018. Antiqua. Typolexicon [en ligne]. 1er avril 2018. [Consulté le 6 janvier 2020]. Disponible à l’adresse : https://www.typolexikon.de/antiqua/

BEINERT, Wolfgang 2019. Fraktur. Typolexicon [en ligne]. 1er août 2019. [Consulté le 6 janvier 2020]. Disponible à l’adresse : https://www.typolexikon.de/fraktur-schrift/

BLANKE, Tobias, BRYANT, Michael et HEDGES, Mark, 2012. Open source optical character recognition for historical research. Journal of Documentation [en ligne]. Août 2012. Vol. 68, n°5, pp. 659–683. [Consulté le 28 août 2019]. Disponible à l’adresse : https://www.emeraldinsight.com/doi/full/10.1108/00220411211256021

BODMER LAB, 2019. Bodmer Lab [en ligne]. 2019. Mis à jour le 9 janvier 2020. [Consulté le 9 janvier 2020]. Disponible à l’adresse : https://bodmerlab.unige.ch/fr

BOWERS, Steven K., 2018. Information Technology and Libraries at 50 : The 1990s in Review. Information Technology & Libraries [en ligne]. Décembre 2018. Vol. 37, n°4, pp. 9–14. [Consulté le 28 août 2019]. Disponible à l’adresse : http://search.ebscohost.com/login.aspx?direct=true&db=lih&AN=133718523&site=ehost-live

BRENER, Nathan E., IYENGAR, S. S. et PIANYKH, O. S., 2005. A conclusive methodology for rating OCR performance. Journal of the American Society for Information Science & Technology [en ligne]. Juillet 2005. Vol. 56, n°12, pp. 1274–1287. [Consulté le 28 août 2019]. Disponible à l’adresse : http://search.ebscohost.com/login.aspx?direct=true&db=lih&AN=18172083&site=ehost-live

BREUEL, Thomas M., 2007. Announcing the OCRopus Open Source OCR system. Google developpers [en ligne]. 9 avril 2007. [Consulté le 9 janvier 2020]. Disponible à l’adresse : https://developers.googleblog.com/2007/04/announcing-ocropus-open-source-ocr.html

BURGY, Florence, GERSON, Steeve, SCHÜPBACH, Loïc, 2020a. Ex imagine ad litteras : Projet d’océrisation de la collection de Bry [en ligne]. Genève : Haute école de gestion de Genève. Mémoire de recherche. [Consulté le 25 novembre 2020]. Disponible à l’adresse : https://doc.rero.ch/record/328465?ln=fr

BURGY, Florence, GERSON, Steeve, SCHÜPBACH, Loïc, 2020b. Ex imagine ad litteras : résultats actuels et espoirs futurs. Recherche d’IdéeS [en ligne]. 3 mars 2020. [Consulté le 30 mars 2020]. Disponible à l’adresse : https://campus.hesge.ch/blog-master-is/ex-imagine-ad-litteras-resultats-actuels-et-espoirs-futurs/

CARRASCO, Rafael C., 2014. An Open-source OCR Evaluation Tool. In : Proceedings of the First International Conference on Digital Access to Textual Cultural Heritage, Madrid, 19-20 mai 2014 [en ligne]. New York : ACM. 2014. pp. 179–184. [Consulté le 28 août 2019]. Disponible à l’adresse :

https://dl.acm.org/citation.cfm?doid=2595188.2595221

CIMON, Lucas, 2019. ImproveQuality. Tesseract Wiki [en ligne]. 25 novembre 2019. [Consulté le 9 janvier 2020]. Disponible à l’adresse : https://github.com/tesseract-ocr/tesseract/wiki/ImproveQuality

CLEMATIDE, Simon, FURRER, Lenz et VOLK, Martin, 2016. Crowdsourcing an OCR Gold Standard for a German and French Heritage Corpus. In : Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016), Portorož, 23-28 mai 2016 [en ligne]. 2016. pp. 975-982. [Consulté le 28 août 2019]. Disponible à l’adresse : https://www.zora.uzh.ch/id/eprint/124786

COJOCARU, Svetlana et al., 2016. Optical Character Recognition Applied to Romanian Printed Texts of the 18th–20th Century. Computer Science Journal of Moldova [en ligne]. 2016. Vol. 24, n°1 (70), pp. 106-117. [Consulté le 28 août 2019]. Disponible à l’adresse : http://www.math.md/files/csjm/v24-n1/v24-n1-(pp106-117).pdf

DASH, Kalyan S., PUHAN, N. B. et PANDA, G., 2017. Odia character recognition : a directional review. The Artificial Intelligence Review [en ligne]. 2017. Vol. 48, n°4, pp. 473–497. [Consulté le 28 août 2019]. Disponible à l’adresse : https://search.proquest.com/lisa/docview/1961506152/abstract/35B11DA70B14444EPQ/2

EPFL, 2020. DHLAB. EPFL.ch [en ligne]. 3 décembre 2020. [Consulté le 3 décembre 2020]. Disponible à l’adresse : https://www.epfl.ch/labs/dhlab/

GHOSH, Kripabandhu et al., 2016. Improving Information Retrieval Performance on OCRed Text in the Absence of Clean Text Ground Truth. Information Processing & Management [en ligne]. 1 septembre 2016. Vol. 52, n°5, pp. 873–884. [Consulté le 28 août 2019]. Disponible à l’adresse : http://www.sciencedirect.com/science/article/pii/S030645731630036X

HLÁDEK, Daniel et al., 2017. Learning string distance with smoothing for OCR spelling correction. Multimedia Tools and Applications [en ligne]. Novembre 2017. Vol. 76, n°22, pp. 24549–24567. [Consulté le 28 août 2019]. Disponible à l’adresse : http://link.springer.com/10.1007/s11042-016-4185-5

IMPACT, 2013. IMPACT Centre of Competence [en ligne]. 2013. Mis à jour le 9 janvier 2020. [Consulté le 9 janvier 2020]. Disponible à l’adresse : https://www.digitisation.eu/

JÄRVELIN, Anni et al., 2016. Information retrieval from historical newspaper collections in highly inflectional languages: a query expansion approach. Journal of the Association for Information Science & Technology [en ligne]. Décembre 2016. Vol. 67, n° 12, pp. 2928–2946. [Consulté le 28 août 2019]. Disponible à l’adresse : http://search.ebscohost.com/login.aspx?direct=true&db=lih&AN=119478036&site=ehost-live

JOST, Clémence, 2019. Lancement d’OCR4all, un outil open source et gratuit de reconnaissance de caractères anciens pour les chercheurs en histoire et les archivistes. Archimag [en ligne]. 24 avril 2019. [Consulté le 5 septembre 2019]. Disponible à l’adresse : https://www.archimag.com/archives-patrimoine/2019/04/24/ocr4all-open-source-gratuit-reconnaissance-caracteres-anciens

KANN, Bettina et HINTERSONNLEITNER, Michael, 2015. Volltextsuche in historischen Texten. Bibliothek Forschung und Praxis [en ligne]. Avril 2015. Vol. 39, n° 1, pp. 73–79. [Consulté le 28 août 2019]. Disponible à l’adresse : https://www.degruyter.com/downloadpdf/j/bfup.2015.39.issue-1/bfp-2015-0004/bfp-2015-0004.pdf

KARPINSKI, R., LOHANI, D. et BELAÏD, A., 2018. Metrics for Complete Evaluation of OCR Performance. In : IPCV'18 - The 22nd Int'l Conf on Image Processing, Computer Vision, & Pattern Recognition, Las Vegas, juillet 2018 [en ligne]. 2018. pp. 23-29. [Consulté le 28 août 2019]. Disponible à l’adresse : https://csce.ucmss.com/cr/books/2018/LFS/CSREA2018/IPC3481.pdf

KESTEMONT, Mike, CHRISTLEIN, Vincent et STUTZMANN, Dominique, 2017. Artificial Paleography: Computational Approaches to Identifying Script Types in Medieval Manuscripts. Speculum [en ligne]. 2 octobre 2017. Vol. 92, S1, pp. S86–S109. [Consulté le 28 août 2019]. Disponible à l’adresse : https://www.journals.uchicago.edu/doi/10.1086/694112

KISSOS, Ido et DERSHOWITZ, Nachum, 2016. OCR Error Correction Using Character Correction and Feature-Based Word Classification. In : 12th IAPR Workshop on Document Analysis Systems (DAS), Santorini, 11-14 avril 2016 [en ligne]. Avril 2016. pp. 198–203. [Consulté le 28 août 2019]. Disponible à l’adresse : http://ieeexplore.ieee.org/document/7490117/

KUMAR, Munish et al., 2018. Character and numeral recognition for non-Indic and Indic scripts : a survey. The Artificial Intelligence Review [en ligne]. 2018. pp. 1–27. [Consulté le 28 août 2019]. Disponible à l’adresse : https://search.proquest.com/lisa/docview/1984338483/abstract/35B11DA70B14444EPQ/1

MEI, Jie et al., 2018. Statistical learning for OCR error correction. Information Processing & Management [en ligne]. 1 novembre 2018. Vol. 54, n° 6, pp. 874–887. [Consulté le 28 août 2019]. Disponible à l’adresse : http://www.sciencedirect.com/science/article/pii/S0306457317307823

MORI, Shunji, SUEN, Ching Y. et YAMAMOTO, Kazuhiko, 1992. Historical review of OCR research and development. Proceedings of the IEEE [en ligne]. Juillet 1992. Vol. 80, n° 7, pp. 1029-1058. [Consulté le 18 décembre 2019]. Disponible à l’adresse : http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=156468&isnumber=4050

MOUNIER, Pierre, 2018. Les humanités numériques : une histoire critique [en ligne]. Paris : Éditions de la Maison des sciences de l’homme. Interventions. [Consulte le 3 décembre 2020]. Disponible à l’adresse : https://books.openedition.org/editionsmsh/12006

MUEHLBERGER, Guenter et al., 2019. Transforming scholarship in the archives through handwritten text recognition: Transkribus as a case study. Journal of Documentation [en ligne]. 24 juillet 2019. [Consulté le 28 août 2019]. Disponible à l’adresse : https://www.emeraldinsight.com/doi/10.1108/JD-07-2018-0114

NAGY, George, 2016. Disruptive developments in document recognition. Pattern Recognition Letters [en ligne]. 1 août 2016. Vol. 79, pp. 106–112. [Consulté le 28 août 2019]. Disponible à l’adresse : http://www.sciencedirect.com/science/article/pii/S0167865515004109

PTUCHA, Raymond, et al., 2019. Intelligent character recognition using fully convolutional neural networks. Pattern Recognition [en ligne]. Avril 2019. Vol. 88, pp. 604–613. [Consulté le 28 août 2019]. Disponible à l’adresse : http://www.sciencedirect.com/science/article/pii/S0031320318304370

REDDY, Sravana et CRANE, Gregory, 2006. A Document Recognition System for Early Modern Latin. In: Chicago Colloquium on Digital Humanities and Computer Science: What Do You Do With A Million Books [en ligne]. 2006. Vol. 23, pp. 1-4. [Consulté le 28 août 2019]. Disponible à l’adresse : https://dl.tufts.edu/concern/pdfs/kd17d4036

REHMAN, Amjad et SABA, Tanzila, 2014. Neural networks for document image preprocessing: state of the art. The Artificial Intelligence Review [en ligne]. 2014. Vol. 42, n° 2, pp. 253–273. [Consulté le 28 août 2019]. Disponible à l’adresse : https://search.proquest.com/lisa/docview/1542796407/abstract/EC9B8EB6A5EF463APQ/41

RICE, Stephen V., JENKINS, Frank R. et NARTKER, Thomas A., 1996. The Fifth Annual Test of OCR Accuracy. Information Science Research Institute [en ligne]. 1996. pp. 1-46. [Consulté le 28 août 2019]. Disponible à l’adresse : http://stephenvrice.com/images/AT-1996.pdf

REUL, Christian, 2020. @chreul. thx for the hint and sorry […]. line segmentation hangs on empty pages · Issue #45 [en ligne]. 13 janvier 2020. [Consulté le 14 janvier 2020]. Disponible à l’adresse : https://github.com/OCR4all/OCR4all/issues/45

RYDBERG-COX, Jeffrey A., 2003. Automatic Disambiguation of Latin Abbreviations in Early Modern Texts for Humanities Digital Libraries. In : Proceedings of the 3rd ACM/IEEE-CS Joint Conference on Digital Libraries, Houston, 27-31 mai 2003 [en ligne]. Washington DC: IEEE Computer Society. 2003. pp. 372–373. [Consulté le 28 août 2019]. Disponible à l’adresse : http://dl.acm.org/citation.cfm?id=827140.827207

SABER, Shimaa et al., 2016. Performance Evaluation of Arabic Optical Character Recognition Engines for Noisy Inputs. In : Gaber T., Hassanien A., El-Bendary N. et Dey N. The 1st International Conference on Advanced Intelligent System and Informatics (AISI2015), Beni Suef, 28-30 novembre 2015. Cham : Springer, pp. 449-459. [Consulté le 28 août 2019]. Advances in Intelligent Systems and Computing, 407. Disponible à l’adresse : https://link.springer.com/chapter/10.1007/978-3-319-26690-9_40

SASAKI, Yutaka, 2007. The truth oft he F-measure. Teach Tutor mater [en ligne]. 26 Octobre 2007. Vol. 1, n° 5, pp. 1-5. [Consulté le 8 décembre 2019]. Disponible à l’adresse : https://www.researchgate.net/publication/268185911_The_truth_of_the_F-measure

SCHANTZ, Herbert F., 1982. The history of OCR, optical character recognition [en ligne]. Manchester Center, Vt. : Recognition Technologies Users Association. [Consulté le 18 décembre 2019]. Disponible à l’adresse : https://archive.org/details/historyofocropti0000scha

SEIDMAN, Max J., et al., 2016. Are games a viable solution to crowdsourcing improvements to faulty OCR ? - The Purposeful Gaming and BHL experience. Code4Lib Journal [en ligne]. Juillet 2016. Vol. 33, p. 1. [Consulté le 28 août 2019]. Disponible à l’adresse :

http://search.ebscohost.com/login.aspx?direct=true&db=lih&AN=116963678&site=ehost-live

SMITH, Ray, 2007. An overview of the Tesseract OCR engine. In : Ninth International Conference on Document Analysis and Recognition (ICDAR 2007), Curitiba, Paraná, Brésil, 23-26 septembre 2007 [en ligne]. Septembre 2007. Vol. 2, pp. 629-633. [Consulté le 26 octobre 2019]. Disponible à l’adresse : https://ieeexplore.ieee.org/document/4376991?arnumber=4376991

STUTZMANN, Dominique, 2017. Paléographie : la révolution numérique. L'Histoire [en ligne]. Septembre 2017. Vol. 439, p. 30. [Consulté le 28 août 2019]. Disponible à l’adresse : https://www.lhistoire.fr/irht-dans-le-secret-des-manuscrits/paléographie-la-révolution-numérique

SUN, Wei et al., 1992. Intelligent OCR Processing. Journal of the American Society for Information Science [en ligne]. Juillet 1992. Vol. 43, n°6, pp. 422–431. [Consulté le 28 août 2019]. Disponible à l’adresse : http://search.ebscohost.com/login.aspx?direct=true&db=lih&AN=16918942&site=ehost-live

TERRAS, Melissa, 2016. A Decade in Digital Humanities. Journal of Siberian Federal University [en ligne]. 2016. Vol. 9, pp.1637-1650. [Consulté le 3 décembre 2020]. Disponible à l’adresse: https://www.researchgate.net/publication/309217683_A_Decade_in_Digital_Humanities

THERAYSMITH [pseudonyme], 2017. The text corpus is from *all* the www, […]. Q&A : Indic - length of the compressed codes · Issue #654 [en ligne]. 23 janvier 2017. [Consulté le 22 décembre 2019]. Disponible à l’adresse : https://github.com/tesseract-ocr/tesseract/issues/654#issuecomment-274574951

TUMBE, Chinmay, 2019. Corpus linguistics, newspaper archives and historical research methods. Journal of Management History [en ligne]. 30 mai 2019. [Consulté le 28 août 2019]. Disponible à l’adresse : https://www.emeraldinsight.com/doi/10.1108/JMH-01-2018-0009

UNIVERSITÉ DE GENÈVE, 2020. Les missions de la chaire – Humanités numériques. Unige.ch [en ligne]. 3 décembre 2020. [Consulté le 3 décembre 2020]. Disponible à l’adresse : https://www.unige.ch/lettres/humanites-numeriques/fr/la-chaire/les-missions-de-la-chaire/

URIELI, Assaf et VERGEZ-COURET, Marianne, 2013. Jochre, océrisation par apprentissage automatique : étude comparée sur le yiddish et l’occitan. In : TALARE 2013 : Traitement automatique des langues régionales de France et d’Europe, Les Sables d’Olonne, juin 2013 [en ligne]. 21 juin 2013. pp. 221-234. [Consulté le 28 août 2019]. Disponible à l’adresse : https://hal-univ-tlse2.archives-ouvertes.fr/hal-00979665

VOBL, Thorsten et al., 2014. PoCoTo - an Open Source System for Efficient Interactive Postcorrection of OCRed Historical Texts. In: Proceedings of the First International Conference on Digital Access to Textual Cultural Heritage, Madrid, 19-20 mai 2014 [en ligne]. New York : ACM. 2014. pp. 57–61. [Consulté le 28 août 2019]. Disponible à l’adresse : https://dl.acm.org/citation.cfm?id=2595197

WICK, Christoph, REUL, Christian et PUPPE, Frank, 2018. Calamari - A High-Performance Tensorflow-based Deep Learning Package for Optical Character Recognition. [En ligne]. Preprint. 6 août 2018. [Consulté le 09 janvier 2020]. Disponible à l’adresse : https://arxiv.org/abs/1807.02004

ZHOU, Yongli, 2010. Are Your Digital Documents Web Friendly? : Making Scanned Documents Web Accessible. Information Technology & Libraries [en ligne]. Septembre 2010. Vol. 29, n°3, pp. 151–160. [Consulté le 28 août 2019]. Disponible à l’adresse : http://search.ebscohost.com/login.aspx?direct=true&db=lih&AN=52871764&site=ehost-live

Publié par Ressi

Vous devez vous connecter pour poster des commentaires

A review of the Swiss Research Data Day 2020 (SRDD2020): 48 experts shared their experiences on emergent approaches in Open Science

Ressi — 22 décembre 2020

Pierre-Yves Burgi, Directeur du projet DLCM et Directeur SI adjoint, Division Systèmes et technologies de l'information et de la communication (STIC), Université de Genève

Lydie Echernier, Coordinatrice du projet DLCM, Division Systèmes et technologies de l'information et de la communication (STIC), Université de Genève

Résumé

Organisée conjointement par la Haute école de gestion de Genève (HEG/HES-SO), l’Université de Genève (UNIGE), et la Zürich Hochschule für Angewandte Wissenschaften (ZHAW) dans le cadre du projet DLCM (Data Life-Cycle Management) mandaté par swissuniversities, la troisième édition du Swiss Research Data Day (SRDD2020) a réuni 301 membres de la communauté de la recherche suisse, en ligne, le 22 octobre 2020. L’événement d’une journée a rassemblé une communauté interdisciplinaire de professionnel·les de la recherche et de l'information scientifique autour de 48 intervenant·es spécialisé·es pour discuter de la manière dont les technologies et approches émergentes peuvent contribuer au développement de la gestion des données de recherche et de la science ouverte, tant du point de vue des chercheurs et chercheuses que des institutions. Cinq de ces expert·es ont présenté des keynotes qui ont mis en évidence les évolutions notables dans le domaine et quatre séries de sessions parallèles ont offert une occasion unique de partager les connaissances et les expériences des experts sur une grande variété de sujets.

Abstract

Co-organized by the Geneva School of Business Administration (HEG/HES-SO), the University of Geneva (UNIGE), and the Zürich Hochschule für Angewandte Wissenschaften (ZHAW) as part of the Data Life-Cycle Management (DLCM) Project, mandated by swissuniversities, the third edition of the Swiss Research Data Day (SRDD2020) gathered 301 members of the Swiss research data community online on 22 October 2020. The full-day event brought together an interdisciplinary community of researchers and information professionals, along with 48 expert speakers, to discuss how emerging technologies and approaches can contribute to the development of Research Data Management and Open Science from both the researcher and institutional perspectives. Five of these experts delivered keynote presentations that highlighted significant developments in the field, and four streams of concurrent panel sessions offered a unique opportunity to share the experts’ knowledge and experiences over a large variety of topics.

Nombre de mots:

1602

A review of the Swiss Research Data Day 2020 (SRDD2020): 48 experts shared their experiences on emergent approaches in Open Science

After a first edition at the Swiss Federal Institute of Technology Lausanne (EPFL) in 2016 and a second one at the Swiss Federal Institute of Technology Zurich (ETHZ) in 2018, the third edition of the Swiss Research Data Day (SRDD2020) – titled “Emergent approaches for Open Science” – took place online on 22 October 2020 during the International Open Access Week event.

SRDD2020 was organized by the Data Life-Cycle Management (DLCM) Project’s partners, (1); at the initiative of the Geneva School of Business Administration (HEG/HES-SO) together with the University of Geneva (UNIGE), and in partnership with the Zürich Hochschule für Angewandte Wissenschaften (ZHAW).

An interdisciplinary community of 301 researchers, librarians, funders, publishers and policymakers discussed the emerging technologies and approaches that contribute to the development of Research Data Management (RDM) and Open Science (OS) from both the researcher and institutional perspectives. Participants were welcomed by the launching video of OLOS.swiss, the national solution developed within the DLCM project to address archiving, long-term preservation, publication and access of research data, and accessible to all Swiss Higher Education Institutions.

Five invited speakers delivered keynote speeches at SRDD2020:

Dr. Hrvoje Stancic, professor at the Faculty of Social Sciences and Humanities at the University of Zagreb, discussed the use of Blockchain technologies and methodologies in data management. His keynote revolved around the concepts of trustworthiness, authentication, identity and integrity of Blockchains as applied to the long-term preservation of research data.
Dr. Patrick Furrer, coordinator of the national "Scientific Information Programme" at swissuniversities, unveiled the national Open Research Data Strategy and Action Plan to come in the next 4 years.
Vice Rector Dr. Christine Pirinoli presented HES-SO’s Open Data Strategy, emphasizing the cultural changes institutions must achieve to properly manage research data, and the time and support required to realize this.
Dr. Nancy McGovern, Director of Digital Preservation at the MIT, presented a 6-layer Digital Archives and Preservation (DAP) Framework to leverage cross-domain collaborations for achieving a sustainable management of research data. Such an approach emphasizes cross-domain responsibility as opposed to passive sharing, and stresses the importance of social, professional and technical inclusions to achieve effective collaborations.
And Dr. Alberto Pace, from CERN, showcased the application of digital sovereignty to the preservation of Big Data to mitigate the risks associated with commercial software and hardware solutions and their associated costs.

During the day, 34 lectures, lighting talks, demonstrations and workshops sparked a fruitful exchange among speakers, panelists and participants. The 48 speakers, from 23 national and international institutions(2), presented various themes regrouped within eight panels:

- Panel 1 was dedicated to the proper management of Open Research Data (ORD), with (i) a demonstration of OLOS.swiss, (ii) a presentation of the professional management framework that support the identification, evaluation, and development of a portfolio of Open Data resources at SIB, (iii) a coaching program to support the implementation of a RDM strategy in the National Centre of Competence in Research (NCCR) Robotics, (iv) the handling of sensitive personal data in Leonhard Med’s secure computing environments, and (v) the development and promotion of a Data Champions community at EPFL.

- Panel 2 placed data management in the ethical, legal, financial and academical contexts, with (i) a return of experience on the implementation of the SNSF ORD policy and the required publication of research data by SNSF-funded researchers, (ii) a master thesis focusing on how to leverage copyrights in the research data context and which licenses are best suited to serve the OS movement, (iii) returns of experience on the publication of research data from 12 pilot projects in a variety of disciplines at ZHAW, and (iv) a demonstration of a web-based tool (DMLawTool) addressing the most relevant legal issues related to data management.

- Panel 3 presented uses cases supporting OS strategies, with (i) experience from the ETH Zurich’s Research Collection regarding data publication in an institutional repository, (ii) the data publication workflows of the research data repositories ERIC and EnviDat, and (iii) a presentation of UNIL’s OS Strategy and Action Plan.

- Panel 4 gathered participants in a workshop to discuss FAIR (Findable, Accessible, Interoperable and Reusable) data production in the context of a virtual research environment using the "user experience design" participatory method of the Basel-based KleioLab’s Geovistory tool.

- Panel 5 explored training in ORD, with (i) the co-creation within the DLCM project of a Massive Open Online Course (MOOC) specifically dedicated to RDM, (ii) MILOS, a microlearning prototype for OS, and Train2Dacar, a train-the-trainer approach for data curation, (iii) the promotion of the FAIR principles in data mining of population genetics using the RENKU platform, (iv) Nuvolos, a knowledge-creating platform for research and education, and (v) the promotion of a user-centered platform to make health research FAIR with the Horizon 2020. FAIR4Health project.

- Panel 6 showcased practices and experiences related to FAIR research data for OS, with (i) some observations and a workflow example of a FAIR Digital Objects (FDO) approach to facilitate data driven research across disciplines, (ii) an argumentation for research data as a new model of scholarly writing in social sciences and humanities (SSH) within the Horizon 2020 project Open Scholarly Communication in the European Research Area for Social Sciences and Humanities (Preparation OPERAS), (iii) openRDM.swiss, the data management service of ETHZ Scientific IT Services (SIS) targeting the Swiss research community based on the openBIS software platform, and (iv) recommendations and good practices to help chemists to make better chemistry data with the CHEMeDATA initiative.

- Panel 7 introduced existing solutions for the long-term preservation of research data, with (i) a presentation of the current status of the elaboration of a Swiss National ORD Strategy by a working group of swissuniversities, (ii) the Academic Output Archive (ACOUA) project, aiming at providing EPFL researchers with a service to publish and preserve their research data, (iii) a demonstration of the SWISSUbase platform, the multidisciplinary archiving service for research data based on FORS, the data service for the social sciences, (iv) Materials Cloud, the platform designed to enable open and seamless sharing of resources for computational materials science, and (v) AiiDA 1.0, the scalable computational infrastructure that automatically tracks the full provenance of data produced by workflows in the form of a directed graph.

- Panel 8 addressed specific legal questions related to data management and archiving in a workshop based on the DMLawTool.

The organization of the online event could count on 14 volunteers and resulted in more than 15 hours of video recording, split up into 34 sessions, which have been posted on the UNIGE mediaserver, publicly available at http://www.dlcm.ch/srdd2020/presentations along with the speakers’ presentation slides.

Notes

(1)DLCM is a Swiss project mandated by swissuniversities, see https://dlcm.ch

(2)Alphacruncher, European Organization for Nuclear Research (CERN), French National Centre for Scientific Research (CNRS), Geneva School of Business Administration (HEG/HES-SO), Geneva University Hospitals (HUG), KleioLab, Massachusetts Institute of Technology (MIT), Max-Planck Society, Swiss Centre of Expertise in the Social Sciences (FORS), Swiss Federal Institute for Forest, Snow and Landscape Research (WSL), Swiss Federal Institute of Aquatic Science and Technology (Eawag), Swiss Federal Institute of Technology Lausanne (EPFL), Swiss Federal Institute of Technology Zurich (ETHZ), Swiss Institute of Bioinformatics (SIB), Swiss National Science Foundation (SNSF), swissuniversities, Università della Svizzera italiana (USI), University of Applied Sciences and Arts of Western Switzerland (HES-SO), University of Geneva (UNIGE), University of Lausanne (UNIL), University of Neuchâtel (UniNE), University of Zagreb (UniZg) and Zürich Hochschule für Angewandte Wissenschaften (ZHAW).

Publié par Ressi

Vous devez vous connecter pour poster des commentaires

Données médicales et dossiers patients comme actifs informationnels : la gouvernance de l’information dans les hôpitaux universitaires suisses

Ressi — 21 décembre 2020

Anna Hug, Archiviste principale chez HUG

Résumé

Cet article, basé sur un travail de master en sciences de l’information, s’intéresse à la gouvernance de l’information (GI) dans les hôpitaux universitaires suisses (HUS), plus spécifiquement en ce qui concerne les données médicales. La GI est l’ensemble de rôles, règles et opérations qui permettent à une institution de maîtriser ses documents et données pour en tirer de la valeur, en fonction de sa stratégie et dans le respect du cadre réglementaire.

Les données médicales, liées à des dossiers patients, sont particulièrement sensibles et doivent être protégées. En même temps, il y a de nombreuses utilisations et réutilisations de ces données, dans le cadre clinique, pour la facturation, l’évaluation de la qualité, la surveillance sanitaire ou encore pour des projets de recherche. Il s’agit en fait d’actifs informationnels, c’est-à-dire d’informations ayant de la valeur pour les institutions.

Une revue de la littérature a été effectuée sur la GI et ses composantes, sur le monde hospitalier suisse en général et les HUS en particulier, sur l’évolution et les formes du dossier patient et sur les législations cantonales en lien avec notre sujet. De plus, cinq entretiens semi-dirigés ont été menés avec des représentants de chacun des HUS sur leurs pratiques informationnelles.

La synthèse des résultats permet d’affirmer que la valeur des données médicales et dossiers patients est reconnue par les institutions. Tous les HUS ont mis en place un grand nombre des composantes d’une GI, allant de la cybersécurité à l’archivage. Ils accordent beaucoup d’importance à la formation et la sensibilisation de leurs collaborateurs, en matière de protection des données notamment, et connaissent parfaitement le cadre réglementaire. En revanche, il n’y a pas de politique institutionnelle explicitement dédiée à la GI.

En conclusion, nous proposons un schéma général des flux des données médicales et de leurs diverses réutilisations, avec les dimensions transversales à traiter (enjeux éthiques, juridiques, économiques, etc.) et les fonctions et compétences nécessaires à la GI.

Zusammenfassung

Dieser Artikel basiert auf einer Masterarbeit in Informationswissenschaften und behandelt die Information governance (IG) von Gesundheitsdaten in den Schweizer Universitätsspitälern (HUS). IG ist die Gesamtheit der Rollen, Regeln und Tätigkeiten, die dafür sorgen, dass Dokumente und Daten einer Institution auf kontrollierte Weise und strategiegemäss verwaltet werden können, um damit Wert zu generieren und Compliance-Vorgaben zu respektieren.

Gesundheitsdaten gehören zu Patientendossiers und sind besonders schützenswert. Gleichzeitig werden sie auf vielfältige Art und Weise genutzt: für die klinische Praxis, die Fakturierung, die Qualitätskontrolle, Monitoring-Programme oder zu Forschungszwecken. Es handelt sich um Information assets, also Informationen, die für die Institution wertvoll sind.

Eine Literaturrecherche wurde durchgeführt zur IG und ihren Bestandteilen, zur schweizerischen Spitallandschaft im Allgemeinen und den HUS im Besonderen, zur Geschichte und den verschiedenen Formen des Patientendossiers, und zu den kantonalen Gesetzen, die mit unserem Thema zusammenhängen. Ausserdem wurden in fünf Gesprächen Vertreterinnen und Vertreter der HUS zu ihren Informationspraktiken interviewt.

Die Ergebnisse bekräftigen, dass die Institutionen den Wert ihrer Gesundheitsdaten und Patientendossiers anerkennen. Alle HUS setzen diverse Komponenten der IG ein, von der Cybersecurity bis zur Archivierung. Sie messen der Ausbildung und Sensibilisierung ihrer Mitarbeitenden, insbesondere zum Thema Datenschutz, grosse Bedeutung bei und kennen die gesetzlichen und regulatorischen Rahmenbedingungen. Es gibt jedoch keine spezifische institutionelle Information governance Policy.

Abschliessend schlagen wir ein allgemeines Schema vor mit den Flüssen und den verschiedenen Verwendungszwecken der Gesundheitsdaten. Das Schema zeigt ebenfalls die interdisziplinären Herausforderungen (ethisch, juristisch, ökonomisch usw.) und die für die IG notwendigen Kompetenzen und Querschnittsfunktionen.

Abstract

This article is based on a master thesis in information science and takes a look at the information governance (IG) in Swiss university hospitals (HUS) applied to health data. IG means the roles, rules and operations that allow an institution to manage and master its data and documents, according to its strategy and compliance needs.

Medical data, linked to a patient’s health record, is very sensitive and must be protected. At the same time, it is used and re-used in many ways: clinical practice, invoicing, quality control, health watch programs, research projects, etc. Health data is in fact an information asset, i.e. information that is valuable for the institution.

A literature review has been made about IG and its components; about hospitals in Switzerland, especially the HUS; about the evolution and various forms of health records; and about the cantonal laws regarding our subject. In addition, five interviews with representatives of the HUS about the information practices at their hospital have taken place.

The results show that the institutions acknowledge the value of health data and patient records. All HUS have deployed numerous components of IG, from cyber security to archiving. They attach importance to training and awareness of employees, especially about data protection, and know compliance rules and laws. However, there is no explicit institutional IG policy.

In conclusion, we suggest a general schema of the workflows and the various reuses of medical data. It also shows the transverse dimensions (ethical, legal, economic, etc. challenges) of IG and the competencies and functions that are necessary to make it work.

Mots-Clés:

Actif informationnel, Données médicales, Dossier patient, Gouvernance de l’information, Hôpital universitaire, Protection des données, Secret professionnel Datenschutz, Gesundheitsdaten, Informationsmanagement, Medizinische Daten, Patientendossier, Patientengeheimnis, Universitätsspital Data Protection, Health Data, Health Record, Information Asset, Information Governance, Medical Confidentiality, Medical Record, University Hospital

Nombre de mots:

11941

Données médicales et dossiers patients comme actifs informationnels : la gouvernance de l’information dans les hôpitaux universitaires suisses

1. Introduction

Dans cet article, nous examinons la thématique du dossier patient et des données médicales du point de vue de la gouvernance de l’information (GI), c’est-à-dire des règles qui sont mises en place pour assurer une gestion conforme des données, et ceci dans le contexte des hôpitaux universitaires suisses (HUS). Le choix du sujet découle de la réalité professionnelle de l’auteure, qui est l’archiviste principale des Hôpitaux universitaires de Genève.

Cet article est la version raccourcie d’un travail de master en sciences de l’information à la Haute école de gestion de Genève (Hug Buffo 2020). Nous invitons les personnes intéressées par le sujet à s’y référer, car les différentes thématiques y sont détaillées davantage. On y trouve notamment de nombreuses annexes (fiches descriptives des HUS, comparaison des lois cantonales, fil conducteur des entretiens, bibliographie complète, etc.).

Deux précisions terminologiques :

Nous avons opté pour le terme « dossier patient », plutôt que « dossier médical » ou « dossier médico-soignant », pour souligner qu’il s’agit d’un outil partagé et que le patient est au centre, et non un groupe professionnel en particulier.
Afin d’équilibrer la représentation des deux genres dans ce texte, nous utiliserons de préférence des tournures neutres et des termes épicènes. Dans les cas où cela s’avère impossible, nous alternerons entre le féminin et le masculin génériques.

Contexte de la recherche

La Suisse compte cinq hôpitaux universitaires (à Bâle, Berne, Genève, Lausanne et Zurich), qui, tout en entretenant des multiples collaborations entre eux, fonctionnent chacun selon un cadre juridique spécifique. Ils fournissent des soins de qualité à la fois dans des domaines de médecine de pointe, pour le grand public et dans le cadre de missions d’intérêt général. Ils mènent également des activités de formation, d’enseignement et de recherche. Toutes ces activités génèrent de grands volumes de données, le plus souvent sous forme numérique, qui constituent les dossiers patients.

Les multiples rôles du dossier patient

Le dossier patient est un outil indispensable dans nos institutions hospitalières. Il englobe des informations de divers corps de métiers (soignantes, médecins, professions médico-techniques…), sur différents supports (papier, microformes, radiographies, numérique…). Il permet de connaître les antécédents d’une patiente. Les informations qui s’y trouvent sont nécessaires pour la facturation des prestations et pour l’évaluation de la qualité. Pour l’individu, son dossier patient retrace une partie de sa vie – aujourd’hui, tout un chacun peut être acteur de sa santé grâce à la prise de connaissance, voire l’alimentation de son propre dossier. La science peut trouver des enseignements précieux dans les données de santé qui constituent le dossier, qu’il s’agisse de la médecine de précision (dite « personnalisée ») ou, ultérieurement, de recherches en sociologie ou en histoire de médecine.

Longtemps, le dossier patient était évidemment physique, sous forme de classeur, de fourre à rabats ou encore suspendu, et contenait des papiers divers ; certains types de documents particuliers, comme les radiographies, étaient classés à part. Puis, vers les années 1970, en raison du manque de place dans les grandes institutions hospitalières, le support a changé : le microfilmage a permis de comprimer considérablement le volume nécessaire au stockage de ces informations. Parallèlement, l’informatique se développait de plus en plus, d’abord pour les données administratives, puis progressivement pour la partie médico-soignante. Au tournant du siècle, la numérisation a pris la place du microfilmage, et de plus en plus de documents et données ont été générés directement sous forme digitale. Aujourd’hui, le dossier patient est le plus souvent « né-numérique ».

La gouvernance de l’information, pourquoi ?

La GI est une approche pour optimiser la gestion de l’information, la protéger et en tirer de la valeur, tout en minimisant les risques qui y sont associés. Cette démarche, qui doit se situer au niveau stratégique d’une institution, définit des politiques et processus transversaux, des rôles et des responsabilités. Elle pose un cadre de référence en tenant compte des obligations légales et réglementaires.

Plan de l’article

Après l’introduction (chapitre 1), nous détaillerons d’abord les objectifs et la méthodologie (2) de notre recherche, puis nous expliquerons les concepts utilisés et en donnerons les définitions (3), avant de décrire la GI avec ses tenants et aboutissants (4). Nous parlerons ensuite du contexte hospitalier suisse et des cinq institutions qui sont la cible de notre recherche (5). Nous nous intéresserons aux formes du dossier patient (6) et à son histoire (7). Nous évoquerons les diverses utilisations des données médicales (8) avant d’éclaircir quelques aspects du droit de la santé (9). Puis, nous relaterons et discuterons les résultats des entretiens menés avec des représentants des hôpitaux universitaires (10, 11). Nous démontrerons que les données médicales sont bel et bien des actifs informationnels (12), et nous proposerons une modélisation de la GI appliquée aux données médicales telle que nous l’avons perçue à travers notre recherche, et une ouverture vers des pistes de recherches futures (11). Nous conclurons par un résumé des points principaux (12).

2. Objectifs et méthodologie

Le travail de master visait à :

décrire la typologie des données médicales dans les HUS, leur genèse et leur utilisation ;
retracer l’évolution et les formes du dossier patient ;
dresser le portrait des pratiques informationnelles (consignées ou implicites) en matière de gestion des données à travers leur cycle de vie ;
décrire le contexte et les principaux enjeux de la GI, en regard des institutions examinées ;
modéliser la GI appliquée aux données médicales, avec les compétences et fonctions nécessaires.

Pour ce faire, nous avons adopté une démarche exploratoire descriptive qualitative : nous cherchions à savoir ce qui est préconisé en matière de GI dans le domaine médical – et ce qui se fait réellement dans les HUS. Dans ce but, nous avons combiné plusieurs méthodes :

étude de la littérature sur les sujets de la gouvernance informationnelle, de l’histoire du dossier patient et des différents enjeux liés aux données médicales ;
étude de la documentation disponible sur les HUS et des cadres réglementaires (plus particulièrement les lois cantonales) ;
enquête auprès des cinq HUS concernant leurs pratiques informationnelles à l’aide d’entretiens semi-dirigés.

Périmètre de l’étude et éléments de validité

Nous nous sommes concentrées sur les données médicales et n’avons pas traité les autres types de données (administratives) qui peuvent se trouver dans un hôpital : dossiers des ressources humaines, données financières, rapports de projets, brochures d’information…

Les détails opérationnels de la gestion de l’information, tels que les durées de conservation précises pour un certain type de documents, n’ont pas été étudiés. Par ailleurs, il ne s’agissait pas de comparer les HUS entre eux ni d’évaluer leur maturité en matière de GI, mais de dresser un portrait global des pratiques existantes.

Nous avons procédé à une triangulation des données récoltées, d’une part en confrontant les données récoltées lors des entretiens avec les enseignements tirés de la revue de littérature, d’autre part en comparant les réponses des HUS entre elles afin de cerner les points saillants.

Tout au long de la recherche, nous nous sommes efforcées de documenter notre méthodologie, afin de l’expliciter et de permettre une reproductibilité ultérieure.

3. Considérations terminologiques

Les données sont les plus petites unités, porteuses de sens, de l’information (InterPARES [s.d.]a). Elles sont « ce qui est connu et admis, et qui sert de base à un raisonnement, à un examen ou à une recherche » (Centre national de ressources textuelles et lexicales [s.d.]).

Lorsqu’elles sont assemblées, contextualisées, analysées, dans le but d’être communiquées, les données deviennent information (InterPARES [s.d.]b; Bennett 2017). Pour qu’elle soit de qualité, l’information doit être intègre, authentique, complète, à jour, exacte, fiable et crédible (Maurel 2013).

Un document est un ensemble constitué d'un support et de l'information qu'il porte (Direction des archives de France 2002). Il peut s’agir d’un texte imprimé sur du papier, de sons enregistrés sur CD… De nos jours, le « support » est souvent virtuel : les fichiers informatiques sont des enregistrements électroniques qui ne peuvent être lus que par l’intermédiaire d’une machine.

Un dossier est l’ensemble des documents (physiques ou numériques) réunis pour la conduite ou le traitement d'une affaire par une personne physique ou morale dans l'exercice de ses activités (Portail international archivistique francophone 2015). Le dossier patient quant à lui est « (…) une mémoire écrite de toutes les informations d’un malade, à la fois individuelle et collective constamment mise à jour » (Roger France 1982, cité dans Servais 1996) ; il doit servir à la fois aux soins, à la recherche, à la gestion de l’hôpital et à l’évaluation de la qualité des soins (Servais 1996). Les différentes législations sanitaires cantonales proposent également des définitions du dossier patient.

Terminologie hospitalière

Un hôpital est défini comme « élément d'une organisation de caractère médical et social dont la fonction consiste à assurer à la population des soins médicaux complets, curatifs et préventifs (...) c'est aussi un centre d'enseignement de la médecine et de recherche bio-sociale » (Organisation mondiale de la santé 1957).

Le système d’information clinique (SIC), aussi appelé système d’information hospitalière ou dossier patient informatisé, constitue le cœur du système d’information d’un hôpital. Il peut s’agir d’une solution globale intégrée ou d’un ensemble de systèmes indépendants. Par la dématérialisation du dossier patient, il permet une vision centrée sur les processus de soins. Les documents et données peuvent être mis à jour, consultés, interrogés et transférés instantanément, à l’interne ou à l’externe de l’institution ; les droits d’accès des utilisateurs peuvent être finement gérés afin de garantir la confidentialité des données. Le SIC peut améliorer la prise de décision clinique, p.ex. en produisant une alerte en cas d’interaction médicamenteuse dangereuse, et l’efficacité du fonctionnement de l’hôpital en centralisant les informations sur les rendez-vous ou les ordonnances (privatim 2015; Hôpital du Jura, Hôpital neuchâtelois, Hôpital du Jura bernois SA 2011; Batigne, Pozzebon, Rodriguez 2010).

4. La gouvernance de l’information

La GI cherche à optimiser la gestion de l’information, tout en respectant les obligations légales et réglementaires (compliance) et en minimisant les risques. Elle définit un cadre de référence, des politiques et processus transversaux, des rôles et des responsabilités.

Les spécialistes s’accordent à dire que la GI doit se situer au niveau stratégique d’une institution et être portée par un haut dirigeant (Smallwood 2019; Bennett 2017). La « gouvernance », ce n’est en effet pas la même chose que la « gestion » de l’information. Cette dernière s’occupe d’un aspect spécifique, opérationnel, quotidien, tandis que la GI a un caractère multidimensionnel, touchant l’ensemble du cycle de vie, en impliquant différents domaines d’activité. Anderfuhren et Romagnoli (2018) insistent sur les trois dimensions qui composent la GI : l’information vue comme ressource – l’optimisation globale et stratégique – la mitigation des risques.

Ce n’est pas la gouvernance des données, ni celle des systèmes d’information

Il y a parfois une confusion terminologique avec la gouvernance des données ou data governance. Cette dernière comporte des procédures et outils pour assurer la qualité des données (donc des éléments factuels, les unités de base de l’information) et est située à un niveau opérationnel. Il s’agit p.ex. d’assurer l’unicité d’une donnée (dédoublonnage), de gérer les données de référence (master data management) et les métadonnées. La gouvernance des données est une des parties d’une démarche GI (Butler 2017; Smallwood 2014; Perrein 2011).

La gouvernance des systèmes et technologies d’information (SI) ou IT governance, quant à elle, vise une utilisation efficace et efficiente des SI dans le but de permettre à l’institution d’atteindre ses objectifs (Gartner [s.d.]a). Il s’agit de la mise à disposition de moyens techniques en fonction de besoins exprimés par les autres métiers.

Les actifs informationnels

Les actifs informationnels ou information assets englobent tous les éléments d’information ayant de la valeur pour une institution, de manière très large et indépendamment du support : le savoir des parties prenantes (écrit ou tacite), les données structurées dans des bases, les documents non structurés numériques ou physiques, l’information publiée sur Internet ou achetée à des tiers, les systèmes d’information, etc. (Gartner [s.d.]b; Maurel 2013). Dans la démarche de GI, ils sont inventoriés et référencés pour en tirer de la valeur et les sécuriser (Smallwood 2014; Perrein 2011).

Cette valeur n’est que rarement chiffrée et ne figure pas dans le bilan d’une société (les brevets sont l'exception qui confirme la règle). Souvent, elle est créée par une utilisation novatrice des données, telles que les applications de big data. Mais l’on se rend surtout compte de cette valeur lorsqu’il y a un problème, que ce soit par un acte d’inadvertance ou criminel : la fuite d’informations confidentielles, la perte d’un document de preuve, le départ d’une personne très expérimentée. Dans le domaine médical, où les informations sont sensibles par nature, un tel problème peut être particulièrement délicat.

Un exemple récent : en septembre 2019 l’entreprise allemande Greenbone, spécialisée dans la sécurité des réseaux informatiques, a révélé que des millions de jeux de données médicales, dont de l’imagerie, étaient librement accessibles via Internet. Les serveurs de stockage et les systèmes de visualisation n’étaient en effet pas suffisamment protégés contre un accès en ligne. 52 pays étaient concernés, dont la Suisse. Greenbone estime que l’ensemble de ces données médicales a une valeur de 1,2 milliards de dollars (Greenbone Networks GmbH 2019; Meibert 2019; Chavanne, Jaun 2019).

Une approche interdisciplinaire

La GI englobe toute une série d’activités effectuées par différents acteurs (Smallwood 2019). Les spécialisations nécessaires pour mener un programme de GI vont du droit à la gouvernance des données, en passant par les systèmes d’information, le records management ou la cybersécurité.

Différentes associations professionnelles ont publié ces dernières années des standards et bonnes pratiques dans le contexte de la GI, par exemple des cadres de référence ou des modèles de maturité. Un exemple sont les Generally Accepted Recordkeeping Principles® (GARP), publiés en 2009 et mis à jour en 2017 (ARMA International [s.d.]a), complétés par le Information Governance Implementation Model qui liste les différentes briques nécessaires à une bonne GI (ARMA International [s.d.]b). L’American Health Information Management Association (AHIMA) a décliné ces standards en fonction des besoins spécifiques des institutions de santé sous les titres de Information Governance Principles for Healthcare (IGPHC) (AHIMA 2014) et Information Governance Adoption Model (Smallwood 2019).

5. Le monde hospitalier suisse et les hôpitaux universitaires

La typologie des établissements de soins en Suisse, élaboré par l’Office fédéral de la statistique, est basée à la fois sur le nombre de disciplines ou types de traitements proposés, sur les possibilités de formation médicale offertes dans l’institution et sur le nombre de cas d’hospitalisation. Elle tient donc compte non seulement de la taille de l’établissement, mais aussi de son infrastructure et du rôle qu’il joue dans une région, dans une optique de politique sanitaire (Office fédéral de la statistique 2006).

Sur les presque 300 hôpitaux qui existent actuellement en Suisse, cinq sont qualifiés d’ « universitaires » :

Bâle : Universitätsspital Basel (USB)
Berne : Hôpital de l’Île (Insel)
Genève : Hôpitaux universitaires de Genève (HUG)
Lausanne : Centre hospitalier universitaire vaudois (CHUV)
Zurich : Universitätsspital Zürich (USZ)

Les cinq hôpitaux universitaires suisses (HUS) comptent entre 7229 et 11’945 employés et traitent annuellement entre 38'750 et 64'134 cas hospitaliers (chiffres 2019). Ils reçoivent une contribution financière de leur canton siège, notamment pour les missions d’intérêt général (dont l’enseignement), et génèrent également des revenus par leurs activités.

Certains HUS englobent la totalité des spécialités médicales ; dans d’autres cantons la pédiatrie, la psychiatrie ou encore la gériatrie relèvent d’institutions indépendantes. La gouvernance hospitalière comporte généralement un Conseil d’administration (nommé par le Conseil d’État du canton respectif) et un Conseil de direction, composé d’un directeur général et des responsables des directions transversales.

Toutes les institutions ont des systèmes d’information cliniques, achetés ou développés en interne, qui permettent de gérer les données médicales. Le dossier numérique est aujourd’hui la règle dans les cinq HUS. En analysant leurs publications, nous n’avons pas trouvé de document dédié à la GI en tant que telle, mais des éléments d’information se trouvent dans les rapports d’activité et de gestion : projets liés à l’informatique médicale, démarches d’urbanisation des systèmes d’information, mise en place du dossier électronique du patient (DEP), etc. Les sites web des institutions, à l’intention du public, ont généralement des rubriques dédiées au consentement à la recherche ou à la démarche nécessaire pour demander des copies de son propre dossier.

6. La notion de dossier patient

Comme nous l’avons déjà mentionné dans l’introduction, les raisons d’être du dossier patient sont multiples. Dans le cadre de la prise en charge, il sert à assurer la continuité de traitement et permet la transmission d’informations au sein d’une équipe pluri-professionnelle. La qualité des soins dépend directement de la qualité de l’information à disposition. La facturation des actes effectués n’est possible que si ces actes ont été documentés. Le dossier est également la base de référence pour une réserve ou un refus de prestations de la part d’une assurance, ou pour des mesures tutélaires ou de droit pénal. De même, des informations fiables et trouvables au moment opportun sont indispensables pour les autres utilisations qui en sont faites : audits, études épidémiologiques, recherches en tout genre, analyses statistiques et économiques, benchmarking entre institutions, veille sanitaire etc. (Donaldson, Walker 2004; PFPDT 2002; Servais 1996).

Pour toutes ces raisons, la documentation clinique fait donc naturellement partie du quotidien des professionnelles médico-soignantes. De nos jours l’écriture des actes peut être automatisée : des machines transmettent des données, des signaux, des images directement dans les systèmes d’information cliniques. Un cas particulier de contenus audio sont les enregistrements sur dictaphone, transcrits ultérieurement pour générer par exemple une lettre de sortie.

Comme de nombreux corps de métier interviennent à différents moments de la trajectoire du patient, et en fonction de la documentation des activités, le dossier est constitué de plusieurs parties : médicale – de soins – sociale – administrative. En cas de dossier physique, les parties peuvent être séparées par des intercalaires ou même se trouver dans différentes fourres, pour des raisons pratiques de gestion. Elles sont toutefois liées par un identifiant (p.ex. numéro de patient et numéro d’épisode de soins / de séjour hospitalier / de traitement ambulatoire). Un dossier informatique, s’il regroupe virtuellement les données en provenance de différentes sources, permet généralement d’afficher des vues par métier ; d’une part pour cibler l’information sur les besoins immédiats de la personne qui consulte, d’autre part pour respecter la protection des données.

La métaphysique du dossier

Les changements de support impliquent des changements dans la manipulation, l’organisation ou encore la perception de l’information qui y est consignée. Ces questions n’ont, à notre connaissance, pas encore été étudiées de manière approfondie, mais il paraît probable qu’il y ait une influence de la forme du dossier sur la façon de « penser » celui-ci. En effet, dans un premier temps la version numérique reproduisait simplement la structure du dossier papier. De nos jours, où les données ont pris le dessus sur les documents, il s’agit du résultat de la mise en réseau des différents modules du système d’information clinique, assemblé et affiché selon diverses manières, en fonction de l’interrogation du moment ; le numérique crée de nouveaux narratifs de « l’histoire patient ».

7. Histoire du dossier patient – exemple des HUG

L’évolution du dossier patient jusqu’au 20^ème siècle est assez bien étudiée, du « Corpus Hippocraticum » de la Grèce antique jusqu’aux registres d’entrées et de sorties dans les premières cliniques modernes, en passant par les échanges épistolaires entre médecins médiévaux. En revanche, à notre connaissance, il n’existe que très peu de publications qui relatent (partiellement) l’histoire récente du dossier patient en lien avec l’évolution technologique des dernières décennies. Par conséquent et à titre d’exemple, nous expliquons ici brièvement ces mutations telles qu’elles se sont passées aux Hôpitaux universitaires de Genève (HUG).

Les microformes

Un premier changement de support intervint à partir des années 1970 : les activités de l’hôpital ayant augmenté exponentiellement, on manquait d’espace pour le stockage des dossiers. Certains services médicaux décidèrent alors de remplacer les dossiers papier par des microformes (microfilms ou microfiches). Cette technologie, qui existe depuis les années 1850 déjà, permet de reproduire les pages du dossier, en version réduite, sur un support en pellicule photographique. Plusieurs dizaines de pages A4 tiennent ainsi sur une microfiche de taille A6. Des appareils de lecture permettent de visionner les documents, voire de les réimprimer. Aux HUG, la centrale de microfilmage était active de 1975 à 2005 et traita jusqu’à 1,7 millions de pages par année.

Les premières applications d’informatique médicale

Dès 1972 l’application DIOGENE, développée en interne, était utilisée pour diverses tâches administratives aux HUG, telles que la gestion du personnel ou la facturation. À partir de 1978 elle gérait également les admissions et les identités, permettant ainsi de maîtriser la trajectoire du patient du point de vue administratif. Progressivement, d’autres applications étaient développées pour former un véritable écosystème d’informatique médicale : gestion des examens de laboratoire (dès 1988), production de documents à partir des données DIOGENE (dès 1993), etc. En 2000, les différents volets médicaux et infirmiers furent intégrés dans un seul dossier : c’était la naissance du DPI (cet acronyme signifiant « dossier patient intégré », pas « informatique » comme on pourrait le croire). En 2004, DPA, le « dossier patient administratif », fut déployé, intégrant DIOGENE avec les applications administratives utilisées en gériatrie et en psychiatrie.

Par la suite, le DPI fut constamment élargi par des modules supplémentaires, des nouvelles vues furent développés en fonction des besoins métiers, ainsi que des applications annexes telles que la prescription informatisée, la gestion des blocs opératoires, etc. Ces centaines de réalisations mineures ou majeures permirent de forger le DPI d’aujourd’hui, devenu indispensable aux professionnelles de santé des HUG.

La numérisation et les dossiers nés-numériques

Dès 2000, une obsolescence à moyen terme de la filière microfilm était reconnue. On proposa alors la mise en place d’un système de gestion électronique des dossiers patients, en remplaçant le microfilmage des pages par la numérisation. L’avantage était notamment un accès facilité aux informations, sans nécessité de transporter un dossier physique. En 2006 la centrale de numérisation (CN) entra en service.

Parallèlement à l’activité de la CN pour la numérisation rétrospective, le DPI connut des évolutions supplémentaires, et de plus en plus de formulaires papier y étaient reconstitués sous forme dématérialisée. Ainsi, le dossier patient devint hybride : la plupart des documents sur papier provenaient en fait d’une impression depuis le DPI, et les données existaient à double.

On chercha à supprimer ces redondances et arriver au « tout numérique », en considérant le dossier patient électronique comme étant l’original et en ne scannant plus que les documents entrants. Ce changement de paradigme a été entériné par la validation en Comité de direction de la nouvelle « Directive sur la gestion des dossiers patients numérisés », le 21 février 2013. Aujourd’hui, plus de 90% des services médicaux des HUG travaillent avec le dossier né-numérique.

8. Autres utilisations des données médicales

Le dossier électronique du patient

Le concept de cybersanté (ou eHealth) est défini comme « l'utilisation intégrée des technologies de l’information et de la communication pour l’organisation, le soutien et la mise en réseau de tous les processus et acteurs du système de santé » (eHealth Suisse 2019). Le dossier électronique du patient (DEP) en est une application. Ses objectifs sont notamment de faciliter l’échange d’informations entre prestataires de soins (PS) concernant un patient commun et de favoriser l’empowerment de ce dernier.

La Loi fédérale sur le dossier électronique du patient (LDEP) est entrée en vigueur le 19 juin 2015 et oblige les établissements de soins stationnaires à disposer d’une telle solution. Depuis plusieurs années, acteurs publics et privés travaillent donc de concert pour réaliser ce nouveau service. Fédéralisme suisse oblige, il y aura différentes solutions, selon les régions. Concrètement, le DEP, considéré comme un « système secondaire », permettra l’affichage simultané de documents et de données en provenance des différents « systèmes primaires » des hôpitaux ou autres PS impliqués dans le traitement d’une patiente. En revanche, il n’y aura pas de stockage centralisé de données médicales.

La patiente peut visionner l’ensemble de ses documents et accorder l’accès aux PS avec lesquels elle est en relation, avec une gestion très fine des droits (pour une certaine catégorie de documents, pour une durée limitée…). Par la suite, ces PS pourront consulter les documents en provenance d’un autre prestataire et même les copier dans leur propre système primaire. La patiente peut aussi ajouter elle-même des documents, p.ex. un suivi de glycémies ou des directives anticipées.

Les applications big data

Les big data désignent de volumes massifs de données de grande variété, qui sont traitées et analysées dans de courts délais, et qui sont impossibles à gérer avec des outils classiques de gestion de l'information. Les progrès technologiques de ces dernières années et l’augmentation de puissance de calcul des ordinateurs en permettent désormais l’utilisation, y compris dans le domaine de la santé.

La « data driven medecine » ou médecine de précision permet de personnaliser l’approche de médecine pour chaque individu et optimiser sa prise en charge en tenant compte de ses caractéristiques individuelles, notamment la variabilité des gènes, les biomarqueurs moléculaires, l'environnement et le mode de vie. Pour ce faire, elle exploite le potentiel de différents ensembles de données liées à la santé humaine : des données génomiques par exemple, mais aussi des données cliniques provenant des institutions médicales, des données des biobanques ou des données de santé relevées par les personnes elles-mêmes (Swiss Personalized Health Network [s.d.]).

Les données de recherche

Les données de santé deviennent régulièrement données de recherche, que ce soit en lien avec des méthodes big data ou lors d’études cliniques ou épidémiologiques plus classiques. Dans le monde académique, ces dernières années, on assiste à un mouvement du Open Data : les données sont mises à disposition sur le web, de manière structurée, pour des réutilisations diverses. Il est clair que les données de recherche issues de données médicales, sensibles par nature, ne pourront jamais être totalement ouvertes. Il est en fait impossible de les anonymiser totalement : en croisant, dans les jeux de données, différentes informations individuelles, elles peuvent être reconnectées pour former un profil de personne. La recherche doit être encadrée par des règles d’éthique, et les données (primaires ou secondaires) devront toujours être protégées par les institutions qui les produisent. Mais elles seront partageables, grâce à l’interopérabilité sémantique, dans des contextes et partenariats bien définis, pour faire avancer la science (Lovis 2019; 2018).

9. Aspects juridiques – le droit de la santé

Dans le système politique suisse, la plupart des compétences en matière de santé se trouve au niveau des cantons, p.ex. l’attribution des ressources pour l’infrastructure hospitalière. La Confédération, et plus spécifiquement l’Office fédéral de la santé publique, gèrent certains domaines, notamment l’assurance maladie et accidents.

Quatre des cinq hôpitaux universitaires suisses sont des établissements de droit public, seul celui de Berne est une organisation de droit privé. Toutefois il possède un contrat de prestations avec le Canton de Berne concernant ses activités hospitalières. C’est pourquoi, pour tous les HUS, les législations cantonales respectives s’appliquent.

Nous nous sommes intéressées à quelques aspects essentiels du droit de la santé qui sont en lien avec la gouvernance de l’information. Plus spécifiquement, nous avons examiné certaines lois des cantons de Bâle-Ville (BS), Berne (BE), Genève (GE), Vaud (VD) et Zurich (ZH), qui sont les sièges des HUS. À noter qu’il existe évidemment beaucoup d’autres textes législatifs dont il faut tenir compte dans le cadre de la GI en milieu médical, p.ex. au sujet de la recherche sur l’être humain. En plus des lois, d’autres cadres réglementaires doivent aussi être pris en considération, dont le code de déontologie de l’association professionnelle des médecins (Foederatio Medicorum Helveticorum, FMH) ou les directives médico-éthiques de l’Académie suisse des sciences médicales.

Obligation de tenir un dossier patient et de l’archiver

Les prestataires de soins ont l’obligation de consigner, par ordre chronologique, les aspects importants de toute relation thérapeutique : anamnèse, diagnostic, thérapies suivies, documents transmis par des tiers, résultats de laboratoire, images radiographiques, etc. (Gächter, Rütsche 2018). Il est également très important de garder une trace des informations données à la patiente et du consentement de celle-ci. La documentation doit par ailleurs être véridique, complète et tenue en temps et heure (Wiegand 1994). Cette obligation figure dans les cinq lois sur la santé examinées. BE, GE et ZH indiquent que le dossier peut être tenu sous forme électronique.

Quant à la durée de conservation des dossiers après le dernier passage du patient, BE, GE et VD parlent de « au moins 10 ans », BS « [exactement] 10 ans », ZH « 10 ans » avec une option de prolongation jusqu’à 50 ans dans l’intérêt du patient ou dans une perspective de recherche.

GE spécifie que le dossier doit être détruit au plus tard après 20 ans si « aucun intérêt prépondérant pour la santé du patient ou pour la santé publique ne s’y oppose », formulation qui laisse une marge d’interprétation relativement grande. Par ailleurs, les dispositions de la Loi genevoise sur les archives publiques, imposant un délai plus long, sont réservées. L’obligation de proposer le versement aux archives cantonales, sans figurer dans la Loi sur la santé, existe aussi pour les hôpitaux universitaires de BS, VD et ZH, qui sont soumis à leurs Lois sur l’archivage respectives.

Consultation de dossiers patients en tant qu’archives historiques

Quant à la consultation des archives historiques, de manière générale, les dossiers contenant des données personnelles sont soumis à des délais de protection plus longs que les autres : selon les cantons, ces délais sont 3 à 10 ans après le décès, ou 100 à 110 ans après la naissance de la personne, ou 80 à 110 ans après l’ouverture ou la clôture du dossier. ZH est le seul canton qui mentionne spécifiquement les dossiers patients, en indiquant qu’ils deviennent accessibles 120 ans après leur clôture. À noter que le secret professionnel ne s’éteint en principe jamais, et que la consultation de dossiers patients archivés devrait par conséquent toujours nécessiter la levée de ce secret par l’autorité compétente – c’est en tout cas la pratique à GE. Mais l’interprétation juridique de cette question semble varier d’un canton à l’autre : les Archives d’État de BS, notamment, sont compétentes pour décider de la communication des dossiers patients qui leur ont été versés « s’il est apparent, en tenant compte de l’âge et du contenu des documents, qu’aucun intérêt protégé par le secret médical ne sera plus lésé ».

Droit de consulter son propre dossier

Dans l’ensemble des cantons examinés, la patiente a le droit de consulter son propre dossier et de se faire expliquer son contenu. BE et GE indiquent qu’une notice informative doit être remise aux patientes, les informant de leurs droits (dont celui de consultation de leur propre dossier) et devoirs. Selon les cas, il est possible d’exiger la remise du dossier original (BE, GE) ou seulement de copies, le dossier lui-même restant propriété du prestataire (BS, ZH). VD laisse le choix entre ces deux options. Les notes personnelles du médecin et les documents contenant des informations sur des tiers sont exclus du droit de consultation.

Protection des données

Les cinq cantons examinés possèdent une Loi sur la protection des données. Dans le cas de BS, GE et ZH celle-ci englobe également l’aspect de la transparence des actes administratifs (« information du public »). Les cinq lois définissent de manière très similaire les « données personnelles » comme des informations relatives à une personne identifiée ou identifiable. Parmi les données particulièrement dignes de protection figurent notamment les informations relatives à l’état de santé physique ou psychique. BS et ZH mentionnent spécifiquement les données génétiques, ZH également les biométriques.

Les principes de base à appliquer au traitement de ces données sont partout les mêmes : proportionnalité, information de la personne dont les données sont collectées, utilisation uniquement dans le but déclaré, droit de consultation par la personne concernée.

Secret professionnel

Un devoir de secret pour les professions de la santé, lié à l’éthique du médecin, est déjà mentionné dans le Serment d’Hippocrate, rédigé vers le 4^e siècle avant notre ère. En Suisse, la prescription figure dans l’article 321 du Code pénal. Elle interdit aux professionnels de toute une série de métiers, notamment de santé, de révéler les informations dont ils auraient eu connaissance dans l’exercice de leur profession, sauf si la personne concernée ou l’autorité compétente les y autorise.

GE et VD disposent dans leurs Lois sur la santé respectives d’un article intitulé « Secret professionnel », qui indique les personnes concernées (toute personne qui pratique une profession de la santé, ainsi que ses auxiliaires) et le but du secret (protection de la sphère privée du patient), ainsi que la possibilité de se transmettre des informations entre professionnelles, dans l’intérêt du patient et avec son consentement.

BE parle d’un « devoir de discrétion » : « Les professionnels de la santé sont tenus de garder secrets tous les faits (…) ». ZH, sans utiliser le terme « secret », indique que des informations concernant des patientes peuvent uniquement être communiquées à des tiers avec l’accord de la personne concernée ; mais dans le cas des proches immédiats et du médecin traitant on part du principe que cet accord est tacitement donné, s’il n’y a pas eu de mention contraire expresse. Quant à BS, nous n’avons pas trouvé de mention des termes Patientengeheimnis ou Arztgeheimnis dans le recueil systématique de la législation cantonale.

10. Résultats des entretiens

Afin de compléter la partie « revue de la littérature » de notre recherche, cinq entretiens ont été menés avec un à deux représentants des HUS, dans le but de comprendre leurs pratiques informationnelles. Le choix des personnes de contact a été laissé aux institutions, ce qui a résulté en une grande variété de fonctions représentées : médecins avec spécialisation en télémédecine, juristes, qualiticiennes, archivistes, spécialistes de la cybersécurité ou de l’éthique de la recherche, gestionnaires des risques, etc. Les entretiens, d’une durée d’une heure environ, ont été menés soit en présentiel, soit par visio-conférence. Par la suite, ils ont été transcrits pour permettre leur relecture par les personnes interrogées, puis synthétisés en deux étapes (d’abord par HUS, puis globalement) afin de pouvoir restituer les résultats tout en conservant l’anonymat des personnes comme des institutions.

La terminologie de la GI

Les termes « gouvernance » ou « governance » sont utilisés dans les HUS, mais dans un contexte de « IT governance » ou « corporate governance », jamais en tant que locution « gouvernance de l’information ». Cette expression est effectivement très peu connue de nos interlocuteurs, qui n’ont qu’une vague idée de sa signification. « Actif informationnel » ou « information asset » sont totalement inconnus (quoique bien compris avec la définition livrée au moment de l’entretien).

Les personnes interrogées connaissent pour la plupart la notion de « cycle de vie » des données et documents, mais le définissent différemment : soit du besoin de création d'un document à sa destruction ; soit en distinguant les affaires courantes, les affaires terminées, et les documents dans l’archive ; soit ils font allusion à la trajectoire du patient dans l’hôpital, avec admission, traitement, sortie.

La valeur de l’information et son cadre réglementaire

Nos interlocuteurs sont unanimes sur le fait que la valeur de l'information est reconnue au plus haut niveau dans leurs institutions respectives. Cela transparaît dans les consignes institutionnelles, mais aussi dans l’allocation de ressources pour les services qui gèrent cette information. La protection des données est partout un sujet très présent. Les métiers médico-soignants connaissent bien la notion du « secret », qui fait partie de leur identité professionnelle.

Comme cadre réglementaire, les personnes interrogées évoquent les législations cantonale et fédérale ; les directives et procédures internes, les bonnes pratiques et guides ; la politique documentaire, le règlement d'utilisation des moyens informatiques, les règles de droits d'accès aux applications. Partout, il y a des formations internes obligatoires au sujet de la protection des données notamment, les nouveaux collaborateurs sont sensibilisés à la question dès leur journée d’accueil. Il y a des processus avec des rôles et responsabilités définis. Les HUS ont aussi mis en place des commissions transversales en la matière et différentes instances de décision. En revanche, il n’y a pas de politique globale de GI.

Données versus dossiers

Toutes les informations et données concernant la prise en charge d'un patient font partie du dossier, même quand elles se trouvent dans des systèmes séparés. Dès qu'un signal ou des données sont reçues, cela est rattaché à un patient et appartient donc au dossier. Les différentes lois cantonales définissent le contenu de celui-ci. Il peut s’agir d’un dossier hybride (papier/numérique), qui forme néanmoins une entité.

Lors des entretiens, nous avons évoqué oralement l’exemple d’une vidéo d’une intervention chirurgicale de 8 heures. Ce type de fichier, très volumineux, soulève la question de la nécessité de conservation de l’ensemble, ou seulement de séquences sélectionnées. D’après nos interlocuteurs, la vidéo entière fait indéniablement partie du dossier, même si tout n’est pas conservé in fine. Il faut déterminer la finalité de cet enregistrement – contrôle qualité, documentation de l'opération, extraits utiles dans le cadre de l’enseignement – et définir des délais de conservation en conséquence.

Création et capture des données médicales

Les données sont soit saisies dans le SIC par les collaborateurs, soit envoyées par des machines ou systèmes interfacés (imagerie, laboratoires…), et les métadonnées y sont associées automatiquement. Les documents papier nouvellement créés sont très rares aujourd'hui ; tout papier entrant est scanné et ajouté au SIC dans le but d’avoir toutes les données au même endroit, retrouvables et protégées par les mesures de sécurité du système informatique.

Utilisation et gestion des données médicales

Le dossier électronique est structuré et standardisé, parfois avec une granularité très fine pour la typologie des documents. Des données « assimilées à des données médicales » se trouvent aussi dans la base de données administratives, à la facturation, etc. En effet, une information du type « Mme A. a rendez-vous à la clinique B telle date », sans être médicale, est déjà considérée comme une information liée à la santé et donc confidentielle. La bonne gestion du dossier patient est de la responsabilité de la direction médicale, qui émet des directives et forme les utilisateurs.

Le DEP est partout en cours d'élaboration ; il existe déjà des canaux ciblés pour partager des informations médicales entre professionnels, p.ex. un portail pour les médecins de ville. Le patient doit évidemment donner son consentement pour la communication de données le concernant, mais selon les HUS, celui-ci est considéré comme implicite dans le cadre de la continuité des soins, s’il n’y a pas un refus clair.

Consultation du dossier

L’hôpital universitaire de Bâle a un service centralisé pour le contrôle et la communication du dossier numérique. Dans les autres HUS, la patiente doit adresser la demande de son dossier soit à la direction médicale, soit à la clinique concernée, qui va donner suite et communiquer les documents souhaités (copies papier, ou sur CD-Rom ou clé USB, ou consultation sur place). Les cas litigieux ou les demandes par des tiers passent par le service juridique.

Les accès internes dans le SIC sont bien réglementés. Les collaboratrices du service qui traite le patient peuvent visualiser son dossier sans autre ; les personnes rattachées à un autre service doivent procéder à un « bris de glace », c’est-à-dire qu’il faut justifier le besoin d’accès. Toutes ces activités sont consignées dans des logfiles.

Archivage et destruction

Il existe depuis longtemps des règles de gestion archivistique pour les supports physiques. Les dossiers sont conservés sur place pendant 20 ou 30 ans après le dernier passage de la patiente, dans certains cas spécifiques même jusqu'à 100 ans. Puis, les institutions qui sont soumises à une Loi cantonale sur les archives versent un échantillon aux archives cantonales. Les autres documents physiques sont détruits de manière confidentielle.

En ce qui concerne les données numériques, certains HUS ont un système d'archivage qui fonctionne en parallèle avec le SIC, et chaque document clinique y est copié dès sa création. Après un délai défini suivant la clôture du dossier, les documents peuvent donc être « purgés » du SIC actif. Le système d’archivage est intégré avec celui-ci pour permettre la visualisation des anciennes données, mais pas leur modification.

En revanche, il n’y a pas de destruction prévue après un certain délai, toutes les données restent pour l’instant dans le SIC (ou dans le système auxiliaire d’archivage) ad vitam aeternam. Cette question n’a pas été traitée pour l’instant. Selon les législations cantonales, le patient pourrait en effet exiger l’effacement des données le concernant, mais une telle demande serait en opposition avec le devoir de documentation de l’institution et/ou avec la législation sur les archives publiques.

Réutilisation pour la recherche

Un consentement général concernant cette réutilisation est systématiquement demandé aux patients lors de l'admission et la décision (accord ou refus) consignée dans la partie administrative du dossier patient.

Lors d’un projet de recherche, il faut préalablement obtenir l’autorisation de la commission cantonale d'éthique de la recherche sur l'être humain. Les demandes sont parfois centralisées à la direction recherche et enseignement pour avoir une vue globale et garantir le respect des règles. Les données sont ensuite extraites soit directement du SIC, soit d’un data lake constitué en amont en tant que source consolidée. Le grand défi est l'anonymisation ou désidentification des données, surtout si celles-ci ne sont pas structurées. Avec les SIC modernes on tend à avoir le plus possible de données sous forme structurée, plus exploitables.

Quant à l’archivage des données de recherche, de plus en plus demandé par les bailleurs de fonds ou par les revues scientifiques, aucun HUS n'a mis en place un dépôt spécifique. Il y a néanmoins des collaborations plus ou moins étroites avec les universités ; on commence à réfléchir à ce sujet.

Autres composantes de la GI

La cybersécurité relève de la compétence des services informatiques. Les HUS allouent plus ou moins de ressources humaines à ce domaine, mais font tous preuve d’un effort constant pour sensibiliser les collaborateurs avec des campagnes sur Intranet ou de la simulation de mails de phishing. Nos interlocuteurs estiment que tout le monde doit être attentif à son niveau, l'humain étant le point faible de beaucoup de systèmes techniques.

Tous les HUS effectuent régulièrement un recensement des risques, d’abord au niveau des services, puis consolidé au niveau institutionnel. Des risques qu’on peut qualifier « d’informationnels », comme les cyberattaques, fuites de données, usurpations d'identité, figurent dans la cartographie et sont qualifiés de haute priorité.

Dans aucun des HUS il n'y a de démarche institutionnelle de knowledge management (KM). Au niveau des services on peut trouver des wiki documentaires avec des expériences faites lors de projets ou des modes d'emploi pour une manipulation particulière. Il existe parfois des listes de collaboratrices avec des connaissances linguistiques spécifiques, notamment en langue des signes. La volonté de nos interlocuteurs est aussi de consigner, le plus possible, les règles établies oralement.

Des référentiels ou master data existent pour les données administratives des patients, les données des collaborateurs, et aussi pour l'organigramme structurel. On tend vers une source unique pour toutes ces données, avec intégration des applications. Il y a des démarches pour créer une nomenclature clinique unifiée.

La pertinence d’une démarche de GI

Tous nos interlocuteurs soulignent l’importance d’une bonne GI pour la sécurité du patient, afin d’assurer la prise en charge correcte et d’éviter des incidents médicaux. Une méconnaissance des rôles et responsabilités peut être à l’origine de malentendus potentiellement graves. En cas de litige juridique, l’institution doit pouvoir produire des preuves : si l’information donnée au patient n’est par exemple pas documentée, c’est comme si elle n’avait pas eu lieu.

Nos interlocuteurs mentionnent également le risque de perte de données ; ou les données existent, mais ne peuvent être retrouvées au moment opportun… Une mauvaise qualité des données (doublons, erreurs) aurait comme conséquence une mauvaise qualité des statistiques, ou de toute autre utilisation. Sans une documentation correcte des actes effectués, ceux-ci ne peuvent être facturés, et il y a donc un manque à gagner pour l’institution. Des données de qualité sont également nécessaires à l’intégrité de la recherche.

Selon nos interlocuteurs, la GI est aussi un moyen pour maintenir la confiance de la population et ne pas nuire à la réputation de l'institution. Même si dans 99,99% des cas tout se passe selon les règles, la moindre fuite des données aurait un impact sévère sur son image.

Leçons apprises, mesures prises, bonnes expériences

Nos interlocuteurs ne voulaient pas forcément faire part des incidents liés à une mauvaise gestion de la GI arrivés dans leurs institutions, réaction légitime malgré l’assurance d’anonymat que nous leur avions donnée. Quelques exemples ont quand même été mentionnés, avec les mesures prises pour y remédier :

Des données médicales ont été envoyées par des canaux non sécurisés à développement d'un messenger interne pour remplacer WhatsApp.
La réponse décentralisée aux demandes externes n'était pas assurée et trop lente à création d'un service spécialisé disposant de toutes les informations nécessaires.
Retour des utilisateurs que les informations étaient difficiles à trouver dans le dossier électronique à adaptation de l’application, granularité plus fine pour la typologie des documents.

Plusieurs cas ont été cités où une bonne GI a permis de disposer des informations pertinentes au bon moment :

Un patient inconscient arrive aux urgences à l’information concernant une allergie médicamenteuse se trouve dans son dossier et le traitement peut être adapté en conséquence.
Une IRM est prévue pour une patiente porteuse d’un implant à on peut connaître le matériau utilisé pour assurer la sécurité au moment de l’examen.
Les traitements complexes définis dans la classification suisse des interventions doivent être documentés précisément pour justifier la facturation à chaque étape de la prise en charge figure dans le dossier avec le professionnel responsable.

Défis actuels et à venir

Nos interlocuteurs reconnaissent une opposition entre protection des données d’une part et besoins pour la prise en charge et/ou la recherche d’autre part. Les deux sont en effet dans l'intérêt du patient, et il faut pouvoir gérer ces contradictions. Un exemple : si un médecin peu expérimenté envoie pendant son service de nuit l’image d'une blessure au spécialiste par WhatsApp, sans divulguer l'identité du patient – cela n’est pas vraiment conforme aux règles, mais permet une prise en charge ciblée. Comme une personne interrogée l’exprime : « Les règles, c'est bien, mais le bon sens est important aussi ».

Globalement, il s’agit d’opérationnaliser les dispositions légales et assurer la confidentialité, intégrité, disponibilité et traçabilité des données lors de leur traitement. La grande hétérogénéité dans le fonctionnement des services est un défi, malgré les standards définis au niveau institutionnel.

Les projets en lien avec la GI sont multiples : lancement du DEP, gestion documentaire, intégration des systèmes encore séparés, extension du data lake, projets liés à l'imagerie. Les directives et procédures doivent être tenues à jour ; il s’agit aussi de former et sensibiliser en continu l’ensemble des collaborateurs. Comme la stratégie globale de chacun des HUS tend vers le numérique et mise toujours plus sur les outils informatiques, les processus doivent être adaptés en pensant les principes d’une bonne GI dès leur conception.

11. Points communs des entretiens

Nous retrouvons dans les propos de nos interlocuteurs de nombreux éléments relevés lors de la revue de littérature :

la valeur qui peut être tirée de l’information si elle est bien gérée et accessible au moment opportun,
la nécessité d’une sensibilisation constante à tous les niveaux,
la conjugaison du comportement humain et des outils technologiques,
la complexité créée par les grandes masses de données informatiques,
l’importance de la gestion des risques.

En effet, les cinq HUS interrogés ont un nombre conséquent de démarches qui font partie de la gouvernance de l’information, même si ce n’est pas sous ce qualificatif. Il n’existe ni de service, ni de personne en charge de la GI, ni de politique institutionnelle de GI, le terme n’est pas utilisé en tant que tel. Mais les HUS sont bien conscients de la valeur des données médicales, à la fois pour la prise en charge de leurs patients au quotidien et pour les différents usages ultérieurs.

La réglementation (fédérale, cantonale ou interne) est bien connue des personnes que nous avons interrogées. Ces lois ou directives sont effectivement un outil très important pour donner un cadre clair à l’ensemble des opérations effectuées sur les données médicales.

L’éthique est également un sujet récurrent, même si ce terme précis n’était pas forcément utilisé par nos interlocuteurs. Mais ils parlaient fréquemment de « l’intérêt du patient », de sa « sphère privée » qui doit être respectée, de la recherche « qui fait avancer la médecine pour le bien de tous ». La Loi relative à la recherche sur l’être humain était citée en long et en large, dont l’éthique est un pan important, notamment par l’instauration des commissions cantonales d’éthique dans la recherche, qui sont en contact étroit avec les HUS.

Il existe partout des services ou personnes en charge de la cybersécurité, et de la gestion des risques (dont les risques informationnels). La gestion documentaire en lien avec les données médicales est globalement bien prise en compte, même s’il n’y a pas de service dédié, et que les termes « records management » ou « archivage » ne sont pas vraiment utilisés ; la responsabilité en incombe à la direction médicale et à la direction des services d’information.

12. Des données qui correspondent à la définition de « actif informationnel »

Nous avons défini les actifs informationnels comme tout type d’information ayant de la valeur pour une institution, indépendamment du support.

Les données médicales sont des informations dans le sens qu’il s’agit de données contextualisées (liées à un patient et à un traitement / examen en particulier). Elles peuvent prendre des formes variées (chiffres, texte, signaux... électroniques ou fixées sur un support physique… structurées ou non, etc.).

De nombreux points relevés dans notre recherche, que ce soit via les lectures ou lors des entretiens, et constituant les chapitres précédents de ce travail, confirment que les données médicales ont une valeur pour l’institution :

leur utilisation au quotidien dans le cadre de la prise en charge des patientes ;
la nécessité d’une documentation correcte pour assurer la facturation ;
la réutilisation des données pour la médecine personnalisée ou pour des projets de recherche ;
l’importance d’une protection accrue de ce type de données en raison de leur caractère sensible ;
les cas de vols ou fuites de données.

Par conséquent, oui, les dossiers patients et les données médicales sont des actifs informationnels.

Afin de maîtriser ces actifs et optimiser leur utilisation, il convient alors de mettre en place une GI, à savoir un ensemble de rôles, règles et opérations qui permettent de maîtriser les documents et données d’une institution pour en tirer de la valeur, en fonction de sa stratégie et dans le respect du cadre réglementaire.

13. Schéma des flux et dimensions de la GI dans le contexte médical et des compétences nécessaires à sa mise en œuvre

Nous avons souhaité modéliser la GI appliquée aux données médicales dans la figure 1 ci-dessous. Ce modèle ne représente pas le fonctionnement dans une institution précise, mais plutôt une variante qui nous semble « idéale », sur la base des différents enseignements tirés de notre recherche.

La grande zone à gauche montre les flux des données, à travers le cycle de vie (la réutilisation constante des données étant symbolisée par les flèches en cercle) :

les données sont générées ou captées (input) :
- saisies dans le SIC par les professionnelles médico-soignantes, p.ex. notes d’observation,
- transmises par des dispositifs médicaux reliés, p.ex. valeurs vitales,
- transmises depuis d’autres systèmes tiers, notamment pour la gestion administrative des patients,
- documents papier, qui peuvent être numérisées rétrospectivement ou pas ;
leur utilisation première (et réitérée) a lieu dans le cadre de la prise en charge du patient ;
puis il y a l’output de données sous forme d’un data lake, contenant des données brutes, structurées ou non, sur des supports variés ;
ces données peuvent ensuite être réutilisées de diverses manières, moyennant une mise en forme ou préparation spécifique selon les cas, et ré-alimentant le data lake à leur tour :
- réutilisation à des fins cliniques (partage au sein du réseau de soins ou via le dossier électronique du patient)
- séjours et actes codés pour la facturation,
- génération de statistiques,
- documentation à but légal, grâce à la valeur probante des données,
- recherches diverses,
- documentation à but historique,
- etc.

En bas, les dimensions transversales, les principes qui doivent guider toutes les décisions en lien avec ces données, les enjeux dont il faut impérativement tenir compte :

juridique ;
sécuritaire ;
éthique ;
économique ;
technique ;
technologique ;
politique ;
stratégique.

Le traitement de ces enjeux est en partie conditionné par le cadre légal et réglementaire qui entoure notre schéma. Dans le contexte des données médicales des HUS, il s’agit surtout des lois cantonales sur la santé publique et sur la protection des données, mais aussi de lois fédérales spécifiques, p.ex. celle relative à la recherche sur l’être humain. Il y a par ailleurs des éléments du droit international tel que le Règlement général européen sur la protection des données (RGPD), ainsi que des codes déontologiques et éthiques.

Les ressources à disposition de l’institution et la faisabilité technique jouent également un rôle, de même que la stratégie des organes de gouvernance ou des autorités cantonales en matière de santé publique. À droite, les compétences et fonctions à déployer dans le cadre de la GI, les acteurs à identifier et impliquer, et les rôles à définir. Selon l’organisation de l’institution, il peut s’agir d’une fonction liée à une personne dans un service spécifique ou d’une activité exercée en collaboration entre différents services. Il s’agit a minima des compétences suivantes :

cybersécurité ;
gestion des connaissances ;
gestion des processus ;
gestion de la qualité ;
gestion des risques ;
master data management (référentiels de données) ;
protection des données personnelles ;
records management et archivage ;
systèmes d’information.

La démarche doit être coordonnée et pilotée par un organe transversal, qui a la vision globale et peut définir la politique de GI, et qui est soutenu par un sponsor au niveau du management. La formation et la sensibilisation constantes de l’ensemble des collaborateurs de l’institution sont par ailleurs primordiales.

Les compétences des personnes impliquées dans les axes fonctionnels devront couvrir les enjeux des dimensions transversales, on associera donc p.ex. une technicienne spécialiste du SIC et une juriste à l’organe de coordination.

Figure 1: Vue d’ensemble de la GI appliquée aux données médicales

Vue d’ensemble de la GI appliquée aux données médicales

Pour aller plus loin – pistes de futures recherches

Le schéma que nous proposons vise à modéliser les points importants dont il faut tenir compte pour l’implémentation d’une démarche GI dans un hôpital universitaire, mais il ne constitue pas une feuille de route précise. Ce modèle abstrait devra être attaché à un contexte donné, puis testé. Seul un projet pilote concret pourra valider véritablement sa pertinence.

Il serait intéressant, après cette première exploration qualitative de la thématique de la GI des données médicales, de la compléter par une approche plus quantitative. Une observation in situ pourrait aussi éclaircir certains points quand les réponses lors des entretiens n’étaient pas très détaillées.

L’étude des pratiques informationnelles autour des données médicales dans un contexte différent, p.ex. dans des cabinets médicaux privés, apporterait un angle de vue complémentaire.

Nous n’avons pas pu analyser les textes réglementaires internes des HUS par manque d’accessibilité. Peut-être dans un autre contexte de recherche les institutions seront plus inclines à partager ces documents.

L’histoire et l’évolution du dossier patient depuis l’introduction de l’informatique mérite très clairement une étude approfondie et transversale à travers différentes institutions de santé. Comment le changement de support et les différentes vues par métier influencent-ils la façon de représenter la patiente et sa maladie ? Et l’essor de la médecine personnalisée et les futures évolutions technologiques, comment feront-ils évoluer la forme du dossier patient ?

14. Conclusion

Dans notre recherche, nous avons examiné la thématique de la gouvernance de l’information (GI), appliquée aux données médicales et aux dossiers patients, dans le contexte des hôpitaux universitaires suisses (HUS).

Méthodologie

Nous avons procédé à une revue de la littérature sur les définitions de la GI, sur ses composantes et les concepts associés, notamment les actifs informationnels, afin de faire un bilan des principaux enjeux de la GI en regard des institutions examinées.

Nous nous sommes intéressées à l’histoire et à l’évolution technologique du dossier patient, et à la façon dont les données médicales le constituent. Nous avons retracé plus particulièrement cette évolution aux Hôpitaux universitaires de Genève, allant des dossiers papier, en passant par le microfilmage, puis la numérisation, jusqu’aux dossiers nés-numériques d’aujourd’hui. Grâce à ces informations, nous avons pu cerner les différentes formes que les données médicales peuvent prendre, selon leurs utilisations diverses (prise en charge, statistiques, facturation, recherche, partage, etc.).

Afin de bien comprendre le contexte et le fonctionnement des institutions qui constituent notre échantillon, nous avons examiné les sites web des cinq HUS et les documents qu’ils mettent à disposition publiquement, en particulier leurs rapports annuels.

Nous avons également étudié, dans la législation des cinq cantons sièges d’un HUS, les textes en lien avec la protection des données, l’obligation de tenir et d’archiver les dossiers patients ou encore le secret professionnel.

À l’aide d’entretiens semi-dirigés menés avec une à deux personnes de chaque HUS nous avons récolté des données sur leur compréhension de la GI et sur les composantes en place. Ce portrait des pratiques informationnelles des cinq institutions a complété les éléments théoriques de la revue de littérature.

Résultats

Grâce aux enseignements tirés de notre recherche nous avons pu affirmer que les données médicales ont une valeur pour l’institution et répondent donc à la définition de « actif informationnel ». Nous avons également pu constater que les HUS couvrent, par des services ou fonctions spécifiques, un nombre conséquent des aspects de la GI – allant de la cybersécurité à l’archivage –, et que le cadre réglementaire est bien connu. Mais le terme « gouvernance de l’information » n’est pas utilisé, et il n’y a pas de politique institutionnelle de la GI ou une autre démarche coordonnée.

Le modèle de la GI

Nous avons par la suite élaboré une proposition de modèle pour la GI appliquée aux données médicales, avec leurs flux (input – prise en charge du patient – output vers le data lake) et leurs diverses (ré-)utilisations. Celles-ci englobent par exemple le partage avec des partenaires du réseau de soins, l’alimentation du dossier électronique du patient, la documentation des actes à des fins de facturation, l’élaboration de statistiques, des projets de recherche clinique ou épidémiologique, l’utilisation en tant que preuve en cas de litige ou encore la documentation des activités de l’institution dans un but historique.

Le schéma montre également les dimensions transversales (éthique, juridique, politique, etc.) et les compétences et fonctions nécessaires en la matière, dont notamment un organe de coordination et pilotage, soutenu par un sponsor au niveau du management. Il met en évidence l’importance cruciale de la sensibilisation et de la formation de l’ensemble des collaborateurs aux questions de la GI.

Notre modèle théorique tient compte de l’ensemble des connaissances dégagées durant le processus de recherche. Néanmoins, pour le concrétiser, il faudra encore développer des dispositifs concrets d’application.

La gouvernance de l’information, une stratégie gagnante

Le concept de la GI est encore peu connu des décideurs en dehors du monde des spécialistes de l’information ; les institutions de santé ne font pas exception. Celles-ci remplissent déjà bien les exigences de compliance en matière des différentes composantes de la GI, notamment de la protection de données. Mais le fonctionnement actuel, plutôt cloisonné par direction ou service, ne favorise pas une vision d’ensemble des différents processus.

Ainsi, les HUS auraient tout à gagner en instaurant une véritable politique de GI, afin d’intégrer cette approche au niveau stratégique et de valoriser et sécuriser leurs données médicales, ces précieux actifs informationnels.

Bibliographie

AHIMA, 2014. Information Governance Principles for Healthcare (IGPHC) [en ligne]. [Consulté le 14 août 2020]. Disponible à l’adresse :

https://www.colleaga.org/sites/default/files/attachments/IG_Principles.pdf

ANDERFUHREN, Sandrine et ROMAGNOLI, Patrizia, 2018. La maturité de la gouvernance de l’information dans les administrations publiques européennes: la perception de la gouvernance de l’information dans l’administration publique genevoise [en ligne]. Carouge : Haute école de gestion de Genève. Travail de recherche. [Consulté le 14 août 2020]. Disponible à l’adresse : http://doc.rero.ch/record/323127?ln=fr

ARMA INTERNATIONAL, [s.d.]a. The Principles®. ARMA [en ligne]. [Consulté le 14 août 2020]. Disponible à l’adresse : https://www.arma.org/page/principles

ARMA INTERNATIONAL, [s.d.]b. ARMA Information Governance Implementation Model (IGIM). ARMA [en ligne]. [Consulté le 14 août 2020]. Disponible à l’adresse :

https://www.arma.org/page/igim

BATIGNE, Stéphane, POZZEBON, Marlei et RODRIGUEZ, Charo, 2010. Le système d’information clinique OACIS au CHUM : histoire d’une implantation [en ligne]. Montréal : Les Éditions Rogers. 27 p. [Consulté le 14 août 2020]. L’actualité médicale, Groupe Santé. Disponible à l’adresse : https://marleipozzebon.files.wordpress.com/2011/06/oacis_2010.pdf

BENNETT, Susan, 2017. What is information governance and how does it differ from data governance? Governance Directions [en ligne]. Septembre 2017. Vol. 69, n° 8, pp. 462‑467. [Consulté le 14 août 2020]. Disponible à l’adresse : https://www.sibenco.com/wp-content/uploads/2017/09/Information_governance_data_governance_September_2017.pdf

BUTLER, Mary, 2017. Three Practical IG Projects You Should Implement Today. Journal of AHIMA [en ligne]. Février 2017. Vol. 88, n° 2, pp. 16‑19. [Consulté le 14 août 2020]. Disponible à l’adresse : http://library.ahima.org/doc?oid=302031

CENTRE NATIONAL DE RESSOURCES TEXTUELLES ET LEXICALES, [s.d.]. Donnée (définition). CNRTL [en ligne]. [Consulté le 14 août 2020]. Disponible à l’adresse :

https://www.cnrtl.fr/definition/donn%C3%A9e

CHAVANNE, Yannick et JAUN, René, 2019. Mehr als 200’000 Bilder von Schweizer Patienten stehen ungesichert im Netz. Netzwoche [en ligne]. 19 septembre 2019. [Consulté le 14 août 2020]. Disponible à l’adresse : https://www.netzwoche.ch/news/2019-09-19/mehr-als-200000-bilder-von-schweizer-patienten-stehen-ungesichert-im-netz

DIRECTION DES ARCHIVES DE FRANCE, 2002. Dictionnaire de terminologie archivistique [en ligne]. [Consulté le 14 août 2020]. Disponible à l’adresse :

https://www.francearchives.fr/file/4f717e37a1befe4b17f58633cbc6bcf54f8199b4/dictionnaire-de-terminologie-archivistique.pdf

DONALDSON, Alistair et WALKER, Phil, 2004. Information governance - a view from the NHS. International Journal of Medical Informatics [en ligne]. 31 mars 2004. Vol. 73, n° 3, pp. 281‑284. DOI 10.1016/j.ijmedinf.2003.11.009. [Consulté le 14 août 2020]. Disponible à l’adresse : http://www.sciencedirect.com/science/article/pii/S1386505603001953 [accès par abonnement]

EHEALTH SUISSE, 2019. eHealth. Glossaire eHealth Suisse [en ligne]. 26 septembre 2019. [Consulté le 14 août 2020]. Disponible à l’adresse :

https://www.e-health-suisse.ch/fr/header/glossaire.html#__854

GÄCHTER, Thomas et RÜTSCHE, Bernhard, 2018. Gesundheitsrecht : ein Grundriss für Studium und Praxis. 4., vollst. überarb. Aufl.. Basel : Helbing Lichtenhahn. ISBN 978-3-7190-3632-4

GARTNER, [s.d.]a. IT Governance (ITG). Gartner Glossary [en ligne]. [Consulté le 14 août 2020]. Disponible à l’adresse :

https://www.gartner.com/en/information-technology/glossary/it-governance

GARTNER, [s.d.]b. Information (knowledge) Assets. Gartner Glossary [en ligne]. [Consulté le 14 août 2020]. Disponible à l’adresse :

https://www.gartner.com/en/information-technology/glossary/information-knowledge-assets

GREENBONE NETWORKS GMBH, 2019. Sicherheitsbericht : Ungeschützte Patientendaten im Internet [en ligne]. Osnabrück : Greenbone Networks. [Consulté le 14 août 2020]. Disponible à l’adresse : https://www.greenbone.net/wp-content/uploads/Ungeschuetzte-Patientendaten-im-Internet_20190918.pdf

HOPITAL DU JURA, HOPITAL NEUCHATELOIS et HOPITAL DU JURA BERNOIS SA, 2011. Système d`information clinique : trois hôpitaux, un projet. studylibfr.com [en ligne]. 14 juin 2011. [Consulté le 25 juillet 2020]. Disponible à l’adresse :

https://studylibfr.com/doc/4814430/système-d-information-clinique

HUG BUFFO, Anna, 2020. La gouvernance de l’information dans les hôpitaux universitaires suisses : données médicales et dossiers patients comme actifs informationnels. Exploration, analyse et modélisation [en ligne]. Carouge : Haute école de gestion de Genève. Travail de master. [Consulté le 2 décembre 2020]. Disponible à l’adresse :

http://doc.rero.ch/record/329699?ln=fr

INTERPARES, [s.d.]a. Data. InterPARES Trust Terminology [en ligne]. [Consulté le 14 août 2020]. Disponible à l’adresse : https://interparestrust.org/terminology/term/data

INTERPARES, [s.d.]b. Information. InterPARES Trust Terminology [en ligne]. [Consulté le 14 août 2020]. Disponible à l’adresse :

https://interparestrust.org/terminology/term/information/en

LOVIS, Christian, 2018. Des données partageables plutôt qu’ouvertes. Campus / Université de Genève [en ligne]. Mars 2018. N° 132, pp. 30‑31. [Consulté le 14 août 2020]. Disponible à l’adresse : https://www.unige.ch/campus/132/dossier3/

LOVIS, Christian, 2019. Quand les données transforment l’hôpital. Campus / Université de Genève [en ligne]. Septembre 2019. N° 138, pp. 30‑33. [Consulté le 14 août 2020]. Disponible à l’adresse : https://www.unige.ch/campus/138/dossier4/

MAUREL, Dominique, 2013. Gouvernance informationnelle et perspective stratégique. In : L’information professionnelle. Paris : Lavoisier, pp. 175‑198. Systèmes d’information et organisations documentaires. ISBN 978-2-7462-4541-9.

MEIBERT, Patricia, 2019. Ungeschützte Patientendaten im Internet – ein massives globales Datenleck. Greenbone Networks [en ligne]. 16 septembre 2019. [Consulté le 14 août 2020]. Disponible à l’adresse : https://www.greenbone.net/ungeschuetzte-patientendaten-im-internet-ein-massives-globales-datenleck/

OFFICE FÉDÉRAL DE LA STATISTIQUE, 2006. Statistique des établissements de santé (soins intra-muros) : typologie des hôpitaux [en ligne]. Version 5.2. Berne : OFS. [Consulté le 14 août 2020]. Disponible à l’adresse :

https://www.bfs.admin.ch/bfsstatic/dam/assets/227888/master

ORGANISATION MONDIALE DE LA SANTÉ, 1957. Le rôle de l’hôpital dans les programmes de protection de la santé : premier rapport du Comité d’experts des soins médicaux [réuni à Genève du 18 au 23 juin 1956] [en ligne]. Genève : OMS. [Consulté le 14 août 2020]. Série de rapports techniques, 122. ISBN 978-92-4-220122-2. Disponible à l’adresse : https://apps.who.int/iris/handle/10665/36960

PERREIN, Jean-Pascal, 2011. Définition de la gouvernance de l’information. 3org - Points de vue sur le flux Information [en ligne]. 11 janvier 2011. [Consulté le 14 août 2020]. Disponible à l’adresse : https://www.3org.com/news/gouvernance_de_linformation/definition-de-la-gouvern ance-de-linformation/

PFPDT, 2002. Guide relatif au traitement des données personnelles dans le domaine médical : Traitement des données personnelles par des personnes privées et des organes fédéraux [en ligne]. Juillet 2002. [Consulté le 14 août 2020]. Disponible à l’adresse :

https://www.edoeb.admin.ch/dam/edoeb/fr/dokumente/2006/01/leitfaden_fuer_diebearbeitungvonpersonendatenimmedizinischenbere.pdf.download.pdf/guide_pour_le_traitementdesdonneespersonnellesdansledomainemedic.pdf

PORTAIL INTERNATIONAL ARCHIVISTIQUE FRANCOPHONE, 2015. Glossaire [en ligne]. [Consulté le 14 août 2020]. Disponible à l’adresse :

http://www.piaf-archives.org/sites/default/files/bulk_media/glossaire/glossaire_papier.pdf

PRIVATIM, LES PRÉPOSÉ(E)S SUISSES À LA PROTECTION DES DONNÉES, 2015. Systèmes d’information clinique (SIC) : exigences liées à la protection des données [en ligne]. Décembre 2015. [Consulté le 14 août 2020]. Disponible à l’adresse : https://www.fr.ch/sites/ default/files/contens/atprd/_www/files/pdf85/systemes-dinformation-clinique.pdf

ROGER FRANCE, Francis H., 1982. Le résumé du dossier médical : indicateur informatisé de performance et de qualité de soins. Bruxelles : Université catholique de Louvain. 333 p.

SERVAIS, Paul, 1996. L’information médicale clinique : archivage, utilisation et gestion du dossier médical. Liège : Louvain-la-Neuve : Ed. du CLPCF ; Academia. Rencontres de bibliothéconomie, 7. ISBN 978-2-87209-432-5

SMALLWOOD, Robert F, 2014. Defining the Differences Between Information Governance, IT Governance, & Data Governance. aiim community [en ligne]. 8 août 2014. [Consulté le 14 août 2020]. Disponible à l’adresse : https://community.aiim.org/blogs/robert-smallwood/2014/08/18/defining-the-differences-between-information-governance-it-governance--data-governance

SMALLWOOD, Robert F, 2019. Information governance for healthcare professionals : a practical approach. Boca Raton : CRC Press Taylor & Francis Group. 135 p. ISBN 978-1-138-56806-8

SWISS PERSONALIZED HEALTH NETWORK, [s.d.]. Qu’est-ce que la santé personnalisée ? SPHN [en ligne]. [Consulté le 14 août 2020]. Disponible à l’adresse : https://sphn.ch/fr/organization/about-personalized-health/

WIEGAND, Wolfgang, 1994. Die Aufklärungspflicht und die Folgen ihrer Verletzung. In : Handbuch des Arztrechts [en ligne]. Zürich : Schulthess. pp. 119‑213. [Consulté le 14 août 2020]. ISBN 978-3-7255-3211-7. Disponible à l’adresse : http://wolfgangwiegand.ch/ publikationen/_47_Die%20Aufklarungspflicht%20und%20die%20Folgen%20ihrer%20Verletzung_Handbuch%20des%20Arztrechts%201994/119_insgesamt.pdf

Publié par Ressi

Vous devez vous connecter pour poster des commentaires

Présentation de la revue

Contenu du site

Se connecter

Publié par Ressi

N° Spécial DLCM

N°21 décembre 2020

Histoire d'une (r)évolution : l'informatisation des bibliothèques genevoises 1963-2018

Editorial n° 21

Les bibliothèques face à la vague

La place des ressources documentaires des bibliothèques académiques dans la lutte contre les Fake News. Le cas du COVID-19

Apprendre « en commun » : L’expérience des ateliers de contribution à Wikipédia dans les bibliothèques publiques de Montréal

L’océrisation d’imprimés anciens : les sciences de l’information au service des Humanités

4.2. Tesseract – phase 2

A review of the Swiss Research Data Day 2020 (SRDD2020): 48 experts shared their experiences on emergent approaches in Open Science

Données médicales et dossiers patients comme actifs informationnels : la gouvernance de l’information dans les hôpitaux universitaires suisses

Zusammenfassung

Abstract

La revue Ressi

Recherche