Travail sur des documents historiques - AiCR Intelligence documentaire pour le crédit hypothécaire et la finance

La recherche dans les documents historiques repose sur le classement d'une grande quantité de documents manuscrits, de dossiers d'archives et d'informations éparses.

Comment les historiens et les chercheurs parviennent-ils à faire le tri parmi des décennies de documents pour trouver ce qui compte vraiment ?

Dans cet épisode de « The AiCR , Joe Furlong s'entretient avec le Dr Jonathan DeCoster, Kathleen Miller et Miles Gabrielli-Burke, de l'Université de Nouvelle-Angleterre, pour aborder la recherche dans les documents historiques, l'apprentissage ancré dans la communauté et les défis liés à l'exploitation des archives. La conversation explore la manière dont les chercheurs abordent les archives historiques, la façon dont les étudiants participent à des projets concrets, et les raisons pour lesquelles l'organisation de l'information constitue souvent l'une des étapes les plus difficiles du processus.

Comment les historiens abordent la recherche documentaire et les archives
Les défis liés au traitement des documents manuscrits et historiques
Projets de recherche communautaires et participation des étudiants
À quoi ressemblent concrètement les processus de gestion des documents historiques au quotidien

L'AiCR Exchange propose des entretiens avec des responsables du secteur des prêts hypothécaires et des services financiers sur les flux de documents et les décisions technologiques.

On pourrait penser que l'extraction de texte à partir d'un document historique est un problème déjà résolu. Or, ce n'est pas le cas. Rendre les documents numérisés consultables, structurés et exploitables à des fins de recherche est l'un des défis les plus complexes auxquels sont confrontés les archivistes aujourd'hui.

Dans le huitième épisode de « TheAiCR , Joe Furlong s'entretient avec le Dr Jonathan DeCoster, professeur d'histoire à l'Université de Nouvelle-Angleterre, Kathleen Miller, bibliothécaire et archiviste, et Miles Gabrielli-Burke, étudiant en histoire, pour discuter du fonctionnement concret de la recherche sur les documents historiques, de ce à quoi ressemble l'apprentissage impliquant la communauté dans la pratique, et de ce qui se passe lorsque l'on teste des outils d'extraction de documents sur des archives judiciaires manuscrites du XVIIIe siècle.

Avec quels types de documents historiques les chercheurs travaillent-ils concrètement ?

Les documents qui apparaissent dans le cadre de recherches historiques communautaires sont variés et souvent inattendus. Miles Gabrielli-Burke a travaillé sur un projet de numérisation portant sur des menus d’hôtel datant de 1939, rassemblés par un historien local de Biddeford, dans le Maine, dont la famille était profondément enracinée dans la région. Un autre projet portait sur des photographies d'objets provenant de l'Abbey Museum, pour lesquels il n'existait que très peu de documentation. Le défi est le même dans tous ces cas : prendre un document physique ou une image et le transformer en un élément consultable, structuré et utilisable à des fins de recherche. C'est dans cet écart entre l'existence d'un document et son utilisation effective que se concentre l'essentiel du travail.

Pourquoi la numérisation des documents historiques est-elle si difficile ?

Prendre une photo d’un document est un jeu d’enfant. Rendre le texte extractible, consultable et exploitable est une tout autre affaire. Jonathan DeCoster décrit l’extraction de texte à partir de documents historiques manuscrits comme l’une des tâches les plus difficiles qu’il ait jamais accomplies. La difficulté est d'autant plus grande lorsqu'il s'agit d'une écriture datant de plusieurs siècles, d'une mise en page incohérente, d'abréviations dont l'interprétation nécessite des connaissances historiques, et de documents qui n'ont jamais été conçus pour être lus par une machine. Un chercheur qui souhaite identifier des tendances dans des centaines de dossiers judiciaires ne peut pas y parvenir en les lisant un par un. Le texte doit être extrait, structuré et organisé à grande échelle.

Quels sont les résultats obtenus par les outils d'extraction de documents lorsqu'ils sont utilisés sur des archives historiques ?

Jonathan DeCoster a réalisé une comparaison en direct sur un registre judiciaire manuscrit datant de 1770 à l'aide de quatre outils : l'OCR intégré d'Apple, Adobe Acrobat, l'outil de conversion de Google Drive etAiCR. L'outil d'Apple a donné de mauvais résultats. Adobe Acrobat n'a même pas pu détecter la présence de texte. Google Drive s'est montré un peu plus performant, mais ses capacités restaient limitées.AiCR des résultats nettement meilleurs, réussissant à extraire les noms, à identifier les rôles des plaignants et des défendeurs même lorsqu'ils n'apparaissaient que sous forme d'abréviations, et à reconnaître les noms de villes. Le résultat n'était pas parfait, et Jonathan a noté les corrections qu'il a dû apporter en comparant avec l'image originale. Mais la différence de qualité des résultats était significative, et c'est la capacité à traiter des centaines de documents plutôt qu'un seul à la fois qui confère à cette recherche toute sa valeur. Un autre document, un registre de magasin d'une usine textile de huit gigaoctets et 360 pages de notes manuscrites denses, s'est avéré trop difficile à traiter proprement pour n'importe quel outil.

CommentAiCR -t-il les hallucinations dans les questions-réponses sur des documents ?

La fonctionnalité de questions-réponses sur les documentsAiCRpermet aux chercheurs de poser des questions directement sur le contenu de leurs documents plutôt que de tout passer en revue manuellement. Le système est conçu de telle sorte que, s’il ne connaît pas la réponse à partir des informations contenues dans le document, il le signale plutôt que de générer une réponse à partir de sources externes. La base de connaissances se limite au contenu extrait des documents. Le score de confiance offre aux utilisateurs une visibilité sur le degré de certitude du système lorsqu’il renvoie une valeur. Joe Furlong décrit ce principe de conception comme préférant un faux négatif, où le système indique qu'il ne sait pas, à une hallucination où le système invente une réponse. Pour les applications de recherche où la précision et l'intégrité des sources sont essentielles, cette distinction est cruciale.

Quel est le point de vue des bibliothécaires et des archivistes sur les outils d'IA ?

Kathleen Miller, bibliothécaire et archiviste à l’Université de Nouvelle-Angleterre, se dit à la fois sceptique et ouverte d’esprit quant à sa position actuelle. Ses préoccupations portent principalement sur la généralisation de l’utilisation des outils d’IA, les questions de propriété intellectuelle et la fiabilité des résultats, qui nécessitent encore un travail important de révision et de correction par des humains. Elle a utilisé des outils d’IA pour l’aider à transcrire des enregistrements d’histoire orale et les a trouvés moyennement utiles : ils lui ont permis de se rapprocher d’une transcription exploitable, mais ont nécessité une vérification minutieuse des faits tout au long du processus. Lorsqu'elle a traité les menus d'hôtel issus du projet de numérisation viaAiCR, elle a trouvé les résultats véritablement impressionnants pour le texte dactylographié, ne nécessitant que des ajustements mineurs de mise en forme. Elle estime que les outils d'IA spécifiques aux documents, dotés de bases de connaissances restreintes et d'un système de notation de confiance transparent, se distinguent nettement des applications de modèles linguistiques généraux à grande échelle, et constituent une approche plus défendable pour les travaux d'archivage et de recherche.

Comment les professeurs abordent-ils l'utilisation de l'IA dans le cadre des travaux universitaires ?

Jonathan DeCoster aborde la question de l'IA dans le travail universitaire en concevant des projets qui exigent des étudiants qu'ils accomplissent des tâches que l'IA ne peut pas réaliser. La recherche communautaire, qui implique la manipulation physique de documents, des entretiens avec les membres de la communauté et la construction de bases de données façonnées par de véritables choix de recherche, est par nature à l'abri des raccourcis proposés par l'IA. Le véritable apprentissage dans la recherche historique ne réside pas dans la transcription. Il réside dans la lecture, la réflexion, les échanges avec les gens, la compréhension du public visé et la définition des objectifs à atteindre. Les outils d'IA qui accélèrent les aspects mécaniques de ce travail permettent aux étudiants de se concentrer sur les aspects qui requièrent réellement un jugement.

Foire aux questions sur la recherche dans les documents historiques

Quelle est la différence entre la numérisation et la mise en place d'un système de recherche dans les documents ?

La numérisation est le processus qui consiste à convertir un document physique en image numérique. Pour qu’un document soit consultable, il faut extraire le texte de cette image afin qu’il puisse faire l’objet de requêtes, être analysé et utilisé dans des bases de données de recherche. De nombreux documents historiques n’existent que sous forme d’images numériques, sans texte extrait, ce qui signifie que les chercheurs doivent encore les lire manuellement. C’est l’extraction de texte à grande échelle qui permet l’analyse des tendances et la recherche historique à grande échelle.

Pourquoi est-il si difficile d'extraire du texte à partir de documents historiques manuscrits ?

L'écriture manuscrite d'époque ne respecte pas les formes de lettres uniformes sur lesquelles les outils OCR ont été formés. Les documents anciens utilisent des abréviations, des conventions de mise en page et un vocabulaire différents. L'état physique du document, la décoloration de l'encre, la dégradation du papier et la qualité de la numérisation ont tous une incidence sur la lisibilité du texte. La plupart des outils OCR standard échouent complètement face aux documents manuscrits du XVIIIe siècle, car ils n'ont pas été conçus pour ce type de documents.

CommentAiCR -t-il les questions-réponses sur des documents sans produire de résultats erronés ?

La fonctionnalité de questions-réponsesAiCRlimite la base de connaissances du système au contenu extrait des documents traités. Elle ne s'appuie pas sur des sources externes pour générer des réponses. Lorsque le système est dans le doute ou que l'information ne figure pas dans le document, il renvoie un faible score de confiance ou indique qu'il ne connaît pas la réponse, plutôt que de générer une réponse à partir de connaissances générales. Cette conception permet de retracer l'origine des réponses fournies jusqu'au document source.

À propos de la plateforme AiCR

« The AiCR » est une série de discussions en direct animée par Joe Furlong. Les nouveaux épisodes sont diffusés en direct sur LinkedIn les deuxième et quatrième mardis de chaque mois à 12 h (heure de l'Est). Suivez AiCR LinkedIn pour suivre les épisodes au fur et à mesure de leur diffusion et participer à la conversation.

À propos du Dr Jonathan DeCoster

Le Dr Jonathan DeCoster est professeur d'histoire à l'Université de Nouvelle-Angleterre, où il enseigne et mène des recherches selon un modèle axé sur l'engagement communautaire qui met les étudiants en relation avec de véritables projets d'archivage et des partenaires locaux. Vous pouvez le contacter sur LinkedIn.

À propos de Kathleen Miller

Kathleen Miller est bibliothécaire et archiviste à l'Université de Nouvelle-Angleterre. Vous pouvez la contacter sur LinkedIn.

Podcast

Travailler avec des documents historiques

Avec quels types de documents historiques les chercheurs travaillent-ils concrètement ?

Pourquoi la numérisation des documents historiques est-elle si difficile ?

Quels sont les résultats obtenus par les outils d'extraction de documents lorsqu'ils sont utilisés sur des archives historiques ?

CommentAiCR -t-il les hallucinations dans les questions-réponses sur des documents ?

Quel est le point de vue des bibliothécaires et des archivistes sur les outils d'IA ?

Comment les professeurs abordent-ils l'utilisation de l'IA dans le cadre des travaux universitaires ?

Foire aux questions sur la recherche dans les documents historiques

Quelle est la différence entre la numérisation et la mise en place d'un système de recherche dans les documents ?

Pourquoi est-il si difficile d'extraire du texte à partir de documents historiques manuscrits ?

CommentAiCR -t-il les questions-réponses sur des documents sans produire de résultats erronés ?

À propos de la plateforme AiCR

À propos du Dr Jonathan DeCoster

À propos de Kathleen Miller

Avec quels types de documents historiques les chercheurs travaillent-ils concrètement ?

Pourquoi la numérisation des documents historiques est-elle si difficile ?

Quels sont les résultats obtenus par les outils d'extraction de documents lorsqu'ils sont utilisés sur des archives historiques ?

CommentAiCR -t-il les hallucinations dans les questions-réponses sur des documents ?

Quel est le point de vue des bibliothécaires et des archivistes sur les outils d'IA ?

Comment les professeurs abordent-ils l'utilisation de l'IA dans le cadre des travaux universitaires ?

Foire aux questions sur la recherche dans les documents historiques

Quelle est la différence entre la numérisation et la mise en place d'un système de recherche dans les documents ?

Pourquoi est-il si difficile d'extraire du texte à partir de documents historiques manuscrits ?

CommentAiCR -t-il les questions-réponses sur des documents sans produire de résultats erronés ?

À propos de la plateforme AiCR

À propos du Dr Jonathan DeCoster

À propos de Kathleen Miller

Demander une démonstration