ऐतिहासिक दस्तावेजों के साथ काम करना


ऐतिहासिक दस्तावेज़ अनुसंधान हस्तलिखित अभिलेखों, संग्रहीत फाइलों और असंबद्ध सूचनाओं की बड़ी मात्रा को व्यवस्थित करने पर निर्भर करता है।

इतिहासकार और शोधकर्ता दशकों पुराने दस्तावेजों में से महत्वपूर्ण जानकारी निकालने के लिए वास्तव में किस प्रकार काम करते हैं?

इस एपिसोड में AiCR एक्सचेंज कार्यक्रम में, जो फरलोंग ने न्यू इंग्लैंड विश्वविद्यालय के डॉ. जोनाथन डीकोस्टर, कैथलीन मिलर और माइल्स गैब्रिएली-बर्क के साथ ऐतिहासिक दस्तावेज़ अनुसंधान, समुदाय-आधारित शिक्षा और संग्रहीत सामग्री के साथ काम करने की चुनौतियों पर चर्चा की। इस बातचीत में बताया गया कि शोधकर्ता ऐतिहासिक अभिलेखों का अध्ययन कैसे करते हैं, छात्र वास्तविक दुनिया की परियोजनाओं में कैसे भाग लेते हैं, और जानकारी को व्यवस्थित करना अक्सर प्रक्रिया का सबसे कठिन हिस्सा क्यों होता है।

  •  इतिहासकार दस्तावेज़ अनुसंधान और अभिलेखागार के लिए किस प्रकार दृष्टिकोण अपनाते हैं
  •  हस्तलिखित और ऐतिहासिक अभिलेखों के साथ काम करने की चुनौतियाँ
  •  सामुदायिक आधारित अनुसंधान परियोजनाएं और छात्रों की भागीदारी
  •  ऐतिहासिक दस्तावेज़ कार्यप्रवाह वास्तव में दिन-प्रतिदिन कैसे दिखते हैं

AiCR एक्सचेंज में मॉर्टगेज और वित्तीय सेवाओं के क्षेत्र में अग्रणी लोगों के साथ दस्तावेज़ वर्कफ़्लो और प्रौद्योगिकी संबंधी निर्णय लेने पर बातचीत शामिल है।

किसी ऐतिहासिक दस्तावेज़ से पाठ निकालना सुनने में तो आसान लगता है, लेकिन ऐसा नहीं है। डिजिटल किए गए दस्तावेज़ों को खोजने योग्य, संरचित और शोध के लिए उपयोगी बनाना आज अभिलेखीय कार्यों में सबसे कठिन समस्याओं में से एक है। 

द AiCR एक्सचेंज के एपिसोड 8 में, जो फर्लोंग न्यू इंग्लैंड विश्वविद्यालय में इतिहास के प्रोफेसर डॉ. जोनाथन डीकोस्टर, लाइब्रेरियन और अभिलेखागार विशेषज्ञ कैथलीन मिलर और इतिहास के छात्र माइल्स गैब्रिएली-बर्क के साथ बैठकर इस बारे में बात करते हैं कि ऐतिहासिक दस्तावेज़ अनुसंधान वास्तव में कैसे काम करता है, व्यवहार में सामुदायिक सहभागितापूर्ण शिक्षण कैसा दिखता है, और जब आप 18वीं शताब्दी के हस्तलिखित अदालती अभिलेखों पर दस्तावेज़ निष्कर्षण उपकरणों का परीक्षण करते हैं तो क्या होता है। 

शोधकर्ता वास्तव में किस प्रकार के ऐतिहासिक दस्तावेजों के साथ काम करते हैं? 

सामुदायिक ऐतिहासिक शोध में मिलने वाले दस्तावेज़ विविध और अक्सर अप्रत्याशित होते हैं। माइल्स गैब्रिएली-बर्क ने 1939 के होटल मेनू के डिजिटलीकरण पर एक परियोजना पर काम किया, जिसे मेन के बिडफोर्ड के एक स्थानीय इतिहासकार ने एकत्र किया था, जिनके परिवार की उस क्षेत्र में गहरी जड़ें थीं। एक अन्य परियोजना में एबे संग्रहालय की कलाकृतियों की तस्वीरें शामिल थीं, जिनके बारे में बहुत कम दस्तावेज़ उपलब्ध थे। इन सभी मामलों में चुनौती एक ही है: किसी भौतिक दस्तावेज़ या छवि को खोज योग्य, व्यवस्थित और शोध के लिए उपयोगी बनाना। दस्तावेज़ के अस्तित्व और उसके उपयोगी होने के बीच का यही अंतर है, जहाँ वास्तव में अधिकांश काम होता है। 

ऐतिहासिक दस्तावेजों का डिजिटलीकरण इतना कठिन क्यों है? 

किसी दस्तावेज़ की तस्वीर लेना आसान है। लेकिन उसमें से पाठ को निकालना, खोजना और उपयोग में लाना बिलकुल अलग बात है। जोनाथन डीकोस्टर हस्तलिखित ऐतिहासिक अभिलेखों से पाठ निकालने को अपने जीवन के सबसे कठिन कार्यों में से एक बताते हैं। चुनौती तब और बढ़ जाती है जब आप सैकड़ों साल पुरानी लिखावट, असंगत प्रारूपण, ऐसे संक्षिप्ताक्षरों से निपट रहे हों जिन्हें समझने के लिए ऐतिहासिक ज्ञान की आवश्यकता होती है, और ऐसे दस्तावेज़ों से जो मशीन द्वारा पढ़े जाने के लिए डिज़ाइन नहीं किए गए थे। सैकड़ों अदालती मामलों में रुझान जानने वाला शोधकर्ता प्रत्येक मामले को अलग-अलग पढ़कर ऐसा नहीं कर सकता। पाठ को बड़े पैमाने पर निकालना, संरचित करना और व्यवस्थित करना आवश्यक है। 

ऐतिहासिक अभिलेखों पर दस्तावेज़ निष्कर्षण उपकरण कैसा प्रदर्शन करते हैं? 

जोनाथन डीकोस्टर ने 1770 के हस्तलिखित अदालत रजिस्टर पर चार उपकरणों का उपयोग करके लाइव तुलना की: एप्पल का बिल्ट-इन OCR, एडोब एक्रोबैट, गूगल ड्राइव का रूपांतरण उपकरण और AiCR । एप्पल के उपकरण से खराब परिणाम मिले। एडोब एक्रोबैट तो टेक्स्ट की मौजूदगी को भी पहचान नहीं पाया। गूगल ड्राइव का प्रदर्शन कुछ बेहतर था, लेकिन फिर भी सीमित था। AiCR ने काफी बेहतर परिणाम दिए, नामों को सफलतापूर्वक निकाला, वादी और प्रतिवादी की भूमिकाओं की पहचान की, भले ही वे केवल संक्षिप्त रूप में दिखाई दे रहे हों, और शहरों के नामों को भी पहचाना। यह पूरी तरह से सही नहीं था, और जोनाथन ने मूल छवि से तुलना करके किए गए सुधारों को नोट किया। लेकिन आउटपुट गुणवत्ता में अंतर महत्वपूर्ण था, और एक बार में एक के बजाय सैकड़ों रिकॉर्ड संसाधित करने की क्षमता ही इस शोध के वास्तविक मूल्य को दर्शाती है। एक अलग दस्तावेज़, एक कपड़ा मिल स्टोर रजिस्टर जो आठ गीगाबाइट का था और जिसमें 360 पृष्ठों की घनी हस्तलिखित प्रविष्टियाँ थीं, किसी भी उपकरण के लिए साफ-सुथरा तरीके से संभालना बहुत मुश्किल साबित हुआ। 

AiCR दस्तावेज़ संबंधी प्रश्नोत्तर में होने वाली भ्रांतियों को कैसे संभालता है? 

AiCR की दस्तावेज़ प्रश्नोत्तर सुविधा शोधकर्ताओं को मैन्युअल रूप से सब कुछ देखने के बजाय सीधे अपने दस्तावेज़ों की सामग्री के बारे में प्रश्न पूछने की अनुमति देती है। सिस्टम को इस तरह से डिज़ाइन किया गया है कि यदि दस्तावेज़ में दी गई जानकारी के आधार पर उसे उत्तर नहीं पता होता है, तो वह स्पष्ट रूप से उत्तर देता है, न कि बाहरी स्रोतों से उत्तर उत्पन्न करता है। ज्ञान आधार केवल निकाले गए दस्तावेज़ की सामग्री तक ही सीमित है। विश्वास स्कोरिंग उपयोगकर्ताओं को यह पारदर्शिता प्रदान करती है कि सिस्टम द्वारा मान लौटाए जाने पर वह कितना सटीक है। जो फर्लोंग इस डिज़ाइन सिद्धांत का वर्णन इस प्रकार करते हैं कि सिस्टम द्वारा उत्तर न जानने की स्थिति में गलत नकारात्मक परिणाम को प्राथमिकता दी जाती है, बजाय इसके कि सिस्टम द्वारा मनगढ़ंत उत्तर दिया जाए। शोध अनुप्रयोगों के लिए जहाँ सटीकता और स्रोत की सत्यता मायने रखती है, यह अंतर अत्यंत महत्वपूर्ण है। 

एआई टूल्स के बारे में लाइब्रेरियन और आर्काइविस्ट का क्या दृष्टिकोण है? 

न्यू इंग्लैंड विश्वविद्यालय में लाइब्रेरियन और अभिलेखागार विशेषज्ञ कैथलीन मिलर अपनी वर्तमान स्थिति को संशयपूर्ण लेकिन खुली सोच वाली बताती हैं। उनकी चिंताएं इस बात पर केंद्रित हैं कि एआई उपकरणों का व्यापक रूप से उपयोग कैसे किया जा रहा है, बौद्धिक संपदा से जुड़े प्रश्न और उन परिणामों की विश्वसनीयता, जिनमें अभी भी महत्वपूर्ण मानवीय समीक्षा और सुधार की आवश्यकता है। उन्होंने मौखिक इतिहास की रिकॉर्डिंग को ट्रांसक्राइब करने में एआई उपकरणों का उपयोग किया है और उन्हें कुछ हद तक उपयोगी पाया है। इनसे उन्हें उपयोगी ट्रांसक्रिप्ट के करीब पहुंचने में मदद मिली, लेकिन पूरे काम के दौरान सावधानीपूर्वक तथ्य-जांच की आवश्यकता रही। जब उन्होंने डिजिटलीकरण परियोजना से होटल मेनू को AiCR के माध्यम से चलाया, तो उन्होंने टाइप किए गए टेक्स्ट के लिए परिणामों को वास्तव में प्रभावशाली पाया, जिसमें केवल मामूली फॉर्मेटिंग समायोजन की आवश्यकता थी। उनका मानना ​​है कि सीमित ज्ञान आधार और पारदर्शी विश्वसनीयता स्कोरिंग वाले दस्तावेज़-विशिष्ट एआई उपकरण व्यापक भाषा मॉडल अनुप्रयोगों से सार्थक रूप से भिन्न हैं, और अभिलेखीय और शोध कार्य के लिए अधिक तर्कसंगत दृष्टिकोण प्रस्तुत करते हैं। 

प्रोफेसर अकादमिक कार्यों में एआई के उपयोग को किस प्रकार संबोधित कर रहे हैं? 

जोनाथन डीकोस्टर अकादमिक कार्यों में एआई को संबोधित करते हुए ऐसी परियोजनाएं तैयार करते हैं जिनमें छात्रों को वे कार्य करने पड़ते हैं जो एआई नहीं कर सकता। सामुदायिक अनुसंधान, जिसमें भौतिक दस्तावेज़ों को संभालना, समुदाय के सदस्यों के साथ साक्षात्कार करना और वास्तविक शोध निर्णयों द्वारा निर्देशित डेटाबेस का निर्माण करना शामिल है, स्वाभाविक रूप से एआई के शॉर्टकट्स के लिए प्रतिरोधी है। ऐतिहासिक अनुसंधान में वास्तविक ज्ञान प्रतिलेखन में नहीं है। यह पढ़ने, सोचने, लोगों से बात करने, श्रोताओं को समझने और यह तय करने में है कि आउटपुट से क्या हासिल होना चाहिए। एआई उपकरण जो इस कार्य के यांत्रिक भागों को गति देते हैं, छात्रों को उन भागों पर ध्यान केंद्रित करने की स्वतंत्रता देते हैं जिनमें वास्तव में निर्णय लेने की आवश्यकता होती है। 

ऐतिहासिक दस्तावेज़ अनुसंधान के बारे में अक्सर पूछे जाने वाले प्रश्न 

दस्तावेजों के डिजिटलीकरण और उन्हें खोजयोग्य बनाने में क्या अंतर है? 

डिजिटलीकरण एक भौतिक दस्तावेज़ को डिजिटल छवि में परिवर्तित करने की प्रक्रिया है। किसी दस्तावेज़ को खोजयोग्य बनाने के लिए, छवि से पाठ को निकालना आवश्यक है ताकि उसका उपयोग शोध डेटाबेस में किया जा सके, उसका विश्लेषण किया जा सके और उसे खोजा जा सके। अनेक ऐतिहासिक दस्तावेज़ केवल डिजिटल छवियों के रूप में ही मौजूद हैं, जिनमें से कोई पाठ नहीं निकाला गया है, जिसका अर्थ है कि शोधकर्ताओं को अभी भी उन्हें मैन्युअल रूप से पढ़ना पड़ता है। बड़े पैमाने पर पाठ निकालना ही प्रवृत्ति विश्लेषण और व्यापक ऐतिहासिक शोध को संभव बनाता है। 

हस्तलिखित ऐतिहासिक दस्तावेजों से पाठ निकालना इतना कठिन क्यों है? 

ऐतिहासिक हस्तलेखों में वे अक्षर-रूप एकसमान नहीं होते जिन पर OCR उपकरण प्रशिक्षित होते हैं। पुराने दस्तावेज़ों में अलग-अलग संक्षिप्ताक्षर, प्रारूपण नियम और शब्दावली का प्रयोग होता है। दस्तावेज़ की भौतिक स्थिति, स्याही का फीका पड़ना, कागज़ का खराब होना और स्कैनिंग की गुणवत्ता, ये सभी कारक पाठ की स्पष्टता को प्रभावित करते हैं। अधिकांश मानक OCR उपकरण 18वीं शताब्दी के हस्तलिखित अभिलेखों पर पूरी तरह विफल हो जाते हैं क्योंकि वे इस प्रकार के दस्तावेज़ों के लिए डिज़ाइन नहीं किए गए थे। 

AiCR बिना किसी भ्रम के दस्तावेज़ संबंधी प्रश्नोत्तर को कैसे संभालता है? 

AiCR की दस्तावेज़ प्रश्नोत्तर सुविधा सिस्टम के ज्ञान आधार को संसाधित किए जा रहे दस्तावेज़ों की निकाली गई सामग्री तक सीमित रखती है। यह उत्तर उत्पन्न करने के लिए बाहरी स्रोतों का उपयोग नहीं करती है। जब सिस्टम अनिश्चित होता है या जानकारी दस्तावेज़ में नहीं होती है, तो यह सामान्य ज्ञान से उत्तर उत्पन्न करने के बजाय कम विश्वास स्कोर लौटाता है या यह इंगित करता है कि उसे जानकारी नहीं है। यह डिज़ाइन प्रश्नोत्तर आउटपुट को मूल दस्तावेज़ तक ट्रेस करने योग्य बनाता है। 

के बारे में AiCR अदला-बदली

AiCR एक्सचेंज एक लाइव वार्तालाप श्रृंखला है जिसे जो फरलोंग होस्ट करते हैं। इसके नए एपिसोड हर महीने के दूसरे और चौथे मंगलवार को दोपहर 12 बजे पूर्वी समय (ईटी) पर लिंक्डइन पर लाइव प्रसारित होते हैं। एपिसोड को लाइव देखने और वार्तालाप में शामिल होने के लिए लिंक्डइन पर AiCR फॉलो करें।

डॉ. जोनाथन डेकोस्टर के बारे में 

डॉ. जोनाथन डीकोस्टर न्यू इंग्लैंड विश्वविद्यालय में इतिहास के प्रोफेसर हैं, जहाँ वे छात्रों को वास्तविक अभिलेखीय परियोजनाओं और सामुदायिक भागीदारों से जोड़ने वाले सामुदायिक सहभागिता मॉडल का उपयोग करके अध्यापन और शोध करते हैं। उनसे लिंक्डइन पर संपर्क किया जा सकता है। 

कैथलीन मिलर के बारे में 

कैथलीन मिलर न्यू इंग्लैंड विश्वविद्यालय में लाइब्रेरियन और अभिलेखागार विशेषज्ञ हैं। उनसे लिंक्डइन पर संपर्क किया जा सकता है।