行业新闻

首页 > 新闻中心 > 行业新闻 > 档案数字化过程中OCR技术的应用

档案数字化过程中OCR技术的应用

2021-05-21 17:49:12 热度：859 ℃

摘要：简单介绍档案数字化过程中的OCR技术，分析该技术的优势和在档案数字化工作中的独特应用，如，创新著录标引方式；实现真正的全文检索；支持双层PDF技术；拓宽档案用户利用面等。在此基础上，从OCR软件选择、参数设置、图像处理、人工校对等方面探讨提高OCR识别率的各种方法，以期使从事档案数字化工作的人员有所借鉴，提高档案数字化工作的效率。

关键词：档案；数字化；OCR

信息时代，档案数字化已成为档案工作的重中之重，纸质档案扫描工作在各地如火如荼地进行。然而，扫描所产生的电子档案实际上只是以图像形式存在的文件，而非真正意义上的文本文件，也就是说，计算机只认识档案的外表，却不认识其内在文字，用户通过计算机看到档案的原貌，却不能对其中的内容进行引用、检索等操作，这无疑，对将来的电子档案利用工作造成了很大不便。考虑到档案用户的利用需求，若要得到文本形态的电子档案’使档案数字化工作更加有效、更加彻底，就要应用OCR技术。

1、OCR在档案数字化工作中的应用

花OCR(OpticalCharacterRecognition),即“光学字符识别”，就是让计算机"认字”.其原理是通过专门的OCR软件，将含有文字的图像按字切割成可独立识别的单元，然后运用各种算法分析每个图像单元中文字的形态特征，通过比对标准特征库中的数据，判断出该文字在计算机中的标准编码，并按通用格式输出保存在文本文件中。

OCR的工作流程为：影像输入、影像前处理、文字特征抽取、比对识别、人工校正，最后，将识别结果输出保存。⑴虽然，一张图像真正用于软件识别的时间不到一秒，但前期和后期的加工处理不可小视，尤其是前两个环节的操作，往往决定了OCR软件的识别率，乃至整个OCR工作的效率。而后期人工校正环节，则是保证

OCR工作质量的最直接环节。

OCR技术相对于传统的手工录入方式来说，具有强大的优势。首先，OCR文字识别的速度远快于手工录入■根据国际通行的打字速度评级标准，即使是专业人员，每分钟也仅能输入150-240个字，而釆用OCR技术，即使算上前后期的处理环节所花时间，其速度也绝对比前者快好多倍。其次，OCR文字识别的质量远高于手工录入.虽然，由于各种因素影响，OCR技术的识别率很难达到100%,但比起大批量手工录入，其出错率要小得多。最后，OCR还节省了大量人力资源，优化了资源配置，使人员分配于更加有意义的工作。

对于档案数字化工作来说，OCR技术除了具有以上几个普遍的优势之外，还有其独特的用武之地：

1.1创新著录标引方式。创建档案目录数据库是一项较基础的档案数字化工作，目前，大多数档案馆在进行这项工作，很多档案馆已建成较为完备的目录库。然而，各档案部门的档案条目基本都是通过手工录入的，既费时又费力，还很容易出错。比如一些档案，标题很长，一个题名就占了好几行。

OCR技术提供了一种新的著录方式，使档案条目通过计算机录入成为可能。工作人员可以直接从OCR后的全文中找到著录项(如题名、文号、责任者等)，复制粘贴到目录数据库的相应字段中去。⑵但这么做，必须先扫描档案全文、OCR,然后再输条目，颠覆了档案数字化工作的一般工作流程，因此，可行性并不强。还有一种方法是先将档案卷内目录扫描、OCR处理，再复制粘贴条目，或通过特定的程序自动釆集条目信息。⑶但由于很多卷内目录是手写的，OCR无法识别，只得依靠手工录入。相信随着未来技术的发展，OCR在这方面的应用一定能够有所突破。

此外，系统还可以对OCR后的档案全文进行词频统计、内容分析，从而自动提取关键词、主题词等标志符，一定程度上，实现了档案内容的自动标引。

1.2实现真正的全文检索。档案工作中所说的全文检索实际包括两种类型：一种是仅对档案目录数据库进行检索，找到相关条目后再打开相应的档案全文。目前，档案馆大多釆用这种检索方式，且尚有很多档案没有电子全文。另一种是真正的全文检索，即直接对档案全文进行检索，而且是对档案全文进行逐字检索。很明显，后一种检索方式的査全率比前者要高出很多，使用户能从浩如烟海的档案馆藏中找到更多所需的信息，更深入地开发利用档案信息资源。

而要实现真正的全文检索，自然离不开OCR技术，因为，只有将扫描图像中的文字变成文本格式，才有可能对其中的文字进行逐字检索。

1.3支持双层PDF技术。所谓“双层PDF”，就是一个PDF文件中的每一页都包含两层，上层是扫描所得到原始图像，下层是OCR识别的文字结果.这种技术在数字图书馆领域已得到广泛应用，我们在CNKI等数据库中检索到的PDF格式的电子文献大多釆用了双层PDF技术。

由于釆用双层PDF技术既能较好地保证档案的原真性，在用户需要时，又能对档案中的文字进行选择、复制、捜索等处理，因此，必将在今后的档案数字化工作中越来越受到青睐。而这一技术的运用，必须首先以OCR技术为支撑。

1.4拓宽档案用户利用面。以往的档案用户大多是基于档案的凭证价值而对其加以利用，如政府査阅某份文件，居民查阅房产证、结婚证、学籍卡等，这些利用需求对档案的原真性要求较高，很多情况下，还是需要纸质档案才能发挥作用？但档案用户的利用面绝不应该仅限于此，档案除了拥有凭证价值，还与图书、情报一样具有情报价值、参考价值。如利用档案进行学术研究时，用户就更加注重档案的知识性、信息性，但如果档案是纸质的，要利用其中的内容就必须亲自去档案馆，通过印刷或手工摘录所需信息，非常不便，以至于有些用户转而通过网站或数字图书馆査阅所需信息。

将纸质档案数字化，并釆用OCR识别，能够使档案信息资源实现全文检索、网络传输，方便用户异地检索、复制引用，从而深化用户对档案内容的査询与利用，拓宽其利用面，使档案也能像图书、情报一样，成为人们日常生活中获取信息、利用信息、增加学识的手段，使档案多方面地服务于公众。

2、提高档案数字化过程中的OCR识别率

OCR识别率是整个OCR工作的中心问题，有专家认为，OCR识别率低于90%,釆用OCR技术便毫无意义，因为后期需要进行大量的人工校正工作，从而抵消了OCR所带来的效率。⑷对于档案数字化这样浩大的工程来说，提高OCR识别率意味着成倍减少花在OCR工作上的人力物力和时间精力，从而提高整个档案数字化工作的效率，极大地降低档案数字化的成本。由于手写体档案的识别率普遍较低，不宜进行OCR识别，因此，本文所述OCR的对象仅指印刷体档案。要提高OCR识别率，关键应注意以下几点：

2.1选择较好的OCR软件。目前，市场上比较流行的OCR软件很多，主要有清华紫光、清华文通、汉王、中晶尚书、丹青、蒙恬等品牌。其中，有些可以从网上下載免费版本，如尚书七号OCR等，但功能很少，识别率很低，只有在图像质量非常高的情况下，才能达到较高的识别率，稍有差池便错误百出，毕竟“一分价钱一分货”.还有的是扫描仪自带的OEM软件，如丹青、蒙恬等，这样的软件往往功能较少，识别率较专业的OCR软件要低。

所以，对于档案数字化过程中的批量OCR处理工作，若要用得省心、放心，必须购买和使用专业的OCR软件，建议使用汉王或清华文通等专业OCR软件，虽然要花点钱，但物有所值。

2.2设置合适的扫描参数。档案数字化若要进行OCR处理，在前期扫描的时候，就应设置适合OCR识别的扫描参数，如果己经扫描完毕再说要进行OCR处理，就应釆用相关图像处理软件（如Photoshop等）先对图像的参数进行修改再OCR。合适的扫描参数能使图像质量更贴近于OCR识别的要求，OCR识别率自然会有很大程度的提高。

2.2.1分辨率的设定。分辨率太小，每英寸图像上像素点太少，OCR软件无法获得足够图像信息，识别率当然就不会高。但是，并不是分辨率越高，OCR识别率也越高。分辨率太高，特别是在使用一些存在轻微扫描失真的扫描仪时，由于纸张本身着墨不均匀，反而会把一些本应连着的笔画识别成几段，造成识别错误，不仅不能提高识别率，还会使图像文件变得很大，不利于存储、处理和传输。

《纸质档案数字化技术规范》规定：需要进行OCR汉字识别的档案，扫描分辨率建议选择大于或等于200dpi.⑸但是在实际工作中，200dpi还是有点小，经验表明，300dpi在OCR识别中最为合适，有的扫描软件有一项“OCR扫描”,直接将扫描分辨率锁定为300dpi.⑹

2.2.2色彩模式的选择。如果要进行OCR识别，釆用黑白二值模式扫描的图像，其识别速度和正确率比灰度、24位真彩(C24)模式扫描的图像都要高，这是因为，文本通常只用到黑白二色，过多的颜色只会变成干扰信息。

灰度模式在OCR中的应用也比较广泛。对于一些纸张发黄或文字字迹较淡的档案，要对扫描后的图像进行处理，第一步可将色彩模式设置为灰度，将图像划分为不同的灰度级别，然后，通过特定算法将某个灰度值以下的像素点都认定为白色，其他为黑色，从而达到黑白分明•一些纸张较薄甚至有点透明的档案，OCR会受到背面文字的干扰而识别率降低，如果扫描时，在纸张背面垫一张黑纸，并使用灰度扫描，效果会好很多。⑺

而釆用24位真彩(C24)模式扫描的图像，由于颜色干扰信息太多，识别率往往不太理想，若要进行OCR,最好先转化为黑白二值或灰度模式，再加以识别。

2.2.3亮度和对比度的调节。档案由于年代久远，很多会底色发黄、字迹变淡，扫描时设置灰度模式，并不能完全改善图像质量，若要进一步提高OCR识别率，需改变更多参数，即调节亮度和对比度，且应先调亮度再调对比度。

亮度的设定以观察扫描后的图像中汉字的笔画较细但又不断开为原则。⑻对于文字字迹较浅、笔画较细的档案，可适当降低亮度；文字字体较小、笔画较粗的档案，可适当增加亮度。对于底色较深的档案，如前文所提灰度模式扫描的图像，可通过图像处理软件增加亮度，使图像背景变成白色，同时，去除了一些原有的污点。但调节亮度的同时，必然会使图像中的文字一起变淡。这时，便要增加图像对比度，使文字的颜色变深。[9]

通过亮度和对比度的调节，可使图像变得更加黑白分明，从而有利于OCR识别率的提高。

2.3对图像进行纠偏'去污处理。图像中文字的偏斜，会极大地降低OCR识别率，笔者曾经做过实验，一撼只是略微有点歪的图像，其识别率比纠偏之后至少低了10%。而图像中的污点，也很有可能被OCR错误识别为文字。因此，在OCR识别前，图像必须经过纠偏、去污处理，以提高识别率。通常，档案扫描工作流程中必须具备图像纠偏、去污这一环节，而无论其是否要进行OCR.

2.4仔细进行人工校对。无论电脑有多聪明，始终比不过人脑，因此，人工校对是提高OCR识别率的最后一关，也是最直接的环节。

通常，OCR软件识别完后会将原文用两行显示，一行是图像，另一行是识别结果。一些OCR软件(如汉王OCR)会将不确定的文字用另一种颜色显示出来，便于用户发现错误。但实验表明，很多情况下没有变色的文字也会出错，相反变了色的文字并不一定是错的。因此，工作人员在校对时应仔细，最好能通读一遍，尤其注意字母和数字等较易出错的地方，尽量不放过任何错误。

当然，人工校对是建立在OCR识别率本身就已很高的基础上的，它只是一个提高OCR识别率的补充环节。否则，过多的人工校对只会降低档案数字化工作的效率，使OCR变得与手工录入无异。

综上所述，OCR在纸质档案数字化过程中有其独特的应用，如何提高OCR识别率，并将该技术运用于档案管理最需要的地方，是值得我们考虑的问题。只有将OCR技术运用得恰到好处，才不至于浪费人力物力，才能使档案信息资源的利用价值达到最大化，更好地服务于民。