行业新闻

行业新闻

首页 > 新闻中心 > 行业新闻 > 智慧档案馆数据化管理功能的实现

智慧档案馆数据化管理功能的实现

2021-03-15 热度:627 ℃

档案馆是各类信息资源的主要保存和服务机构,长期致力于数字记忆保护工作,其中既包括文本内容的长期保存, 也包括元数据的有效获取。[1]面对大数据时代这一新型学术  需求,智慧档案馆数据化管理应当借助数字技术,提高资源的语义化、智慧化水平,扩大信息共享的范围和深度,积极创新服务方式和方法。

 

智慧档案馆数据化管理的必要性

1.1 档案数据化转型。档案馆收藏和保存了社会活动中的各政府机构和职能机构的重要文件、特殊手稿以及具有文化、历史和文学意义的珍贵资料。档案通常属于未公开发表的唯一版本资料,更具有珍贵性与稀缺性的特点。另外,档案的史料价值和证据价值也决定了其必然成为网络基础设施建设中的主力军。新环境下,档案馆必须转换思路,变藏为用,变被动为主动。

档案数据化转型指的是在档案中,以数据作为载体和表现形式的那部分档案,其外延既包括档案内容、结构、背景数据,也包括非档案内容本身但档案产生的软硬件环境数据、档案业务活动过程中产生的数据以及应该归档但未进行归档的政务数据等,既具有档案性也具有数据性。

1.2 做好数据的前端控制和版本的永续存储。对于数据的质量控制和长期存储来说,档案馆具有理论和经验优势。档案专家应该积极加入数据的前端控制和版本的永续存储方案设计、实施和维护的各个阶段中,帮助实现数字环境下的动态、原生数字数据进行实施数据采集、质量监控和版本的永续存储,以备后期人文研究查考、利用。[2]因此,必须保证  数据安全、可靠、完整。可读的措施付诸数据“采集-处理- 呈现”的全过程中,才可以有效防止数据的丢失和损坏。档案专家应该积极介入专题数据库及服务平台的建设,在系统设计阶段实行前端控制,对数据生成和管理质量进行监控, 保证项目的后续实施效果和版本的永续存储。

 

智慧档案馆数据化管理功能的实现路径

2.1 数字技术支持让档案数字资源有了更为宽广的生存空间。尽管网络技术和数字技术飞速发展,让档案数字资源有了更为宽广的生存空间,存储技术、搜索技术、编目技术的出现使档案数字资源各个管理环节更加趋于自动化、智能化、高效化,并且管理成本也在大幅降低。但对于其中档案内容的数字化来说,智慧技术并不能取代数字技术。智慧档案馆对实体档案可以运用射频识别标签实现泛在感知,可以运用3D库房技术实现实时监测,但将实体档案转化成为不受时空利用限制的数字化资源则需要数字技术,数字技术将传统载体档案进行扫描、转录等,以数字信号形式保存在计算机中,同时还可以结合数字技术实现声影档案展示,为用户提供虚拟体验。如果没有数字技术实现的数字化馆藏,那么智慧档案馆的智慧将要大打折扣。

2.2 数字技术将人工智能与传统文字识别技术进行结合。传统的文字识别技术是将图像进行二值化和灰度化后, 将文字作为前景信息,其他部分作为背景信息,通过区分两者的明暗不同来判别哪些是识别区域,再对文字识别区域进行切割和分类,最后基于统计模型进行纠错和识别。但传统识别方法在面对复杂的识别环境时难以提高识别准确率,如多语言混合、低分辨率、非均匀光照、艺术字体、复杂版式等情况,研究人员为了克服这些难点,尝试了很多种方法。近年随着深度学习的兴起,打破了传统OCR的技术瓶颈。传统的机器学习需要先确定特征和标签,然后用一系列算法对这些数据进行计算,然后保存模型,最后对分类的准确性进行预测。这种方法有其缺点,如果提取的特征数量过多,可能会因为偏向于某个特征而出现过拟合的情况,如果提取的特征数量过少,则可能没办法进行精确分类,出现欠拟合的情况。

传统神经网络算法采用全连接的网络结构,一个28× 28的矩阵可能需要11万多个参数,参数实在太多,计算量巨大,在图像识别中显然不是很适合。于是开始考虑卷积神经网络。卷积神经网络的思想是在识别一个物体时,通常通过某个局部特征就能识别出该物体为何,并不需要全部识别,

所以也可以通过局部特征识别整体而不是全连接的方式。卷积神经网络通过卷积神经元提取上一层图像的局部特征在自身所在隐层单元上映射成一个平面,并通过同平面层具有同一神经元权重值来保证特征映射具有位移不变性和旋转不变性,同时特征提取后还有一个亚取样层或称下采样层,用来求局部平均和二次特征提取,以提高神经网络的畸变容忍能力。[5]这种方法的优点是,只需对初始值进行设置,随后机  器通过自适应和自学习的过程不断调整卷积核的数量和滑动步长,而且参数数量可以减少几个量级。

1.1 数字技术实现智慧档案馆管理功能的全面感知。慧档案馆在档案实体、档案内容信息和档案管理信息上具备全面感知特点,在数据运算和存储方面采用“自有”和“云”的双模模式,能通过利用移动数字信息查阅服务中心等现有信息发布利用平台和三网融合实现泛在应用,最后从上到下,从内到外,全面运用所有技术进行综合管理。

智慧档案馆期望通过运用物联网、云计算、云存储等技术来提高档案馆系统数据传输与计算能力、应用扩展能力和安全存储能力,但由于没有相关成功案例参考,建设过程中遇到资金不足、人才短缺、技术难关、政策支持和法律规范缺失等问题,需要长期的建设和研究,才能促进智慧档案馆持续健康发展。[6]

 

智慧档案馆数据化管理功能的实现价值

2.1 智慧档案馆数据化实现档案的“活化”。智慧档案馆馆藏数据化管理功能的价值主要体现在两个方面[3]:一方  面体现在档案数据中,档案数据这一部分本身即具备数据特征,是智慧档案馆馆藏的数据基础。另一方面是对数字化馆藏进行数据化,通过将数字态档案转变为数据态,实现档案的“活化”,使档案可以被计算机检索、组织、复用等,从而进行内容管理和智能分析。

在智慧档案馆的建设中,物联网的应用是其中一大创新,其前端设备层承担整个档案馆环境内的各类信息感知服务,包括射频识别、传感器、视频监控系统等,这些前端设备每时每刻都在与周围环境交互,产生实时数据。相比于数字档案馆的数字化特征主要体现在数字态馆藏上,智慧档案馆的数据化特征已不仅体现在馆藏层面上,还体现在管理过程中的各个方面,包括了档案与档案之间、档案与人之间、人与人之间交互的所有数据,数据化特征已经渗透到智慧档案馆管理的方方面面。

2.2 实现数据化带来了智慧档案馆管理理念的改变。字档案馆的馆藏主要有传统载体档案、数字化馆藏以及原生电子文件等三种类型。原生电子文件种类很多,包括文本文件、图形文件、数据文件、图像文件、声音文件、影像文件和命令文件等,[4]涵盖了非结构化、半结构化和结构化三种  类型文件,其中对文本文件的管理相比于数字档案馆的纸质数字化档案来说,减少了图像转变为文字的过程。

数字化馆藏则多以PDF、JPEG、MP3等数字态形式存储,针对不同格式进行数据化转换的方式不尽相同,其中纸

质档案的内容除了文本,可能还包含图像信息,在对此类档案的数字态成果进行数据化时,关键在于将图像形式的档案转变为文本文件。通常采用OCR技术对图像内容进行文字识别,随着多年的发展,OCR识别的准确率不断提高,有些公司的OCR产品声称可达到99%的准确率,但运用OCR并不是一劳永逸的,还需要后期进行人工核对和纠正,成本较高。经过OCR识别后,可采用PDF双层格式存储来避免后续转换的麻烦,PDF双层格式是将图像层置于上层,而文本置于底层,这样既能保证用户对档案内容进行文档操作,又能保证档案的传输安全。OCR是全文检索的基础,但如果想要实现档案内容智能服务,还远远不够。

经过OCR识别后的文本内容多为非结构化或半结构化, 原生电子文件的类型更加多样化,为了有效利用不同结构类型的档案,首先应对非结构化和半结构化的文档进行结构化处理,处理的颗粒度可以根据需要按照章节、段落或句子等来拆分,拆分后形成一个个XML片段,再对这些片段打上标  签,目的是为多维度检索做铺垫。标签的另一个作用是为人工智能打下基础,利用海量档案内容对机器进行训练,使机器能够对内容分类做出判断,将分类结果与人工标识的标签进行抽样检查,计算出人工智能分类的准确率,再进行调整。人工智能分类只是档案内容智能管理的一个部分,还需利用其他技术,如知识挖掘技术对档案内容进行深度分析和总结,才能实现档案内容的智能知识推送。

档案从传统介质到数字态,再到数据态的转变,体现了管理颗粒度由粗到细的不断深入。每次转变都离不开技术的进步,同时也带来了管理理念的冲击和改变。



发表评论

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

相关文章

对纸质档案数字化建设的几点认识

对纸质档案数字化建设的几点认识

目前,大部分档案馆馆藏档案载体仍然是以纸质 为主,传统的档案管理模式占用存放空间大,保管成本 高,易磨损,并且检索利用效率低,难以满足人们日益 增长的对信息资源的需求。随着计算机网络技术逐渐 在各个领...

谈档案工作人员如何发扬三种“牛”的精神

谈档案工作人员如何发扬三种“牛”的精神

档案工作人员如何发扬三种“牛”的精神习近平总书记在2021年春节团拜会上的重要讲话,激励各地干部群众为中华民族伟大复兴辛勤耕耘、勇往直前。在守正创新中大力发扬孺子牛、拓荒牛、老黄牛精神,在新时代创造新...

《重大活动和突发事件档案管理办法》解读

《重大活动和突发事件档案管理办法》解读

2020年12月12日,国家档案局局长陆国强签署国家档案局第16号令,公布《重大活动和突发事件档案管理办法》(以下简称《办法》)。《办法》以新修订《中华人民共和国档案法》(以下简称新修订《档案法》)和...

辽宁省档案馆国际档案日系列宣传活动综述

辽宁省档案馆国际档案日系列宣传活动综述

2019年6月9日是第12个“国际档案日”。为了进一步增强全社会的档案意识,扩大档案和档案工作的社会影响,提升档案工作服务社会的能力和水平,辽宁省档案馆于5月1日—7月1日集中开展系列宣传活动。今年国...

安全性、可靠性数字档案馆建设整体解决方案

安全性、可靠性数字档案馆建设整体解决方案

数字档案馆建设整体解决方案:既然档案经过数字化 处理后有这么 多的好处和便捷 ,我们就应该投入更多的人力和物力,做好馆藏档案的数字化处理工作,变纸质档案为电子档案,提升档案的管理水平。在档案数字化处理...

工程图纸扫描数字化(二)

工程图纸扫描数字化(二)

  1、图纸数字化好处   1.1、提高档案知识共享和利用现在,设计人员都习惯通过电脑和网络来办公和学习,而人们利用纸质图纸也越来越受存档份数和借阅周期的影响,把图纸扫描...

平顶山法院档案数字化管理咨询

平顶山法院档案数字化管理咨询

平顶山法院档案数字化管理咨询,档案具有对材料的收集、鉴别、整理、保管、转递、统计、查阅的功能流程,而档案数字化就是把这些流程集中于一个软件上,从而通过这个软件来对档案进行全方位的管理。在传统的档案工作...

档案整理理念、技术探析(一)

档案整理理念、技术探析(一)

   随着科学技术的进步,我国的档案管理形式实现了电子档案管理,档案管理的对象也不仅仅局限于实体档案,档案管理的方法也发生了极大的变化。文件是实体档案管理和电子档案管理共同来源,而...