行业新闻

行业新闻

首页 > 新闻中心 > 行业新闻 > 智慧档案馆数据化管理功能的实现

智慧档案馆数据化管理功能的实现

2021-03-29 热度:647 ℃

档案馆是各类信息资源的主要保存和服务机构,长期致力于数字记忆保护工作,其中既包括文本内容的长期保存, 也包括元数据的有效获取。[1]面对大数据时代这一新型学术  需求,智慧档案馆数据化管理应当借助数字技术,提高资源的语义化、智慧化水平,扩大信息共享的范围和深度,积极创新服务方式和方法。

 

智慧档案馆数据化管理的必要性

1.1 档案数据化转型。档案馆收藏和保存了社会活动中的各政府机构和职能机构的重要文件、特殊手稿以及具有文化、历史和文学意义的珍贵资料。档案通常属于未公开发表的唯一版本资料,更具有珍贵性与稀缺性的特点。另外,档案的史料价值和证据价值也决定了其必然成为网络基础设施建设中的主力军。新环境下,档案馆必须转换思路,变藏为用,变被动为主动。

档案数据化转型指的是在档案中,以数据作为载体和表现形式的那部分档案,其外延既包括档案内容、结构、背景数据,也包括非档案内容本身但档案产生的软硬件环境数据、档案业务活动过程中产生的数据以及应该归档但未进行归档的政务数据等,既具有档案性也具有数据性。

1.2 做好数据的前端控制和版本的永续存储。对于数据的质量控制和长期存储来说,档案馆具有理论和经验优势。档案专家应该积极加入数据的前端控制和版本的永续存储方案设计、实施和维护的各个阶段中,帮助实现数字环境下的动态、原生数字数据进行实施数据采集、质量监控和版本的永续存储,以备后期人文研究查考、利用。[2]因此,必须保证  数据安全、可靠、完整。可读的措施付诸数据“采集-处理- 呈现”的全过程中,才可以有效防止数据的丢失和损坏。档案专家应该积极介入专题数据库及服务平台的建设,在系统设计阶段实行前端控制,对数据生成和管理质量进行监控, 保证项目的后续实施效果和版本的永续存储。

 

智慧档案馆数据化管理功能的实现路径

2.1 数字技术支持让档案数字资源有了更为宽广的生存空间。尽管网络技术和数字技术飞速发展,让档案数字资源有了更为宽广的生存空间,存储技术、搜索技术、编目技术的出现使档案数字资源各个管理环节更加趋于自动化、智能化、高效化,并且管理成本也在大幅降低。但对于其中档案内容的数字化来说,智慧技术并不能取代数字技术。智慧档案馆对实体档案可以运用射频识别标签实现泛在感知,可以运用3D库房技术实现实时监测,但将实体档案转化成为不受时空利用限制的数字化资源则需要数字技术,数字技术将传统载体档案进行扫描、转录等,以数字信号形式保存在计算机中,同时还可以结合数字技术实现声影档案展示,为用户提供虚拟体验。如果没有数字技术实现的数字化馆藏,那么智慧档案馆的智慧将要大打折扣。

2.2 数字技术将人工智能与传统文字识别技术进行结合。传统的文字识别技术是将图像进行二值化和灰度化后, 将文字作为前景信息,其他部分作为背景信息,通过区分两者的明暗不同来判别哪些是识别区域,再对文字识别区域进行切割和分类,最后基于统计模型进行纠错和识别。但传统识别方法在面对复杂的识别环境时难以提高识别准确率,如多语言混合、低分辨率、非均匀光照、艺术字体、复杂版式等情况,研究人员为了克服这些难点,尝试了很多种方法。近年随着深度学习的兴起,打破了传统OCR的技术瓶颈。传统的机器学习需要先确定特征和标签,然后用一系列算法对这些数据进行计算,然后保存模型,最后对分类的准确性进行预测。这种方法有其缺点,如果提取的特征数量过多,可能会因为偏向于某个特征而出现过拟合的情况,如果提取的特征数量过少,则可能没办法进行精确分类,出现欠拟合的情况。

传统神经网络算法采用全连接的网络结构,一个28× 28的矩阵可能需要11万多个参数,参数实在太多,计算量巨大,在图像识别中显然不是很适合。于是开始考虑卷积神经网络。卷积神经网络的思想是在识别一个物体时,通常通过某个局部特征就能识别出该物体为何,并不需要全部识别,

所以也可以通过局部特征识别整体而不是全连接的方式。卷积神经网络通过卷积神经元提取上一层图像的局部特征在自身所在隐层单元上映射成一个平面,并通过同平面层具有同一神经元权重值来保证特征映射具有位移不变性和旋转不变性,同时特征提取后还有一个亚取样层或称下采样层,用来求局部平均和二次特征提取,以提高神经网络的畸变容忍能力。[5]这种方法的优点是,只需对初始值进行设置,随后机  器通过自适应和自学习的过程不断调整卷积核的数量和滑动步长,而且参数数量可以减少几个量级。

1.1 数字技术实现智慧档案馆管理功能的全面感知。慧档案馆在档案实体、档案内容信息和档案管理信息上具备全面感知特点,在数据运算和存储方面采用“自有”和“云”的双模模式,能通过利用移动数字信息查阅服务中心等现有信息发布利用平台和三网融合实现泛在应用,最后从上到下,从内到外,全面运用所有技术进行综合管理。

智慧档案馆期望通过运用物联网、云计算、云存储等技术来提高档案馆系统数据传输与计算能力、应用扩展能力和安全存储能力,但由于没有相关成功案例参考,建设过程中遇到资金不足、人才短缺、技术难关、政策支持和法律规范缺失等问题,需要长期的建设和研究,才能促进智慧档案馆持续健康发展。[6]

 

智慧档案馆数据化管理功能的实现价值

2.1 智慧档案馆数据化实现档案的“活化”。智慧档案馆馆藏数据化管理功能的价值主要体现在两个方面[3]:一方  面体现在档案数据中,档案数据这一部分本身即具备数据特征,是智慧档案馆馆藏的数据基础。另一方面是对数字化馆藏进行数据化,通过将数字态档案转变为数据态,实现档案的“活化”,使档案可以被计算机检索、组织、复用等,从而进行内容管理和智能分析。

在智慧档案馆的建设中,物联网的应用是其中一大创新,其前端设备层承担整个档案馆环境内的各类信息感知服务,包括射频识别、传感器、视频监控系统等,这些前端设备每时每刻都在与周围环境交互,产生实时数据。相比于数字档案馆的数字化特征主要体现在数字态馆藏上,智慧档案馆的数据化特征已不仅体现在馆藏层面上,还体现在管理过程中的各个方面,包括了档案与档案之间、档案与人之间、人与人之间交互的所有数据,数据化特征已经渗透到智慧档案馆管理的方方面面。

2.2 实现数据化带来了智慧档案馆管理理念的改变。字档案馆的馆藏主要有传统载体档案、数字化馆藏以及原生电子文件等三种类型。原生电子文件种类很多,包括文本文件、图形文件、数据文件、图像文件、声音文件、影像文件和命令文件等,[4]涵盖了非结构化、半结构化和结构化三种  类型文件,其中对文本文件的管理相比于数字档案馆的纸质数字化档案来说,减少了图像转变为文字的过程。

数字化馆藏则多以PDF、JPEG、MP3等数字态形式存储,针对不同格式进行数据化转换的方式不尽相同,其中纸

质档案的内容除了文本,可能还包含图像信息,在对此类档案的数字态成果进行数据化时,关键在于将图像形式的档案转变为文本文件。通常采用OCR技术对图像内容进行文字识别,随着多年的发展,OCR识别的准确率不断提高,有些公司的OCR产品声称可达到99%的准确率,但运用OCR并不是一劳永逸的,还需要后期进行人工核对和纠正,成本较高。经过OCR识别后,可采用PDF双层格式存储来避免后续转换的麻烦,PDF双层格式是将图像层置于上层,而文本置于底层,这样既能保证用户对档案内容进行文档操作,又能保证档案的传输安全。OCR是全文检索的基础,但如果想要实现档案内容智能服务,还远远不够。

经过OCR识别后的文本内容多为非结构化或半结构化, 原生电子文件的类型更加多样化,为了有效利用不同结构类型的档案,首先应对非结构化和半结构化的文档进行结构化处理,处理的颗粒度可以根据需要按照章节、段落或句子等来拆分,拆分后形成一个个XML片段,再对这些片段打上标  签,目的是为多维度检索做铺垫。标签的另一个作用是为人工智能打下基础,利用海量档案内容对机器进行训练,使机器能够对内容分类做出判断,将分类结果与人工标识的标签进行抽样检查,计算出人工智能分类的准确率,再进行调整。人工智能分类只是档案内容智能管理的一个部分,还需利用其他技术,如知识挖掘技术对档案内容进行深度分析和总结,才能实现档案内容的智能知识推送。

档案从传统介质到数字态,再到数据态的转变,体现了管理颗粒度由粗到细的不断深入。每次转变都离不开技术的进步,同时也带来了管理理念的冲击和改变。



发表评论

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

相关文章

人力资源与社会保障局档案数字化加工服务

人力资源与社会保障局档案数字化加工服务

近年来,随着经济社会发展,人才流动规模不断扩大,各地 人才服务机构管理的流动人员人事档案数量不断增加,在档案的转入、 转出、查阅、借阅、开具调档函和存档证明等服务利用方面业务量都有 明显增加。由于档案...

财政部国库司有关负责人就 《关于在政府采购活动中查询及使用信用记录 有关问题的通知》答记者问

财政部国库司有关负责人就 《关于在政府采购活动中查询及使用信用记录 有关问题的通知》答记者问

 为了落实国务院有关要求,推进社会信用体系建设、健全守信激励失信约束机制,财政部制定印发了《关于在政府采购活动中查询及使用信用记录有关问题的通知》(财库〔2016〕125号,以下简称《通知》)。近日,...

河南开展2019年度省档案科技计划项目评审工作

河南开展2019年度省档案科技计划项目评审工作

       近日,由河南省委办公厅和河南省档案馆共同举办的2019年度省档案科技计划项目评审在郑州举行,按照新制定的评审标准和打分要求,评审组专家对报评的项目...

档案工作任务清单对标政府工作报告

档案工作任务清单对标政府工作报告

 2019年05月05日来源:中国档案报   今年3月29日,全国档案局长馆长会议在北京召开,会议提出今年全国档案工作的总体要求和重点任务,对标国务院总理李克强在今年全国两会的政府工作报告,...

大数据背景下我国档案保护技术的发展趋势

大数据背景下我国档案保护技术的发展趋势

随着大数据化和人工智能技术的不断进步,档案 管理变得越来越简化,从原来的纸质档案逐渐转型为 电子档案,致使档案管理员摒弃了以往烦琐、重复的档 案管理工作,而是采取了高效率、低成本的档案管理模 式。这就...

怎样做好事业单位档案整理工作

怎样做好事业单位档案整理工作

  事业单位在社会经济改革的浪潮中也面临着变化,科技进步的前提下,诸多事业单位采取了重组、精简的战略,以提升自身的治理能力,重新获取发展动力。事业单位档案管理工作本身和运营方式存在较大的联系...

档案整理的本质(二)

档案整理的本质(二)

  接上回所说,进行详细分析。  1、档案实体整理   所谓“实体”,不仅包括传统的纸质档案,也包括电子文件。传统观点将“经过整理”作为文件转化为档案...