各行各业的组织都面临着一个根本性挑战——如何通过数字化转型将遗留数据转化为竞争优势。遗憾的是,波士顿咨询公司的一项研究表明,70%的数字化转型努力都以失败告终。
深入探究史密森尼学会(Smithsonian Museum)和伦敦自然史博物馆(London’s Natural History Museum)的幕后,我们可以了解到它们是如何将世界上一些最复杂的遗留数据转化为数字协作引擎的。
数据标准助力数字化转型
2016年,学术界、产业界和资助机构的研究人员在《科学数据》(Scientific Data)期刊上发表了后来被称为FAIR数据原则的框架,该框架的提出源于一种认识,即“良好的数据管理本身并非目的,而是通往知识发现和创新的关键途径”。
此后,从美国国立卫生研究院(National Institutes of Health)到诺华(Novartis)和辉瑞(Pfizer)等制药公司,众多组织都采用了这些原则。原因很简单:当研究人员能够自动查找并使用彼此的数据时,协作的规模将超越人类单独协调所能达到的范畴。
对于伦敦自然史博物馆的项目经理Steen Dupont博士来说,将FAIR数据原则付诸实践似乎是一项艰巨的任务。最近,我有机会在博物馆与Dupont博士会面,了解伦敦自然史博物馆如何应对加速和改善研究人员跨组织协作这一挑战。
“博物馆的‘数据’包括超过8000万件实物,其中一些是查尔斯·达尔文(Charles Darwin)本人收集的,”Dupont博士解释道,“更复杂的是,一个标本可能被贴上了一个已不复存在的国家名称的标签,记录的日期格式因年代而异,或者使用的术语已经发生了演变。”
这种规模并非独一无二,史密森尼学会在数字化转型中面临着更大的复杂性,其拥有超过1.555亿件藏品。作为参考,如果将档案材料首尾相连,其长度将延伸30英里。
让历史复杂性变得机器可读
为了将想法付诸行动,伦敦自然史博物馆创建了RECODE(重新思考藏品数据生态系统)项目,该倡议建立在数字藏品项目的基础上,后者涉及对整个藏品进行系统数字化。每件藏品都与其标签一起成像,并录入企业内容管理系统。
RECODE项目分阶段进行,完成后,RECODE将成为一站式藏品管理系统,负责存储、管理和共享使用Doxis技术平台生成的所有数据。
该项目实现了三大核心功能:策展人和研究人员可以在期刊文章中引用特定信息,博物馆可以审计每件藏品的轨迹,领导层可以将单件藏品与机构关键绩效指标联系起来。
Dupont博士对战略与技术做出了重要区分:“基础设施服务于战略,而非相反。”正如Dupont博士所解释的,“通过RECODE,我们试图建立一个更新、更高效、更精简且面向未来的藏品管理系统,这里的独特挑战在于,要在一个以未来250年为设计目标的系统中,支持超过250年历史中产生的现有数据。”
像伦敦自然史博物馆和史密森尼学会这样的大型博物馆,其数据数字化规模并非一蹴而就。史密森尼学会已选择了一个优先流程,专注于为1900万件博物馆藏品(占藏品总数的12%)创建数字图像。
此外,史密森尼学会还通过其转录中心(Transcription Center)招募志愿者,为数字化藏品添加元数据和上下文信息。面对数字化庞大记录的挑战,数千名“志愿同行者”(volunpeers,即被视为同行的志愿者)挺身而出,他们共同协作,使数字藏品变得易于访问。
数字化:协作的推动者
伦敦自然史博物馆和史密森尼学会的数字化转型努力之所以引人入胜,是因为它们致力于推动研究领域的协作。伦敦自然史博物馆已采取立场,使其数字记录“开源”。
Dupont博士分享了为何通过协作推进研究如此重要。“我们是一个研究机构,其核心在于通过FAIR数据促进协作。因此,就伦敦自然史博物馆如何应对协作挑战而言,我们通过默认开放藏品数据,并提供让人们访问和使用我们数据的服务来实现这一点。”
博物馆的成果证明了该战略的有效性,到2025年,伦敦自然史博物馆的策展人、研究人员和科学助理描述了262个新物种,发表了700多篇研究论文,同时还开工建设了一个新的最先进的藏品、研究和数字化中心,基础设施促进了而非限制了这一产出。
史密森尼学会也持类似观点,即通过共享数据来促进研究协作。由于史密森尼学会的藏品通常只有1%进行实体展示,因此开源数字访问从根本上改变了全球研究人员可以研究的内容以及组织可以协作的方式。
这就是为什么在2020年,该博物馆启动了开放获取(Open Access)倡议,根据知识共享零协议(Creative Commons Zero)提供超过510万件数字藏品,这意味着任何人都可以“不受限制地下载、分享和再利用来自藏品的数百万张图像和数据”。
战略启示:借鉴经验
伦敦自然史博物馆和史密森尼学会面临的挑战并非博物馆所独有,各地的组织都在努力应对不符合现代标准的遗留数据。
管理复杂、历史积累资产的组织面临一个选择——是试图将遗留信息强行塞入僵化的现代结构中,还是构建能够容纳复杂性同时实现机器可读访问的系统。
使用协作开发的框架(如最初为科学研究开发的FAIR数据原则)为任何依赖系统数据访问进行协作的机构提供了一个可应用的框架。
无论你的组织管理的是博物馆标本、监管文件还是数十年来积累的客户数据,经验都是明确的:当数据系统同时支持人类理解和机器访问时,协作的规模将得以扩大。


