在新罕布什尔州多佛一个多风多雪的夜晚,大约有15人聚集在一座经过改造的旧磨坊里,盯着电脑屏幕,疯狂地敲击着键盘。
该集团 - 一些学生,一些程序员,以及至少一个兼职洗碗机和数据录入员 - 是冒着暴风雪和志愿他们的时间来尝试从丢失保持科学数据。
从多伦多到洛杉矶,从休斯顿到芝加哥,这是数十起数据救援事件中的一起。这些活动很多是在大学校园举行的,从去年12月开始,软件程序员、图书管理员和其他志愿者聚集在一起,试图安全地将来自政府网站的科学数据存档。
“任何管理部门都有数据丢失的问题,”数据录入员、洗碗工丹尼尔·蓬托(Daniel Pontoh)说“我们只知道在这届政府的领导下,数据丢失的速度会有多快。”
自唐纳德·特朗普总统上任以来,人们的担忧有所增加。他的政府表示,它怀疑气候变化的现实,并提出了深入削减环境保护局的预算以及美国最高的天气和气候机构国家海洋和大气管理局(NOAA)。
科学家们担心,在诸如海洋温度变化、温室气体排放、极地冰盖变化、枪支暴力等广泛领域的关键研究和长期研究将会失败在研究设施动物治疗。
有关气候变化的资料被移除就职典礼当天在白宫网站上发布。据报道,还有特朗普政府告诉美国环保署删除在线教育资源和气候变化数据的链接。
一些人担心数据会被故意丢失或篡改。另一些人则希望确保这些数据可以在不止一个地方获得,尤其是不止一个政府网站,因为预算削减可能意味着服务器空间和这些数据集的维护可能不再是优先事项。
宾夕法尼亚大学(University of Pennsylvania)数据管理图书馆员玛格丽特•扬茨(Margaret Janz)表示:“我们最担心的是,数据可能会被离线,公众访问将不复存在,只有在《信息自由法》(Freedom of Information Act)的要求下才能获得。”“我们的目标是制作值得信赖的数据副本,这样公众就可以获得这些数据,并将其用于研究。”这些数据不应该只放在一个地方。”
Janz是。的计划委员会成员DataRefuge这是一个致力于存档政府网站上的科学数据的组织。
DataRefuge是一个由宾夕法尼亚大学图书馆和宾夕法尼亚大学环境人文项目去年11月美国总统大选结束后成立。
这个小组,和环境数据和治理计划,帮助组织数据救援事件。
据Janz说,DateRefuge已经举办了大约30场数据归档活动,每一场都吸引了大约100名与会者。3月10日在新罕布什尔州举行的这次活动是规模较小的活动之一。组织者还在研究如何让他们的社区长期参与进来。
“删除数据就像焚烧书籍,”马萨诸塞州Yieldbot公司的软件开发人员马特·琼斯(Matt Jones)在新罕布什尔州的活动中归档数据时说。“我对数据和信息充满激情……我不相信扔掉任何东西。所有的数据都与某个人有关。”
拥有DataRefuge的志愿者不会侵入网站,也不会窃取数据。他们正在努力复制属于公共领域的数据。
志愿者们接受培训,然后在活动期间工作,有时在家里继续努力。
正在进行的部分工作称为播种,参与者指定要存储在互联网档案馆这是一家位于旧金山的非盈利公共数字图书馆。如果存档的web爬虫程序能够从指定的页面提取必要的数据,它就会这样做。
如果页面太复杂——比如它有100个不同的文件或者交互性很强——网络爬虫就无法正常工作,那么播种者就会注意到这一点,志愿者就会开始“收获”信息。
通过使用Python或R编程语言构建的脚本和工具,收割机将手动遍历这些页面,收集需要保存的数据集,如天气图或GIS文件。
在新罕布什尔州的活动中,志愿者被分成两组——一组使用Python语言,另一组使用r语言。
活动组织者无法透露在那次活动中收集了多少数据,但在今年2月在新罕布什尔大学(University of New Hampshire)举行的DataRescue活动中,有40名志愿者在一晚的时间里收集了大约1100页数据,这些数据可以由网络爬虫收集到。
在新罕布什尔大学和新罕布什尔州多佛大学的活动中,他们都在努力从EPA网站上保存数据。
志愿者们说,当他们浏览环保署网站时,他们发现页面或数据集已经被删除。
美国环境保护署没有回应就其网站上的科学数据是否已被删除或更改发表评论的请求。然而,美国国家航空航天局和美国国家海洋和大气管理局都表示,数据并没有被删除。
劳伦·摩尔(Lauren Moore)是新罕布什尔州达勒姆的前端网络开发人员和数字营销经理她说,她对保护数十年的科研成果充满热情,不得不学习后台编码技术,以帮助进行数据存储工作。
“这是一种压倒性的,但我得到了它的窍门,”摩尔,谁在最近新罕布什尔事件自告奋勇说。“这绝对是值得去学习新的语言和做的工作。”
美国国家科学基金会(National Science Foundation)研究员、新罕布什尔大学(University of New Hampshire)地球科学专业研究生克拉丽斯·佩里曼(Clarice Perryman)说,把自己仅有的一点空闲时间贡献出来是值得的,因为她关心保护科学研究。
“这些网站都很深奥,而且网络地图也不是很好。你需要人们参与进来,找出事物之间的联系,”佩里曼说。“不管政治背景如何,环境数据丢失是一个大问题……公众获取这些信息的渠道很重要,尤其是当政客们说气候变化不是真的,水的问题也不是真的。”
“这关乎诚信,”她说。
IBM的程序员丹尼尔·马纳里诺(Daniel Mannarino)在新罕布什尔州的DataRescue活动中帮助培训。他说,保存科学数据不是政治问题。
他说:“有些东西会完全无辜地丢失。”“我们需要数据来支撑……否则你就得从头开始做每件事,而且没有足够的资源来从头开始做每件事。”科学是站在巨人的肩膀上的,所以你必须确保肩膀还在那里,否则我们就会迷路。”
特朗普政府上台已经两个月了,但是数据福利志愿者表示,尽其所能保存数据还不算太晚。
“现在还没有机会改变这一切,”佩里曼说。“白宫把所有提到气候变化在总统就职日(whitehouse . gov)网站…但如果数据是如此之大,如此之深,我们很难存档,这可能是如此之深,他们很难获得这一切。也许我们比他们更快地到达目的地。”
这个故事,“程序员和图书馆员合作来保存科学数据”最初是由《计算机世界》 。