学科服务

科研知识

当前位置: 本站首页 -> 学科服务 -> 科研知识 -> 正文

写数据管理计划让你头大?你需要这12条技巧

作者: 发布日期:2018-12-28

研究数据的免费获取对开放科研至关重要——这很可能也决定了你能不能拿到科研基金。

当Marjorie Etique得知她必须为她的下一个研究项目制定数据管理计划时,她并不知道该怎么办。

这位土壤化学家是苏黎世瑞士联邦理工学院(ETH)的博士后,主要研究沉积物和水中痕量元素的相互作用。去年10月,在准备瑞士国家科学基金会的资助申请时,她了解到了基金会的一些数据新规。这些规定要求申请人提供一份有关组织和长期存储研究数据的书面计划,以减少数据丢失的风险,并为其他科学家将来使用这些数据提供指导。

Etique觉得这个任务很棘手。“我对数据管理并不熟悉,”她说,“我完全不知道该怎么办。”她最终从她的导师和ETH的数字图书馆服务那里获得了建议。其他研究人员可能就不那么幸运了。他们甚至可能都不知道数据管理计划是什么,更别说他们为何需要以及如何制定这个计划了。我们将在这里对这些问题进行逐一解答。

什么是数据管理计划?

数据管理计划为研究者在研究项目进行期间和完成后如何处理数据提供了说明,它包括了创建、共享和保存任何类型的研究数据,例如文本、电子表格、图像、记录、模型、算法和软件等。无论数据是由大型研究设备(如成像工具或粒子加速器)生成的,或者来自直接的田野观察,都涵盖在管理范围之内。

许多资助机构要求基金申请人提供数据管理计划,具体要求因学科而异。但总的来说,科学家们在开始任何研究之前,都需要说明他们将生成何种数据,如何记录和描述这些数据,如何确保数据安全,如何进行数据监管,以及研究完成后谁有权限访问数据。他们还必须解释所有关于数据共享和再使用的限制性规定,例如法律和保密相关的问题。研究人员可以咨询资助机构、所在工作机构的电子图书馆服务或者有过数据管理计划撰写经验的同事,向他们寻求帮助(详见“撰写数据管理计划的十二条技巧”)。

撰写数据管理计划的十二条技巧

•查看您的资助机构和研究领域对研究数据的要求。

•在线寻求制定数据管理计划的帮助。关于英国资助机构对数据管理计划要求的实用指南,可以在go.nature.com/2tnohIa上找到。

•列出您预期生成的各类数据和研究成果。

•确定需要归档的数据和研究材料,以及相应需要多少存储空间。

•确定适当的数据文件格式(有关英国的格式,请访问go.nature.com/2tvoo6v)。

•搜寻您所属研究共同体或所在机构使用的数据存储库(有关示例,请访问www.re3data.org)。

•查看您所选择的档案库对数据格式和结构的要求。

•提供便于他人理解、引用和再使用的数据文件的元数据。

•明确如何、何时可与本研究团队以外的科学家共享您的数据。

•如果您的研究涉及敏感数据,请说明释访问和再使用数据所面临的所有法律及伦理限制。

•指定一个合适的机构负责对长期数据进行监管。

•经常检查您的计划,并在必要时进行更新。

谁需要数据管理计划?

数据管理是公共研究赞助者和研究机构实施“开放科研”,推动科学研究和数据免费获取的一个范例。过去十年间,许多资助机构已经将数据管理计划作为基金申请的一项强制性内容。在美国,包括国家科学基金会和国立卫生研究院在内的所有联邦机构都实施了这类政策。现在,如果要申请欧洲研究委员会和其他欧盟资助的研究项目基金,也必须要有数据管理计划。欧洲的许多国家性资助机构,包括英国研究理事会和全球最大的生物医学研究慈善机构——位于伦敦的惠康基金,也要求提供数据管理计划。

即便没有这些政策,许多科学家也已经开始在科研中践行数据管理。例如,天文学家们在过去几十年里一直在校准他们的观测数据,并将海量的望远镜观测数据记录以标准化、机器可读的目录形式进行归档,以便数据可以被再使用。

图片.pngAdapted from Getty

遗传学家也在使用特殊的数据库来归档大量的DNA和基因组测序数据。对数据依赖度较小的自然和社会研究领域同样也可以从数据管理中获益。例如,地球化学家们在分析不同环境中的土壤细菌和矿物质时,可以通过数据管理,更方便地进行合作。“在新兴的开放科研时代,任何研究人员都必须准备好公开他们的研究过程和结果。”葡萄牙米尼奥大学的图书馆馆长Eloy Rodrigues说。他负责协调欧盟资助的开放科研电子学习门户网站FOSTER。

尽管如此,许多科学家仍然对开放数据规定以及基金申请者需要做些什么感到茫然。2017年,欧盟委员会和欧洲博士候选人暨青年学者协会(Eurodoc)对欧洲尚处于职业生涯早期的研究人员开展了一项调查,结果显示许多人并不了解新的数据开放政策。在1277名受访者中,只有四分之一撰写过数据管理计划,另有四分之一表示他们甚至不知道什么是数据管理计划。大多数人表示他们并没有从所在机构获得过相关培训或支持。

Eurodoc主席、荷兰莱顿大学语言学家Gareth O'Neill说:“数据管理必将成为开放科研时代的一项必备技能。然而,许多科学家对它几乎一点儿也不熟悉。”加州数字图书馆(CDL)的研究数据专家Stephanie Simms补充说,美国的情况几无二致。她说:“研究文化的深刻转变才刚刚开始。”

我如何获得帮助?

加州大学数据监管中心(加州数字图书馆系统的一部分)以及位于英国爱丁堡的数字监管中心(Digital Curation Centre)提供不同研究领域的学者编写的数据管理计划范例,也提供用于撰写数据管理计划的在线工具,以满足两国大多数资助机构的需求。这些工具的版本也适用于其他一些欧洲国家以及澳大利亚、加拿大和南非的科学家。

Simms建议不熟悉开放数据规定的基金申请人咨询资助机构的项目负责人,以了解特定研究领域的具体要求。她补充道,科学家们还可以咨询其所在机构的数字图书馆服务来获取更多的专业指导,比如关于数据机器可读性协议的要求,以及机构数据库使用的文件格式等等。

Etique正是这样做的。 ETH数字化管理办公室的工作人员向她介绍了瑞士关于开放数据的新政策,并为她提供了一个通用模板,以便她根据瑞士国家科学基金会的要求来制定数据管理计划。

“有一些问题解决起来比较棘手,比如文件命名的惯例和元数据标准,”她说。但在与信息技术服务和ETH图书馆工作人员交谈后,她花了两周的时间就写出了五页符合资助机构要求的计划。

英国曼彻斯特大学的天体物理学家Rachael Ainsworth说,遵守数据管理规则并非仅仅是例行公事。“你主要的合作者就是六个月后的自己,而以前的你并不会答复自己的电子邮件,”一名经常主持数据管理研讨会的开放科研倡导者说道,“因此,有条理地处理和存储数据会节省你的时间和资源。”

这些计划是否因学科而异?

不同学科的数据管理需求迥然不同,而不同的研究共同体(和资助机构)也有不同的惯例和做法。协同粒子物理学所需的计划要管理大型加速器设施产生的大量实验数据,这与Etique的小型研究项目中使用的计划有很大差异。

英国格拉斯哥大学的数字管理中心的研究人员Sarah Jones说,任何作为研究者研究主张和结果证明的数据都应该存档。该中心成立于2005年,支持英国高等教育机构的研究数据管理。她补充说,这并不意味着研究人员应该为后人保留包括实验室日志在内的所有记录。实际上,许多基于少量田野观测来撰写论文的科学家,可能只需要归档很少的数据。如果一个项目不产生或复用任何数据,例如纯理论科学或概念性研究,那么数据管理计划可能就没有必要。

存档的研究数据必须附有适当的元数据,描述数据的来源和用途,以便其他人可以查阅和理解这些数据。Jones说,如果研究者不确定元数据的要求,或者不清楚需要采用什么协议和数字档案,就需要联系所在机构的图书馆服务。

生成数据的科学家应当指定在研究项目完成后由谁负责对该信息进行管理。这一点至关重要,因为科学家并不总会待在同一个机构或院系。为了保证数据的长期可用性,他们应该将数据管理的职责分配给办公室(通常是所在机构的图书馆部门)而不是某一个人。

图书馆部门通常不对个人的数据集进行管理。相反,他们对机构的数据存储库进行存档和维护,以便其所存储的数据可以无限期访问。

这些计划会提升科学研究的质量吗?

开放研究数据的访问渠道让研究者可以独立得出关于已发表研究的结论。Jones认为科学家保留数据有一个好处,如果其他研究人员不能重现相同的结果,或者在论文发表后引发了法律或伦理问题,那么这些数据就可以派上用场。但并非所有类型的数据和记录都可以随意发布和自由共享。例如,患者数据和健康记录通常必须是匿名的。实证类社会研究中使用的一些访谈记录也是如此,例如政治调查或个人行为调查。

数据管理计划还必须说明有关保密和版权的所有限制。学术界科学家与产业界研究人员或军事部门之间的合作可能会涉及这一点。“在编写计划时,请仔细考虑数据隐私和伦理问题。”Ainsworth说道。她补充表示法律或其他限制也应加以注意。

欧洲的研究资助机构将针对各个学科制定数据管理计划的最低标准,以解决开放数据政策中存在的一些混乱问题。这项工作将会在一年内完成。“如果总体目标一致,但不同主体的规则和要求却不一样,这是不合理的。”荷兰皇家文理学院数据档案主管Peter Doorn说,“研究人员更希望看到清晰而不至于繁琐的指示。”

需要指导的科学家可以到欧盟资助的FOSTER门户网站上查阅有关数据管理计划的在线讲座和培训材料。Rodrigues指出,为欧盟Horizon 2020研究项目的申请人量身打造的一个工具包将于5月份面市。(Horizon 2020是一项持续七年、规模达770亿欧元的研究资助计划。)

与此同时,Etique希望随她的基金申请一道提交的数据管理计划能够在评审中获得好评。她预计今年晚些时候就会知道她的项目申请是否被批准。“这是一个审视我处理研究数据方式的机会——及早思考一下你需要通过各种方法和仪器收集何种数据,以及如何组织这些数据以便高效利用是必要的。”她说。这是她首次涉足数据管理。她指出,这样的计划也可以帮助研究者避免可能出现的数据丢失和研究可重复性方面的问题,“它可以让你省去很多无法预料的麻烦。”

她想要研究的汞化合物是不稳定的,但是她的数据却要长期保留下去。