引言👨🦼:
科學數據(Scientific Data)是學術工作的支柱和重要產出😆,也是開放科學運動的重要物質基礎。認真負責任地管理和共享科學數據有助於提高研究的透明度🙆🏽♂️、嚴謹性、可重復性和公共價值。調研高校成熟的科學數據管理實踐🈵,進行分析與學習,可幫助我們促進高質量科學數據資源的共享和再利用🧑🦳,推進全球開放科學運動在高校中的實踐。今天我們將一起從數據管理政策💍、數據全生命周期管理👸🏼、數據素養教育三個維度來了解下密歇根大學的科學數據管理現狀👨🏼🌾。
1.1.1. 數據管理政策
表 密歇根大學數據管理政策
1.1.2. 數據全生命周期管理
在研究生命周期的各個階段和各個研究領域😐,研究人員都應該考慮最終存儲和保存研究數據的潛在長期影響★。以下是一些按研究生命周期階段劃分的資源🛩,可作為數據管理實踐的切入點,幫助研究人員節省時間、滿足資助者的要求,並最終最大限度地發揮研究的影響力。

1.1.2.1. 研究設計與數據收集
在製定研究計劃時考慮到數據管理,例如製定明確的協議來收集和存儲所產生的數據,這將帶來巨大的下遊效益3️⃣。此外,大多數機構現在都要求在提交項目計劃時提供DMP或其他有關數據管理和指導的信息👨🏿✈️。
以下是一些精選的資源,可以幫助研究人員在開展研究時開始思考有效的數據實踐。
表 研究設計與數據收集資源
研究或申報書要素 |
資源 |
通用數據元素 (CDE) |
CDE 是結構化的人類和機器可讀的數據元素定義🛤,用於研究和其他目的👨🏻🦰👮🏼。美國國立衛生研究院有一個通用數據元素資源庫,幫助研究人員確定從調查到疾病命名等各項研究中使用的標準化術語或概念。 |
元數據 |
FAIRSharing.org(FAIRSharing.org)為研究人員提供了一個跨學科元數據標準數據庫,有助於改進數據共享實踐👨💻。 密歇根大學意昂3還圍繞數據文檔和元數據標準製定了最佳實踐指南(data documentation and metadata standards) |
協議 |
整理和共享個人協議可確保各研究小組內部研究數據實踐的一致性,同時也便於與更廣泛的研究社區共享🙎🏻♂️👨🏿🦰。 密歇根大學向一家電子實驗筆記本提供商訂購了一份機構協議,使研究人員能夠享受集中化、無紙化協議和工作流程帶來的好處✂️、效率和長期成本節約。 Protocols.io 是另一個供研究人員開發和共享實驗協議的平臺。 |
數據管理計劃 |
密歇根大學意昂3提供有關數據管理計劃的廣泛指導,包括針對工程學😆、社會科學和健康科學的特定學科指南。 DMPTool 是一個免費的開源工具,可幫助研究人員創建標準化的數據管理計劃。 |
項目計劃預算編製 |
隨著對數據管理的新要求,資助機構越來越多地允許將數據共享成本作為直接成本納入項目計劃預算👳🏻。ORSP為與項目相關的直接費用提供高層次的預算和費用指導(budget and cost guidance)。在資助機構沒有禁止的情況下,根據相關資助的適用條款和條件,與數據整理、數據格式化💏、數據去身份化✷🌴、元數據準備和存儲庫數據沉積費相關的費用可作為直接費用列入提案中👩🏻🦰。 |
表 研究設計與數據收集資源(特定學科)
特定學科指導 |
資源 |
臨床研究 |
密歇根大學的研究人員可以通過生物醫學和教育研究統計分析小組 (SABER) 獲得臨床試驗設計、實施和分析方面的幫助👊,包括數據管理和軟件開發🙋🏿。 密歇根臨床與健康研究所 (Michigan Institute for Clinical & Health Research, MICHR) 還提供額外的數據收集指導,以及與臨床研究相關的數據管理基礎在線課程🐳。 |
定性研究 |
定性研究是非數值數據,通常需要上下文信息,這給數據管理帶來了額外的挑戰🦠。數據管理網絡提供了定性研究數據類型入門指南(a primer on data types in qualitative research)🏌🏽,幫助研究人員了解這些領域的數據需求。 |
計算研究 |
除研究數據外,計算研究越來越多地需要解決代碼和軟件的可用性問題。美國國立衛生研究院(NIH)🫳🏿、軟件木工(Software Carpentry)和軟件可持續發展研究所(Software Sustainability Institute)等機構為研究人員提供了如何應對這些挑戰的指南🤽🏽♀️。不過,在發布開源代碼時,如有必要,請向麻省理工大學創新合作夥伴關系咨詢有關許可選項、最佳實踐和知識產權方面的問題。 |
人文學科 |
隨著數字化的興起,人文學科對數據的需求與日俱增。《數字人文科學數據整理指南》(Digital Humanities Curation Guide)匯集了各種資源,幫助數字人文學者應對數據整理方面的挑戰👐🏿。 |
跨學科 |
大學意昂3為跨學科學者提供了一個開放數據工具包(open data toolkit),用於指導收集、管理🕙、利用💎、共享和整理研究數據以造福大眾的最佳實踐 |
1.1.2.2. 數據安全和隱私保護
研究人員在管理研究數據時需要考慮許多因素🧏🏿♀️,尤其是在處理潛在敏感信息或某些類型的受監管數據時。大學有許多資源可用於幫助研究人員應對這些挑戰,具體取決於正在生成的數據類型👩🏿🏭。
表 數據安全和隱私保護資源
總體安全/安保指南 |
資源 |
國際合作與出口管製 |
有些研究數據在是否/如何與外國、個人或實體共享方面可能有限製🏓。大學出口管製法規(U-M Export Controls)可以幫助研究人員確保遵守所有相關法規,並在必要時製定技術控製計劃 (TCP)🏊♂️🥻。 |
研究數據安全 |
根據大學和法律的不同要求,有幾類研究數據需要特殊保護。大學的研究信息安全監督 (RISO) 計劃與PI合作,確定需要采取哪些額外控製措施(如有)。 |
安全計算 |
為了保護您自己和您的研究數據免受網絡釣魚攻擊或其他電子漏洞的侵害,馬薩諸塞大學提供高級安全計算資源🕵🏻♂️🏃♂️➡️,包括敏感數據指南。 |
1.1.2.3. 研究數據管理與存儲
(1)短期研究數據管理和存儲
在研究過程中,負責任地、有策略地管理研究數據流,對於提高研究的長期影響力和可復製性大有裨益™️。大學有許多資源可供研究人員使用,幫助他們管理和/或分析不同學科或方法的研究數據。
1) 咨詢服務
高級研究計算中心(ARC)和統計🌇、計算和分析研究咨詢公司(CSCAR)提供咨詢服務,幫助計算研究人員實施數據分析和工作流程,並協助滿足數據管理和存儲需求。
對於從事臨床和轉化科學工作的研究人員,MICHR的數據管理指導計劃(Data Management Mentoring Program)提供指導🧑🏽🦲,通過共享數據管理工具和最佳實踐⛸,幫助研究團隊更有效地收集和管理研究數據🧍♂️。
2) 數據存儲服務(日常)
對於需要確定和比較短期研究數據存儲需求的研究人員,U-M ITS 提供數據存儲搜索器🫗。
研究人員還可以選擇電子實驗筆記本(electronic lab notebooks),它集成了一個易於使用的解決方案📹。
臨床研究數據存檔指南可從MICHR獲取。
3) 數據存儲服務(特殊需求)
對於大量數據和/或大文件🔎,ITS高級研究計算(ARC)提供了許多活躍的研究數據存儲服務(如OSiRIS、Locker和Turbo)❄️。
4) 高性能計算
對於需要高性能計算的研究人員,ARC提供大量計算和數據存儲資源,包括馬薩諸塞大學研究計算包🅱️。許多學校和學院還與ITS合作提供服務,包括工程學院、醫學院和LSA。
5) 研究中心
如果學科有特定的數據管理需求,還可以獲得許多其他服務🧑🧒。例如,整個大學約100個研究中心中的許多中心都提供與其設備和/或分析相關的數據服務。
(2)數據共享和長期保存
隨著研究人員從積極管理項目和/或分析數據過渡到完成項目和/或發布數據,對研究數據的需求也在發生變化。最佳實踐包括歸檔或保存以確保公眾可訪問,記錄元數據以提高可發現性,以及越來越多地註釋和存放代碼以確保可重現性💲。以下是可幫助研究人員確保其數據可長期訪問的資源示例👨🦽➡️。
1) 一般指導
共享和保存數據的一般指南😳,包括如何選擇存儲庫,可從大學意昂3獲得研究指南(research guide)。還提供針對健康科學、工程學和定性科學的特定主題指南。
數據倉儲可讓您輕松發布研究數據信息。您可以選擇在資源庫中發布實際數據,或者只提供元數據以便於發現🧑🏿✈️。有許多數據倉儲可供使用。它們可能是機構存儲庫、政府存儲庫、商業存儲庫或特定學科存儲庫。在存放您的研究數據之前,請評估數據存儲庫如何滿足您的要求👮🏼♀️。考慮的因素包括SDR的:
a. 可持續性和持續資金
b. 保存政策或計劃
c. 受眾
d. 許可和訪問安排
e. 包含適當的元數據元素,以確保數據的可發現性
f. 對FAIR數據原則的承諾
g. 數據再利用和數據引用政策
2) 數據長期存儲
對於較大的數據集🤵🏽,先進研究計算(ARC)的Data Den Research Archive可與其他服務(如Globus,大學已訂購該服務)相結合,實現對不被主動訪問的數據的長期存檔🤹🏽♂️。
3) 科學數據倉儲(數字數據)
根據您的研究領域和需求,研究人員可以使用數百個數據存儲庫。Re3data 和“開放存取目錄”(Open Access Directory)提供按國家或研究領域劃分的資料庫列表。美國國立衛生研究院(NIH)也有一份由 NIH 支持的特定領域資料庫列表♻️。
4) 科學數據倉儲(實物樣本)
在許多學科中,保存研究數據還包括將實物標本永久存檔👩👩👧👧。大學擁有許多世界一流的設施和博物館,可以幫助研究人員獲取標本或將標本存入館藏🥅。
5) 軟件和代碼共享
若要公開用於生成或分析研究數據的計算代碼和/或軟件🦴8️⃣,應將代碼放在已知的、公眾了解的存儲庫中🚴🏼,如GitHub💢、SourceForge🍭、BitBucket或類似存儲庫。應積極維護這些資源庫🐜,並提供更新、基本使用說明、適當的許可條款和相關版權聲明。在發布開源代碼時,應就最佳實踐、選項👩🏻🦯➡️、方法和指導咨詢大學創新合作部。
1.1.2.4. 出版🪡🩱、許可和數據使用協議
1) 版權
有關版權基礎知識和知識共享許可協議的信息,研究人員可查閱版權指南或直接聯系大學意昂3版權服務團隊。
2) 數據使用協議
轉讓非公開數據或受使用限製的數據可能需要數據使用協議。研究與贊助項目辦公室(ORSP)在eRPM中將其作為無資助協議(UFA)進行管理🏌🏼。如果涉及患者健康信息🙋♀️,臨床與轉化研究數據辦公室(DOCTR)會進行HIPAA審查💇🏻♂️,必要時還會請密歇根醫學院合規辦公室介入🎡。IHPI為密歇根大學社區提供一個可搜索的健康科學數據使用協議數據庫🏀。
3) 出版倉儲
研究人員可以將出版物(在最終出版之前或之後)存放到可公開訪問的資料庫中,以滿足資助者對出版物的公開訪問要求🎲,或者僅僅是為了使學術成果能夠被更廣泛地訪問。
大學提供了一個名為Deep Blue Documents的機構資料庫🛸,用於存放文章🧝🏿♀️、章節、論文、會議演講、媒體以及大學製作的其他作品。研究人員還可以從開放存取目錄(Open Access Directory)中選擇一個學科資料庫🖕🏻。
4) 知識產權
知識產權🦤、技術許可和材料轉讓協議👨🏿🚀,通常還有與企業贊助商簽訂的數據使用協議☝️,都由大學的創新夥伴關系部門負責處理🧑⚕️。
5) 出版商數據政策
在過去幾年中⛓️💥,出版商對公開獲取研究數據的要求發展迅速。例如📍,許多期刊選擇采用部分或全部《透明度與公開性促進(TOP)準則(Transparency and Openness Promotion (TOP) Guidelines)》,該準則要求采用模塊化數據引用和可用性標準。
鑒於形勢瞬息萬變🧝🏻♀️,強烈建議在提交論文之前先確認各期刊的政策🤹♀️👩🏽🎤,即使您最近已在該期刊上發表過論文。
6) 開放獲取出版
許多作者選擇出版免費向任何讀者提供的期刊文章或書籍(即開放存取出版物)。在這種情況下,出版費用通常由作者自己承擔。大學意昂3與許多學術出版商達成了協議(discounts for authors on article processing charges),為作者提供文章處理費折扣🏋🏽♂️,並為人文科學領域的開放存取專著提供高達15,000美元的資助🏒👨🏽🌾。
1.1.3. 數據素養教育
1.1.3.1. 數據收集
1) 社交媒體研究:查找Twitter👨🏼🍳🚀、Facebook等社交媒體數據來源,以及有關研究方法和在學術研究中合乎道德地使用社交媒體數據的資源。
2) 數據源參考指南:在本研究指南中,您可以找到由政府和私營部門製作的各種主題的數據🤏🏼,包括當地社區、其他國家的人口數據、民意調查、刑事司法、監禁和監獄☝️。
3) 信息與意昂3學研究指南:該指南為麻省大學信息學院(UMSI)的學生或任何對信息和意昂3學跨學科領域的研究感興趣的人提供有用的資源🤽🏼。
1.1.3.2. 數據管理
1) DS 101:管理您的數據(DS 101: Managing your data):這個研討會介紹了實際技能和主題👰🏻♀️,從數據收集和存儲到同意協議,再到處理敏感信息和數據的備選方案,幫助製定和編寫數據管理計劃🛀🏿。查閱數據規劃清單是確保涵蓋數據管理各個階段和任務的有用資源。
2) 研究數據:查找、管理、共享(Research Data: Finding, Managing, Sharing):這個指南提供了關於數據管理和監護的所有方面的信息✋🏼🔒,包括查找👾、規劃、組織、記錄、共享和保存研究數據。
3) 管理引文(Managing citations):獲取有關選擇和使用引文管理程序的指導🏌🏿♂️。
4) UM敏感數據IT服務指南(UM Sensitive Data Guide to IT Services):該指南旨在幫助您在收集、處理❤️🚣、存儲或共享大學數據時,就使用哪些IT服務做出明智的安全和合規決策。
1.1.3.3. 工具
1) Tropy是一款免費的開放源碼軟件,可用於組織和描述研究材料的照片。
2) PermaCC是一種用於法律和學術引文的網絡歸檔服務🙎🏼。
3) Open Refine是一款開源桌面應用程序,用於數據清理和轉換為其他格式。
4) TextCleanr是一款開源網絡應用程序,用於在應用程序之間復製和粘貼時修復和清理文本(刪除電子郵件縮進⛹🏼♀️🤲🏿、空格和換行符等)。