【網站】2017 年建立資料標準化及資料來源介接機制
理想狀態
被納入TaiBON網站之資料集應依其資料特性,由各「原始資料內容維護者」自行、或由專門團隊輔導其採用特定的資料標準後,發佈至特定的資料開放平台,且此資料開放平台應有專人負責開發維護之應用程式接口 (Application Programming Interface, API)。當TaiBON網站在將資料介接至其指標系統進行指標計算時,可透過資料開放平台所提供的API來取得所需的資料,如此對資料內容的維護才能回歸「原始資料內容維護者」,資訊網之維護團隊則可專注在對資訊系統的更新、領域專家亦可專注在對指標層面的維護。
實際狀態
大部分與TaiBON指標資料相關的「原始資料內容維護者」,或尚未針對其資料的發布開發出相應API,或其選用於發布資料之平台(如各政府部會之官網)不具備此類服務,或仍未選擇以任何開放式的數位平台進行資料的發布與管理,針對各資料來源所進行的API開發實需投注相當程度的人力資源與時間,故前述之理想架構實難於短期內建成。
解決方案
目前可解決的方式是創建並維護 TaiBON 之資料及指標開發的倉儲庫。GitHub 是一個使用分散式版本控制系統 git 的軟體原始碼代管服務網站,暨全球最大規模的開源專案平臺,由 GitHub 公司的開發者Chris Wanstrath、PJ Hyett和 Tom Preston-Werner 開發出來,並提供免費帳戶服務。善用其版本控制、開源專案平台及提供免費帳戶服務的特性,本計畫已開設 TaiBON 團隊,並建立 TaiBON biodiversity indicator 專案為本計畫「資料」層面之維運平台,並透過以下流程及角色分工來達成資料的介接:
- 「原始資料內容維護者」為可確實掌握資料最原始狀態、並有能力及權責持續對其內容進行更新及維護者,如政府各部會、學術研究計畫執行團隊、領域內之非政府團體等,其可任意選擇判斷合適之資料發布平台(仍建議選擇帶有成熟API服務之平台尤佳);以「物種出現紀錄」類型的資料為例,本團隊建議「原始資料內容維護者」選擇 GBIF 為資料發布平台
- 「TaiBON 資料蒐集者」需負責掌握TaiBON「指標」層面之發展,並將所蒐得資料以原始資料形態匯入TaiBON GitHub。若「原始資料內容維護者」於釋出資料時亦有提供相關之詮釋資料,「TaiBON資料蒐集者」也應將這些詮釋資料匯入TaiBON GitHub
- 「TaiBON 資料清理者暨指標試算者」亦需掌握TaiBON「指標」層面之發展,並負責對「TaiBON 資料蒐集者」蒐集而來之資料進行清理,將其處理至可用於指標計算的狀態;理想上,所有經過清理的資料會有一個相應的網址,令任何希望利用此資料之人可透過此網址進行資料介接。為令資料的清理過程是可被追蹤的,此角色應善用如 R 等開源的程式語言撰寫腳本檔(script),力求讓腳本中的清理步驟具有重複利用性,並將這些腳本檔保存在TaiBON GitHub中,達到保存資料清理步驟的目標