拯救人類文明的紀錄(Ⅱ)數碼資訊保存的計劃與實踐

2004-04-15
互聯網資訊以幾何級數急速膨脹。
上期談到:愈來愈多創作文本以數碼格式存在,但因為科技推陳出新,儲存這些檔案的載體和設備 (如磁碟、磁帶、磁碟機等) 的壽命卻不斷縮短。新應用軟件的出現和迅速普及,不但淘汰了從前的軟件,也令已經被妥當儲存的數據和文檔無法被閱讀。

存在於互聯網上的信息,情況也不樂觀。萬維網瀏覽器的標籤功能,雖然可讓我們記錄網上一些精彩文章、圖片、參考數據庫等的網址,但卻沒有人能保證這些信息將永遠存在:資料被更新,網站結束經營等問題,往往令有價值的信息從此消失。至於通過檢索工具 (search engine) 找尋資料,也並非無懈可擊,互聯網上充斥著大量垃圾資訊和缺乏規範的索引,每每令高質素的信息成為滄海遺珠。

「數碼資訊保存」計劃是千頭萬緒的工作,執行上必然會困難重重。我們試就六個關鍵性的問題提供一些分析:

(一) 整體計劃應由甚麼機構發起?

國內外有些「數碼資訊保存」工程是由個別部門、興趣小組或教授利用一次性撥款成立的獨立項目,由於缺乏持續及全面的支持,往往在收錄了一定信息量後便終止,無以為繼。要貫徹保存工作,我們必須把它視作保存整體民族文化和知識的重任、跨行業跨機構的文化工程。最有效的模式是由政府牽頭統籌,再配合政策、資源和法律方面的支持和保障。各相關單位,如圖書館、出版商、檔案館、資訊提供商、大學及專業組織等也應分擔責任。

此外,教育大眾認識「數碼資訊保存」的重要性,鼓勵開辦課程,培育數碼資訊保存的專業人材,政府應是責無旁貸的。

(二) 應該保存甚麼資訊?怎樣作出挑選?

單就互聯網而言,網內信息量巨大,並以幾何級數急速膨脹,即使只選擇保存某一類別或來自某一地區的信息,也是一項艱巨的工作。目前業者普遍採用兩種方案﹕

(1)「全域式蒐集」(whole domain harvest)適用於互聯網內資訊。項目人員利用「網絡資源發掘系統」,定期及自動地把整個網域以及其連結的資訊下載儲存。它的優點是節省分類和篩選所需的人力,但卻無法把重要的資訊從垃圾信息中分辨出來,影響日後處理和搜尋的效率。

(2)「選擇性保存」(selective archive)相對而言為較多項目採用。方法是把數碼資訊分門別類,並制訂詳細選擇指引,按緩急次序蒐集保存。澳洲PANDORA計劃所採用的SCOAP選擇指引,就把與大眾有關的政府出版物、大學的研究成果和刊物、會議論文、電子期刊,及如悉尼奧運會等專題網站,列為優先保存的資訊。當然,選擇過程中牽涉個人主觀判斷,部份資訊流失是難以避免的。兩種方案各有利弊,策劃者須認清計劃的目標,平衡編目人手,系統容量,以及日後用戶搜尋的效率等因素。

(三) 如何徵集藏品?

無論是學術論文、新聞報導,還是音樂創作、活動照片,要從創作者和版權持有人手上取得作品,並進行儲存甚至公開分享,絕非一件容易的事。我們建議不妨以「名」和「利」作吸引。

數碼資訊保存計劃必須擁有很高的社會形像,標榜高素質的藏品,並由政府或具規模的機構牽頭,令公眾認識計劃的文化意義和使命。只要被收錄的藏品與優質創作劃上等號,將不難取得創作者的認同,主動提供內容。當然有關計劃也須要制訂嚴緊的挑選指引,確保被收錄的作品具相當價值。若計劃啟動時能夥拍一些知名的出版商及創作者,貢獻大量作品,則更能提昇它的形像和號召力。

另外,為藏品資料建立數據庫,以規範方式編目,並與國際大型索引服務聯網,將有利於藏品為世界各地用戶認識,提高創作者和出版商的知名度。雖然大部份保存計劃均鼓勵無償共享藏品,但亦可按實際情況考慮收費,如按月或以閱讀次數徵收,為版權擁有者創造一點收入。

(四) 長期保存數碼資訊的策略

科技發展日新月異,但數碼資訊載體的生命週期卻不斷縮短。今天我們把資訊儲存起來,沒多久便可能因為硬件或軟件過時,無法再次閱讀。有些人因此提出回歸原始﹕索性把數碼資訊列印在紙張上,或以微縮膠片保存,但這種做法佔用空間和不利於電腦檢索;也有人建議用最簡單的ASCII源碼儲存,但這樣做卻無法保留資訊的外觀格式;而更為前衛的主張是設立類似電腦博物館的處理中心,保存所有年代的軟硬件,供公眾閱讀從前的內容,但以軟硬件發展的速度和變化看來,這類中心能保存多少設備?要設立多少個中心?都不是容易解決的問題。

為省卻博物館式的投資,如CAMiLEON等項目則致力以仿真技術 (Emulation) 保存資訊的外貌及格式。方法是在新環境下開發軟件,模擬過往的操作系統、內容編寫程式和硬體,從而讀取以前的檔案格式。

現時較多業者採納的方案,是同時進行「格式轉移」(migration) 和「載體更新」(refreshing) :前者是把檔案適時地轉換至新一代的軟件格式,避免因軟件過時而無法閱讀;後者是把檔案定時複寫至最新的硬件載體上,以防硬件讀寫設備因過時被淘汰。當然,要有效執行格式轉移和載體更新,必須準確掌握軟硬件的市場情況和發展趨勢。

(五) 怎樣共享資訊?

藏品是否讓公眾分享?檢索資訊又是否便捷?是評估「數碼資訊保存」工程成效的一項重要指標。利用互聯網共享資訊是大勢所趨,符合公眾期望,已是不爭的事實。但優質的保存計劃,跟坊間的文字和圖片網站有甚麼分別呢?其中一個特點是前者配備極為規範和豐富的詮釋數據(或稱元數據,metadata)。

紀錄數碼資訊藏品的數據庫,必須做到規範化、可容性高、能兼容其他系統等幾個要求,讓系統可為所有同類藏品編目,並與其他系統互換和共享資料。而為藏品編目(即進行人工分類和描述),則有賴規範化的詮釋數據(又稱「數據的數據」,data about data),例如紀錄資訊的來源、標題、作者、創作日期、出版商、版權權限、主題等,極其細緻地記錄藏品的特性。

隨著互聯網商貿蓬勃發展,世界各地不少半官方機構、圖書館聯盟、業界組織等,均已經為多種網上資源編製相當精細的詮釋資料國際標準,如 Dublin Core (Dublin Metadata Core Element Set)、IAFA/WHOIS++ Templates (Internet Anonymous FTP Archive)、LDIF (LDAP Data Interchange format)、SOIF(Summary Object Interchange Format) 及 URCs (Uniform Resource Characteristics/Citations) 等,務求不同應用系統和數據庫能相互兼容共享,有志啟動保存工程者實在無須也不應該重新編製。

(六) 如何保障藏品擁有人的權益?

數碼資訊藏品跟博物館的藏品不同,後者存放在館裡讓公眾欣賞,無損館方或借出者的擁有權;但前者存放在網絡上,公眾在閱讀、收聽或瀏覽的過程中,同時會將藏品轉移到他們的電腦上,拷貝不但完整,系統也不一定能夠確定下載者的身份。保障收藏品提供者的權益,往往是數碼資訊保存計劃中最棘手的題目。若處理不當,令提供者卻步,整個計劃便會告吹。

版權擁有人的權益,與知識傳播必須自由開放的理念,本來就存在著先天性的矛盾。為平衡兩者的需要,密不透風的版權制度通常都會引入為教育和圖書館而設的「合理使用」(Fair use)條款,香港的︽版權條例》就有這樣一個空間。遺憾的是,目前能夠成功實施的就只有「非牟利教育機構影印印刷作品指引」,它的名稱已說明了其局限性。「指引」只適用於為教學需要而複印在印刷媒體上「合理範圍」的文學、戲劇、音樂和藝術作品。至於知識產權署就非牟利教育機構以電子方式複製及分發作品制訂指引的工作,則因為涉及太多版權擁有集團(如出版、音樂、圖像、電影、電視等)和互聯網業務的龐大潛在利益等原因,進展並不理想。筆者認為,縱使版權問題艱巨,也不應該把數碼資訊保存的目標擱置。只要放棄開放全面無償使用,我們還是可以把控制閱讀權限與建立資訊保存數據庫兩項工作清楚分開的。以下是幾個可考慮的方案﹕

(1)藏品可交由「數碼權限管理系統」(Digital Rights Management, DRM)管理,讓版權擁有人設定不同使用者的權限(如只允許已付費者讀取內容)。當然,為藏品加上數碼水印 (watermark),也能收阻嚇抄襲之效。

(2)如版權擁有人抗拒共享內容,也可考慮只收錄描述藏品和藏品現時所在位置(無論是網域地址或任何聯絡辦法)的詮釋數據,而不收錄內容。這仍然能讓公眾知道藏品的存在、它的特性,以及獲取內容的途徑。

(3)倘若版權擁有人仍然有所顧忌,可鼓勵他們或有關行業的商會自行發起數碼資訊保存運動,讓他們自己釐定使用準則。政府則可扮演協調角色,提供顧問服務和技術支援。

周詳計劃共同實踐

數碼資訊保存所牽涉的問題既廣且深,是一項具挑戰又不容易做好的工作。總的來說,一份周詳的計劃、深入了解並鎖定保存的目標、不要把收集的範圍訂得過大,並採取先易後難的政策,是重要的第一步。項目執行者還應進行適當的推廣,儘量取得各方的共識和支持,再配合相關藏品的專家論證、詮釋數據和系統設計等技術工作,成功應是可指望的。

就讓我們一起認定目標,努力為保存屬於本地的文化和創作共同實踐。
相關文章 / Related Articles

ICT Use at Home and Telecommuting Practices in Hong Kong

Louis Leung
Renwen Zhang
2016-07-25

數碼廣播 七年之癢

林永君
2014-11-13

剖析中央禁裝Windows 8

簡錦源
2014-06-17