時間:2022-06-28 06:21:19
序論:寫作是一種深度的自我表達。它要求我們深入探索自己的思想和情感,挖掘那些隱藏在內心深處的真相,好投稿為您帶來了一篇新技術下地質文獻資料工作分析范文,愿它們成為您寫作過程中的靈感催化劑,助力您的創作。
本文將綜合探討全國地質資料館地質文獻資料的開發利用情況及服務模式,從國外地質文獻資料服務現狀、全國館地質文獻資料服務存在的問題及文獻領域新技術應用幾個層面進行分析與研究,以期對整個行業內的文獻服務起到一定的參考與指導作用。當今在互聯網、大數據、人工智能等技術的迅猛發展和帶動作用下,國內外科技期刊出版領域在生產方式、傳播方法、內容服務模式等方面都發生了巨大變化[1]。地質文獻資料作為全國地質資料館館藏數據資源的重要組成部分,是科技情報工作的基礎,而海量文獻數據資源如何向用戶提供服務是數據管理者面臨的一項重要工作任務。全國地質資料館是中國最大最權威的地質資料館藏機構,近幾年來,全國館每年新進館5000余檔、約30萬件地質資料[2-3],年度增長數據量超過40TB。其中,館藏機構中的地質調查成果報告承載的信息量占絕對優勢,每年接收的地質調查成果資料涉及專業涵蓋地質、煤炭、冶金、有色、化工、建材、石油、核工業、環境等,且資料中的文件類別多樣化,包括附圖、附表、附件、多媒體、數據庫、軟件、正文報告等。地質調查成果資料大多是基礎性的野外或實地調查工作,主體內容是對地球信息的客觀記錄,不僅可以為地球的科學研究及找礦勘查工作提供第一手資料,還可以服務于經濟、社會、政治、環境等各方面,如鐵路、公路、水庫、壩基、電廠等重大基礎設施工程建設中,都需查明工程地質、水文地質、環境地質、地質災害以及區域地質工作、礦產資源分布等情況,而地質資料為以上工程建設提供了重要依據[4]。因此,地質調查成果資料是影響面極寬、開發利用潛力極大的文獻數據資源。
1國外地質文獻資料服務現狀
1.1美國地質調查局
美國地質調查局(USGS)建立了科技報告文獻數據庫(publicationwarehouse),涵蓋USGS科學家過去100多年中撰寫的超過150000種出版物文本,包括為公眾撰寫的科普產品、期刊文章、系列報告、書籍章節等,并按著作年份(1855~2019年)、學科(水文、地質災害、生物生態系統、礦產、地質、環境與健康等)以及產品類型(基礎地質報告、期刊論文、圖書、會議論文、數據庫、學位論文、小冊子、講座等)構建成不同類別的出版物系列產品,方便用戶檢索與查詢,且很大一部分提供免費下載服務,并在不斷地更新中,時效性較強,能夠將最新的地質調查和科研成果及時向社會開放共享。同時,多種系列出版物產品表明USGS對文獻進行了有效的匯總、分類、篩選等處理工作,從而有利于用戶在不同文獻庫中查詢所需的資料。USGS的每一篇報告或論文的在線表達方式豐富,不僅包括基本的元數據信息,如標題、作者、關鍵詞、摘要、正文目錄等,還在標題、作者及報告的重要位置鏈接有DOI(數字對象唯一標識符)、作者ID(ORCiD,作者身份唯一識別符,可以獲取作者的身份信息、聯系方式及出版成果信息等詳細資料)及其他輔助關聯信息,在每一篇報告鏈接網頁最下部還有元數據信息表,幫助用戶掌握所需報告的其他詳細信息。
1.2英國地質調查局
英國地質調查局(BritishGeologicalSurvey,BGS)出版物數據產品包括從1832年到現在的大部分已發表作品,還包括回憶錄和報告。出版物中包括的產品有出版物查看器、Earthwise數字出版、地圖門戶、圖書館目錄、NERC開放研究檔案(NORA)等。出版物查看器中的資源包括自1835年到現在的出版物,可以免費查看正式的BGS印刷出版物和最近的研究報告/開放報告出版物系列。出版物劃分系列非常精細,約有170個系列產品,如年報系列、公報系列、地質報告系列、回憶錄系列、專題報告系列以及非系列出版物等。BGS提供大量開放成果地質資料的免費下載服務(包括NERC開放研究檔案)及網上商店中所有資料印刷版本的購買服務等。每一篇報告的線上表達方式結構化較強,網頁上有部分版塊展示了出版物的作者信息、元數據信息和摘要信息等,部分版塊公開了出版物的在線下載、引用以及在其他文獻或社交網絡平臺分享傳播情況的統計數據等。Earthwise是BGS的數字出版頻道,其目標是傳播BGS的研究成果,促進地質界更廣泛地進行自由交換信息,具體表現:在出版物、地圖、模型和數據之間建立更強大的語義和空間聯系;靈活應對利益相關者的各種需求,新的文化趨勢和出版領域的新技術;鼓勵更多社區反饋和對BGS出版物的貢獻;允許輕松詳細、豐富的Web內容;為協助項目提供平臺;提供免費服務以共享信息。通過分析研究,Earthwise采用了文獻結構化處理技術,將每一篇報告或論文進行碎片化處理,按類別或主題、子類別進行分組(如分成前言、摘要、簡介、方法、結果、討論、結論、附錄1~5等12個子類別),其中包含構成主題的各個頁面的列表。在每個類別頁面上,用戶可以選擇閱讀頁面、評論頁面或撰寫自己的文字。BGS在地球科學數字出版領域走在世界前端,Earthwise通過利用數字出版技術傳播高質量BGS科學并與更多的地球科學家合作,促進地球科學信息交流,同時滿足不同層次用戶對知識資源的不同需求。
1.3加拿大地質調查局
加拿大地質調查局(TheGeologicalSurveyofCanada,GSC)設計了“出版物和報告(publicationsandreports)”網站欄目,提供廣泛的地球科學類出版物和報告,且進行了分類,劃分為幾個大的專題出版物數據庫,如加拿大自然資源、地球科學、能源、森林、礦物、金屬和采礦。其中地球科學專題數據庫為GEOSCAN數據庫,包含加拿大地質調查局、加拿大遙感中心以及部門科學家和專家撰寫的外部出版物的書目數據庫,涵蓋內容豐富,既包括大型會議報告的信息免費下載服務,又包括大量基礎調查報告、科學論文等出版物的免費下載服務。通過分析研究GEOSCAN數據庫中的論文和報告,每一篇論文和報告都具有豐富的元數據信息,如作者、標題、完成時間、DOI、出版物系列、出版者、語言、媒介、文件格式、區域、位置、經緯度坐標、主題標簽、插圖信息、項目、摘要、簡介、時間、GEOSCAN唯一標識符等近20項數據,使用戶獲取文獻資源的更多詳細信息,豐富的元數據信息可以幫助用戶快速發現文獻的價值。此外,與紙質書籍和純粹PDF文件對比,GEOSCAN數據庫中每一篇文獻的表達方式形式多樣,可以瀏覽和下載各種電子格式的文件,如JPG、PDF、DOC、XML、HTML、XLS、RTF、KML地理信息文件等,使用戶獲取更多增值知識服務。
1.4澳大利亞地球科學局
澳大利亞地球科學局(GeoscienceAustralia,GA)通過數據和出版物(dataandpublicationssearch)搜索服務平臺自1951年至今的31373件產品,且在不斷更新。產品類型主要包括應用程序、收集工具、數據庫、文檔、模型、非地理數據庫、軟件等,文件格式達10幾種,如DAT、ECW、GeoPDF、HTML、PDF、TIF、NETCDF、KML、JPG、NETCDF、SHP、MISC、WCS、WMS、ZIPPEDERS等。數據和出版物中的產品按照產品類型、時間、文件類型、更新頻率、狀態、服務類型、比例尺等進行了有效分類,將數據資源進行詳細分類可以使用戶縮小搜索范圍,快速獲取自己所需的數據資源。每一個數據產品幾乎都有簡介、摘要、主題標簽、元數據等信息,提供多個文件格式的下載服務,且與多個社交平臺關聯,可以向其他網絡平臺進行資源共享。GA維護著許多在線工具,用以促進數據的發現和傳遞。此外,GA與美國地球科學研究所合作,建立了AusGeoRef文獻數據庫,數據庫每周進行更新,提供的參考文獻來自期刊論文、會議論文、摘要、書籍、報告和地圖等。AusGeoRef提供出版物的全文搜索,用戶不僅可以搜索文獻的元數據信息(如標題、作者、注釋等),還可以搜索數據庫中出版物的整個文本,以便查找所需信息,并與具有地理坐標等信息的出版物進行交互式地理搜索。AusGeoRef還提供了廣泛的用戶功能,如可以導出引文,創建用戶賬戶以保存查詢、引用和創建策劃列表,向數據庫中添加注釋、自定義標記等。AusGeoRef的建立旨在面臨地球科學和社會交叉的問題時幫助決策者提高地質調查出版物的可發現性和使用率。這幾個國家在文獻資料服務方面均展現出多元、開放、合作的特點,主要體現在:①開放程度高,大量數據可下載使用;②數據服務產品多元化,包含基礎地圖、地形圖、交互式地圖、3D模型、報告、文檔等;③數據格式多樣,如GeoPDF、XML、WMS等;④鏈接作者ID,提供作者相關信息及其他詳細成果資料,幫助用戶獲取大量信息,且方便用戶及時與作者進行溝通;⑤數據庫定期更新,及時向社會提供服務;⑥利用數據庫、主題標引等技術用以增強數據資源的可發現性;⑦與其他國家研究機構相互合作,協同整合、開放和共享大量數據資源。但是,相比現在的大數據、語義網與關聯數據、云計算、人工智能等計算機技術的快速發展,國外地質調查機構對于地質調查成果資料的開發和利用還有很大的升級空間。
2我國地質文獻資料發展存在的問題
2.1館藏文獻量大,開放程度較低
全國地質資料館是中國館藏地質資料數量最多、內容最全的國家級館藏機構,收藏有我國自19世紀末以來形成的各類地質資料,以區域地質調查資料、礦產勘查資料、水工環調查資料、物化遙勘查資料、地質科學研究資料為主[5]。近幾年來,館藏數據總量更是呈“井噴式”增長,每3年實現一次翻番,有效電子文件數近3億。然而,國內的地質調查文獻資源由于受限于涉密等因素[6],服務的開放程度遠遠不夠,這與2018年4月2日國務院的《科學數據管理辦法》[7]中“開放為常態,不開放為例外”的原則不相符。
2.2文獻服務方式單一
文獻資源作為館藏地質資料的重要組成部分,目前服務方式主要以到館借閱服務為主[5,8],還提供電子目錄查詢、部分文獻資源線上閱覽和全文下載服務,但總體服務方式單一、保守,與當今信息技術發展嚴重脫節,一方面導致用戶獲取信息量冗余,增加其閱讀量,嚴重制約了用戶的工作效率;另一方面也導致不能對館藏中的海量文獻資源進行充分的挖掘和利用,大大降低了文獻資源的使用效能。
2.3文獻信息資源流轉周期長
由于思維慣性和組織管理問題,目前地質資料工作還習慣性保留著以紙介質為主的工作模式和思維方式,地質資料在館藏機構流轉時滯大大超過法定的90天,甚至有的地質資料成為“死檔”,嚴重制約了地質資料的社會化服務率和在線服務率。此外,地質調查文獻資源中蘊含的信息繁多,涉及知識面廣泛,包括基礎地質情況、礦產資源信息、物化探調查結果等,數據類型多樣,如正文、圖、表格、公式、參考文獻標注等,傳統的傳播方式主要以靜態的紙質資料或單一PDF文件為主,造成用戶面對的是大量的、無序的地質信息,不能快速從文獻中獲取所需的資料,查找資料經常用去整個工作周期的一半時間,大大降低了知識的利用效率。
2.4文獻信息資源加工程度低
館藏文獻承載著不同歷史時期地質工作者的智慧和經驗。隨著中國地質調查事業的變革和發展,不僅館藏文獻資源量逐年增長,地質資料文件結構也變得更加復雜,構成一個多維度形式的信息復合體,包括相互關聯的報告、文獻、表格、矢量數據、圖形等[9]。傳統的文獻目錄、索引、文摘等檢索形式已不能滿足當前時代背景下用戶對知識資源的需求。近年來,隨著計算機、數據庫、文字識別等信息技術的廣泛應用,大量文獻被轉換為文本文件和數據庫等電子資源,隨著數字文獻的大量積累,如何對文獻資源進行有效的分類、組織和檢索,成為具有挑戰性的問題。目前通過人工方式對文獻進行著錄和主題(標題、關鍵詞)標引,以提升文獻檢索的效率,但還不夠完善,不能檢索到全部的相關文獻資源,而且手工的主題標引是一項費時費力的工作,單憑手動已經難以跟上文獻的更新速度。
3文獻領域新技術應用
地質文獻資源資源量巨大和文件結構復雜,如何從浩如煙海的復雜文獻資源中發現有用和有意義的知識,成為地質工作者的迫切需求,也是地質資料工作者關注的熱點問題。以網絡化、數字化、人工智能化為代表的新技術為地質資料工作提供了良好的機會。
3.1文獻內容結構化
知識服務已成為當今知識經濟時代的必然需求。由前文可知,很多文獻至今還只向用戶提供靜態的PDF版本文檔,極大影響了文章的再次使用。目前,數字出版領域科技論文的主流格式是HTML(超文本標記語言)格式[10],此格式的文檔可實現文獻的結構化、碎片化閱讀,如用戶可以根據自己的需求選擇感興趣的部分進行閱讀;結構化的文獻具有高效的知識組織能力以及良好的擴展性,一方面可以實現全文查詢和檢索,另一方面可以與文獻關聯,上傳附件材料(supplementalmaterial),附件材料可以是矢量數據,如短視頻、MapGIS、數據表格、矢量PDF等[10]。此外,結構化的文獻是實現文獻內容標引、語義關聯等應用的前提。
3.2文獻內容標引
隨著用戶對知識元層次數據資源的需求,文獻標題、作者、摘要等基本信息的著錄表示已經無法滿足用戶需求。為了表示不同領域和不同類型的知識,同時適應不同層次和不同需求的用戶,在知識服務過程中就需要提供不同層次和不同顆粒度的知識[11]。如借助中圖分類法和敘詞表的學科分類和主題標引將文獻資源通過詞語、句子、段落以及文獻等不同層次依次進行規范化表示,實現文獻深層次的內容標引。例如,在現有的地質資料著錄規范中,案卷級資料經常包括不同類型的文件級資料,每一個文件對應不同大小的知識,且分別包括文件標題、名稱、分類號、作者、單位、摘要等信息,但用戶在應用過程中可能需要粒度更小的知識表示,這時可以進行知識元層次內容的著錄和標引,如對區域地質調查報告中地層章節的奧陶系進行標引:知識編號為0001,知識大類為地層,知識小類為奧陶系,知識類型為文本,知識級別為4等。
3.3語義關聯技術
除了利用文獻著錄和標引表示來進行知識粒度化外,還有大量的知識需要通過知識表示規范進行知識粒度化[11]。例如,對于“華北奧陶系”體現的知識粒度較大,如果想要了解華北地區奧陶系的詳細信息,就需要細化華北奧陶系在地質演化史的地位、分布區域、巖性、古生物化石、發育礦產等。對于這些問題的回答就需要借助于語義關聯來表示,首先對文獻中的關鍵數據進行語義標注,有步驟、有目標地開展文獻挖掘工作,建立多元、多維的數據表達形式,將有價值的信息全方位地展現出來,使用戶信息檢索和分析整理資料的過程變得程序化、網絡化、智能化,幫助用戶快速檢索到所需的信息資源,同時可獲取其他相關文獻資源,大大提高用戶獲取知識的效率。針對文本中蘊含的語義信息建立索引,建立文本之間的語義關聯,利用機器自動推理技術,實現同義詞檢索、關聯檢索等高級檢索功能,通過一個檢索詞就能將所有相關的文獻資源都顯示出來,無需多次重復檢索,同時可以按照下載率、引用率、完成時間等方式排序,加快檢索速度的同時,為用戶提供更多資源的可選性。此外,通過關聯技術對網站中不同文獻資源之間進行鏈接,能夠將館藏“死檔”資料變“活”,增加其線上曝光率,充分發揮地質資料的利用價值,進而提高館藏機構的社會化服務效能。目前新技術已經廣泛應用于科技期刊出版領域,滲透到數據資源的采集、概念識別、組織和利用等各個環節[12-13],如將數據資源內容進行加工處理,實現結構化轉變;對數據資源進行語義標注,提取內容中的專業術語、技術方法、圖、表、研究結果等;借助語義技術將數據資源在深層次上實現語義和概念層面的互聯;使用語義出版技術實現用戶之間的交流、尋求交流對象、建立合作關系等。新技術不僅可以改進用戶獲取文獻資源的體驗方式,還能夠在數字化基礎上進一步提升用戶利用地質文獻資料的功能和效率。
4結語
當今在互聯網、大數據、人工智能等技術的迅猛發展和帶動下,國內外科技期刊出版領域在生產方式、傳播方法、內容服務模式等方面都發生了巨大變化。全國地質資料館作為政府部門、企業、科研機構及高等院校等的數據資源提供者,更需要緊跟時代的發展,不斷加快數據資源整合、傳播與服務進程。館藏機構以信息技術為依托,加強文獻數據資源的增值服務,構建智能化的數據服務模式,是促進知識發現與創新、滿足用戶需求、提升服務效能的關鍵。綜合利用數字出版技術將復雜的館藏文獻資源進行數據化、碎片化、結構化,能夠系統完整地反映地質調查成果概貌,拓展地質資料服務價值鏈,提高館藏資料的創新服務水平,還可以幫助用戶快速獲取目標知識服務,充分提高用戶的工作效率。因此,利用新技術重新構建地質文獻資料的服務模式,實現資源共享更加多元化的表達方式變得極為必要。
作者:孟潔 賈麗瓊 李曉蕾 吳軒 李晨陽 單位:中國地質調查局發展研究中心;中國地質大學;全國地質資料館