時間:2021年06月26日 分類:經濟論文 次數:
摘要利用匯文文獻信息系統抓取了2011-2020年間東北財經大學圖書館用戶借閱數據,該數據包含了用戶信息、借閱信息及圖書信息。通過數據匹配和加密處理,共獲得1464729條記錄。其中對用戶信息ID進行了UUID重新編碼處理,保證了用戶隱私。本次公開的數據集有助于高校圖書館準確掌握近年來文獻資源利用情況、探尋用戶群體借閱行為的變化趨勢、挖掘用戶閱讀興趣;同時有助于為圖書館館藏布局調整、資源與服務的有效推廣及文獻資源精準化服務提供決策支持。
關鍵詞借閱行為借閱記錄數據集東北財經大學
0引言
隨著自動化信息系統及數據庫技術在圖書館的快速普及,圖書館存儲了大量用戶的借閱數據。通過借閱數據、用戶特征及借閱行為影響因素的深入挖掘,已經成為圖書館提升館藏文獻利用率、改進館藏建設質量、創新文獻個性化推薦服務的重要手段。
本數據集通過東北財經大學圖書館文獻信息管理系統采集的近十年圖書館用戶借還記錄,數據完善規范,在高校圖書館擁有一定代表性[1]。本數據集可輔助開展文獻資源利用評估,用戶借閱行為分析,圖書文本信息的智能發現,為用戶提供智能化、精準化的文獻推薦服務和知識服務具有較高的研究和實踐價值。
1數據采集和處理方法
本數據集涉及數據均采集自匯文文獻信息管理系統的后臺Oracle數據庫。用戶信息數據存儲在READER表中,圖書借還數據存儲在LEND_HIST表中,圖書相關信息數據分別存儲在MARC表、INDI_ACCT表及LOCATION表中,其均為結構化數據。
1.1數據采集和匹配
準備一臺安裝SQLServer2005關系型數據庫的服務器專門用于數據采集和數據匹配。為保證借閱數據具有利用價值,本數據集不僅采集了發生借閱行為的用戶信息,而且對借閱文獻的主題、摘要、作者簡介等詳細信息進行了關聯。通過SQLServer導入功能將Oracle數據庫的READER表、READER_TYPE表、LEND_HIST表、MARC表、DOC_TYPE_CODE表及LOCATION_LST表同步到數據采集服務器的SQLServer2005數據庫中。
通過SQL語句關聯READER表和LEND_HIST表,關聯限制條件為READER表CERT_ID字段與LEND_HIST表CERT_ID_F字段關聯;READER表關聯REDR_TYPE_CODE表,關聯限制條件均為REDR_TYPE_CODE字段;LEND_HIST表關聯MARC表,關聯限制條件為LEND_HIST表MARC_REC_NO_F字段與MARC表的MARC_REC_NO字段關聯;LEND_HIST表關聯INDI_ACCT表,關聯限制條件為LEND_HIST表PROP_NO_F字段與INDI_ACCT表的PROP_NO字段關聯;MARC表關聯DOC_TYPE_CODE表,關聯限制條件為均為DOC_TYPE_CODE字段;LEND_HIST表關聯LOCATION_LST表,關聯限制條件為LEND_HIST表LOCATION_F字段LOCATION_LST表的LOCATION字段。
由于文獻信息中關聯了主題、文摘(摘要)、作者簡介等信息,上述三部分內容存儲在MARC表的同一字段中,不便于區分。因此在實際數據采集中,我們利用匯文文獻自動化的系統管理模塊中MARC字段導出功能,將606、330、314字段的相關含有主題、文摘及作者介紹等數據導出到文本文件中,再將文本數據導入至SQLServer數據庫中,最后進行用戶信息表、借閱記錄信息表及文獻信息表的關聯匹配,一共匯總到1464729條記錄。
1.2數據清洗
借閱用戶的信息采集了學生用戶的學號及教工用戶的職工號,用戶的學號及職工號信息屬于學校師生個人敏感數據,為了避免隱私數據泄露,對數據進行了脫敏處理。首先給每條用戶記錄增加UUID編碼,實際上就是用UUID來代替用戶ID,保證ID的唯一性。UUID是通用唯一識別碼(UniversallyUniqueIdentifier)的縮寫[2],在任何一臺計算機或服務器上生成的數字,在所有空間和時間上被視為唯一的。對用戶記錄ID重新編碼后,可以直接抹去用戶ID,再用UUID與密鑰拼接進行MD5加密,可完全保證使用者安全利用數據。
匯文系統中的用戶性別是來源于學校一卡通中心同步數據,但大部分性別不準確。為盡可能保證性別的準確性,利用用戶信息的身份證ID字段,來修正用戶的性別信息,修正完成后抹去身份證字段。但早期注冊用戶缺失身份證ID信息或性別數據的,SEX字段統一置為NULL值。為了區分用戶的年齡段,根據身份證ID信息提取用戶的出生年信息存入BIRTHYEAR字段。但有個別用戶的身份證在原始數據錄入時錯誤或存入了非身份證信息(軍官證號、護照號、考號等),都會導致提取的值存在異常,例如出現“1016”、“1086”、“2886”及“2(3)”等異常值。
通過與原始數據進行比對,將明顯錯誤的BIRTHYEWAR字段進行了修正,但對于無法獲取用戶身份證信息的BIRTHYEAR字段賦予NULL值。年級組字段(CODE01)在數據同步時,不同年份學校一卡通中心提供的字段值有所區別,因此年級組字段根據用戶注冊年份來修正。出版年字段中含有字母和其他非數字字符的,需要將字母和非數字字符清洗掉,只保留年份。單位字段(DEPT)和專業字段(OCCUPATION)中含有括弧、空格及其他特殊字符也需要清洗。另外,對于單位或專業的文字表述,有的年份是全稱,有的年份是簡稱,需要盡可能對同一單位或專業的數據進行名稱統一化處理。用戶字段數據均來源一卡通同步數據,存在部分字段為空值的記錄。
借閱歷史表中財產號字段(PROP_NO_F),可以唯一識別借閱數據中每冊文獻。為了隱去原有系統的財產號信息,我們仍然采用UUID編碼的方法生成每冊文獻的唯一記錄號信息。數據處理中首先對文獻財產表(INDI_ACCT)的每冊圖書信息進行編碼存入BOOK_ID字段,再將BOOK_ID字段關聯到圖書借閱信息表中。
從匯文系統管理模塊導出的借閱文獻主題詞存儲在了不同的字段,為了方便數據使用,我們將每個主題詞之間用分號隔開,對主題詞中含有“①”、“-”及空格等特殊字符進行了清洗,并合并到一個字段(SUB)。對于匯文系統沒有主題描述的,均賦予空值。以上數據清洗的過程在SQLServer2005數據庫查詢編輯器中完成,部分清洗語句如下:生成UUID編碼語句(去掉字符中的“-”):select*,replace(newId(),'-','')asUUIDinto用戶表1from原始用戶表;年級組字段修正語句:update用戶表1setCODE01=substring(REDR_REG_DAY,1,4);MD5加密語句(去掉字符中的”0x”):select*,replace(sys.fn_sqlvarbasetostr(HashBytes('MD5','拼接字符串1'+UUID+'拼接字符串2')),'0x','')USERIDinto清洗完成用戶表from用戶表1;性別字段修正語句:SelectUSERID,DEPT,OCCUPATION,REDR_REG_DAY,CODE01,REDR_TYPE_CODE,casewhenlen(ID_CARD)=15andcast(substring(ID_CARD,15,1)asint)%2=0then'女'whenlen(ID_CARD)=15andcast(substring(ID_CARD,15,1)asint)%2=1then'男'whenlen(ID_CARD)=18andcast(substring(ID_CARD,17,1)asint)%2=0then'女'whenlen(ID_CARD)=18andcast(substring(ID_CARD,17,1)asint)%2=1then'男'whenlen(ID_CARD)=17andcast(substring(ID_CARD,17,1)asint)%2=0then'女'whenlen(ID_CARD)=17andcast(substring(ID_CARD,17,1)asint)%2=1then'男'elseNULLendasSEXinto用戶表2FROM用戶表1;出版年字段修正語句UPDATE文獻信息表SETPUB_YEAR=replace(replace(PUB_YEAR,'c',''),'.','')wherePUB_YEARlike'c%';主題詞特殊字符處理和合并語句:update借閱歷史表setSUB=ISNULL(SUB1+';','')+ISNULL(SUB2+';','')+ISNULL(SUB3+';','');update借閱歷史表SETSUB=LEFT(SUB,len(SUB)-1)whereLEN(SUB)>0;
2數據字典、數據樣本和數據量
數據集包含用戶信息、借閱信息及文獻信息三大部分。
3數據質量控制
本數據集涉及所有數據均由匯文系統后臺Oracle數據庫和系統管理模塊采集。為了保證數據質量,通過匯文流通模塊的流通日志和統計模塊對近十年的用戶借閱記錄進行了核實,流通借閱日志和統計模塊的借閱統計數據均與從后臺提取的借閱記錄條數一致,確保了數據采集準確無遺漏。另外選取多個用戶(不同用戶類型),從流通管理模塊用戶個人借閱歷史記錄查詢,并與本數據集比對,數據信息內容均一致[1]。最后通過匯文統計模塊的書刊信息查詢功能,對本數據集的借閱文獻的摘要、主題詞、作者介紹等信息進了抽查核對,所采集信息均與MARC詳細信息借閱文獻信息一致,確保了數據真實可靠。
4數據價值
本數據集包含2011-2020年間東北財經大學圖書館用戶在利用圖書館文獻過程中產生的借閱行為數據,數據字段較為豐富(22個),對高校圖書館用戶的文獻利用評估、用戶借閱行為分析和用戶需求預測等具有重要意義。近十年用戶借閱數據是對圖書館館藏進行評價的數據基礎,通過對這些數據的分析,不僅可全面評估現有館藏結構及文獻保障水平[3],而且可從借閱時間變化趨勢、不同用戶類型借閱特征、熱門借閱文獻、借閱文獻主題詞熱度等多維度出發,為高校圖書館文獻資源建設創新服務、用戶多元化服務、個性化推薦服務等提供科學的決策依據。
5數據使用方法和建議
本數據集可采用Tableau、Excel、SPSS、Python語言及關系型數據庫等軟件工具進行統計分析[1]。例如,針對年度熱門借閱文獻的特點進行可視化分析;根據近十年年度借閱量統計數據分析用戶文獻借閱量的變化趨勢;根據用戶的年齡、性別、單位、專業等屬性來分析不同用戶的借閱特征和借閱頻率差異;通過時間序列分析借閱文獻主題詞詞熱度在一年中的變化趨勢。
圖書館論文范例:圖書館閱讀推廣的問題表現與優化對策
根據近十年的用戶借閱記錄進行統計性描述分析,選擇目標用戶群體和某大類圖書作為研究對象,對圖書的摘要簡介和主題詞進行分析,借助相關模型進行主題挖掘,將主題化后的特征與用戶的借閱行為特征進行融合分析,探索用戶的借閱關系,興趣變化趨勢,設計特征融合的推薦模型,為用戶提供更友好、更準確的圖書推薦和導引,提高文獻服務的效率[4];可引入深度學習相關算法,將近十年歷史數據形成用戶借閱行為的共現矩陣,研究滿足用戶多樣化需求的推薦模型[5];還可結合用戶的社交媒體行為、科研行為、校內學習行為等圖書館外部數據進行融合分析,盡可能全面和精確地構建用戶畫像,滿足深入研究圖書館用戶借閱行為的需求,提高數據的使用價值[6]。
5.1數據引用格式
李榮,廖映紅,李雙.東北財經大學圖書館用戶借閱記錄數據集[DB/OL].[日期].hdl:20.500.12304/10566.V1[Version]
5.2論文引用格式李榮,廖映紅,李雙.東北財經大學圖書館用戶借閱記錄數據集[J/OL].圖書館雜志,2020
參考文獻
[1]肖錚,吳至藝,林俊偉.2007-2017年廈門大學圖書館紙質文獻借閱記錄數據集[J].圖書館雜志,2020,39(6):113-117.
[2]百度百科.UUID[EB/OL].[2020-11-30].https://baike.baidu.com/item/UUID/5921266?fr=aladdin.
[3]李榮,王慶石,李雙,等.基于讀者行為大數據的圖書館精準服務與管理創新研究——以東北財經大學圖書館為例[J].圖書館研究,2018,48(3):19-23.
[4]施國良,張瀟瀟,楊小莉.高校讀者群體差異對其借閱行為和閱讀偏好的影響研究[J].圖書館,2020(4):59-64;78.
作者:李榮廖映紅李雙