時間:2019年09月25日 分類:文學論文 次數:
內容摘要:問卷調查一般通過開放文本題采集職業信息。這種題型雖能提供豐富信息,但數據管理復雜,需要將原始數據進行編碼。傳統的人工編碼法耗時耗力。本文首次嘗試將機器學習中兩個常見分類器“樸素貝葉斯”和“支持向量機”運用在中文職業文本編碼上。結果顯示,它們在職業大類編碼上的表現令人滿意,但在職業細類上性能不足,而且在不同職業類別間性能差異很大,其中“農林牧漁水利業生產人員”和“不便分類的其他人員”的分類效果較好。
關鍵詞:職業編碼;問卷調查;機器學習;樸素貝葉斯;支持向量機
一、引言和文獻綜述
大型社會調查經常通過兩種模式來獲取職業相關信息。一種是封閉題型設計,讓受訪者直接選擇單位類型、行業和職位信息,使用這種設計的國內大型調查有北京師范大學的“中國家戶收入調查”(ChineseHouseholdIncomeProject,CHIP)和西南財經大學的“中國家庭金融調查”(ChinaHouseholdFinanceSurvey,CHFS)。
另一種是文本開放題型,通過一系列的開放型問題進行文本信息獲取,譬如詢問受訪者的工作單位名稱、職位名稱、工作的具體內容等。一般認為封閉題型在職業信息的采集上雖然操作便利,但由于很多受訪者對自己職業內容的分類缺乏了解,數據質量可能不高,而且封閉型的職業數據只能提供職業大類信息。
開放型問題所采集的數據能夠提供更為細致的職業分類,因此不少大型調查采用開放題來采集職業和行業信息。使用這種設計的國內大型調查有北京大學的“中國家庭追蹤調查”(ChinaFamilyPanelStudies,CFPS)和“中國養老與健康追蹤調查”(ChinaHealthandRetirementLongitudinalStudy,CHARLS),中國人民大學的“中國綜合社會調查”(ChinaGeneralSocialSurvey,CGSS)以及中山大學的“中國勞動力動態調查”(ChinaLabor-forceDynamicsSurvey,CLDS)。
除此之外,中國的人口普查中所采集的職業相關信息也是利用開放題的方式獲取的。在國際上,很多國家的大型住戶調查以及普查也使用開放文本題獲取職業信息,這些國際調查包括德國社會調查、英國人口普查以及美國社區調查等。與選擇題相比,開放文本題能夠采集更為豐富的信息[1],但它同時也有兩個突出的局限性。
一是開放文本的采集方式可能更容易造成采集數據的不完整性[2]。如果受訪對象職業信息中關鍵部分缺失,后期可能無法通過記錄的信息進行準確編碼。這種現象通常是由于訪員在訪問過程中沒有對不完整信息進一步追問造成的。訪員會發生這種情況既有可能是因為訪問時不夠仔細,也有可能是因為他們無法準確判斷受訪對象所提供的信息是否已經足夠。
二是針對開放文本的數據處理過程比常規的選擇題更為復雜[3]。問卷調查中開放型文本的編碼工作在國內一般采用全人工方式[4]。人工編碼的流程主要包括以下步驟。首先,數據管理者或研究人員針對特定的采集內容制定或選擇編碼規則,譬如職業信息需要職業編碼規則,疾病信息需要疾病編碼規則。
然后,項目招募編碼員進行培訓,培訓合格后的編碼員開始對文本信息進行編碼。由于文本信息的多樣化,人工編碼的一致性可能不高。為降低特定編碼員對最終結果的影響,提高編碼信息的準確度,一般數據管理者會采用“雙向獨立驗證并判定”的工作模式。
它的具體方法是在第一階段對每條文本信息由兩位編碼員進行獨立編碼,如果兩位獨立編碼員的編碼結果一致則直接通過,結果不一致時需要引入第三位經驗較為豐富的編碼員,如果該編碼員的結果與之前任意一位一致則確定該編碼為最終編碼,當三人結果均不相同時由編碼管理員(一般為資深編碼員)審核并決定后續處理方法。
“雙向獨立驗證并判定”工作模式的優點是編碼結果質量較高,但它也有很大的缺陷,即這套流程成本高昂。僅以“中國家庭追蹤調查”2016年成人庫中的主要工作職業編碼為例,2016年全國調查中有16840條樣本有主要工作職業信息,雙向獨立編碼則要求進行至少33680次編碼。第一輪比對后發現雙編碼一致的比例為60%,再經過第二輪編碼之后解決了總樣本的19%,還剩下21%三輪編碼都不一致,需要編碼管理員的介入。
這也意味著僅主要工作的職業編碼一項任務,需要進行近45000次的人工編碼。而人口普查樣本量比一般的問卷調查大得多,文本編碼工作量更多。近年來,來自多國的學者都在嘗試將機器學習應用到調查數據的文本編碼中,但主要針對英文文本[5]。
機器學習在文本編碼上的應用一般包括如下基本步驟:(1)將原始的文本拆分成詞條信息,并去除無實質意義的語氣詞和連接詞等(在文本挖掘中被稱為停用詞stopwords);(2)利用已經完成的編碼及其相應的文本當作訓練數據集;(3)根據訓練數據集確定分類規則(也稱為分類器),也即將原始文本與最終編碼對應的潛在規則;(4)根據確定的分類器對新的文本分配編碼[6]。研究者們普遍發現機器學習在大型問卷調查的編碼工作中應用前景廣闊,但在性能方面仍需改善[7]。機器學習在中文職業文本編碼中的應用還鮮有學者探索,由于中文文本的預處理與包含空格分割符的英文文本結構存在一些根本的區別,針對中文文本的職業編碼也許更具有挑戰性。本文的目標就是探索兩種常見的機器學習方法在中文大型問卷調查職業文本編碼中的基本性能。
二、數據來源與研究方法
(一)數據來源
本文數據來自具有全國代表性“中國家庭追蹤調查”(CFPS)2010年、2012年、2014年、2016年的數據[8],不僅有這4輪調查已經公開發布的包含最終職業編碼的數據,還有職業文本的原始信息。這些原始文本和人工編碼結果將作為本文進行有監督的機器學習中的數據資料,總數據的條目為164610。
(二)編碼系統
CFPS的編碼規則與“中國綜合社會調查”類似,基于國標GB/T6565-1999進行了適度改編。這一編碼規則將所有職業分成8大類,595個小類。8大類分別為“各級負責人”“專業人員和技術人員”“辦事人員和相關人員”“服務人員”“農林牧漁水利業生產人員”“生產、運輸設備操作人員”“軍人”“無職業者”。
在每一個職業大類下,還設有多個職業小類。譬如“農林牧漁水利業生產人員”這一大類就包括“種植業生產人員”“林業生產及野生動植物保護人員”“畜牧業生產人員”“漁業生產人員”“水利設施管理養護人員”和“其他農、林、牧、漁、水利業生產人員”這幾個職業中類下面的30個職業細類。職業編碼的目標就是將原始的職業文本轉換成這些職業編碼。
雖然標準職業編碼中只包含有8個職業大類,但在實際的編碼操作過程中,添加了第9類“不便分類的其他人員”,用來囊括那些信息不完整無法分類或是新興職業中未能被舊的職業編碼體系涵蓋到的類型。譬如,訪員如果將受訪對象的職業文本記錄為“在外打工”,由于缺乏足夠的信息,編碼員就只能將其歸類為“不便分類的其他人員”。
(三)基于機器學習的分類器
可以用于文本分類的方法較多,本研究選擇其中最常見的兩種分類器“樸素貝葉斯”和“支持向量機”。樸素貝葉斯是以貝葉斯理論為基礎,利用先驗概率與條件概率進行分類。貝葉斯算法是在概率框架下實施決策的基本方法,在相關概率已知的理想狀態下,利用先驗概率和條件概率來估計后驗概率,從而預測出文本信息出現在每個類別中的可能性大小。
樸素貝葉斯算法假設各個特征之間是相互獨立的,這樣極大簡化了條件概率的計算,根據在訓練集中出現的情況來計算文本屬于某個類別的概率。文本屬于某個類別的概率等于文本中每個特征屬于該類別概率的綜合表達式。
(四)分析方法
本文使用的主要分析軟件是開源軟件Python3,需要用到Python3的第三方庫Scikit-learn。文本編碼的第一階段工作就是原始文本信息的預處理。文本的預處理是機器學習的基礎,預處理的質量對分類效果起到關鍵作用。首先本文將利用現有的中文分詞工具,在Python3里實現分詞以及詞性標注,采用分詞顆粒盡量小的方式,并簡單去噪聲。
當初始的分詞完成之后,每個詞條所帶的信息量有所不同。對于那些對最終分類幾乎沒有影響的分詞(停用詞),將其刪除。在訓練分類器時,將原始數據集隨機分成訓練集(占總樣本的70%)和測試集(剩余的30%)兩部分,通過機器學習的各種算法基于訓練集來建立文本到編碼的對應規則,然后通過測試集來評估各種算法的效果,選出最優算法。
(五)評估標準
本文將通過如下指標來評估編碼質量。總體精度(Accuracy):總體測試樣本中編碼結果與人工編碼結果一致的比例。分組準確率(Pi):測試樣本中所有被分類到某一具體類別的觀測中正確分類的比例。分組召回率(Recall:Ri):測試樣本中應該被分類到某一具體類別的觀測中正確分類的比例。F1分數:綜合考慮準確率和召回率的指標,它的計算方法是2PR/(P+R)。
三、實證結果
大類編碼上的總體精度。總的來說,兩種方法的分類精度都呈現出不錯的水平,基本達到90%以上。針對訓練集的精度比測試集略高,但二者相差并不大,表明在職業大類的分類上針對訓練集的過擬合現象并不明顯。支持向量機的總體精度略高于樸素貝葉斯。
四、結論和討論
本文嘗試利用“中國家庭追蹤調查”2010—2016年間4期數據超過16萬條職業編碼信息來初步探索機器學習中兩種常見的分類器“樸素貝葉斯”和“支持向量機”在中文職業編碼工作中的可行性。總體來說,兩種分類器在職業大類編碼上的表現尚可,總體精度在測試集中近0.90,但在不同大類之間分類性能也有明顯差別。“樸素貝葉斯”和“支持向量機”在職業細類編碼上的總體表現不如職業大類,總體精度不到0.80。
同樣地,在不同職業類別之間,分類器的性能也有明顯差異,“支持向量機”的總體表現要稍優于“樸素貝葉斯”。本文的發現與基于英文職業文本編碼的結果類似,機器學習在職業編碼上的應用具有良好前景,但性能上還需進一步提高。基于這個發現,一方面要探索進一步提高各機器學習分類器性能的方法;另一方面要將機器學習與人工編碼相結合,并不是完全放棄人工編碼,利用逐步過渡的方式,減輕人工編碼工作量,提高工作效率。
本文的研究發現還對訪員培訓以及數據實時核查提供了有意義的反饋信息。譬如,職業大類編碼的混亂矩陣顯示“各級負責人”和“服務人員”之間的編碼容易混淆,這意味著在訪員培訓和數據實時核查中可以特別關注能區別這兩類職業人群的關鍵信息是否存在。本文的探索性研究表明,機器學習在中文職業編碼特別是職業大類編碼上有較好的應用前景,但在職業細類編碼上的準確率還不高,還需進一步探索如何提高分類器性能。
參考文獻
[1]吳曉剛,張卓妮.戶口,職業隔離與中國城鎮的收入不平等[J].中國社會科學,2014(6):118-140.
[2]SchierholzM,GensickeM,TschersichN,etal.OccupationCodingduringtheInterview[J].JournaloftheRoyalStatisticalSociety:SeriesA(StatisticsinSociety),2018,181(2):379-407.
[3]潘綏銘,黃盈盈,王東.問卷調查:設置“開放題”是一種失誤[J].社會科學研究,2008(3):81-85.
[4]任莉穎,邱澤奇,李力,等.社會調查中職業問題編碼的方式與質量研究[J].浙江大學學報:人文社會科學版,2012,42(3):210-219.
人文社科方向評職知識:人文社科論文發表期刊推薦
《西南民族大學學報(人文社會科學版)》(月刊)曾用刊名:西南民族學院學報(哲學社會科學版),是人文社會科學綜合性大型學術理論刊物。創刊于1979年,2000年由雙月刊改為月刊。本刊物反映西南地區各種民族問題的最新研究成果,注重基礎理論研究,密切關注人文社會科學的各種熱點難點問題的研究。