時間:2021年03月11日 分類:科學技術論文 次數:
【摘要】數據時代的來臨深刻影響了社會科學的研究范式。在不斷增長的社會數據中,文本數據扮演著重要的角色,公共管理與公共政策領域開始越來越多地應用文本分析。本文基于“研究語料—研究邏輯”的類型學分析框架對文本分析在公共管理與公共政策研究領域的研究方法應用進行了研究綜述。探討了公共管理與公共政策領域涉及的文本分析研究在不同維度的分布情況,展望本領域發展文本分析方法的潛在路徑。本文指出,文本分析將逐漸從分析文本的結構化特征向非結構化特征發展,從開展描述性推論向因果推論發展;為更好地實現上述發展進程,研究者應收集更為高頻的文本數據,并嘗試將文本數據與更加豐富的數據源相結合。
【關鍵詞】文本分析;公共管理;公共政策;研究綜述
一、引言
數據時代的來臨深刻影響了社會科學的研究范式,基于數據驅動的研究已經成為科學發展的重要趨勢之一(TansleyandTolle,2009)。在不斷增長的社會數據中,文本數據扮演著重要的角色。得益于數據技術的迅猛發展以及數字設備的廣泛應用,政策文獻、社交媒體、法律文書、檔案史料、訪談資料、宣傳文案、消費者評論等多樣化的文本數據逐漸得到發掘,為研究者提供了更加豐富的實證素材和更為多元的研究視角。 公共管理與公共政策領域也開始越來越多地應用文本分析。截至2019年12月,WebofScience核心合集中公共管理與公共政策相關學科收錄的以“textanalysis”(文本分析)為主題的研究超過8000篇,CNKI數據庫中CSSCI和核心期刊的相關文獻總量也已超過1000篇①。
公共管理論文投稿刊物:公共管理學報設有公共管理理論論壇、公共政策論壇、公共管理現實焦點問題、政府治理案例分析、國外公共部門改革評介、信息技術與電子政務、經濟全球化中的政府治理、公共項目管理、公共人力資源管理、公共管理教育等。
2005年以后文本分析開始在本領域的英文文獻中逐步推廣,2012年以后相關的中文文獻也越來越多地使用文本分析方法。此后,文本分析的學術關注度迅速增長,2016年以后一直維持在較高水平,已經在本領域的方法論體系中占有一席之地。公共管理及其相關領域已經廣泛地應用文本分析,但與經濟學、管理學、政治學等公共管理的母學科相比,公共管理領域的文本分析深度還較為欠缺。
上述學科在意識形態挖掘、投資者情緒、消費者意見等領域已形成了較為系統的文本挖掘策略,并結合文本挖掘開展了一系列因果推論研究。②但在公共管理領域,絕大多數研究仍然停留在簡單分類和基于手工編碼的觀點提取層面,越來越不能夠適應大數據時代的社會科學發展需要。大部分公共管理學者仍沒有充分理解哪些文本挖掘工具能夠進一步拓展經典理論問題的研究視野(Hollibaugh,2019)。
Hollibaugh(2019)在JournalofPublicAdministrationResearchandTheory(《公共行政理論與研究雜志》)發表的文章中嘗試對公共管理領域的文本分析進行總結,但該文主要側重結合案例闡釋文本分析流程,較少涉及對于文本分析應用規律和發展趨勢的探討。因此,本研究以公共管理與公共政策研究者的視角對文本分析方法進行梳理。首先構建“研究語料—研究邏輯”的2∗2類型學分析,并以此為基礎探討本領域應用文本分析的相關研究在不同象限的分布情況;然后結合文本分析的發展趨勢,討論本學科發展文本分析的潛在路徑和需要關注的問題。本文討論的“公共管理與公共政策”包含一切以公共事務為對象的管理和政策研究。為反映大數據時代的學術發展趨勢,綜述以定量文本分析為主。
二、分析框架
文本分析與公共管理與公共政策研究的結合是本文關注的核心議題。本文基于“研究語料—研究邏輯”的類型學分析框架對文本分析在公共管理與公共政策研究領域的研究方法應用進行了研究綜述。這一框架的構建有以下考慮。第一,方法論體系綜述應當體現對于方法論核心要素的關注。對于文本分析研究方法而言,“研究邏輯”和“研究語料”分別回答了“為了研究什么”和“利用什么進行研究”兩個方法論體系中的核心問題。特別地,在文本分析中“研究語料”較為集中地以語料的形式呈現,故本文選取“研究語料”及“研究邏輯”作為分析的基礎維度。
第二,該分析框架滿足類型學研究“獨立且窮盡”的基本原則(Minto,1996)。“研究邏輯”維度被劃分為描述性推論和因果推論,“研究語料”維度被劃分為形式特征和內容特征,理論上構成了所有文本分析研究的完備劃分。第三,選擇“研究邏輯”和“研究語料”兩個維度進行分類,可以更好地呈現文本分析方法的發展趨勢。以下對不同維度進行簡要論述。
(一)“研究語料”維度:文本的形式特征/內容特征語料是經過科學抽樣和處理生成的數字化文本,構建高質量的語料庫是進一步挖掘文本隱含知識的基礎和前提。本文選取“研究語料”作為分析框架的一個維度,將其分為文本的形式特征和內容特征兩個方面,主要回答了文本分析“利用什么進行研究”的問題。所謂“研究語料”的形式特征,主要指文本的發布時間、發布主體等外在特征;“研究語料”的內容特征,主要指文本的詞語搭配結構、句式結構和語義特征等內在特征。上述語料的形式特征與內容特征對研究者理解文本起到不同作用,文本內容特征可以幫助研究者更好地理解文本“生產者”微妙的情緒和態度變化,文本形式特征差異可以幫助研究者更好地在海量文本間進行比較,理解不同角色“生產者”的立場差異(黃萃,2016)。
(二)“研究邏輯”維度:描述性推論/因果推論“研究邏輯”是本文分析框架的另一個維度,主要回答了文本分析“為了研究什么”的問題。在本研究分析框架中,“研究邏輯”維度被分為描述性推論和因果推論。從方法論體系來看,推論是科學研究的基本目的,科學推論可以分為描述性推論和因果推論(Kingetal.,1994)。描述性推論側重于利用觀察值推理難以直接得出的結論,側重于挖掘“是什么”。因果推論則更加深入,關注挖掘“為什么”,也更受到研究者關注。隨著時間的推移,發展更加精確的因果推論已成為社會科學發展的重要趨勢,文本分析作為一種新興的社會研究方法也不例外。
三、文本分析在公共管理與公共政策研究中的應用規律
文本分析在社會科學中有著悠久歷史。早期文本分析以質性解讀為主。在結合社會歷史背景的基礎上,研究者可以通過分析文本中詞句表述的變化,探究文本蘊含的態度與立場(黃萃,2016)。上述分析主要針對文本的內容特征,側重于因果性推論。但隨著數據時代的來臨,這一模式越來越受到真實世界的挑戰。
在數據時代,文本數據的來源日趨多元,規模也顯著增加,依賴研究者先驗知識的文本解讀在操作成本、可重復性等問題上都越來越不可持續(LoftisandMortensen,2020),研究者亟須發展適應大規模文本數據的分析方式。由于文本形式特征的提取遠遠簡單于內容特征,形式特征也成了數據時代文本分析的起點。本研究沿著由形式特征到內容特征、由描述性推論到因果推論的邏輯,對于文本分析在本領域中的應用場景進行綜述。需要說明的是,上述研究范式的轉變并不是一蹴而就的,早期研究也或多或少地存在著一些質性文本解讀的色彩。
(一)基于形式特征的描述性文本分析形式特征是文本數據中結構化程度較高的特征,不同類型文本數據的結構特征有一定的差異。在常見的文本數據類型中,社交媒體數據的結構化程度往往較低,其形式特征包括發文時間、發文地點以及發文人在社交媒體平臺登記的部分人口統計學特征等。政策文本數據的結構化程度往往更高,其形式特征包括發文主體、發文時間、文件標題、文件主題詞、文件參照關系等(黃萃,2016)。通過對上述特征的分析,研究者可以挖掘豐富的公共管理與公共政策規律。
四、文本分析的發展趨勢
結合文本分析的方法體系,本章根據文本分析的發展趨勢,從4個方面論述其與公共管理與公共政策研究結合的潛在路徑。首先,“研究邏輯”維度需進一步發展結合文本的因果推論,拓展文本分析的研究深度。其次,“研究語料”維度需進一步發展對文本非結構化特征的分析,拓展文本分析的研究廣度。此外,還需要收集更加高頻的文本信息,并嘗試將文本數據與多源、多模態的數據類型相結合,為實現更加廣泛的高質量因果推論奠定基礎。
上述4項趨勢并不是孤立存在的。首先,“研究邏輯”的深化是進一步發展文本分析的核心,通過發展結合文本的因果推論,文本分析將進一步融入社會科學的主流方法論體系。其次,“研究語料”的豐富將進一步拓寬文本分析對象,從而為“研究邏輯”的深化提供更加多元的路徑。最后,高頻率文本數據收集與多源多模態信息融合是進一步深化“研究邏輯”的保障。通過采集更高頻率文本構建縱貫性數據集,并融入更加豐富的情境與社會背景信息,將進一步提升基于文本的因果分析質量。
五、總結與展望
作為一種可觀測的公共事務信息的物化載體,日益增長的文本信息為公共管理與公共政策研究者提供了一條可以依托的分析路徑,補充和豐富了公共管理與公共政策學科的研究范式。基于高頻率、多樣化的社會文本數據,公共管理與公共政策研究者可以開展不同類型的研究工作。通過引用、參照、共同發文等,研究者可以結合網絡分析,深入挖掘公共管理與公共政策活動中不同主體間互動模式的差異性及其歷史演化進程。
通過對文本的聚類分析,研究者可以實現對復雜社會信息的降維,理解主體注意力在不同問題間的分配,發掘不同群體對于特定問題認知邏輯的差異,找出問題解決中的“關鍵少數”和實踐發展中的“新生事物”。通過對特定詞組、語句乃至篇章的語義計算,研究者可以將文本特征融入因果推論過程中,既可以挖掘公共管理活動如何影響大眾情緒感知的變化,又可以探究各方微妙的態度變化如何影響公共管理活動的績效和結果。
此外,文本分析還能夠與不同類型的數據相整合,解決傳統研究中面臨的諸多難點。未來,文本分析將立足進一步發展結合文本的因果推論,從而更好地融入社會科學的主流方法論體系。在實際操作中,大數據時代的公共管理研究者可以關注包括但不局限于以下的研究路徑,開展更高質量的文本分析。
第一,結合文本長度、文本結構等因素,采用長短期記憶網絡(longshort-termmemory)等更加先進的分類(聚類)技術,對于海量的政策文本、社會輿情文本進行更加精準的分類降維,更高質量地描繪特定問題背后的政策傾向與社情民意分布。第二,結合傳統的手工編碼過程,標注一批質量較高且具有公共管理理論價值的文本數據集合,運用(半)監督學習思路挖掘特定的非結構化語義特征。第三,基于縱貫性的文本數據集合,結合社會經濟背景信息,在前兩條路徑的基礎上,挖掘政策或社會事件沖擊背后文本語義及主題分布的變化趨勢,探討變化背后的公共管理與公共政策意涵。
此外,在發展文本分析的過程中,研究者還有一系列問題需要關注。首先,研究者應關注文本數據的生成環境。存在偏向性的社會環境將生成偏向的數據集合,從而導致偏向的分析結果。其中,算法的運用程度越高,偏向性會被放大得越明顯。例如,審判文書可以幫助研究者理解特定領域的法治狀況,但如果文書上網概率存在系統性偏誤,分析結果就可能有偏差(唐應茂,2018)。社交媒體文本也可能存在類似問題。
Barber
參考文獻
常大偉.2020.我國少數民族檔案文獻遺產保護政策量化研究———基于128份政策文本的內容分析[J].檔案學研究,(3):106-111.
ChangDW.2020.QuantitativestudyontheprotectionpolicyofminoritydocumentaryheritageinChina—Basedonthecontentanalysisof128policytexts[J].ArchivesSciencetudy,(S3):106-111.(inChinese)
范梓騰,譚海波.2017.地方政府大數據發展政策的文獻量化研究———基于政策“目標工具”匹配的視角[J].中國行政管理,(12):46-53.FanZT,TanHB.2017.
BigdatadevelopmentstrategiesofChineselocalgovernmentsbasedondocumentsquantitativemethods[J].ChinesePublicAdministration,(12):46-53.(inChinese)
黃萃,任弢,張劍.2015a.政策文獻量化研究:公共政策研究的新方向[J].公共管理學報,12(2):129-137.
作者:黃萃呂立遠