時間:2022年04月13日 分類:經濟論文 次數:
摘 要:在傳統的查全率和查準率檢索評價指標,以及循證研究證據的分級體系和證據轉化整合理論基礎上引入了信度評價指標,為循證社會科學領域原始研究文獻證據質量的科學評價提供了理論依據。對前序研究得到的文獻證據數據集進行信度評價發現:出現“關鍵詞 or 全文”檢索項在高相關數據集中重測信度更高,出現“關鍵詞 and 摘要”的檢索項在中相關數據集結果最穩定;復本信度檢驗結果顯示:中相關數據集中出現“關鍵詞 or 全文”和“摘要or 全文”檢索項的復本信度都很高,而在高相關數據集中,又出現“主題 or 關鍵詞”的可靠性較強。
關鍵詞:循證社會科學;文獻證據檢索;復本信度;重測信度
獲得穩定、可靠的原始研究證據,是基于元分析而有效整合研究結果的基礎,也是展開系統評價和證據轉化的關鍵。 從測量的角度看,信度是衡量指標可靠性和一致性的基本工具。對于文獻證據的檢索而言,信度可用于衡量檢索的穩定性、可靠性和一致性。將文獻證據檢索進行信度評估,對保障系統評價和元分析的質量具有極其重要的理論與實踐意義。
社會科學論文投稿期刊:江西社會科學投稿能網絡首發嗎
這是因為只有文獻檢索獲得可靠的原始證據,系統評價和元分析才能據此產出更高質量的證據整合產品。 同時,只有文獻檢索獲得穩定一致的原始證據,系統評價和元分析所獲得的證據整合結果才能保證其可信度。 基于這一科學問題,本文以中文文獻最大數據庫 CNKI 為對象,通過對社會科學領域特定的研究議題相關原始學術文獻的系統性檢索與分析,著眼于信度評價的基本理念和指標,對不同途徑的文獻證據檢索質量做出檢索效率評價,以期為循證社會科學領域的循證研究質量評價提供理論支撐。
1 研究回顧與理論基礎
1.1 相關研究回顧
1.1.1 文獻檢索質量評價
系統評價(systematic review)是對一組特定的文獻綜述特性加以有效整合的研究, 通常用來綜合文獻證據[1]。文獻檢索是系統評價活動的基礎工作,也涵蓋了系統評價的大部分工作環節,且檢索的目標是搜集到所有與研究主題相關的文章。 研究者所檢索到的文獻證據旨在幫助研究者產生關于證據的中立陳述,盡量避免偏倚。 因此,對文獻證據的信度加以研究,以確定應該如何應對處理不同檢索方式之間的差異,從而增加文獻檢索的透明度,就需要在檢索過程中針對不同檢索方式,對所檢索到文獻內含證據的質量及其可靠性進行評價。
查全率和查準率是評價文獻檢索質量的兩種主要傳統指標。查全率(recall ratio)是指檢索到的相關文獻在所有應該檢索到的文件集合中的比率。 但是,由于“所有文獻”事實上常常不可得,因此,查全率的分母無法預知, 這往往只是一個虛構的值; 查準率(precision ratio)是指所檢索到的文獻中,被判斷為相關文獻的比值。 查準率衡量了文獻檢索達到飽和時,查找到相關文獻的概率。 查準率和查全率呈現了反比關系。 如當研究者查找到集合中所有的文獻時,這也意味著其中就有大量的不相關文獻,提高了查全率但降低查準率。
相反,當文獻檢索變的精確時,就會丟失大量的不相關文獻,降低了查全率。Mann[2]提出研究者需要追求更加精確的檢索結果,因為研究者期望瀏覽較少的文獻,在判斷相關度過程中也能減少工作量。 然而,系統評價的特點就是要追求較高的“查全率”,因為本文研究沒有辦法確定,所定位的檢索主題是否可以代表現有的全部研究。 最好的解決辦法就是盡可能全面的去檢索,避免漏掉規范檢索之外的重要文章,確保習慣性的檢索渠道不會使結果產生偏倚。 因此,本文所使用數據集,延續了前序關于飽和度展開的研究,使用滾雪球、檢索方式迭代等多種方法,盡可能窮盡檢索與研究主題“社會認識論”相關的文獻。
1.2.2 元分析的異質性[3]
納入元分析的研究可能在多方面存在差異,如人群、干預措施的變化、評估結果的量表選擇等。 進行元分析的第一步就是確定效應量在所研究的樣本中的變化,如果效應量在所有研究中的變化一致,則關注其平均值,相反如果效應量在不同的研究中存在實質性的變化,就會產生異質性。當系統評價中所包含的研究數量較少時,會導致異質性的統計數據(如方差、標準差、預測區間、I2)不可靠。
異質性的問題也會因研究領域的不同而不同,如 Cooper 描述當采用同一種方法研究同一人群時,評估的是具有一致效果的干預措施的影響,這種情況下異質性就會很小。 相反,當研究采用不同方法、不同人群、評估不同的干預影響,研究中的異質性就會增強。 元分析的意義就是要將結論推廣到更大的領域,但是如果研究樣本較少,所有的異質性統計數據就會不可靠,尤其是預測區間,那么結論在更寬泛的領域中就會不適用。
因此,需要仔細思考結論在未來需要推廣的領域,考慮本文研究中的樣本數可以在多大程度上代表此結論。如果在元分析中沒有檢驗出異質性的問題,可能會導致將明顯不同的人群、結果、環境和時間歸為一類。 但是 Gene Glass 認為,如果出現這樣的情況,可以概括出他們更高一層的共有特征,這樣就可以概括出不同人群、環境等出現的同一結論。
因此在這種情況下,可以適當忽略他們的單一特征,尋找共同的平均效應量,從而解釋本文研究可以觀察到的方差及效應量。另外,Deeks 等[4]提出一種解決異質性的方法:“exclude studies”,一般來說將某些研究排除在外會導致偏倚,但作者認為可以排除一些與本文研究主題不太相關的研究,前提是要解釋清楚這些不相關的原因,并且排除之后不會干擾研究目標[3]。后續需要主要針對數據集中高度相關文獻和中度相關文獻做出信度分析,以減少異質性。
1.1.3 系統評價中的偏倚系統評價的目的是通過綜合幾個研究結果,總結有關具體問題的最佳研究。 在系統評價的過程中,始終使用透明公開的程序來發現、評價、得出結論,以盡量避免偏倚。 但文獻檢索階段,大部分有顯著結果的研究會比沒有顯著結果的研究更容易發表,就更容易被納入系統評價數據,此時會出現數據丟失的情況,那些未發表的研究有可能會高估或低估措施干預的真實效果,導致綜合結果的偏倚,這種偏倚通常成為“發表偏倚”(publication bias)[5]。在文獻檢索時,本文無法在數據庫中找到所有相關的研究,并且偏倚還會隨著研究問題特征的變化而變化。
大部分書目或數據庫只涵蓋已經出版的文獻,Chalmers 和 Frank[6]強調,當本研究在文章中僅納入并且統計了已發表的文章,為了抵消其中的潛在偏倚,應該特別注明在評價過程中納入的未發表文章的影響。 Sterne 等[7]認為發表偏倚的存在可能導致一部分研究無法在同行評審(peer-reviewed)的期刊上發表, 并且已發表的研究也會有很大一部分不會被書目數據庫索引。 涉及定量研究的系統評價在文獻檢索時應調整檢索策略,盡量減少發表偏倚的影響。 涉及定性數據時,Booth[8]認為可以用不太詳盡的方法,但應審查資源范圍內的數據,確保檢索到足夠種類的信息。 因此必須仔細考慮獲取文獻的多種渠道,以及本研究所選擇的渠道之間如何相互補充。
1.2 信度的類型與評估信度(Reliability)
即可靠性,它是指采用同樣的方法對同一對象重復測量時所得結果的一致性程度。信度越高,多次測量的結果之間反映的一致性就越大。信度指標多以相關系數表示,大致可分為三類:穩定系數(跨時間的一致性),等值系數(跨形式的一致性)和內在一致性系數(跨項目的一致性)。 信度分析的方法主要有以下四種:重測信度法、復本信度法、折半信度法、α 信度系數法[9]。 本文主要通過復本信度和重測信度來檢驗文獻檢索所獲證據的可靠性與穩定性。
1.2.1 復本信度復本信度(Parallel-forms Reliability)又稱為等值性系數,是等值性信度(Equivalence Reliability)的一種,指問卷調查的結果與另一種非常相似的問卷調查結果的變異程度。 針對同一組測試對象,運用兩份內容相同但題目不同的問卷進行測試,兩次結果的相關性程度則為復本信度。 相關程度越高,復本信度越高,兩次結果的一致性越強。復本信度的困難在于要編制兩份等同的量表,在實踐應用中會受到一定程度的限制。 兩份等同量表要包含相同的數目、類型、難度。
比起重測信度來,復本信度避免了記憶效應和練習效應,比較適合做長期追蹤調查或有難度的測試。但復本信度也存在一定的局限,如有些測驗或量表很難找到等同且合適的復本,其次測驗的性質會由于重復而發生改變。 因此,在利用復本信度做可靠性檢查時,一方面要注意兩份內容測驗的時間間隔,另一方面,注意分析中出現的負相關,并對這種情況得到的可靠性提出質疑。
1.2.2 重測信度重測信度(test-retest reliability)又稱為再測信度、穩定性系數,是針對同一組測試人員,利用相同內容的問卷在不同的時間點先后測試兩次,兩次結果之間的差異程度。重測信度是由時間變化所帶來的隨機誤差產生的,反映測驗跨時間的穩定性和一致性。根據所測定特質數據的表現方式,重測信度可采用積矩相關系數、等級相關系數和列聯系數來表示。 從相關系數的大小可以判斷,測量結果在經過一段時間后的穩定程度。
相關系數越大,測量結果更加一致可靠,重測信度越高,測驗環境的隨機因素帶來的影響也就越小[10]。重測信度適用于異質性調查,尤其是在幾部分內容之間不存在相關性或相關性較低時。但由于存在記憶效應,重測的時間間隔不宜過長,并且需要充分考慮重測過程中不同的環境條件帶來的測量結果的誤差。
2 文獻證據檢索的信度研究設計
本研究由兩個相互獨立但互為支撐的子研究構成,充分考慮了文獻檢索的查全率和查準率,以及檢索過程中所帶來的異質性,根據信度的理念和指標,以中文文獻最大的數據庫——CNKI 為對象,延續“社會認識論”為主題的文獻檢索以及飽和度研究結論,對不同途徑的文獻檢索質量做出評價。首先構建數據集,將總數據集中的高相關文獻與中相關文獻按年份分為十組,再應用主題、篇名、關鍵詞、摘要和全文的單項檢索與組合檢索的十年數據與總數據進行匹配,計算高相關組的匹配比例與中相關組匹配比例。
2.1 復本信度復本信度
旨在檢驗通過不同途徑的檢索方式,檢驗結果的一致性。 應用主題、篇名、關鍵詞、摘要和全文為檢索項,判斷不同途徑的單項檢索或組合檢索項之間的相似程度,對其查全率和查準率做出評價。
3 文獻證據檢索的信度研究結果
3.1 單項檢索的信度檢驗
3.1.1 單項檢索與高相關集信度檢驗單項檢索本文選擇了五種方式:主題、篇名、關鍵詞、摘要、全文。 將每一項檢索結果分別從 CNKI數據庫中導出,與高相關數據集進行比對,計算其不同檢索方式的相關系數矩陣及匹配差異的離散程度。除全文檢索與其他方式不存在相關性,其他四項之間都存在顯著的相關性,具體表現如下:
(1)在 0.01 的顯著性水平下,主題檢索與篇名檢索的相關系數最大,達到 0.876,說明主題與篇名的檢索結果相似程度最高,可相互替代。再看重測信度,主題檢索的方差處于五項之中最高,而篇名檢索的方差最低,說明以篇名檢索的十年數據是最穩定可靠的。 因此單項檢索到高相關文獻時,可以優先選擇篇名檢索。
(2)關鍵詞檢索的可替代性最強,因為關鍵詞檢索同時與主題、篇名、摘要的相關系數都達到了 0.8以上,且在 0.01 水平上顯著。但基于重測信度結果來看,關鍵詞檢索的十年匹配比例之差的離散程度為35.3%,較其他結果處于中間狀態,數據較為穩定,因此關鍵詞檢索結果比較可取。
(3)主題檢索與篇名、關鍵詞的相關系數均處于前列,且與摘要檢索也在 0.05 的顯著水平上,達到0.646的相關度。因此主題檢索與這三項的相似程度也比較高,可靠性強,但重測信度結果顯示,主題檢索的結果并不穩定,離散程度大。 因此主題檢索應謹慎選擇。
(4)另外摘要檢索的復本信度較高,與關鍵詞、主題的一致性較強,但重測結果并不穩定,離散程度較大。 全文檢索與其他四種方式都不具有一致性,甚至出現負相關的情況,但是近十年匹配度的結果卻較為穩定。以上綜合復本信度和重測信度結果,提出在進行單項檢索時,優先選擇篇名檢索、關鍵詞次之,主題檢索可以排在兩者之后。 摘要和全文在檢索高度相關的文獻時并不可取,因為兩者不能同時滿足復本信度和重測信度的一致性與穩定性。
3.1.2 單項檢索與中相關集信度檢驗
以篇名為檢索方式總共檢索到 30 篇,皆為與“社會認識論”高度相關的文獻,因此在中相關的相關性分析中,篇名的數據無效。 從單項搜索與中相關數矩陣可以看出,僅有主題檢索與摘要檢索的相關系數最高(0.73)且顯著,說明檢索中度相關的文獻用主題檢索和摘要檢索的結果相似。 再看重測信度結果,摘要檢索離散程度 9%,說明在近十年的匹配度中數據較為穩定。 因此在檢索中度相關文獻時,“摘要”檢索的結果最為可靠。
3.2組合檢索的重測信度組合檢索的重測信度
以十年數據中每下一年度與上一年度匹配比例差的離散程度來表現,通過標準差系數對不同檢索途徑做出比較。
(1)二項組合檢索的重測信度。 通過二項組合檢索式的年度匹配差異看十年數據的穩定程度。 使用 and 檢索的策略整體要比 or 檢索式的穩定性要和好。 在高相關數據集中,“篇名 and摘要”的標準差最小(0.15),離散程度最小,但同時“篇名 or 摘要”的標準差達到 0.502,恰好是高相關集中匹配最不穩定的檢索式。
因此想要獲得穩定的高相關匹配數據,可以優先選擇“篇名 and 摘要”。 其次可以選擇“主題 or 全文”和“篇名 and 關鍵詞”,離散程度都比較小,數據相對穩定。在中相關數據集中,除去篇名并項檢索的 0 值數據外,“關鍵詞 and 摘要”標準差系數最小,“關鍵詞 and 全文”次之。使用 or 運算符連接“全文”項的組合式標準差值均偏大,離散程度較大,需謹慎考慮。
4 討論與結論
4.1 討論
本文的信度檢驗方法融合了時間方面的重測和標準途徑方面的復本方法,因此,更能夠衡量出實際的檢索質量。從復本信度來看,高相關數據集中使用的 and運算符時,檢索項之間相似度較高,中相關集使用 or更加相似。 我們認為,在檢索高度相關文獻時,使用and 運算符可以更加精確文獻結果,范圍變小會導致結果存在很大的重復性,因此檢索項之間的相似度也很高,復本信度大;另一方面中相關的文獻集不要求本文的檢索結果有多精確,反而更要求數據是否全面,因而使用 or 運算符擴大搜索范圍,以檢索更多中度相關的文章,提高查全率。
從重測信度來看,在高相關數據集中,“全文”單項檢索的穩定性最高,組合檢索出現“主題 or 全文”,離散程度很小,結果最穩定。 在中相關數據集中,“摘要”單項檢索標準差最小,最穩定,后續的二、三、四、五項組合檢索式,凡是出現“關鍵詞 and 摘要”的組合式,都是中相關數據集中最穩定的。 這一結果比較意外,因為全文檢索的范圍很大,是一種模糊搜索的方法,按理說其信度在高度相關數據集中應該屬于較低層次,但結果并不是。 我們認為全文檢索的數量比較多,在每一年份上都比其他方式的數據多出幾倍,因此越多的結果就會使本文研究越接近真實的數據,每一年份的差異就會減少,重測信度得到提升。
4.2 結論
(1)單項檢索的信度結果表示,在檢索與研究論點高度相關文獻時,“關鍵詞”檢索在穩定性結果方面更優,如果要求更加全面的結果,可以選擇“主題”檢索。 但“篇名”檢索綜合二者優勢,為最優選擇。 在檢索中度相關文獻時,“摘要”檢索的結果最可靠。
(2)二項組合檢索式由于各項之間存在重復,大部分檢索項之間都存在很高的相似性。 “篇名 and 關鍵詞”與其他具有顯著相關性的檢索項匹配系數最高,且重測信度檢驗也是最穩定的,因此高相關集檢索優先選擇“篇名 and 關鍵詞”;其次,在中相關的系數矩陣中,復本相似度最高的一組是“主題 and 摘要”和“關鍵詞 and 摘要”,這兩組后者的穩定性更強,優先選擇后者;另外“主題 or 摘要”在查找高相關和中相關文獻時可以替代多種檢索方法,搜索結果最全面,包容性強。
(3)三項組合檢索式中,綜合相似程度與數據離散程度,在查找高相關文獻可以選擇“主題 and 篇名and 關鍵詞”,or 連接時復本信度結果也是最優選擇,但穩定性不高。 因此可以嘗試主題、篇名與關鍵詞的并集組合;另一方面“主題 and 摘要 and 全文”和“主題 or 篇名 or 關鍵詞”分別可以作為兩種運算符檢索中度相關文獻的高復本信度結果,重測信度結果前者更穩定。
(4)四項組合時推薦使用“主題 and 篇名 and 摘要 and 全文”的檢索式,重測信度表現最為穩定,復本信度結果中,與高度相關數據集匹配適用,與中度相關文獻匹配時,使用 or 邏輯運算符連接也同樣可以適用。
(5)五項組合檢索式只能從重測信度角度來看,or 運算符在任意數據集中都會表現的更穩定可靠。本文基于循證視角,對文獻證據檢索的信度進行了研究,探索了不同檢索途徑的復本信度與重測信度。 憑借信度評價指標,保證證據檢索的穩定性與一致性,在為系統評價和元分析提供更高質量證據的基礎上,有望為整個科學領域的循證研究質量評價提供理論支撐,并為循證社會科學等領域的的系統評價和元分析提供更高效、可靠的文獻檢索方法。
參考文獻:
[1] 楊克虎,李秀霞,拜爭剛.循證社會科學研究方法[M].蘭州:蘭州大學出版社,2018.
[2] Mann Thomas.Library research models:A guide to classification,cataloging,and computers[J].The Journal of Academic Librarianship,1994,20(4):236-237.
[3] Michael Borenstein,Common Mistakes in Meta-Analysis And How to Avoid Them[M].Cambridge Univ Pr,2005.
[4] Deeks J J,Higgins J P,Altman D G.Analysing Data and Undertaking Meta‐Analyses[M].John Wiley .Sons,Ltd,2008.
[5] Cooper Harris Ed.The Handbook of Research Synthesis and Meta-Analysis.Third Edition[M].Russell Sage Foundation,2019.
[6] Chalmers Thomas C Cynthia S,Frank Dinah Reitman.Minimizing the Three Stages of Publication Bias[J].Journal of the AmericanMedical Association,1990,263(10):1392-1395.
作者:盧潔妤 1 魏志鵬 2,3 周文杰 1,3 楊克虎 2,3