久久人人爽爽爽人久久久-免费高清a级毛片在线播放-国产高清自产拍av在线-中文字幕亚洲综合小综合-无码中文字幕色专区

學術咨詢

讓論文發(fā)表更省時、省事、省心

基于動態(tài)特征的學者推薦研究

時間:2022年04月19日 分類:經(jīng)濟論文 次數(shù):

摘 要: [目的/意義] 在開放的知識交流環(huán)境中向學者推薦具有相似研究興趣的學者有助于學者高效獲取到所需的學術資源,更好地開展學術研究和學術交流。[方法/過程] 首先利用 LDA 主題模型提取學者的科研興趣特征,同時引入時間因子加權興趣特征,形成學者動態(tài)興趣矩陣,

  摘 要: [目的/意義] 在開放的知識交流環(huán)境中向學者推薦具有相似研究興趣的學者有助于學者高效獲取到所需的學術資源,更好地開展學術研究和學術交流。[方法/過程] 首先利用 LDA 主題模型提取學者的科研興趣特征,同時引入時間因子加權興趣特征,形成學者動態(tài)興趣矩陣,基于此使用 K-means 對具有相似研究興趣的學者進行聚類分析,并在類簇內(nèi)綜合學者的科研能力和社交屬性兩個維度構建學者推薦模型。 [結果/結論] 以 “百度學術”數(shù)據(jù)集對模型進行驗證,實驗結果表明該模型能夠很好地發(fā)現(xiàn)相關學者,滿足可操作性和推薦結果有效性。在學者推薦過程中引入更貼近現(xiàn)實的動態(tài)興趣特征對推薦結果具有一定效果。

  關鍵詞: LDA 主題模型; 動態(tài)特征提取; 聚類分析; 學者推薦

情報理論與實踐

  信息技術的日新月異使得各學科領域的科研成果數(shù)量呈指數(shù)增長,浩如煙海的科研成果在極大滿足學者學術交流和科研合作等需求的同時,也給學者獲取其感興趣的學術資源帶來壓力,現(xiàn)代科學研究的綜合性和復雜性迫使學者逐漸由傳統(tǒng)的單兵作戰(zhàn)模式轉向尋求科研合作。但是如何幫助學者與其科研興趣相似的學者快速建立聯(lián)系,促使其高效獲取到感興趣的學術資源,開展學術交流和科研合作成為虛擬學術社區(qū)提升服務的關鍵問題,而學者推薦能夠有效地解決這些問題。

  在構建虛擬學術社區(qū)推薦系統(tǒng)時,要以學者的科研興趣特征為基礎,融合學者的多維度特征進行挖掘分析,根據(jù)相關研究發(fā)現(xiàn),學者的研究興趣是呈階段性變化的,近期的研究成果更能代表學者研究興趣,現(xiàn)有的學者推薦大多是假定學者興趣恒定不變,難以反映學者興趣變化。因此本文提出了一種基于動態(tài)興趣特征的學者聚類和個性化推薦模型,該模型以學者科研成果為基礎,同時引入時間加權函數(shù)以分析學者的動態(tài)興趣特征,在此基礎上對學者進行聚類,并融合學者的能力屬性和社交屬性進行學者的個性化推薦研究。

  1 研究現(xiàn)狀

  述評學者推薦首要的任務是學者的興趣挖掘,而目前國內(nèi)外關于學者興趣挖掘的研究主要是圍繞基于關鍵詞提取和基于主題挖掘這兩個維度展開。在基于關鍵詞的學者興趣提取方面,Nascimento 等采取經(jīng)典的詞頻—逆文檔頻率( Term Frequency-Inverse Document Frequency,TF-IDF) 來提取學者興趣特征[1]。趙蓉英等融合多種方法,分析我國開放存取領域的高頻關鍵詞,挖掘該領域內(nèi)學者的研究興趣[2]。

  除了方法層面,學者們還從用戶感興趣的論文[3]和合著論文[4]等不同關鍵詞來源中深入挖掘學者的研究興趣特征。然而每篇文獻所提供的關鍵詞有限,未能完整體現(xiàn)文獻所蘊含的主題,使得所挖掘的學者研究興趣不夠豐富。學者們則從文獻摘要及全文著手,不斷挖掘文獻內(nèi)容中豐富的主題特征,以表征學者更全面的科研興趣。在基于主題挖掘的興趣挖掘方面,一種適用于大量數(shù)據(jù)文本的主 題 特 征 提 取 的 隱 含 狄 利 克 雷 分 布 模 型 ( LatentDirichlet Allocation,LDA)[5]應運而生,該模型在揭示用戶興趣主題上具有較高準確性,因此,逐漸被運用到學者的研究興趣挖掘上。Rosen-Zvi 等在 LDA 主題模型中加入帶有 “監(jiān)督”的作者,提出了作者—主題模型 ( AuthorTopicModel,ATM) ,該模型提取每個作者所屬的主題分布及每個主題所包含的論文主要關鍵詞內(nèi)容[6]。

  苗蕊等也在 LDA 模型的基礎上提出了社區(qū)—作者—主題模型,根據(jù)作者間的合著網(wǎng)絡和論文的內(nèi)容來挖掘學者研究興趣子社區(qū)[7]。隨后,學者們逐漸發(fā)現(xiàn)實際的研究興趣會隨著時間而變化。史慶偉等將時間因素加入作者主題模型,提出了一個作者主題演化 ( AToT) 模型來挖掘科研人員的動態(tài)研究興趣[8]。Jeong 等融合時間因素,提出作者主題流 ( Author Topic-Flow,ATF) 模型,以捕捉學者研究興趣隨時間變化的演化過程[9]。

  可見從動態(tài)視角能夠更為科學、客觀地挖掘學者的研究興趣,這為本文提供了一定參考。對于學者推薦,現(xiàn)有研究主要從基于社交網(wǎng)絡信息的學者推薦和基于標簽、主題等語義信息的學者推薦。在學者推薦模型總體框架于社交網(wǎng)絡信息的學者推薦方面,Yang 等融合研究人員相關的多類網(wǎng)絡信息,提出一種基于多層次特征的研究協(xié)作專家推薦方 法[10]。 熊回香等從學術能力和合作關系網(wǎng)絡兩個維度來構建學者推薦 模 型[11]。李春英等通過劃分學者社交網(wǎng)絡中的學術社區(qū),并基于社區(qū)內(nèi)學者影響力來實現(xiàn)社區(qū)內(nèi)的權威學者推薦服務[12]。

  雖然這些成果能夠較好地完成學者推薦任務,但未能充分挖掘有關學者興趣的文本語義信息。因此,通過挖掘語義信息以進行學者推薦也逐漸成為研究熱點。在基于語義信息的學者推薦方面,Yang 等根據(jù)標簽和社區(qū)問答網(wǎng)站中答案的投票分數(shù)來學習用戶的專業(yè)知識,構建用戶—標簽專家知識矩陣,通過分解知識矩陣來預測專家的知識得分從而進行學者推薦[13]。李春英等先用改進的 H 指數(shù)量化學者的論文成果從而獲取專家列表,使用概率主題模型從論文中提取作者主題向量,再用矩陣奇異值分解法獲得用戶的查詢擴展向量,根據(jù)兩個向量的相似度進行專家推薦[14]。

  與本文相似,Chakraborty 等采用主題模型對在科研學術網(wǎng)站上收集到的學者信息進行主題分類,然后采用K-means 和層次聚類算法確定相似學者推薦列表[15],但未考慮學者研究興趣隨時間變化的實際情況。綜上所述,目前在國內(nèi)外的學者推薦中,大部分研究都是以學者的靜態(tài)科研興趣為基礎展開個性化推薦,然而現(xiàn)實中學者的科研興趣可能會隨著時間的變化而由一個主題向另一個主題慢慢遷移,因此在挖掘學者的興趣特征時考慮時間因素很有必要,將時間因子引入學者的興趣特征提取,可以為學者個性化推薦模型提供新視角。

  2 推薦模型框架本文提出的推薦模型

  該模型主要分為學者的動態(tài)興趣特征提取、基于動態(tài)興趣特征的學者聚類、學者的能力屬性和社交屬性提取以及學者推薦 4 個步驟。首先對學者成果數(shù)據(jù)集進行 LDA 主題模型訓練,得到論文—主題概率矩陣,并根據(jù)論文發(fā)表時間計算時間因子,加權得到學者動態(tài)興趣特征向量; 其次在學者動態(tài)興趣模型的基礎上,利用 K-means 聚類算法對學者進行聚類,得到相似研究興趣學者類簇; 然后取任意一類簇,根據(jù)學者的學術成果和學術影響力綜合計算學者的科研屬性,根據(jù)學者的合作頻次計算學者的社交屬性; 最后利用 CombMNZ 方法對學者兩種屬性的評分進行整合,得到候選推薦學者的最終推薦值,并輸出 Top-N 位學者作為最終的學者推薦列表。

  2. 1 學者的動態(tài)興趣特征提取

  由于現(xiàn)實生活中學者的科研興趣是動態(tài)變化的,所以在進行學者興趣特征提取時要充分考慮學者的興趣變化,不然可能會影響推薦精準度。因此本文先對學者的成果進行主題提取,在學者靜態(tài)興趣特征的基礎上引入時間因子,充分考慮學者研究興趣的動態(tài)變化,構建學者的動態(tài)興趣特征表示模型。

  1) 論文主題特征提取。學者的論文成果能夠很好地展示學者的研究興趣,而論文的摘要又能很好地表征論文的研究內(nèi)容,因此對學者論文的摘要進行特征提取,可以挖掘學者的研究興趣主題。本研究采用經(jīng)典的 LDA 主題模型來對學者的研究成果進行主題特征挖掘。LDA 主題模型是一個三層貝葉斯主題概率模型,通過無監(jiān)督的學習方法發(fā)現(xiàn)文本中隱含的主題信息,該模型認為語料庫中每篇文檔都是按照 “先以某種概率選擇其中一個主題,然后在該主題中以某種概率選擇一個特征詞”的方式生成的[16]。

  2. 2 基于動態(tài)特征的學者聚類

  基于動態(tài)興趣特征的學者聚類方法是根據(jù)學者論文成果主題特征構建論文主題特征向量,同時引入時間遺忘因子,計算學者的興趣偏好權重,提取學者的動態(tài)興趣構建學者動態(tài)興趣特征向量,得到基于學者動態(tài)興趣特征的學者—主題特征矩陣。由于基于劃分的典型聚類算法 Kmeans聚類[20]是將數(shù)據(jù)集中的數(shù)據(jù)對象按照一定的劃分規(guī)則劃分成互不重疊的簇,其思想比較簡單,且時間和空間復雜度低,處理大規(guī)模數(shù)據(jù)簡單高效,并在文本聚類領域得到了廣泛應用。

  因此,再采用 K-means 聚類算法對學者—主題興趣特征矩陣進行聚類,具體可分為兩步:首先,學者—動態(tài)興趣矩陣構建。根據(jù) 2. 1 節(jié)的學者動態(tài)興趣模型,可以得到學者當前的研究興趣偏好主題集合 R's,根據(jù)學者當前的研究興趣偏好向量便可以得到學者—動態(tài)主題矩陣。其次,基于動態(tài)興趣特征的學者聚類。以得到的學者—動態(tài)主題矩陣作為輸入,采用 K-means 聚類算法對其進行聚類,并輸出主題標識聚類的結果。

  2. 3 學者的能力屬性和社交屬性提取

  本節(jié)在基于動態(tài)興趣特征的學者聚類效果的基礎上,選取任意類簇,對該類簇中學者的能力屬性和社交屬性進行測量評估; 關于學者能力屬性,從學者的科研成果和學術影響力這兩個方面來衡量,而學者的社交屬性主要是基于學者的學術關系網(wǎng)絡來進行測量。

  1) 學者能力屬性評估。學者的能力屬性是融合了學者知識水平、專業(yè)技能、科研成果和學術影響力等多個維度,本研究主要采用論文發(fā)表數(shù)量、期刊級別以及學術影響力這三個方面來衡量學者的學術能力。論文發(fā)表的數(shù)量和質量是科研項目申請和學者學術能力評估的重要指標,可以被認為是代表學者的科研能力的核心指標[11]。

  2. 4 學者推薦

  本節(jié)采用 Comb MNZ[23]的方法對 2. 3 節(jié)得到的學者能力屬性和學者社交屬性測量結果進行整合,得到學者的最終推薦值,并選取 Top-N 位學者進行推薦。

  3 實證研究及結果分析

  3. 1 數(shù)據(jù)獲取與預處理基礎數(shù)據(jù)

  來源于 “百度學術”,在百度學術的 “期刊頻道”按期刊檢索,選取 10 種情報學核心期刊 ( 分別為《情報學報》《圖書情報工作》 《圖書情報知識》 《現(xiàn)代圖書情報技術》( 現(xiàn)更名為 《數(shù)據(jù)分析與知識發(fā)現(xiàn)》) 《情報資料工作》《情報理論與實踐》 《情報科學》 《情報雜志》《現(xiàn)代情報》《圖書與情報》) ,爬取其 2011—2020 年刊載的成果,包括論文標題、關鍵詞、摘要、發(fā)表期刊和發(fā)表時間等。在獲取數(shù)據(jù)后發(fā)現(xiàn),許多期刊的數(shù)據(jù)字段空缺,為了保證數(shù)據(jù)的完善和準確,從中國知網(wǎng)、維普等數(shù)據(jù)庫抓取相關數(shù)據(jù),彌補字段空缺。最后刪除序論、專題、會議通知等不符合要求的文獻,去除重復和無效數(shù)據(jù),獲得27582 條論文數(shù)據(jù),共 22630 位學者。

  根據(jù)普賴斯定律來篩選資深學者,學者朱慶華發(fā)文量最多,10 年內(nèi)發(fā)文 166篇,所以 ηmax 為166,N 為9. 65,篩選10 年內(nèi)發(fā)文量大于9 篇的學者為資深學者,再對同名作者進行消歧處理,刪除發(fā)文量小于等于 9 篇的學者,最終得到 1067 位資深學者,共發(fā)表論文 14958 篇。本文采用 Python 的 jieba 分詞工具對論文摘要進行分詞處理,并使用停用詞表過濾掉無實際意義的詞,之后再統(tǒng)計詞頻,將詞頻為 1 的語詞刪除掉,以便更好地開展后續(xù)工作。

  在基于學者動態(tài)特征的學者聚類基礎上,融合學者的科研能力屬性和社交屬性,最后為目標學者 “熊回香”推薦排名 Top-10 的學者為 { 李綱、蘇新寧、章成志、唐曉波、張智雄、王昊、夏立新、祝忠明、陸偉、王東波} 。對目標學者 “熊回香”所發(fā)表的論文進行閱讀和分析,并對其研究興趣和科研能力等檔案進行了解和剖析后,發(fā)現(xiàn)學者 “熊回香”所在的科研機構為華中師范大學信息管理學院,其科研興趣集中在語義挖掘、信息組織和個性化推薦等方面,而經(jīng)過對李綱、蘇新寧、章成志、唐曉波等學者近年來的科研成果進行分析和研究后,發(fā)現(xiàn)所推薦學者的研究興趣不僅涵蓋了信息檢索、語義挖掘、信息組織和個性化推薦等主題,還包括知識組織、情報分析和競爭情報等。

  由此可以看出,本研究提出的推薦模型為目標學者所推薦的學者們在科研主題上符合其科研興趣主題。此外,李綱、蘇新寧、章成志、夏立新等學者還是國內(nèi)情報學領域的權威學者,其學術造詣和學術涵養(yǎng)能夠滿足目標學者對學術交流和知識獲取的需要,并且夏立新學者不僅和目標學者在同一機構共事,更是與目標學者有師承關系,其與目標學者進行學術交流和科研合作的可能性更高。由此可知,本研究所構建的學者推薦模型不僅能夠滿足學者獲取學術資源,獲取知識,進行學術交流等科研需要,還能滿足學者尋求相似研究興趣的學者進行科研合作,促進學科的發(fā)展需求。

  4 結束語

  本研究提出以一種基于學者動態(tài)興趣特征聚類的推薦模型,對學者的研究興趣特征進行提取,并引入時間加權函數(shù),挖掘學者的動態(tài)興趣,基于動態(tài)興趣特征模型進行學者聚類; 最后在動態(tài)研究興趣的學者聚類基礎上,再融合學者的能力屬性和社交屬性提供一種學者推薦模型。并以 “百度學術”的真實數(shù)據(jù)為例,對學者推薦模型的可行性和有效性進行了實證,通過與基于靜態(tài)興趣特征的推薦結果比較分析,本文提出的模型能夠更為精準地考慮學者動態(tài)研究興趣對推薦效果的優(yōu)化。由于 “百度學術”上的學者數(shù)據(jù)存在一定缺失,且數(shù)據(jù)更新也不及時,這些問題都會導致學者推薦模型的準確性,從而影響最終的推薦結果的精準度。因此,在數(shù)據(jù)量更加充分完善的情況下,本研究所提出來的推薦模型效果會更好。

  參考文獻

  [1] NASCIMENTO C,LAENDER A H F,SILVA A S D,et al. Asource independent framework for research paper recommendation[C] / /Proceedings of the 2011 Joint International Conferenceon Digital Libraries ( JCDL) ,Ottawa,Canada,2011:297-306.

  [2] 趙蓉英,吳勝男 . 我國開放存取研究主題和作者影響力分析———戰(zhàn)略坐標與社會網(wǎng)絡分析相融合視角 [J]. 情報理論與實踐,2013,36 ( 11) : 57-62.

  [3] NART D D,TASSO C. A personalized concept-driven recommendersystem for scientific libraries [J]. Procedia ComputerScience,2014,38 ( 10) : 84-91.

  [4] 徐健,毛進,葉光輝,等 . 基于核心作者研究興趣相似性網(wǎng)絡的社群隸屬研究———以國內(nèi)情報學領域為例 [J]. 圖書情報工作,2018,62 ( 12) : 57-64.

  [5] BLEI D M,NG A Y,JORDAN M I,et al. Latent dirichlet allocation[J]. Journal of Machine Learning Research,2003,3 ( 1) : 993-1022.

  作者:楊夢婷,熊回香,肖 兵,葉佳鑫 ( 華中師范大學信息管理學院,湖北 武漢 430079)

NOW!

Take the first step of our cooperation邁出我們合作第一步

符合規(guī)范的學術服務 助力您的學術成果走向世界


點擊咨詢學術顧問