時(shí)間:2018年07月05日 分類:電子論文 次數(shù):
下面文章是在大數(shù)據(jù)的背景下展開研究,在數(shù)字時(shí)代人們幾乎沒有隱私,數(shù)據(jù)會(huì)成為泄露隱私的工具,文章主要對(duì)于臉書(Facebook)用戶的數(shù)據(jù)泄密事件展開研究,發(fā)現(xiàn)臉書在實(shí)際技術(shù)應(yīng)用與倫理上存在差異,文中對(duì)于這一問題進(jìn)行分析研究,探討信息化社會(huì)下數(shù)據(jù)的作用和數(shù)據(jù)的使用方式,總結(jié)傳統(tǒng)的新聞?dòng)^念與數(shù)據(jù)化時(shí)代的不同,如何更好的利用數(shù)據(jù)推動(dòng)時(shí)代的發(fā)展。
關(guān)鍵詞:大數(shù)據(jù),臉書,劍橋分析,隱私,道德,假新聞
1 背景:從大數(shù)據(jù)1.0到2.0時(shí)代
1.1 大數(shù)據(jù)1.0階段是數(shù)據(jù)驅(qū)動(dòng)(data-driven)
科辛斯基與劍橋分析公司事件的核心是數(shù)據(jù)驅(qū)動(dòng)與理論驅(qū)動(dòng)是如何被理解的,數(shù)據(jù)驅(qū)動(dòng)的核心是有關(guān)工作人員對(duì)一系列數(shù)據(jù)的大范圍的收集整理,當(dāng)數(shù)據(jù)達(dá)到一定的量時(shí),就對(duì)這些數(shù)據(jù)進(jìn)行描述性的分析研究,主要領(lǐng)域是以下兩個(gè)方面,一個(gè)是尋找預(yù)測(cè)變量(predictor),另一個(gè)是挖掘行為模式(behavior pattern)。這些研究都希望從數(shù)據(jù)中得到更加準(zhǔn)確的預(yù)測(cè)結(jié)果,為實(shí)際應(yīng)用服務(wù)。這就好比,我們?cè)跀?shù)據(jù)庫(kù)中發(fā)現(xiàn)襯衫與領(lǐng)帶呈現(xiàn)高度相關(guān),那么商家就可以在獲取這些數(shù)據(jù)后,將這兩件商品放置在一起銷售。
根據(jù)現(xiàn)在的神經(jīng)網(wǎng)絡(luò)算法“Link Prediction、Struct2Vec、Flow-Network”等只要有足夠的數(shù)據(jù)及樣本標(biāo)簽我們便可以進(jìn)行預(yù)測(cè),并且成功率可以達(dá)到80%左右。這套算法同時(shí)也廣泛運(yùn)用于國(guó)家安全領(lǐng)域,用于識(shí)別可能潛在的犯罪對(duì)象。這一分析方法最早的成熟應(yīng)用,就是2018年3月17日爆出的臉書(Facebook)數(shù)據(jù)門大案,即劍橋分析(Cambridge Analytica)幫特朗普當(dāng)選的事件。從那時(shí)起,大家就開始非常關(guān)注這個(gè)領(lǐng)域,實(shí)際操作的可能。
1.2 大數(shù)據(jù)2.0階段是數(shù)據(jù)驅(qū)動(dòng)理論(data-driving-theory)
大數(shù)據(jù)2.0時(shí)代與1.0時(shí)代最大的不同點(diǎn)是,它是由數(shù)據(jù)(Date)+社會(huì)科學(xué)理論(Theory)的方式來(lái)驅(qū)動(dòng)的。在2008年這個(gè)互聯(lián)網(wǎng)市場(chǎng)與用戶需求高漲的時(shí)期,許多互聯(lián)網(wǎng)公司早已開始進(jìn)入數(shù)據(jù)分析領(lǐng)域,區(qū)別在于那個(gè)時(shí)候的互聯(lián)網(wǎng)科技公司還只停留在初級(jí)階段。其技術(shù)在理論出現(xiàn)之前就已開始投入使用。
因此,筆者將大數(shù)據(jù)的發(fā)展簡(jiǎn)單地按照其出現(xiàn)的時(shí)間順序分為兩個(gè)階段,簡(jiǎn)單來(lái)說(shuō),就是網(wǎng)絡(luò)數(shù)據(jù)的發(fā)展應(yīng)用在社會(huì)上越來(lái)越廣泛,然后倒逼著人們?nèi)パ芯糠治銎渑c社會(huì)發(fā)展的相互關(guān)系。在網(wǎng)絡(luò)數(shù)據(jù)的最初階段(1.0階段),這時(shí)的工作主要是大量收集整理數(shù)據(jù),再對(duì)這些數(shù)據(jù)進(jìn)行一些分析,這個(gè)時(shí)期,相關(guān)的理論并沒有顯得特別重要。例如現(xiàn)階段應(yīng)用最廣泛的人臉識(shí)別技術(shù)(Face Recognition Assignment),我們最初主要是搞清楚人臉構(gòu)造的一系列的結(jié)構(gòu),并將它們形成一系列的數(shù)據(jù),來(lái)對(duì)模型進(jìn)行完善,后來(lái)發(fā)現(xiàn)當(dāng)照片達(dá)到足夠數(shù)量時(shí),結(jié)合日益成熟的人工智能(Artificial Intelligence),來(lái)對(duì)模型進(jìn)行修改完善,模型就會(huì)越來(lái)越準(zhǔn)。
人臉識(shí)別是要扎根真相(ground truth)的。我們目前所能看到的人工智能訓(xùn)練是用大量的照片來(lái)做的,我們采用的海量照片就是扎根真相。以此類推我們可以發(fā)現(xiàn),科辛斯基的“大五人格”的心理學(xué)測(cè)驗(yàn),大量的照片就是這個(gè)事件的扎根真相。
在實(shí)際運(yùn)用的過(guò)程中,扎根真相這一數(shù)據(jù)并不能完美解決我們想要解決的問題,它必須與一定的科學(xué)理論相結(jié)合,并在它的指導(dǎo)下才有可能完成的。比如在美國(guó)總統(tǒng)競(jìng)選中,替特朗普在競(jìng)選過(guò)程中出謀劃策的劍橋分析公司,他們所做的“大五人格”分析這一方式,不是僅從一張隨便從馬路上拍攝的照片,就能判斷出一個(gè)人的五類人格特質(zhì)(開放性,隨和性,勤勉性,情緒穩(wěn)定性,外向性)在這個(gè)人身上的具體表現(xiàn)。
要想達(dá)到我們的要求,實(shí)現(xiàn)我們的目的,必須做到以下幾點(diǎn):一是必須把扎根真相與心理學(xué)理論相結(jié)合;二是一定要通過(guò)既有的社會(huì)科學(xué)理論去進(jìn)行人格數(shù)據(jù)收集和提煉;三是指導(dǎo)我們建構(gòu)預(yù)測(cè)模型。由此可見,數(shù)據(jù)與社會(huì)學(xué)科及相關(guān)學(xué)科理論是分不開的,大數(shù)據(jù)促進(jìn)了學(xué)科理論的跟進(jìn)同時(shí),既有理由也為大數(shù)據(jù)的有效利用提供了指導(dǎo)。
2 Facebook數(shù)據(jù)門與“劍橋分析”事件所折射出的問題
英國(guó)劍橋大學(xué)的心理學(xué)講師科根(Aleksandr Kogan)就是把一個(gè)用于社交用途的網(wǎng)絡(luò)軟件——臉書(Facebook),與一個(gè)心理理論方面的“心理測(cè)試”小程序——科辛斯基的“大五人格”理論體系相互結(jié)合,然后通過(guò)臉書收集了約27萬(wàn)用戶的個(gè)人用戶信息記錄,然后把這些個(gè)人用戶信息記錄大價(jià)錢賣給了對(duì)這些數(shù)據(jù)感興趣的第三方客戶,這些客戶其中就有“著名”的劍橋分析(Cambridge Analytica)公司。
更值得關(guān)注的是,劍橋分析公司其實(shí)是政府和軍方的承包商SCL集團(tuán)下的一個(gè)分支機(jī)構(gòu),而SCL集團(tuán)在眾多的業(yè)務(wù)中,有一個(gè)業(yè)務(wù)是為各國(guó)的選舉活動(dòng)提供咨詢服務(wù)的,它們的客戶遍布世界,最重要的客戶則是分布南北美洲,非洲,歐洲的一些國(guó)家或地區(qū)。當(dāng)這一信息披露在世界面前時(shí),在美國(guó)那些因?yàn)橄@锫溥x而瘋狂攻擊俄羅斯的政客們不知會(huì)怎么想,但世界各國(guó)的人們也許就會(huì)揭開一個(gè)困擾很久謎團(tuán),那就是在美國(guó),讓大多數(shù)媒體和大多數(shù)精英所厭惡的特朗普卻能打敗希拉里的原因。
在美國(guó)總統(tǒng)競(jìng)選這一件事上,他們對(duì)特朗普競(jìng)選的幫助就是通過(guò)臉書所收集來(lái)的大量的個(gè)人用戶信息,結(jié)合科辛斯基的“大五人格”理論體系,去分析眾多的美國(guó)選民的心理特征和個(gè)人愛好,然后針對(duì)這些選民的特點(diǎn)和愛好來(lái)為特朗普的競(jìng)選廣告出謀劃策。這種對(duì)數(shù)據(jù)的處理方式實(shí)質(zhì)上就是“數(shù)據(jù)+理論驅(qū)動(dòng)”的方法,通過(guò)個(gè)人的講話、表情、態(tài)度、舉止,結(jié)合“大五人格”理論體系,通過(guò)分析,就能判斷出這個(gè)人的性格、喜好,然后根據(jù)這個(gè)人的人格特點(diǎn)和習(xí)慣愛好有針對(duì)性的將信息置入到社交網(wǎng)絡(luò)中,從而達(dá)到了用戶毫無(wú)察覺的情況下被灌輸了某種思想,達(dá)到改變用戶心理的目的。改變用戶心理的這一操作在商業(yè)中或許是很好的營(yíng)銷宣傳手段,但要是在政治中那就很可怕了,這也就是為什么人們會(huì)把其稱為“竊國(guó)者”的原因。
在第二次世界大戰(zhàn)中,納粹德國(guó)的宣傳部長(zhǎng)戈培爾就曾說(shuō)“謊言重復(fù)千遍就是真理。”值得我們思考的是,如果像劍橋分析公司那樣將大數(shù)據(jù)與人工智能結(jié)合起來(lái)去向用戶精準(zhǔn)投放虛假消息或某種思想,一旦時(shí)間長(zhǎng)了其結(jié)果就可能會(huì)使戈培爾的理論變?yōu)楝F(xiàn)實(shí)。
美國(guó)麻省理工學(xué)院傳媒實(shí)驗(yàn)室的3位研究者,通過(guò)大量的研究,在2018年3月發(fā)表了一項(xiàng)關(guān)于“假新聞”(fake news)傳播與影響的研究報(bào)告。他們根據(jù)近十幾年來(lái)十多萬(wàn)份的虛假新聞在推特(Twitter)上的傳播情況進(jìn)行了大規(guī)模的搜集整理,對(duì)大量的數(shù)據(jù)進(jìn)行了分析研究,得出了以下結(jié)論:虛假新聞通過(guò)傳播媒介在大眾中擴(kuò)散的速度比真實(shí)的新聞快得多,傳播的深度和廣度也是真新聞拍馬也趕不上的,在這些虛假新聞中,關(guān)于政治類的虛假新聞?wù)紦?jù)了大部分的比例。
根據(jù)他們所羅列的數(shù)據(jù)我們可以看到,從2006至2016近10年間,他們所收集到的虛假新聞被約300萬(wàn)顧客瀏覽過(guò),次數(shù)超過(guò)450萬(wàn)次。他們又將1 500個(gè)顧客作為一個(gè)標(biāo)準(zhǔn),來(lái)檢驗(yàn)虛假新聞的傳播速度,結(jié)果發(fā)現(xiàn),虛假新聞的傳播時(shí)間大約為10個(gè)小時(shí),而于此相對(duì)照的真新聞傳播時(shí)間近60個(gè)小時(shí),而虛假新聞的轉(zhuǎn)發(fā)率也比真實(shí)新聞高70%,虛假新聞主要由顧客自己進(jìn)行傳播分享,而不是由“機(jī)器人”賬戶自動(dòng)傳播。眾多的顧客用戶之所以喜歡分享假新聞,不僅僅是因?yàn)樗勇柸寺犅劊有一個(gè)原因是現(xiàn)代人們的碎片化閱讀習(xí)慣所導(dǎo)致的。
麻省理工學(xué)院傳媒實(shí)驗(yàn)室在4個(gè)方面進(jìn)行了分析比較:
一是傳播深度,傳播深度也可以叫做轉(zhuǎn)發(fā)的“層級(jí)”。打個(gè)簡(jiǎn)單的比方,信息由A用戶轉(zhuǎn)發(fā)給了B用戶,而B用戶也將相同的信息又轉(zhuǎn)發(fā)給了C用戶,那么信息的傳播深度就是三,假新聞的傳播極限深度可以超過(guò)19層,而大多數(shù)的真新聞基本不會(huì)超過(guò)10層。
二是傳播人數(shù),也就是參與轉(zhuǎn)發(fā)的賬號(hào)數(shù)量,真新聞能被多少人轉(zhuǎn)發(fā),確切的人數(shù)一般不超過(guò)1 000人,但是假新聞卻可以超過(guò)1 000到10萬(wàn)人。從傳播速度上來(lái)看,要傳播到1 500個(gè)人,真新聞所消耗的時(shí)間是假新聞的6倍。
三是傳播寬度,是指在同一傳播層級(jí)上,參與信息轉(zhuǎn)發(fā)的最多人數(shù)。真實(shí)新聞的傳播寬度僅僅超過(guò)1 000人,而假新聞最多的時(shí)候能達(dá)到好幾萬(wàn)。
四是結(jié)構(gòu)性的病毒式傳播力(structural virality),是研究者計(jì)算出來(lái)的一個(gè)數(shù)值,不出意外,假新聞同樣勝出。
這一報(bào)告中作者之一的蘇魯什·沃索基對(duì)這樣的現(xiàn)象是這樣說(shuō):“假新聞的內(nèi)容與人們對(duì)世界的期望完全不一樣,而這也許是它更驚人的原因之一。假設(shè)某些人所制造謠言,與大家所期待的相悖,但得到轉(zhuǎn)發(fā)的可能性反而會(huì)更高。”[1]尤其,是在碎片化閱讀習(xí)慣盛行的當(dāng)下,人們只愿花一小部分時(shí)間去接受知識(shí),這就使得像是“劍橋分析”這樣的公司有了可乘之機(jī),阿道夫·希特勒在其自傳《我的奮斗》(Mein Kampf)②中說(shuō)“一切的宣傳都應(yīng)該求其通俗,以知識(shí)水平最低者的接受能力為標(biāo)準(zhǔn)。所以,為了使接受我們觀點(diǎn)的人更多,那么灌輸給他們的知識(shí)標(biāo)準(zhǔn)也就必須相應(yīng)越低。”現(xiàn)階段,如果某些人將希特勒式的宣傳方式與現(xiàn)代社會(huì)高度發(fā)達(dá)的人工智能、數(shù)據(jù)相結(jié)合將內(nèi)容通俗化、觀點(diǎn)簡(jiǎn)單化,并使其循環(huán)式的置入信息,那么我們絕大多數(shù)的受眾都將會(huì)深受其害,被利益集團(tuán)所操縱。
大數(shù)據(jù)時(shí)代的到來(lái),改變了太多的東西,對(duì)我們現(xiàn)行的諸多制度帶來(lái)了巨大的挑戰(zhàn)。在美國(guó)總統(tǒng)大選中,傳統(tǒng)的競(jìng)選方式和途徑,還有劍橋分析這樣把各國(guó)選舉當(dāng)作生意的公司介入,己經(jīng)讓美國(guó)的政治生態(tài)發(fā)生了混亂,“通俄門”到現(xiàn)在已經(jīng)完全不是特朗普一個(gè)人的選舉問題了,而是美國(guó)政治在大數(shù)據(jù)時(shí)代,如何進(jìn)行有效重構(gòu)的問題了。技術(shù)方面的巨大發(fā)展對(duì)政治形態(tài)的改變,在一定的條件下有時(shí)候是非常激烈的,這是因?yàn)樵诩夹g(shù)長(zhǎng)足的進(jìn)步下,極深刻地改變了人的生存狀態(tài)和思維狀態(tài)。
3 大數(shù)據(jù)時(shí)代所勾勒出的隱私危機(jī)
當(dāng)大洋彼岸的Facebook的數(shù)據(jù)泄露問題反饋到中國(guó)市場(chǎng)時(shí),所引發(fā)的關(guān)注度,顯然要比在美國(guó)引發(fā)的關(guān)注度要小得多。這一現(xiàn)象,在李彥宏看來(lái)就是:在中國(guó)的互聯(lián)網(wǎng)市場(chǎng),用戶對(duì)其隱私的態(tài)度與西方不完全相同,在中國(guó),相當(dāng)比例的用戶有時(shí)為了方便或省事,他們大多數(shù)情況下是愿意用所謂的隱私來(lái)進(jìn)行交換的,這也是李彥宏觀點(diǎn)的立論基礎(chǔ),現(xiàn)階段的中國(guó)大數(shù)據(jù)市場(chǎng),被百度、阿里巴巴、騰訊這三大互聯(lián)網(wǎng)公司牢牢掌握,誰(shuí)又能保證它們是安全的呢?百度起先是做搜索引擎起家的,但其對(duì)于用戶信息的收集及運(yùn)用那可是游刃有余。這也就為李彥宏的“中國(guó)用戶隱私廉價(jià)”提供了客觀的支持。
我們可以舉一個(gè)司空見慣的例子,當(dāng)你用你的電腦在百度上搜索了一件東西,以后只要你在你的電腦上隨意打開任一網(wǎng)頁(yè),旁邊彈出的彈窗廣告的內(nèi)容一定是你曾搜索的相關(guān)產(chǎn)品,這樣的情況,如果用心思考一下,你就會(huì)毛骨悚然,在互聯(lián)網(wǎng)面前,你幾乎是毫無(wú)隱私的。顯而易見,在中國(guó)這么做的決不是只有百度,而是一大批還沒有形成保護(hù)隱私意識(shí)的中國(guó)的互聯(lián)網(wǎng)企業(yè)家們。在他們看來(lái),這樣做給你買東西提供了方便,也給商家提供了便利,是利人利己的一件好事。但是這一切都基于一個(gè)前提:大規(guī)模的收集用戶數(shù)據(jù),而這些用戶數(shù)據(jù)是不是用戶隱私,可不可以隨便商業(yè)應(yīng)用,在中國(guó),都還是一個(gè)問題。
從一個(gè)普通消費(fèi)者的角度出發(fā),來(lái)看互聯(lián)網(wǎng)公司的行為,說(shuō)是一種社會(huì)心理的不斷麻木過(guò)程,或許更加合適。當(dāng)一個(gè)個(gè)騷擾電話,一個(gè)個(gè)垃圾短信不停在你耳邊響起時(shí),我們可以想象得到你的憤怒表情,你一定會(huì)質(zhì)問,誰(shuí)把我的手機(jī)號(hào)碼給泄露出去了,在中國(guó)數(shù)據(jù)泄露已經(jīng)是見怪不怪的無(wú)奈情況下,而我們廣大的用戶對(duì)此又是毫無(wú)辦法。這根本不是我們中國(guó)用戶廉價(jià),而是在BAT(百度、阿里巴巴、騰訊)等大公司面前,在他們所謂的“與人方便”“與己方便”經(jīng)營(yíng)信條下,中國(guó)的用戶們沒有另一個(gè)選擇罷了。
既然假新聞天生比真新聞更有傳播力,那也就意味著我們不能放任它們?cè)谄脚_(tái)上自由競(jìng)爭(zhēng)。否則,勝出的肯定是假新聞。對(duì)于事實(shí)核查中,費(fèi)斯廷格(Leon Festinger)的認(rèn)知不和諧理論③中,就曾對(duì)此詳細(xì)的論述,他明確的指出,由于人們?cè)谡J(rèn)識(shí)上己經(jīng)存在了先入為主的意識(shí),所以他們更加愿意接受自己內(nèi)心相信的東西,就算是這一個(gè)虛假的信息,他們也愿意相信。也就是說(shuō),如果把與他們認(rèn)識(shí)相違背的真相擺在這些人的面前,他們也不會(huì)選擇相信。我們每天都要面對(duì)成千上萬(wàn)的信息,我們對(duì)其進(jìn)行干預(yù)及限制的方法有兩種:第一種思路是提高個(gè)體辨識(shí)新聞?wù)婕俚哪芰Γㄌ峁└嗟氖聦?shí)核查信息,以及進(jìn)行媒介素養(yǎng)、批判思維方面的教育;第二種思路是加強(qiáng)對(duì)社交媒體平臺(tái)的監(jiān)管力度,從信息傳播的層面進(jìn)行干預(yù),主要是對(duì)算法進(jìn)行干預(yù),所謂的算法,就是對(duì)相關(guān)的信息內(nèi)容不是按照出現(xiàn)的先后來(lái)排列,而是互聯(lián)網(wǎng)公司根據(jù)內(nèi)部設(shè)定一定的規(guī)則自動(dòng)為你過(guò)濾和排列的,這種規(guī)則就是算法。
怎么樣更好的控制API④端口的信息獲取及由誰(shuí)來(lái)獲取是值得我們?nèi)ニ伎嫉膯栴}。在處理這些信息的同時(shí),這些平臺(tái)在商業(yè)利益之外,還需承擔(dān)相應(yīng)的道德責(zé)任和社會(huì)責(zé)任。
社交媒體平臺(tái)徹底改變了我們對(duì)外界信息的接收方式,如何更好地利用和發(fā)揮這一平臺(tái)在信息傳播方面的主導(dǎo)作用,最大程度的減少它被假新聞污染的可能性,這就要求我們一定要基于事實(shí),對(duì)這一平臺(tái)運(yùn)行方式和規(guī)律進(jìn)行科學(xué)的考察和評(píng)估,然后制定這一領(lǐng)域的監(jiān)管政策。
注釋
①The spread of true and false news online. Science,09 Mar 2018:Vol. 359, Issue 6380, pp. 1146-1151.
②這是希特勒于1925年出版的自傳,在德國(guó)則只能購(gòu)買到《我的奮斗》的“評(píng)論版”(9:76—77).
③費(fèi)斯廷格(Leon Festinger)美國(guó)著名社會(huì)心理學(xué)家,他曾提出“選擇性注意、選擇性接觸、選擇性記憶”等理論思想。
④API(Application Programming Interface)是一些預(yù)先定義的函數(shù),目的是提供應(yīng)用程序與開發(fā)人員基于某軟件或硬件得以訪問一組例程的能力,而又無(wú)需訪問源碼,或理解內(nèi)部工作機(jī)制的細(xì)節(jié)。
相關(guān)范文閱讀:新聞媒體中隱藏的網(wǎng)絡(luò)輿論風(fēng)險(xiǎn)與應(yīng)急處理
傳統(tǒng)媒體的話語(yǔ)權(quán)為新聞機(jī)構(gòu)控制了許多輿論風(fēng)險(xiǎn),社交媒體形成的網(wǎng)絡(luò)輿論也改變了以往的話語(yǔ)權(quán)格局,新聞機(jī)構(gòu)也是網(wǎng)絡(luò)輿論監(jiān)督的對(duì)象。然而在如今社交媒體中,存在著版權(quán)糾紛,這些都是導(dǎo)致媒體危機(jī)事件的原因,因此需要樹立一定的風(fēng)險(xiǎn)意識(shí),通過(guò)應(yīng)急管理措施才能降低相應(yīng)的輿論風(fēng)險(xiǎn),也不損害媒體聲譽(yù)。