實驗表明,非中國大陸地區註冊的微信號也遭管控。(圖片來源:Adobe Stock)
【看中國2020年5月20日訊】「公民實驗室」2020年5月7日發布報告指出,中國最流行的社交媒體軟體微信是對平台上的文檔和圖像內容實施監控,並使用監控所得的數據訓練其審查系統。以下是對該報告的概述,以及與研究團隊的一些常見問答。
研究摘要
微信監控非中國大陸區註冊賬號,並利用非中國大陸區賬號之間的聊天記錄,訓練微信針對中國大陸賬號的審查系統。
此前我們的研究發現微信針對使用中國大陸手機號碼註冊的賬號進行審查。不在中國大陸的用戶可能會認為微信針對政治內容的審查和監控並不會影響到他們。然而,在最新的研究中,我們發現微信國際賬號之間的通訊會被監控,通訊中的政治敏感內容會被用於訓練和擴大微信針對中國大陸賬號的審查。我們通過技術分析,發現此監控針對通訊中的文檔和圖像內容。目前我們無法得知文字信息是否受到同樣的監控,我們提示用戶存在這種可能性。
監控和審查均不會提示用戶,缺乏透明。
本研究顯示微信對中國大陸賬號以及非中國大陸賬號實施內容監控。非中國大陸區賬號之間的內容監控幾乎無法被察覺,除非用戶自行進行審查測試,而大部分個人用戶並不會主動測試。
微信對外公開的政策協議文件,個人信息請求,及微信的隱私專員均沒有表明或解釋微信會進行內容監控。
本報告對微信公開的政策協議文件進行了內容分析,發起了數據主體訪問請求,並向騰訊數據保護專員提出了相關問題。我們試圖通過這些研究方法,瞭解騰訊公司的政策文件是否明確授權了我們發現的監控行為,以及有關專員能否對這些行為作出解釋。以上方法均無法為我們在技術測試中發現的監控行為提供合理充分的解釋。
與研究團隊的常見問答:
1、微信如何進行審查?
此前我們的研究發現,微信針對使用中國大陸手機號碼註冊的賬號進行關鍵詞和圖片審查。
微信通過伺服器端進行內容審查,審查機制存儲在伺服器上。信息從一方微信用戶發送到另一方時,它會途徑騰訊(微信的母公司)管理的伺服器,伺服器在把信息傳遞到接收方時會先檢查該信息是否含有敏感詞。
含有敏感詞的信息會被屏蔽,微信不會對信息發送方或接收方進行屏蔽提示。我們做了一個測試:一個賬號試圖發送關鍵詞法輪功,該關鍵詞被屏蔽,但沒有任何信息提示發送者或接收者信息被屏蔽了。
2、中國大陸微信賬號與非中國大陸微信大陸賬號有什麼區別?
中國大陸賬號指的是最初註冊時使用中國大陸手機號碼註冊的微信賬號。非中國大陸賬號指的是最初註冊時使用任何除中國大陸以外的手機號碼註冊的微信賬號(比如使用加拿大或者美國手機號碼註冊的微信號)。
中國大陸註冊賬號適用的是中國大陸地區管轄區(主要是深圳市)的用戶協議,並且會受到內容審查;
非中國大陸賬號適用的是除中國大陸以外的管轄區(主要是新加坡)的用戶協議。
此前研究指出,非中國大陸賬號不受審查影響。不過我們最新的研究表明,非中國大陸賬號之間的文檔和圖像傳輸會受到監控,含有政治敏感內容的文檔和圖像會被添加到針對中國大陸賬號的審查列表中。
3、你是如何發現非中國大陸賬號存在被監控行為的?
我們曾被問非中國大陸註冊賬號是否只要不與中國註冊賬號通訊就不存在針對政治內容的監控。根據我們的研究,非中國大陸註冊賬號之間的通訊不受審查,所以我們當時的回答是我們認為非中國大陸註冊賬號之間的通訊也不受監控。然後我們開始好奇,如何用科學的方法測試是否不存在監控?
監控甚少無緣無故地發生,很多時候實施監控是為了其他目的,比如用來完善日後的審查機制等。基於此前的研究,我們知道微信如何通過監控圖像和文件來自動過濾敏感內容。研究非中國大陸註冊賬號的困難在於,非中國大陸註冊賬號之間不存在內容審查,所以要測試它們是否受監控我們必須使用兩個不同的聊天環境:第一個是非中國大陸註冊賬號之間的聊天環境,用以觸發監控;第二個是含中國大陸註冊賬號在內的聊天環境,用於監測審查變化。
當我們在僅含有非中國大陸賬號的聊天環境中發送政治敏感內容,我們觀察到第二個聊天環境中審查內容有所增多,這表明第一個聊天環境中的內容是受到監控的,即使它並不含有任何中國大陸賬號。
4、微信如何分析、標示、並存儲敏感文件?
文件會被掃瞄是否存在敏感文字。圖像也會被掃瞄是否含有敏感文字,此外,圖像還會被與系統現有的敏感圖庫比對,分析目標圖片是否與圖庫內的其他圖片相似。如果文件被系統定義為政治敏感,文件的MD5值會被標示。微信會儲存這個MD5值,以備下次更有效率地過濾這些文件。
微信通過消息摘要演算法版本5(MD5 hash)來迅速辨識並標誌敏感內容。MD5值是什麼?
MD5是一種數字指紋。MD5演算法可以用來把體積大的文件縮小至一個哈希值。哈希值通常由一個短的隨機字母和數字組成的字元串組成。按照MD5演算法的不可逆性和唯一性設計,不同的文件應該擁有不同的MD5值,但實際上該演算法存在漏洞。
由於微信使用MD5演算法存儲敏感文件的哈希值,我們利用了演算法的漏洞來設計本研究。我們把兩份內容不同的圖像文件修改成一樣的哈希值,其中一張圖像含有政治敏感信息,另一張是普通的圖像文件。
我們的測試顯示,敏感圖像在非中國大陸註冊賬號中傳輸後,擁有一樣哈希值但是不含有敏感信息的圖像在中國大陸註冊賬號中被審查了。測試結果表明,非中國大陸註冊賬號間的通訊必然存在監控,因為非敏感圖像的數字指紋不可能被微信系統標示成敏感信息。
5、這項研究存在哪些不足之處?
其中一個不足指出是,我們的技術分析只能表明圖像和文件是否被監控。我們目前無法得知文字通訊信息是否被監控。在沒有實質性證據前,我們提示用戶有這個可能性。
另一不足之處是我們的研究時間跨度數月。雖然我們持續穩定地觀察到針對非中國大陸賬號的監控行為,但我們無法判斷這種監控行為是否恰好在我們研究進行的時期出現。這種監控行為也有可能已存在數年,或者一直存在。
6、對於微信非中國大陸註冊賬號的用戶來說,這項研究的結論意味著什麼?
在中國大陸以外的微信用戶或許會以為微信的審查和監控機制並不影響他們。但是,我們的研究表明,用戶不僅會因為政治敏感內容受到監控,用戶所發的內容也會被用於訓練微信針對中國大陸註冊賬號用戶的審查系統。
7、這些研究結果是否意味著中國政府在監控微信的國際用戶?
根據中國網路安全法,中國政府有權以國家安全和偵查犯罪為由要求網際網路公司提供其接收到的或存儲的信息。具體就微信而言,其中國用戶適用的是中國大陸的用戶協議以及隱私政策,而國際用戶適用的是基於新加坡的用戶協議和隱私政策。我們研究的初衷是希望瞭解這些簽訂基於新加坡的用戶協議及隱私政策的微信國際用戶之間的通訊時候會被分享和傳輸到微信位於中國的團隊,或者騰訊其他位於中國的子公司。我們希望藉此瞭解微信國際用戶的通訊是否不受諸如微信針對中國大陸用戶的監控。
我們的實驗顯示微信國際用戶之間的交流通訊,會被用於擴建微信針對中國大陸用戶的審查系統。然而,我們的研究無法支持騰訊與中國政府分享微信國際用戶通訊記錄這樣的說法。雖然我們的研究表明微信對國際用戶實施內容監控,但我們沒有其他確切證據明晰哪些內容被監控,監控的所有動機,以及微信與誰或哪些機構分享了這些監控數據。
8、難道不是所有的社交媒體平臺都或多或少存在監控嗎?微信和其他社交媒體平臺的行為有什麼不同嗎?
本報告之所以特別指出微信存在的監控行為,是因為監控的內容的特殊性,監控針對的是在中國被視為政治敏感的內容。這當中包括批評政府以及呼籲人權關注的內容。
微信的內容監控之所以獨特,是因為所監控的內容對象不同,而且微信的監控系統也是有所選擇地對用戶實施。我們的研究顯示非中國大陸微信賬號之間傳輸的內容會受到監控,其中政治敏感的內容會被用於訓練和擴大微信針對中國大陸賬號的審查。
據我們所知,目前社交媒體平臺所採用的監控系統中,只有微信是利用對一類用戶實施監控所獲得的數據來增強其對另一類用戶的監控和審查。
9、中國的內容管控範圍有多廣?
中國有一套針對網際網路,應用程序,和媒體的內容管控系統。所有在中國境內運營的網際網路平臺都必須遵守當地針對內容管理的法律法規。網際網路公司須對平台上的內容負責,如果內容不當,公司會面臨被罰款或者運營牌照被吊銷的後果。
這個系統的複雜之處在於當地與內容管理相關的法律法規界定模糊。比如,擾亂社會秩序,破壞社會穩定的內容是不被允許的,但對於什麼內容擾亂社會秩序,破壞社會穩定沒有明確定義。網際網路公司可能會在重大事件期間收到政府指令,但我們的研究顯示中國目前並沒有一份集中下發到公司的統一的關鍵詞表。
公司需要自行審讀有關條例和政府指令,自行鑑定如何過濾內容以及具體哪些內容需要被過濾。我們過去的研究顯示,微信會在敏感時期和重大事件期間會廣泛地審查內容,比如最近針對疫情的討論。
10、這項研究與此前針對病毒的審查研究有相關之處嗎?
我們上一份報告指出微信廣泛審查與病毒有關的內容。因為微信採取一APP兩制的審查系統,審查影響所有使用中國大陸手機號碼註冊的用戶。
這一份報告指出的是,微信的內容管控並不限於中國大陸註冊賬號。微信針對非中國大陸註冊賬號進行了內容監控。我們並沒有測試與新冠病毒相關的內容是否被監控和增加到針對中國大陸賬號的審查列表中,但我們的研究結果表明微信有能力這樣做。
測試顯示,一名用戶試圖發送同時含有美國疾控中心和冠狀病毒的信息,但由於美國疾控中心和冠狀病毒這兩個片語成了敏感片語,中國大陸微信賬號並沒有收到這些信息。
11、你們未來的研究計畫是什麼?
本次報告我們發現了微信如何在國際用戶中監控文件和圖像傳輸,我們會持續本項研究,並關注類似的監控行為是否發生在文字傳輸中。