這項實際上屬於通用語義立場判斷系統的網路過濾技術,其基礎是HNC自然語言處理技術(國家「973」計畫項目G1998030506)。該技術以中科院聲學所黃曾陽研究員創立的概念層次網路(簡稱HNC)理論為指導。HNC理論認為:自然語言理解的本質是概念聯想脈絡激活、擴展、濃縮、轉換與存儲的全過程運作。換言之,這一處理方案,使計算機能夠理解自然語言的概念,在「懂」的基礎上完成對自然語言的各種處理。該技術在漢語語句理解處理方面居國際領先水平(注意,這裡指的是HNC技術,不是「法輪功內容審查系統」)。
我雖然不是什麼專家,不過這個「法輪功內容審查系統」的描述實在是荒謬的可以,特別是竟然聲稱可以進行意識形態過濾,很想聽聽研製者是怎麼解釋的。電話打過去,我提出了我認為這個系統是不可能實現的理由。
一個語言概念識別系統,必須對被識別的系統有深入的理解。而對一個完整理論體系的理解,會帶有研究者非常強烈的主觀色彩,即不同的研究者會得出完全不同的結論。因此,採用那一種理解是最困難的。至於編程部分反倒是最簡單的了。因此,在中國當前學術研究受政治干擾,基本沒有研究自由的情況下,對世界重大的哲學宗教體系的研究是很落後的。比如中國宗教研究所所長就曾撰文指出對神的信仰是很可笑的(這也叫宗教研究?)。這就注定了在目前,就意識形態而言,語言概念識別系統只能在句子和段落的水平上進行最原始的識別,也就是比關鍵詞過濾稍微好一點吧。這個識別系統當前在意識形態方面的有效應用領域是極其有限的。
當然人是最不能承認自己的研究成果是一堆廢物。一位參與研製的人士很專業的和我談起計算機語義識別的原理,用了很多我不懂的術語。我直截了當地告訴他,任何計算機系統,在當前只能是對人的識別的拙劣模仿,特別是在意識形態上(像棋這類只牽涉到機械步驟的除外)。因此,在讓計算機識別前,得有人先來識別,由人餵給計算機一個標準。問題是,誰來定這個標準,誰有能力給任何一個理論體系定一個量化的標準?在我重複了三遍以後,這位終於承認這個問題超出了他的理解能力。
這還是對已經成熟了的理論體系的研究。而法輪功問題更有其獨特性。最大的和這個審查系統有關的特點是,法輪功的教導,和江集團在鎮壓時所說的法輪功的教導完全是風馬牛不相及的。因此,在建立「概念」時,第一步就遇到困難:是建立法輪功自己的概念呢,還是建立中共喉舌強加給法輪功的概念?如果使用後者,那就封不了法輪功的信息,如果用前者,那所有相關人員就必須下功夫認真研究法輪功的書籍和文章。而今天在中國,可以說根本就沒有關於法輪功的研究,任何研究都不能超出官方的口徑。就憑聲學所這些人能研究出個什麼名堂?不要說聲學所,就是社科院又怎麼樣?其結果會是什麼呢?可能有人因此而知道了法輪功的真相,這可和開發者的初衷大相逕庭了。還有一種可能,就是把研究者逼上絕路。
大凡人都不願意承認自已在有意識的做壞事,所以總要找個冠冕堂皇的理由。所以警察就閉上眼睛說自己在執行法律,所以寫文章的只能對政府告訴他們的其實並不屬於法輪功的「理論」來加以「批判」,他們可以不用去研究真正的法輪功是怎麼回事。而要做「概念分析」,就得真的知道法輪功教人的是什麼。而當他們搞清楚法輪功其實是教人做好人,而不是政府說的教人「自焚」「殺人」時,就不再有任何理由為自己的行為辯解。也就是說,他們必須明明白白的做壞人,明明白白的知道自己在助紂為虐,明明白白地把良心出賣給魔鬼。如果這個人道義尚存,那不是讓他一輩子背上良心的重負?那不是把他逼上絕路?
至於產品本身,大概就是能識別一些觀點和表達都非常明確的句子和短段落。再就是騙騙中新社記者那樣的低能兒和「評審委員會」的官僚們,再多花一點人民的血汗錢。當然,也有可能由政府出面強迫各單位購買這一偽劣產品。不過,賺這種昧良心的錢是要還的,要還的就遠遠不止是這點錢了。