典型的Flickr「詞海」—Word Cloud或稱Tag Cloud。
「Web 2.0 ─ 從一系列網站到一個成熟的、為最終用戶提供網絡應用的服務平台 ─ 它的特點是鼓勵作為資訊最終利用者透過分享,使到可供分享的資源變得更豐盛。」《維基百科中文版》Web 2.0的使用量激增,為全球的網絡文化帶來了巨大的轉變。現今的全球資訊網系統(World Wide Web)或簡稱互聯網,已經不再是單單一個網上瀏覽資訊的工具,更是一個能讓用戶作即時性、與他人互動的資訊交流平台,「知識進化」的哲學理論。以維基網上百科全書為例,用戶自由地、無限制地參與該百科全書的編輯。在這種趨勢下,使到互聯網上資訊的擁有權,從單一地屬於資訊擁有者或網主,易手至網絡使用者身上。
在Web 2.0的網絡文化下,就著網絡使用者的喜好和興趣而聚集起來的網上社群逐漸增多,並正在互相影響著。典型的網上交流渠道包括用於網上互動聊天的微軟網絡(MSN)、交友網站Friendster、作為知識及意見交流的網上日誌(Weblog)等,這些大大小小的虛擬社群包含了來自不同文化背景、擁有不同學歷的人士,通過虛擬社群(e-Communities)的結合及融會,便成了虛擬社會(e-Society)。與現實社會一樣,當不同信念、興趣、價值觀的人聚集在一起時,少不免會出現意見不一、分歧甚至紛爭;不同的虛擬社群會利用不同的方法去應付這些情況。但當中不乏有人選擇較為激進的方法,如郵件炸彈、散播電腦病毒等。現實世界中要對付暴力行為及罪案,政府扮演了一個很重要的角色,它會盡力去明白問題的所在,以及聆聽市民的訴求,務求制定有效的政策及其配套以滿足市民的需要;這種責任感在虛擬社會中絕對不能缺少。因此網上電子政府(e-Government)需提供服務予網民(e-Citizens),並耹聽他們的要求,以此締造一個和諧健康的網上環境,使網民「安居樂業」。
怎樣去理解電子市民的行為呢?本文介紹針對此課題而研發的兩種尖端科技─「社會網絡分析」(Social Network Analysis)及「意見採集」(Opinion Mining)。
社會網絡分析
「社會網絡分析是一種研究網上用戶及資源之間的互動聯繫的技術......研究成果是能於網上協助聯繫志同道合的朋友、商業伙伴及其他使用者,使各方都能在互動之下獲益。」《維基百科英文版》
基本上,社會網絡分析並不是一個新的概念,在社會科學的領域上已被廣泛應用。社會科學家經常設計一些程式或系統去解釋人與人之間的關係,並試圖找出個人或人際關係在網絡中的特質,例如:
─連接性模型(Connectivity Model):在網絡上人如何與人連接。
─向心性模型(Centrality Model):人如何在網絡上成為其他人的焦點。
─權威性模型(Authoritatively Model):人如何在網絡上引導其他人。
在互聯網上,人們與物件組成了虛擬社群,他/它們在網絡上不停互動。簡單來說,以下幾種是常見的模式:
─人與人之間的互動(People-People Interactions):例如在MSN中用戶可以互相加入對方的地址庫。
─物與物之間的互動(Object-Object Interactions):例如網上日誌引述另一網誌的內容。
─人與物之間的互動(People-Object Interactions):例如用戶利用Flickr上載相片。
─物與人之間的互動(Object-People Interactions):例如網上電子繳費服務。
在人與物互動期間,會產生大量數據,這些數據為以後的應用提供了寶貴的資料。例如電子客戶關係管理系統(e-CRM Customer Relationship Management)能夠替一本新書尋找讀者;電子商貿(e-Business)能夠作出銷售預測;網絡安全系統(e-Security)能夠在虛擬世界內找出有潛在危險的個體或群組;電子政府(e-Government)能加強與網民(e-Citizens)之間的聯繫等等。
傳統的社會網絡分析,多是以問卷或面談訪問形式從小部份人口收集數據,這形式在今日的互聯網世界內不大可行,因為這牽涉到數千、甚至數萬的人、物及當中的互動,加上傳統的統計方式效率較低,試想像在Flickr的「詞海」(Word Cloud)當中,字詞的重要性會依照它被使用的次數來決定;在這原則下,單憑字詞的出現頻率便判斷此物品的重要性;但Flickr忽略了個別用戶的權威性,在現實中不同人所採用的字詞帶有不同的價值,例如專業用戶使用的詞按理應比一個新手所用的重要,所以計算時應該較著重前者。所以用於網上世界的社會網絡分析應考慮到人與人、物與物,以及人與物的相互關係。
再來看看在網誌上發貼這個例子,如果一篇網誌吸引了很多人前來觀看並引起激烈的討論,它會被視為有「權威性」(Authoritative)。但一個很多人到訪的網誌並不等於它一定是正面的,一些所謂受歡迎網誌背後的原因,可能是因為其富爭議性甚至挑釁性的話題。要分辨一個網誌是正面而有權威性,還是負面且富爭議性,這是簡單的統計學能力以外的範疇了,需要利用意見採集(Opinion Mining)技術,去深入了解每一個網誌的詳細內容。
意見採集
意見採集(Opinion Mining)是一門新興的研究,是資訊檢索與計算語言學的交叉口,所著重的不是文章的本身,而是文章所帶出的意見。
意見採集令網上的內容分析(Content Analysis)更準確、更容易理解,它常被應用於網上自動評估。評估(Evaluation)是社會進程中一個慣常用於衡量他人或物品價值的做法:如學生評估他們的教授、顧客評估產品及服務、評論家評估會議成果或學術文章等。出名的評論網站有書評網站亞馬遜(www.amazon.com)和影評網站Imbd(www.imbd.com)。實際上,評估是人與人或人與物之間有效的互動工具。
在還是Web 1.0的世代,無論是產品或是服務的資料,都是由生產商或服務提供者全權擁有,在市場學的角度,互聯網被商家廣泛作為推廣他們產品的平台。正因如此,在Web 1.0下商品資料常被質疑。再者,在常見的顧客行為(Customer Behavior)中,顧客經常參考專家或有經驗用家的意見來作購買的決定;但是在非網絡世界中,要請教大量的專家根本是不可行的。Web 2.0的降臨正正打破了這個困局,它提供了一個專家/用戶互動式的溝通平台。網誌自動分析系統是意見採集的最終目標。以下是一句典型的網誌意見:
「黑色的摩托羅拉V3手提電話非常輕巧但是它的RT不太清晰。」
簡單來說,意見採集包含下列幾個程序:
(一)目標詞抽取(Target Phrase Extraction)─為了從龐大的互聯網系統中辨別出特定的意見,必先要一個有效的系統去尋找出目標片語(phrase)。假如該片語已在字典中存在,找尋它便十分簡單直接,如例句中的「摩托羅拉V3」;但如果碰上一些意義不明的片語過程便變得十分艱難,例如RT在這裡是指電話鈴聲(Ring Tone)。目標詞抽取,正是識辨這些意義不明確詞語的技術。
(二)詞的客觀性(Term Objectivity)─當人們說出對一件物件的相關形容詞時,就正正是他對此物件的意見。例如人們會以「黑色」和「輕巧」去形容電話,以「不清晰」去形容電話的鈴聲。對物件的形容是否屬實,往往取決於該詞的客觀性;在以上的例子中「黑色」是客觀存在的,而「輕巧」及「不清晰」則是主觀的,所以並不是絕對的。
(三)詞的定性 (Term Orientation)─「定性」決定一個主觀詞是「正面」或是「負面」。在上例中,「輕巧」是正面的,而「不清晰」則是負面的。再者,留意句子中所用的連接詞「但是」,它暗示了後段句子與前段句子帶有相反意義。
(四)意見分類(Opinion Classification)─意見分類決定句子整體的取向,即這句子是正面的或是負面的。在上例的句子中可分為兩部份,前半部是正面的意見,而後半部則為負面,這樣會為系統帶來模稜兩可的尷尬情況。若用最簡單的形式去處理,系統可用句子中第一個出現的主觀詞作結論(例如「非常輕巧」),這樣便會得出正面的意見。較有效的方法是加入所有的意見及其比重,得出一個能涵括整體意見的結論。假如「非常輕巧」的比重是0.8,而「不清晰」的比重是0.6,該句子便會被視為正面。在上例中是有把「非常」這詞彙計算在內,因此該句子的正面比重是比較強的。但如何對不同的詞作分類及比重,現還是一個富有挑戰性的研究課題。
意見採集是集合「網絡採集」(Web Mining)、「自然語言處理」(Natural Language Processing)及「本體論」(Ontology)。「網絡採集」被用作抽取帶有觀點的句子;「自然語言處理」能從語法上著手進行分析,並以語義學的理論分析句義。「本體論」則以物件和字詞兩者間建造一個語義的網絡,以描述物與物、物與詞及詞與詞之間的關係。例如「書本」是由「作者」撰寫的,「鏡頭」是「相機」的一部份。還有的是,形容詞及他們的意義(例如:詞的客觀性及定性)與物件的結合,是由本體論所控制著,例如:「黑色」是從客觀性的角度去形容「長裙」,「高」則是主觀且帶有正面含義去形容「人」。
電子政府應以網民為中心
總括來說,「資料便是王者」(Data is King)正正是Web 2.0的關鍵所在。因此,政府應該投放更多資源去研究用戶在互聯網上的行為,這樣不單為其行政帶來益處,更能造福電子社群。
政府有責任照顧她的公民。互聯網是一個發展中的社會,所以電子政府(e-Government)亦有需要照顧她的網民(e-Citizens),要多留意網上不良行為,例如電子的惡意破壞,電子暴動等等;不然的話,我們未來將會是人心惶惶地在一個極不安全的環境下工作及生活。
Web 2.0 的出現已經大幅度改變了電子政府的形態,今天的電子政府更應以網民為中心,想網民所想。要滿足網客的需要,就必須要深入了解網上行為和網上文化。為此,本文就介紹了兩種尖端科技,分別為『社會網絡分析』和『意見採集』。要是能有效地運用這兩項技術,電子政府就能為網民提供理想的電子服務和網上設施,並且有效防止各種網上罪行,令與生活息息相關的虛擬世界變得更健康和諧。