悠遊卡公司在8月底販售波多野結衣的悠遊卡引起軒然大波,輿論大譁。

戴季全董事長及同仁在發表了「波多野結衣的形象很清新」、「發行波卡是照顧男性同胞的權益」等辯駁言論後,仍無法將此事止血,最終使出了殺手鐗:會推出波卡是用大數據演算的結果。亦即,民之所欲,波卡所在。批評者只是社會少數的假道學人士。但誠如謝邦彥教授日前發表的評論:大數據研析需要同理心,否則就會誤用。

從去年太陽花學運始,至九合一選舉後,行政院乃至各部會紛紛奉網路名人為大神,除邀請他們為首長傳授心法,言政策則必稱大數據,彷彿如此才讓人覺得政務官跟得上時代潮流。而號稱自己運用大數據的勝選縣市長們更是自信滿滿,彷彿擁有了復仇者聯盟的必勝武器──奧創。

然而,若忽略了政策制定背後的文本與在地性,即便依靠大數據決策,也有可能造成政治災難。戴季全的邏輯謬誤在於波多野結衣的高聲量是在個人連網載具上搜尋的結果,即私人空間下的瀏覽行為,並不表示大家願意在公共空間裡展現私人情欲。戴季全與其以大數據分析強壓社會批評的聲浪,不如想想他的分析到底哪裡出了問題?

當全球一面倒地風靡大數據的魅力時,也有許多誤用的例子,突顯大數據分析非萬能的事實。Google曾嘗試以google trend的數據推估去年流感的數目,結果發現比實際的病例數高出50%左右。這顯示民眾在社群媒體的推波助瀾下會有較高的警覺,故需要更多的資訊,但不表示其罹病。阿里巴巴集團副總裁車品覺也自傲於大數據應用:以演講場合的上網流量來評定講者的水準,流量越高即代表大家對演講沒有興趣,只顧著上網。但這樣的判斷僅是單面思考,我們不能排除也有人因對演講內容有興趣,同步上網搜尋相關資訊。

戴季全除了罔顧大數據分析的政策情境外,誤用資料及研究方法卻美其名為大數據才是其根本缺失。一般對大數據的通用定義為:大量、即時及異質資料。大數據分析乃透過多樣異質的大量資料相互比對,經除錯及校正之後,呈現特定人事物的行為軌跡。以網路聲量作為決策依據,僅應用單一同質資料,不符大數據異質特性。同時聲量指標只反映了該人物或事件被關注的程度,並不能表示瀏覽民眾贊成或反對的態度。就如同八卦小報販賣腥羶色新聞時,購買率特別高,但不代表閱聽人贊同這樣的行為。

美國較先進研究網路輿論的方法,不僅量測聲量大小,還同時檢定傳播源頭,觀察其傳播途徑及速度,並結合語意及情緒分析,進一步判讀議題的正負趨勢變化,如此才能得到全方位的資訊。故戴季全單以聲量大小作為決策的依據,誤用了大數據,更誤導了民眾以為大數據就是反道德、反社會的。

這年頭凡奉為神的,若造神過了頭,即有可能從神壇跌落至祭壇,變成祭品。網路大神,不可不慎之!(作者為元智大學資訊管理學系教授)

#大數據