信息監測篇_第四章 信息監測技能(一):如何獲取網上信息

第四章 信息監測技能(一):如何獲取網上信息

第一節 人工瀏覽

一、對新聞網站、論壇、博客等實時監測

對新聞網站、論壇、博客等傳統互聯網信息源的實時監測仍然以人工瀏覽方式為主。為了及時、高效地發現、獲取有價值的信息,在實時監測的工作中,可以遵循以下三點策略。

第一,對新聞網站、論壇、博客等信息源進行分類整理。在瀏覽器中建立好收藏夾,將出料比較多的新聞網站、論壇、博客網址都收藏在一起,並按照一定的分類標準進行分類整理,比如將新聞網站分為綜合門戶類網站、經濟類網站、思想類網站等,將論壇分為境內論壇、境外論壇等。每天工作時就直接找到該收藏夾,點擊就能進入這些新聞網站、論壇、博客進行瀏覽。值得注意的是,在瀏覽論壇的時候,可設置按時間排序,在每天都堅持瀏覽的情況下,瀏覽幾個頁麵即可,有時候,花十幾分鍾就可以快速瀏覽完當天的信息,從而不斷提高自己的工作效率。

第二,根據信息源的特點進行監測。對於網站和論壇,要掌握其結構和更新規律,針對其“出料”較多的欄目、板塊重點監測。作為一名網絡輿情分析師,了解當天的網絡熱點事件是非常重要的一項工作,新聞門戶網站的首頁和新聞頻道的首頁將是瀏覽的一大重點。除此以外,門戶網站的新聞頻道往往會對每日的熱門新聞進行排行,通過瀏覽排行欄目,往往有助於我們了解當天的網絡輿情熱點所在。比如,新浪網和網易的新聞頻道都設有排行一欄,按照點擊數量的高低,對不同類別的新聞進行了排行,新浪網還可以按照評論數量和分享數量進行排行,網易則不僅直接給出了點擊的數量,而且可以按照24小時、本周、本月進行排行。與新浪網和網易略有不同,搜狐網則可以通過“我來說兩句”欄目瀏覽當天的熱門新聞,新聞按照評論的數量進行排行。除此以外,還應該根據信息源信息量的多少,合理分配時間和精力進行監測;對於定時更新的信息源,在其更新後要及時瀏覽,確保信息的時效性,但對於更新較快的信息源,應安排多時段多次瀏覽,避免遺漏。

第三,根據工作重點需求進行監測。網絡輿情分析工作中,往往會遇到階段性任務,在特定時期內某些特定信息需求量大增。如“九一八”前後,境內論壇的涉日信息、反日遊行等成為政府部門關注重點;重大地質災害發生之後,求救求援信息、質疑地方政府救災不力、災區腐敗的聲音等信息具有很大的信息價值。每年的3月15日“消費者權益日”前後,用戶反映產品的質量問題或霸王條款侵害用戶利益等的信息會集中出現;在“五一”勞動節、“八一”建軍節、“十一”國慶節前後,網上有關特定利益群體串聯維權等的信息會增多。適時調整關注重點,有助於提高上報信息的價值。

二、微博信息的獲取

(一)建立信息來源圈,及時獲取日常熱點信息

建立屬於自己的信息來源圈,是剛接觸微博的網絡輿情分析工作者的第一步工作。“新浪微博”內置的“風雲人物榜”為入門者提供了發現熱點信息源的便利。以2015年3月19日數據為例,通過瀏覽“風雲人物榜”和各個賬號發布的微博,我們可以把關注時事並熱衷發表政見的一些網上“大V”作為關注對象,納入信息來源圈;作為發布消息的重要媒體,我們還可以將“頭條新聞”、“財經網”和“南方都市報”等加為關注對象。在累積關注對象的同時,要注意對各個活躍賬號進行分類分組,以便更好地監測管理。如在“新浪微博”、“騰訊微博”中的活躍群體大致可按以下幾類進行分組監測:一為意見領袖;二為專家學者、作家;三為維權人士;四為媒體人。

完成以上步驟,信息來源圈算是基本建成,隻要定期刷新主頁或分類瀏覽相關賬號發布的最新消息,根據消息的內容、轉發量和評論數判斷其“熱度”,就可及時“獲取”這些微博活躍群體關注的有價值熱點信息。

(二)有效利用搜索引擎,建立並不斷更新關鍵詞庫,主動“獵取”專項熱點信息

等待關注對象推送消息尚屬被動的信息獲取方式,我們還需要主動出擊“獵取”信息。通過實踐發現,與“奇虎”、“穀歌”、“百度貼吧”相比,“新浪微博”屏蔽的敏感詞相對較少,通過關鍵詞突破微博自身屏蔽,利用微博內置搜索引擎,主動獵取我們所需的特定信息,是搜集網上重要輿情,完成專項任務必須掌握的重要技能。

比如,從“王立軍事件”開始,隨著有關部門加大了對微博信息的管控力度,一些網民開始發明指代敏感人物或事件的代替詞:“王立軍”先是被拚音首字“WLJ”代替,很快演變成“王都頭”、“王總兵”、“來俊臣”(唐朝酷吏)乃至“護士長王麗娟”;最後,以“王麗娟”這一常見的中國女性名字指稱王立軍成為網民共識。類似的情況在“薄熙來事件”上重演,從“不厚”、“薄都督”、“西南王”、“平西王”到“定襄公”、“瓜爹”、“重慶火鍋”等替代詞的嬗變來看,網民“舊詞新指”的能力令人歎為觀止。網民利用各種替代詞來發布小道消息或“散布謠言”,規避管控、刪帖,對發現、搜集網絡輿情帶來了很大挑戰。網絡輿情分析師必須緊跟微博熱詞變化,不斷更新自己的“關鍵詞庫”,保持與微博網民“同步”,才能保持在第一時間發現最新輿情,在最短時間內上報最具價值的信息。再如,中央宣布薄熙來處理結果後,境內論壇、微博流傳大量政治類有害信息,這些帖文也采用各種代替詞匯影射黨和國家領導人,給網絡輿情監測工作帶來很大挑戰。

(三)門戶網站與微博結合

目前,一些重要新聞,除非被各大門戶網站放在首頁比較顯著的位置,否則網民參與度很低,回帖更是寥寥無幾,無法成為熱點信息。因此,可以首先瀏覽門戶網站,找到一些重要、敏感信息,然後再在“新浪微博”上找網民評論。例如,“中國疾控中心等權威組織審批通過轉基因牛奶”這條新聞2012年5月3日刊登在“網易探索頻道”上,網民參與度幾乎為零。但發現在“新浪微博”上被網民轉載後,網民評論短時間內達到500多條,已具備成為網絡輿情熱點的條件。

(四)跟蹤各類多媒體在微博中的新應用,迅速“抓取”新型熱點信息

囿於微博的字數限製,網民常選擇以附圖、超鏈接形式力求將消息完整地發布。而後“長微博工具”出現,將長篇幅文字轉為可縮放的圖片,完美地突破了字數限製。同時,圖片、音頻、視頻文件由於包含信息量大、審核時間長,審核難度遠大於文本信息,逐漸成為網民熱衷的規避審核、突破言論尺度的消息發布形式。越來越多的微博以“文字+附圖”形式,或是以“文字+截圖+視頻(鏈接)”形式發布,所附圖片、視頻甚至“喧賓奪主”成為微博消息的重點。這些多媒體集成應用的出現,為我們“抓取”微博熱點信息,提供了很好的機會。以下四種新型微博信息走俏微博,值得重點關注。

一是佐證型照片微博。虛擬的互聯網空間推崇“有圖有真相”,相對於純文字信息,附上相關照片往往意味著更高的真實度,更能獲得網民的認可和關注,形成持續擴散的推動力以及輿論壓力,影響事件的走向。比如,“7·23”動車事故發生後,相關部門掩埋車頭、救援不當及現場救援秩序混亂通過照片在微博曝光、擴散,網民的指責、不滿情緒彌漫國內互聯網。高層指示“盡快恢複通車”的結果,在一張現場航拍照片上反映出來:一片狼藉的事故殘骸旁,高架橋上的動車呼嘯而過。照片在微博瘋傳,將網民的不滿情緒推向極致,政府決策的正確性遭到民眾的強烈質疑。同樣,由瑪莎拉蒂豪車、LV名包等奢侈品拉開序幕的“郭美美事件”中,“眼見為實”的圖片挑動網民神經,一個炫富事件迅速演變成紅十字會的公關危機,直至紅十字會被迫在財務公開、透明度方麵做出改進。2012年,自稱“美得驚動黨中央”的“二炮劉園園”微博炫富,與軍人形象不符的作風經過微博放大,把解放軍第二炮兵推向輿論風口浪尖,致其形象大受損害。此外,學者於建嶸發起的“隨手拍解救流浪兒童”,網民發起的“隨手拍各地政府豪華辦公樓”、“隨手拍軍(公)車私用”活動,借助照片的直觀和真實性,在網民中引起較高的關注,這些都值得我們注意。

圖4-1 “7·23”動車事故

圖4-2 郭美美炫富

二是針砭時弊型漫畫微博。時政漫畫在我國曆史悠久,現代漫畫在清末民初興起,至今已有百年曆史。民國時期著名漫畫家華君武就曾在各大報章發表大量時政漫畫,以畫筆作為武器表達對社會黑暗、吏治腐敗的不滿與控訴。在“微時代”,時政漫畫借助微博這個新平台,煥發出新的生命。漫畫看似寥寥幾筆,往往本身已經包含對某事件、某種現象的褒貶,且其“隻可意會”的特點令其可以最大程度規避微博對言論尺度的控製。時政漫畫家緊跟最新國內外重大事件,通過作品表達對事件的褒貶臧否,引起網民熱議、共鳴,成為網民宣泄情緒的一個新途徑,也成為觀察網民情緒的新載體。

圖4-3 網上流傳的一張新聞標題的對比圖片

三是拚圖對比型微博。在互聯網時代,消息新聞往往會保存在虛擬空間,通過搜索引擎很容易檢索到早前的新聞。政府朝令夕改、官員表態的前後矛盾,很容易被細心的網民發現,成為網民質疑的焦點。比如網上流傳的一張新聞標題的對比圖片顯示,官方不斷修正三峽工程抗洪能力:“2003年:三峽大壩固若金湯,可以抵擋萬年一遇洪水;2007年:三峽大壩今年起可防千年一遇洪水;2008年:三峽大壩可抵禦百年一遇特大洪水;2010年:長江水利委:今年抗洪還不能全都指望三峽大壩;2012年4月:三峽庫區將產生大量新生滑坡和塌岸近10萬人麵臨搬遷。”三峽工程相關信息透明度低早就遭人詬病,官方一再修改說法令公眾深感屢受愚弄,致使政府的公信力在質疑中流失。

四是惡搞諷刺型改編歌曲或視頻微博。“優酷網”、“酷6網”、“新浪播客”等視頻網站首發的諷刺時政、表達政見或影射近期國內大事的視頻,經網民轉發至微博網站後,瀏覽人次和關注度大大增加,在一定程度上對相當數量的網民產生導向作用。如食品安全事故頻發的狀況下,有網民將歌曲《走進新時代》惡搞改編成《走進新食代》,歌詞對國內各種食品安全事故和非法商人大加撻伐,引起網民的強烈反響。《釣魚島之歌》在微博流傳,燃起更多網民保衛釣魚島的決心,民眾對領土所有權的聲張成為政府製定外交政策做出外交回應的重要參考。

三、信息源的更新

一是應該經常對網站、論壇、博客、微博進行整理。互聯網的發展一日千裏,變化非常快,網絡輿情工作同樣如是。前幾年,網站和論壇還是網絡輿情的主戰場,現今,微博和微信已經成為網絡輿情的主要陣地,不少網站和論壇或者關閉,或者“出料”的情況銳減。不少博客和微博的用戶不再更新,甚至銷戶,已經沒有必要關注,與此同時,一些新的博客和微博用戶又橫空出世,引起網民的高度關注。微信這一新的傳播手段,更是成為網民的新寵。因此,針對網站、論壇、博客、微博,應該間隔一段時間就重新進行一次整理,整理出最新時間段比較“出料”的網站、論壇,博客、微博的活躍賬號後加以收藏和關注。針對微信,則應該潛心研究,加強監測。

二是借助搜索引擎,利用網絡資源的“類聚性”開墾更多信息源“處女地”。在搜索引擎中輸入某些關鍵字,可以找到相關網站和論壇,從而發現新的網絡信息源。例如,如果你有一個非常喜歡的專業網站,並希望從互聯網上找到更多同類的網站,這時怎麽選擇關鍵字最有效呢?或許搜索這個網站的內容類型會找到一些不錯的站點,如使用“軍事網站”、“醫學站點”做關鍵字,但很多時候這種搜索方法也可能一無所得。實際上最有效的方法是拋磚引玉,用最喜歡的網站的站點地址作為關鍵字。因為鏈接到那個站點的往往是同類站點,用這種方法肯定能夠找到一些相關的網站。由於網絡資源具有明顯的類聚性,某一網站、微博和論壇的鏈接通常指向同一類網站或相關聯的網站,跟蹤網站之間的鏈接可以發現一批同類網站。一些熱點問題的報道往往也附有大量的網站鏈接,抓住這些鏈接我們就可以發現新的有價值的網站、素材和資料。

三是多瀏覽和關注微博、微信、博客、論壇和社區。網民常常會在這裏交流一些新網站的網址,可以及時發現、更新網絡信息源。隨著互聯網的迅速發展,網民的信息需求呈現多樣化的趨勢和特點,不同類型的網站便不斷湧現以滿足網民的需要。因此,要及時關注和跟蹤新出現的網站,從而跟上網民的步伐,更新和豐富自己的信息源。在當下這樣一個追求分享的互聯網時代,一方麵,網民如果發現新的、感興趣的網站,便會在微博、微信、博客、論壇等進行分享;另一方麵,新的網站為了擴大自身影響力,吸引用戶,也會在其他網站進行宣傳和營銷。在日常工作中,網絡輿情分析師可以多關注微博、微信、博客、論壇和社區等平台,特別是經常介紹新網站的用戶、板塊等,從而較快發現新的、有價值的信息源。

四、網民評論的獲取

網民的評論往往較為分散,內容也是五花八門、天馬行空,所以搜集和整理網民評論觀點是一項繁重的工作。

網民評論的搜集,主要是在新華網、人民網、新浪網、搜狐網、騰訊網、鳳凰網、網易等國內主要新聞和門戶網站,“天涯社區”、“凱迪網絡”、“強國論壇”等國內論壇上找到相關消息,進而通過鏈接找出網民評論及觀點。此外,還需要在“新浪微博”、“騰訊微博”找出相關微博及網民評論。對於門戶網站和論壇,按搜集效率從高到低排列,可采用以下幾種方法查找相關消息:(1)直接登錄門戶網站和論壇,在IE菜單欄的編輯子菜單下選擇“在此頁上查找”,輸入關鍵詞,就能快速定位到相關消息在門戶網站上的位置。(2)在“百度”的新聞搜索中輸入“關鍵詞+空格+ site: +網站”的方式搜索相關消息。(3)借助門戶網站和論壇上自有的新聞搜索引擎搜索該網站的相關消息。(4)在“百度新聞”中選擇搜索“新聞全文”並篩選出門戶網站的消息。(5)在“百度新聞”中選擇搜索“新聞標

題”,逐一點開新聞列表並篩選出門戶網站的消息。依次使用以上5種搜索方式進行地毯式搜索,基本可以確保門戶網站和論壇的所有網民評論的鏈接都能被搜集出來。微博網民的評論搜集則主要通過搜索核心關鍵詞,然後選取最近1—3天的微博,點擊“熱門”,就可以按照轉發評論的數量排列出相關微博了。

第二節 搜索引擎的使用技巧

互聯網搜索引擎能夠根據使用者的需求,迅速提供對網頁、網站、新聞等信息的搜索結果,提供數量可觀的有價值信息,是網絡輿情分析工作中舉足輕重的“利器”之一。“穀歌”被視為全球最強大的搜索引擎,擁有驚人的搜索能力和多語言版本,能夠提供十分全麵、詳盡的搜索結果,並可搜索境內外微博、境外部分社交網站的實時信息,且自帶論壇、博客搜索功能。“百度”側重於中文網頁的搜索,在境內新聞、網頁、論壇和博客等信息上略勝一籌,但屏蔽了大量敏感信息。目前,“穀歌”、“百度”, “新浪微博”、“騰訊微博”內置搜索引擎均自帶“高級”搜索功能,提供了搜索時間段、關鍵詞、特定網站等功能,結果細化到某一網站、某一時間段、某一關鍵詞,可以按相關性或時間順序排序,基本能滿足工作需要。

一、搜索引擎的定義及使用方法

搜索引擎(Search Engine)是指根據一定的策略、運用特定的計算機程序從互聯網上搜集信息,在對信息進行組織和處理後,為用戶提供檢索服務,將檢索到的相關信息展示給用戶的係統。搜索引擎包括全文索引、目錄索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、門戶搜索引擎與免費鏈接列表等。

當前,搜索引擎數量不少,穀歌、百度、搜狗、搜搜、必應、雅虎、有道等,各有千秋。在此,選取我們日常工作中最常用的穀歌和百度搜索引擎作簡單介紹。搜索引擎的使用方法主要包括以下幾種:

(一)簡單查詢

在搜索引擎中輸入關鍵詞,然後點擊“搜索”就行了。例如我們要查詢有關“兩會”的信息就輸入“兩會”,係統很快會返回查詢結果,這是最簡單的查詢方法,使用方便,但是查詢的結果卻不準確,可能包含著許多無用的信息。

(二)高級查詢

給要查詢的關鍵詞加上雙引號(注意是半角,以下要加的其他符號同此),可以實現精確的查詢,這種方法要求查詢結果要精確匹配,不包括演變形式。例如在搜索引擎的文字框中輸入“全國兩會”,它就會返回網頁中有“全國兩會”這個關鍵詞的網址。在關鍵詞的前麵使用加號,也就等於告訴搜索引擎該單詞必須出現在搜索結果中的網頁上。例如,在搜索引擎中輸入“全國+兩會+開幕”就表示要查找的內容必須要同時包含“全國、兩會、開幕”這三個關鍵詞。在關鍵詞的前麵使用減號,也就意味著在查詢結果中不能出現該關鍵詞。例如,在搜索引擎中輸入“空調-格力空調”,它就表示最後的查詢結果中一定不包含“格力空調”。

(三)使用布爾檢索

所謂布爾檢索,是指通過標準的布爾邏輯關係來表達關鍵詞與關鍵詞之間邏輯關係的一種查詢方法,這種查詢方法允許我們輸入多個關鍵詞,各個關鍵詞之間的關係可以用邏輯關係詞來表示。

and,稱為邏輯“與”,用and進行連接,表示它所連接的兩個詞必須同時出現在查詢結果中。例如,輸入“全國and兩會”,它要求查詢結果中必須同時包含“全國”和“兩會”。

or,稱為邏輯“或”,它表示所連接的兩個關鍵詞中任意一個出現在查詢結果中就可以。例如,輸入“全國or兩會”,就要求查詢結果中可以隻有“全國”,或隻有“兩會”,或同時包含“全國”和“兩會”。

not,稱為邏輯“非”,它表示所連接的兩個關鍵詞中應從第一個關鍵詞概念中排除第二個關鍵詞。例如,輸入“空調not格力空調”,就要求查詢的結果中包含“空調”,但同時不能包含“格力空調”。

在實際的使用過程中,可以將各種邏輯關係綜合運用,靈活搭配,以便進行更加複雜的查詢。

(四)使用元詞檢索

大多數搜索引擎都支持“元詞”(metawords)功能,依據這類功能把元詞放在關鍵詞的前麵,這樣就可以告訴搜索引擎你想要檢索的內容具有哪些明確的特征。例如,你在搜索引擎中輸入“title:全國兩會”,就可以查到網頁標題中帶有“全國兩會”的網頁。在鍵入的關鍵詞後加上“domainrg”,就可以查到所有以org為後綴的網站。其他元詞還包括:image:用於檢索圖片;link:用於檢索鏈接到某個選定網站的頁麵;URL:用於檢索地址中帶有某個關鍵詞的網頁。

(五)特殊搜索命令

intitle:是多數搜索引擎都支持的針對網頁標題的搜索命令。例如,輸入“intitle:格力空調”,表示要搜索標題含有“格力空調”的網頁。

二、當前熱門微博搜索引擎和傳統搜索引擎概貌

近年來,境內微博,尤其是新浪、騰訊微博用戶呈現爆炸式增長。微博已成為境內網民日常信息交流主要網絡平台之一,亦由此快速取代傳統網絡媒體,成為網絡輿情的主要傳播渠道。因此,對微博自帶的搜索引擎進行研究和挖掘已成為我們日常做網絡輿情分析工作的必修課。這裏,主要選取網民集中、信息量大的新浪微博和騰訊微博的搜索引擎作為研究對象。

微博雖然發展迅猛,但內容搜索非其強項,這也給傳統搜索引擎帶來了新的發展機遇。傳統搜索引擎一直在不斷更新索引,甚至努力發展微博的實時搜索,加之微博搜索引擎不具備全網搜索的功能,因而傳統搜索引擎仍是我們獲取敏感信息不可或缺的最重要工具。在此,選取我們日常工作中最常用的穀歌和百度搜索引擎作為重點研究對象。

(一)新浪微博搜索引擎對比騰訊微博搜索引擎

微博的快速發展凸顯了對信息入口的爭奪,從這個爭奪過程來看,除了直接訪問微博主頁,看到我們所關注用戶的信息外,利用微博自帶的搜索引擎也是我們獲取信息的重要手段。客觀地說,微博搜索還在一個初級階段,而且因自我監管比較嚴厲,從日常實踐看,其搜索引擎尚不能滿足我們日常信息上報工作所需。下麵主要從兩方麵進行集中對比:

1.搜索類型:目前來看,新浪微博搜索引擎和騰訊微博搜索引擎都可通過內容和用戶進行搜索,檢索出的內容均可以按照“實時”和“熱門”排序。除了相關的圖片之外,兩個搜索引擎還可以找到相關的視頻和音樂。不過,在搜索的全麵方麵,新浪微博搜索引擎似乎略勝一籌,尋找到的微博內容較多,這可能與騰訊微博在逐漸邊緣化,新浪微博成為國內微博的主導有關。另外,值得稱讚的是,新浪微博搜索引擎不僅提供了與關鍵詞有關的新聞文章,而且可以訂閱關鍵詞,這對我們日常工作提供了一定的便利。

2.敏感度狀況:從實際測試結果來看,新浪微博的自我監管機製要嚴格得多,敏感詞較騰訊微博要多,最突出的是在重大突發事件發生後,新浪微博有時甚至會將發生地的城鎮名進行屏蔽,而騰訊微博在這方麵要相對寬鬆,關鍵詞的屏蔽速度也較新浪微博要慢,這就給我們獲取涉穩敏感信息提供了很好的切入時機。如,海南樂東縣鶯歌海鎮2012年4月11日發生因興建煤電廠引發的群體性事件後,“鶯歌海”直接被新浪微博搜索引擎列入敏感詞,而在騰訊微博上,還可以用該關鍵詞進行搜索,從而能較快獲取相關信息。

(二)穀歌搜索引擎對比百度搜索引擎

穀歌搜索引擎和百度搜索引擎可以說是當今國內外各種搜索引擎中的翹楚。充分利用好穀歌和百度搜索引擎,更是我們日常信息上報工作最大的依仗。在此,特從兩個方麵對這兩大搜索引擎的功能進行對比:

1.內容全麵性:百度搜索引擎偏重於境內論壇、網頁和博客等信息;穀歌搜索引擎則實現了跨越境內外的檢索,可以搜索出境內外的信息,但比較而言還是較為偏重境外網頁、博客的信息。不僅如此,穀歌搜索引擎還能按照“論壇”、“博客”進行分類檢索,能有效減少我們的搜索時間,而百度搜索引擎暫時未能提供這一服務。

2.對微博的搜索能力:穀歌搜索引擎可實時搜索、抓取境內微博、境外“推特網”、“臉譜網”、“google+”等社交網站提供的實時信息;百度搜索引擎則僅提供境內微博的實時搜索。

三、搜索引擎一般的使用技巧

(一)關鍵詞搜索

關鍵詞搜索是信息獲取的最基本技巧,也是所有輿情研究者的必備技能。在搜索引擎搜索框內輸入需要查詢內容的關鍵詞,敲回車鍵,或者鼠標點擊搜索框右側的搜索按鈕,就可以得到最符合查詢需求的網頁內容。下麵就關鍵詞搜索常用基礎技巧做一簡單介紹。

一是限定搜索範圍提高查準率。(1)關鍵詞精確匹配。在輸入的查詢詞較長的情況下,給關鍵詞加上雙引號,可以避免被拆分,達到精確匹配的效果。(2)利用減號語法消去含有特定關鍵詞的搜索結果。如在“百度”搜索“反日遊行 -禁止”(注意減號與第一個關鍵詞之間需有一個空格),結果就不包含與“禁止”反日遊行有關的內容。(3)將搜索範圍限定在網頁標題中。利用“intitle:”可以把查詢內容範圍限定在網頁標題中。(4)限定特定站點的搜索。有目的地把搜索範圍限定在某個特定網站中,可以提高搜索效率。在查詢內容後麵加上“site:站點域名”即可實現。如在“新浪微博”搜索“實名舉報”反腐信息,可以輸入“實名舉報site:weibo.com”。

二是掌握六種網絡關鍵詞。(1)網絡新詞。網絡新詞是被網民普遍接受、廣泛使用的關鍵詞形式。在網絡輿情監測與分析工作中,網絡新詞是容易發現、也較容易掌握的網絡關鍵詞類型。例如“富二代”、“窮二代”、“高帥富”、“白富美”、“矮窮矬”,皆是網絡新詞。網絡新詞隻是表達網民社會情緒的方式,並不刻意去規避網絡監管。但對輿情工作來講,掌握網絡新詞可跟進了解社會民意,知曉網民情緒,並可從新詞發展趨勢中分析網絡情緒的發展態勢,從而總結經驗,並為引導網絡輿論提供參考。(2)字母、數字替代關鍵詞。此類關鍵詞目的性明顯,就是通過用字母、數字替代個別字詞,逃避關鍵詞監管。例如“B都督”、“十8大”、“拾捌大”等。對於網絡輿情監測與分析工作來講,字母、數字替代關鍵詞可能都是敏感詞,對此類關鍵詞的監測我們要及時跟進,發現替代的新形式和新規律。(3)同音、諧音替代關鍵詞。同音、諧音替代關鍵詞與字母、數字替代關鍵詞相似,一般來講也是基於逃避關鍵詞監管的目的。例如以“明珠”替代“民主”,以“滋擾”替代“自由”,以“河蟹”替代“和諧”。此類關鍵詞一般為臨時性網絡詞匯,且不斷變化,不易掌握,可在相關時間點重點把握,根據當前熱點事件來跟進。(4)代指關鍵詞。代指關鍵詞是以新的網絡詞匯來指代特別事件及人物。此類關鍵詞大都帶有一定的網絡情緒,主要目的是為了表達對所指代事物或人物的某種感情。當然,這類關鍵詞也有規避敏感詞監管的功能。例如,以“不厚同誌”指代“薄熙來”。代指關鍵詞數量不大,也比較穩定,比較容易掌握。(5)語氣關鍵詞。語氣關鍵詞並不直接表達特定的含義,但可結合特定的網絡語境來強化所要表達的觀點。如近年來流行的網絡語氣詞“你懂的”、“史上最”、“碉堡了”、“屌爆了”、“出大事了”等,語氣關鍵詞可使搭配的語義表達得更加隱晦,也更加深刻。需要注意的是,語氣關鍵詞在不同的語境中所表現的含義不一樣。網絡輿情監測與分析工作可將語氣關鍵詞和其他目標詞匯結合起來進行檢索,以提高檢索的效率。(6)反監管特用關鍵詞。這類關鍵詞是專門針對網絡監管創造出來的關鍵詞。例如“轉要快”、“趕緊下載”、“馬上就刪了”、“被和諧”等。此類關鍵詞一般用在敏感的帖子和文章中,在輿情監測工作中,重點掌握它們,可提高挖掘信息的效率。此外,把握好此類關鍵詞,可突破前麵五種關鍵詞類型的語境限製,擴大監測範圍。

三是使用多個關鍵詞來提高準確率。對於大部分的搜索任務來說,一般都能夠通過搜索網站找到需要的網頁,但是如果不細心選擇關鍵詞,搜索網站可能會返回很多並不是需要的結果。此時,如果將另外一個跟搜索目標相關的關鍵詞加在一起搜索,返回的結果就會少很多,也更加準確。因此,很多時候需要使用多個關鍵詞查詢的方法來提高搜索準確率。但需要注意的是,搜索網站對關鍵詞的個數可能會有限製。同時,也要注意搜索內容之間的邏輯關係是否合理。

(二)利用句子檢索

句子檢索法可有效提高文本檢準率。在使用搜索網站時,不少人經常被“關鍵字”這個名稱所限,而忘了關鍵字可以是一個字、一個詞,甚至一句話。例如在搜索小說、文章等文本內容時,最簡單的方法,是用文本的標題搜索,但最高效的方法,則是用文中的一句話來搜索,可以讓搜索效率提高不少。

(三)中西結合檢索法

在使用搜索網站時,靈活地結合中文和英文可以很好地完成某些搜索任務。除了可以將要翻譯成中文的英文詞匯用作關鍵字,並指定搜索網站隻返回中文網頁的結果,嚐試將搜索網站當成翻譯機器來使用,還可以將中文詞匯的一部分翻譯成英文,從而搜索到更多的有用信息。

四、實戰:利用搜索引擎挖掘熱點事件信息的技巧

(一)日常事件信息挖掘技巧

關鍵詞的選擇是使用搜索引擎至關重要的一步,事關我們在信息上報工作中能否有效挖掘日常事件信息。因此,選擇合適的關鍵詞變得越來越重要。而對於我們的網絡輿情分析工作,搜索詞的設置可分為兩部分:一是重要日期的搜索詞配置;二是日常監測的搜索詞配置。通過這樣的關鍵詞配置,進行信息檢索就可以達到事半功倍的效果。

(二)熱點事件信息的挖掘方法

除了使用常用關鍵詞進行檢索外,在網絡熱點事件發生後,我們也應善於利用網絡熱點設定關鍵詞進行檢索。例如,在中日撞船衝突發生後,境內網民的反日

情緒高漲,這時我們應將關注重點放在可能發生反日遊行涉穩信息方麵,重點關注境內網民的抗議言論,可將“反日遊行”、“日本駐華使館抗議”、“遊行抗議日本”等設為階段性的監測關鍵詞,重點利用搜索引擎挖掘反日遊行抗議信息。

(三)重大突發事件信息獲取方法

在自媒體時代,微博信息已成為突發事件信息的主要源頭。因此,在突發性事件發生後,應密切留意境內外微博的動向。在可能的情況下,第一時間利用微博自帶的搜索引擎進行搜索,搜集消息發布人、當地活躍的網民及散發者的賬號,以便在日後持續了解最新動向。例如,在“烏坎事件”發生後,境內微博並未立刻將“烏坎”作為關鍵詞進行屏蔽,這就給我們積累一些烏坎當地比較活躍的網民賬號提供了時機。我們可乘機收集大量微博用戶,以便在日後發現更多當地的涉穩情況。同時,在突發性事件發生後,應加強對百度貼吧的監測力度。鑒於百度貼吧可隨意建立的特性和網絡此消彼長的態勢,如果微博的限製情況增加,百度貼吧上反而會出現一些有用的信息。在突發事件發生後,可到百度貼吧上搜尋是否存在相關貼吧和帖子,以便能發現更多的信息。

第三節 利用網絡平台和工具獲取信息

RSS訂閱、郵件訂閱、騰訊QQ群、微信等是互聯網上信息傳播的重要手段,也是網絡輿情發現的有效途徑。

一、利用RSS訂閱發現信息

RSS是在線共享內容的一種簡易方式(也叫聚合內容,Really Simple Syndication)。網站提供RSS輸出有利於讓用戶獲取網站內容的最新更新。用戶可以使用RSS閱讀軟件,在不打開網站內容的情況下閱讀輸出的網站內容。RSS的最大作用是,讓用戶使用最少的時間來獲得最需要的信息,而不用陷入信息的海洋裏麵。在時效性比較強的內容上使用,能夠更加快速主動的獲取信息。

目前RSS信息主要版本有0.91,1.0,2.0。RSS2.0在信息推送上能將圖文全部內容推送到訂閱軟件,即使原文在網站上被刪除,推送的內容仍保存在客戶端,這為微博、論壇等敏感信息的抓取和保存提供了思路。

(一)RSS信息訂閱

訂閱RSS新聞內容要先安裝一個RSS閱讀器,然後將提供RSS服務的網站加入到RSS閱讀器的頻道即可。具體操作如下:選擇有價值的RSS信息源、啟動RSS訂閱程序,將信息源添加到自己的RSS閱讀器或者在線RSS、接收並獲取定製的RSS信息。

(二)RSS信息源獲取

RSS最為核心的就是有價值的信息源。在日常瀏覽中,尤其是境外媒體,在媒體網站下方或地址欄均有RSS提示符號,點擊關注的網站及頻道即可訂閱。在訂閱中,建議對網站關注的頻道及所有頻道進行分類,一類是日常經常瀏覽的頻道,解決RSS海量信息瀏覽問題;另一類是全麵搜集經常刊登有價值信息的網站,為二次搜索和二級平台的構建提供數據源。此外,建議留意網站的標誌,盡量多搜集RSS推送源,除了媒體和博客、論壇等常見網站,新聞搜索引擎也會對搜索結果提供RSS源,這為媒體信息整合、避免關鍵字過濾、專項信息監測提供了重要思路,方便了有價值信息的整合和篩選。

(三)閱讀器選擇

目前,RSS閱讀器基本可以分為三類。第一類是運行在計算機桌麵上的應用程序,通過所訂閱網站的新聞供應,可自動、定時地更新新聞標題。在該類閱讀器中,有Awasu、FeedDemon和RSSReader這三款流行的閱讀器;第二類是內嵌於已在計算機中安裝的其他應用程序中。例如, NewsGator內嵌在微軟的Outlook中,所訂閱的新聞標題位於Outlook的收件箱文件夾中。第三類則是在線的WEB RSS閱讀器,其優勢在於不需要安裝任何軟件就可以獲得RSS閱讀的便利,並且可以保存閱讀狀態,推薦和收藏自己感興趣的文章,如抓蝦、鮮果等。這三類閱讀器均有其優勢和可取之處。軟件閱讀器雖然延時相對較長,但是擁有本地存儲優勢,為未來信息的本地篩選和回溯提供最基礎的數據支持。內嵌閱讀器整合在郵件中,為搭建、推送和整合敏感信息的小平台提供便利。在線瀏覽器刷新度快,服務器的支持解決了客戶端接收數據的硬件問題,接收信息也流暢便利,有助於重點監測網站的瀏覽,但也麵臨安全性和回溯等問題。這三類RSS閱讀器均帶有自帶的搜索引擎,在整合信息搜集後,進行二次搜索並無敏感關鍵詞過濾的擔憂。

二、利用郵件獲取信息

利用郵件發現信息,主要是通過接收郵件的內容發現信息,或發現有價值的信息線索。英國《金融時報》、英國廣播公司、美國之音、《華爾街日報》等境外媒體網站和境內多家網站都提供這種服務,訂閱之後可以接收到當天該媒體上的主要新聞。部分國際組織、非政府組織、境外論壇等也利用郵件訂閱作為推送消息的主要方式。此外,境外穀歌論壇將實時更新的內容發布至訂閱郵件,臉譜等社交網站將關注對象動向推送至郵件,穀歌等搜索引擎也可將自定義搜索結果推送至郵件。訂閱郵件雖然範圍不及RSS,但是在信息的價值上不遜色於RSS。

郵件訂閱多在網站首頁及醒目位置標識,在穀歌論壇、臉譜、Google+等論壇及境外社交網站中,加入或關注即可訂閱關注對象的最新動態。因境內外存在時差,此類信息更新時間多在中午12點後至晚間,多為下班時間。所以在此類信息的訂閱上,除了通過電腦Outlook郵件,還可以借助黑莓、安卓等智能手機郵件客戶端實時接收信息,讓推送結果在可掌控的範圍內第一時間收到。此類信息分類得越具體,在推送的第一時間獲取的信息越有價值。

三、利用微信獲取信息

(一)提高敏感性,及時搜集微信上的網絡輿情

由於微信以點對點的方式傳播,內容僅停留在傳受雙方的移動終端上,其他用戶無法獲知,這就使微信成為一個天然的私密媒體平台,信息傳播更具隱蔽性,一些在微博上無法傳播的內容很有可能通過微信公眾號傳播。這種小範圍朋友圈內的轉發,給過激言論和不良信息提供了相對寬鬆的生存環境,並且更易被用戶相信,增加了輿論監管的難度。微信公眾號的封閉交流還會導致某些輿情在微信圈子裏悄然流行之時,外麵的人還一無所知,當輿情發展到主流網站、論壇、微博中的時候,就直接給相關管理部門形成比較大的輿論壓力。對於網絡輿情分析師來說,應提高自身的敏感性,從終端上對微信朋友圈進行監測,及時搜集微信上的網絡輿情。

(二)重點監測微信公眾號

微信公眾號於2012年8月誕生,至2014年底數量已經超過800萬,並保持每天8000個的增長速度以及超過億次的信息交互。隨著微信公眾號的迅速發展,一些公眾微信號的訂閱和服務用戶已經超過百萬,其大眾傳播屬性和影響力已經十分明顯。有輿情分析師認為,雖然現階段微信主要在熟人圈交流互動,相對封閉,不易形成強力輿論場,但是微信公眾號一般都有龐大的用戶量,其在不良信息的傳播擴散上的影響力不容忽視。特別是麵對負麵信息、突發事件時,容易造成大範圍的擴散和曝光。對於網絡輿情分析師來說,應盡可能搜集和訂閱熱門的微信公眾號進行及時監測。搜集的方法有兩種:一是可以參考目前市場上一些公司和機構提供的微信排行榜進行搜集。例如上海看榜信息科技有限公司就推出了“新媒體排行榜”,可以通過這個排行榜搜集到資訊類、生活類、政務類等分類的微信公眾號。二是在監測微信公眾號的過程中,細心留意出料多的公眾號,逐步積累,從而獲取更多的信息源。比如,微信上有一個“媒體劄記”的微信公眾號,每天對當天的熱門輿情事情進行評論,通過瀏覽監測這個公眾號,可以不斷搜集和積累新的信息源。

(三)通過搜狗微信搜索進行搜索

目前,國內的搜索引擎裏麵,搜狗提供了微信搜索功能,通過搜狗微信搜索,可以搜索到微信公眾號上的文章和公眾號,這大大方便了我們對微信輿情的獲取。除此以外,搜狗微信搜索還可以訂閱搜索詞,訂閱後在“我的訂閱”裏麵查看更新的文章,相當方便。

第四節 網絡輿情監測係統

互聯網作為一種信息傳播方式已經深入人們的生活中,為民意民情的表達提供了一個新的載體,引領人類進入大數據時代。網上言論的活躍程度不可估量。隻要是重大的事件,就能成為網上輿論,網民往往通過互聯網來表達觀點、傳播輿論,進而產生輿論壓力。互聯網已成為輿論的放大器,網絡輿情已達到任何部門和機構都無法忽視的境界。

網絡輿情是通過互聯網的新聞門戶網站、論壇、博客、微博、微信、新聞跟帖等方式針對現實生活中的某些熱點、焦點問題發布的影響性、傾向性的言論和觀點。如果引導不善,將會產生負麵的輿情,對社會安全構成威脅。如何在大數據浪潮中挖掘出重要的信息並有效利用、管理和引導,是政府、企業在互聯網時代麵臨的全新挑戰與機遇。可以說,網絡輿情監測係統正是根據這個需求應運而生。

網絡輿情監測係統是指通過相關的專業輿情軟件按照一定的規則和算法將互聯網上繁雜的數據信息當中用戶所關注的信息抓取出來,並通過分析過濾等方式,最終呈現出與需求相匹配的輿情信息,並以輿情報告形式呈現。它主要分為8個部分:(1)熱點話題、敏感話題識別。可以根據新聞出處權威度、評論數量、發言時間密集程度等參數,識別出給定時間段內的熱門話題。利用關鍵字布控和語義分析,識別敏感話題。(2)傾向性分析。對於每個話題,對每個人發表的文章的觀點、傾向性進行分析與統計。(3)主題跟蹤。分析新發表文章、帖子的話題是否與已有主題相同。(4)自動摘要。對各類主題,各類傾向能夠形成自動摘要。(5)趨勢分析。分析某個主題在不同的時間段內,人們所關注的程度。(6)突發事件分析。對突發事件進行跨時間、跨空間綜合分析,獲知事件發生的全貌並預測事件發展的趨勢。(7)報警係統。對突發事件、涉及內容安全的敏感話題及時發現並報警。(8)統計報告。根據輿情分析引擎處理後的結果庫生成報告,可通過瀏覽器瀏覽,提供信息檢索功能,根據指定條件對熱點話題、傾向性進行查詢,並瀏覽信息的具體內容,提供決策支持。信息采集係統主要是通過網絡頁麵之間的鏈接關係,從網上自動獲取頁麵信息,並且隨著鏈接不斷向整個網絡擴展。目前,一些搜索引擎使用這項技術對全球範圍內的網頁進行檢索。輿情監控係統應能根據用戶信息需求,設定主題目標,使用人工參預和自動信息采集結合的方法完成信息收集任務。信息分析係統使用係統的觀點和方法,把複雜對象分解為簡單組成部分,並確定這些組成部分的基本屬性和關係。信息數據管理係統對收集到的信息進行最終處理,對搜索引擎數據集進行階段性的數據維護。

目前,市麵上的網絡輿情係統有很多,功能雖然不盡相同,但主要構成依然是輿情數據抓取和分析係統。以下對主要的網絡輿情係統做一個簡單介紹。

一、人民網輿情監測係統

2010年,人民網輿情監測室研發並完善了具備個性化、垂直性監測功能的互聯網輿情監測係統。該係統基於網絡輿情傳播規律,及時、全麵地監測境內外新聞網站、論壇、報刊、電視、廣播和知名博客、微博,並在此基礎上進行數據的抓取、挖掘、聚類、分析和研判,方便輿情工作人員迅速獲取輿情,提高輿情管理和輿論引導的水平。輿情監測平台涵蓋五大輿情支持係統,即部委(紀檢)、省(市)級、市(市)級、縣(市)級和上市公司、央(國)企、外企、民企輿情支持係統,為客戶實現網絡聲譽管理、輿情監測、敏感信息預警、內部風險管理評估、突發事件實時追蹤和宣傳工作評估考核等功能。

二、新華網輿情監測係統

新華網輿情監測係統輿情已擁有1500餘台信息采集服務器,監測範圍涵蓋國內外2萬多家門戶網站、專業網站和政府網站數十萬個頻道, 50多家國內主流網站的300餘個熱點論壇、博客、微博,500餘家國內報刊、20餘家港澳台報刊,國內外百餘家電視台的2000多個欄目,日采集量過億條。新華網“輿情在線”網絡輿情手機客戶端服務平台實現了輿情監測PC用戶端和手機瀏覽端的無縫連接,彌補了傳統輿情監測在內容、空間和時間上的輿情死角,用戶可自主設置監測關鍵字和發送時間,提供7×24小時全網監測和信息預警。

三、中青在線輿情監測係統

中青在線輿情監測係統提供輿情數據管理係統、輿情信息指揮係統、輿情綜合管理平台、輿情管理手機客戶端。24小時不間斷信息采集,采用五級預警機製。

四、穀尼網絡輿情監測分析係統

穀尼網絡輿情監測分析係統依托自主研發的搜索引擎技術和文本挖掘技術,通過網頁內容的自動采集處理、敏感詞過濾、智能聚類分類、主題檢測、專題聚焦、統計分析,實現各單位對自己相關網絡輿情監督管理的需要,最終形成輿情簡報、輿情專報、分析報告、移動快報,為決策層全麵掌握輿情動態、做出正確輿論引導提供分析依據。

五、中國傳媒大學網絡輿情(口碑)研究所網絡輿情監測係統

中國傳媒大學網絡輿情(口碑)研究所(英文簡稱IRI)是國內權威的專為政府服務的網絡輿情研究和谘詢機構。IRI自主研發了國內非常先進的網民評論抓取、網絡輿情監測兩套軟件係統。i-Monitor網絡輿情監測係統,是IRI自主開發並擁有知識產權的國內先進的軟件集成式網絡監測係統,能形成對首頁、新聞、社區、論壇、博客、貼吧等網絡主帖信息的自動掃描、監測,覆蓋10萬家以上站點。和i-Monitor形成有效互補的是,i-Catch網民評論抓取軟件是IRI自主研發的國內最先進的專於網民評論抓取的軟件,涉及新聞回評、論壇、博客、社區、視頻等網上關於任何事件進行討論的網民評論,在國內率先解決了動態的新聞回評等抓取問題。目前兩類軟件在IRI的工作過程中,扮演了非常重要的角色。

(本章完)