企業(yè)負面信息采集和分級系統(tǒng)設計與實現(xiàn)《網站規(guī)劃與設計》期末論文
《網站規(guī)劃與設計》期末論文
校外學習中心:湖南交通工程學院?學號:20161202011009x姓名?:xxx??成績
?
?
?
企業(yè)負面信息采集和分級系統(tǒng)設計與實現(xiàn)
摘?要
輿情監(jiān)控對于企業(yè)來說是一個永恒的命題。伴隨著傳統(tǒng)互聯(lián)網的高度發(fā)展以及移動互聯(lián)網的興起,傳統(tǒng)紙媒已經不再是主流媒體。新型的互聯(lián)網媒體成為輿論的主流。在紙媒時代,輿情傳播速度慢,傳播源頭少,負面信息對企業(yè)造成的損害往往有限。而面對如今眾多的互聯(lián)網媒體,負面信息可以從任何時間產生,然后在一天甚至數(shù)小時內大范圍傳播,造成的損失難以估量。由此可見,企業(yè)輿情監(jiān)控無疑遭到了全新的挑戰(zhàn)。如果可以快速高效準確的把握負面的網絡輿情,對于企業(yè)的生存和發(fā)展將是重大利好。為了解決這一問題,本畢業(yè)設計實現(xiàn)了一個企業(yè)負面信息采集與分級系統(tǒng)。系統(tǒng)的核心功能是網絡爬蟲和文本情感傾向分析。用戶可以通過用瀏覽器訪問服務器地址來使用此系統(tǒng)。系統(tǒng)采用B/S架構,用PHP語言編寫。在web系統(tǒng)構建方面,前端使用Bootstrap框架構建,后端使用Laravel構建。分詞和情感傾向分析則使用了百度提供的api。在項目管理上,本畢業(yè)設計通過GIT進行版本控制,通過快速原型和多次迭代推動項目流程,所編寫的文檔覆蓋項目的整個生命周期。
關鍵詞:Laravel;爬蟲;情感傾向分析;web系統(tǒng);軟件工程;
目??錄
摘?要 I
Abstract II
目??錄 III
1??引言 1
1.1??背景 1
1.2??現(xiàn)狀 1
1.3??目的 2
1.4??范圍 2
1.5??主要內容 2
2??技術路線 3
2.1??網絡爬蟲 3
2.2??Laravel框架 3
2.3??DomCrawler組件 3
2.4??文本向量 4
2.5??TF/IDF權值 4
3??需求分析 5
3.1??功能性需求 5
3.1.1??用例模型 5
3.1.2??功能模型 7
3.1.3??數(shù)據模型 11
3.2??非功能性需求 13
3.2.1??易用性 13
3.2.2??通用性 14
3.2.3??可維護性 14
3.2.4??性能 14
3.2.5??時效 14
4??詳細設計 15
4.1??系統(tǒng)業(yè)務流程 15
4.2??系統(tǒng)結構設計 18
4.3.1??系統(tǒng)結構圖 18
4.3.2??數(shù)據訪問 19
4.3.3??身份認證 19
4.3.4??負面信息展示 20
4.3.5??負面信息管理 20
4.3.6??負詞庫管理 21
4.3.7??爬蟲管理 21
5??系統(tǒng)實現(xiàn) 23
5.1??搭建腳手架 23
5.2??路由規(guī)劃 24
5.3??模型的創(chuàng)建與實現(xiàn) 25
5.4??控制器的創(chuàng)建與實現(xiàn) 25
5.4.1??NegativeInfoController的設計 25
5.4.2??NegativeWordController的設計 27
5.4.3??SpiderController的設計 28
5.4.4??HomeController的設計 32
5.5??視圖的實現(xiàn) 33
5.5.1??HomeController下的視圖 33
5.5.2??NegativeInfoController下的視圖 36
5.5.3??NegativeWordController下的視圖 39
5.5.4??SpiderController下的視圖 39
6??系統(tǒng)測試 42
6.1??黑盒測試 42
6.2??缺陷統(tǒng)計 42
6.3??測試結論和建議 43
參考文獻 45
?
1??引言
1.1??背景
在互聯(lián)網時代,信息的傳播快速而廣泛。許多機構和個人可以輕易的發(fā)布、傳播信息。而負面信息在網絡的泛濫給企業(yè)帶來的傷害對比起傳統(tǒng)媒體來說有過之而無不及。企業(yè)負面信息主要會有以下三個方面的負面影響:
1.危害企業(yè)形象;
2.引發(fā)客戶的不信任甚至恐慌;
3.影響企業(yè)內部穩(wěn)定。
在這樣的背景下,企業(yè)負面信息采集和分級系統(tǒng)具有重要意義。它可以幫助企業(yè)對網絡負面信息進行防范、預測、控制和處理,可以幫助企業(yè)決定采取何種策略和措施,把握網絡負面信息的轉化機會,盡可能的減少網絡負面信息影響損失,以保證企業(yè)安全運行,維護企業(yè)持續(xù)經營。
1.2??現(xiàn)狀
市面上現(xiàn)在已經存在一些對企業(yè)負面信息進行采集和監(jiān)控的方法?,F(xiàn)行的方法主要如下:
1.通過人工進行周期性的線上搜索,對負面信息進行收集和階段性處理;
2.通過爬蟲對特定網站進行信息收集,之后通過人工審核判斷信息內容;
3.使用商業(yè)輿情監(jiān)控系統(tǒng),進行自動化信息收集和信息分級。
對于上述方法1,所使用的人力成本高昂,信息收集和處理效率低下,信息時效滯后,但準確度最高。對于上述方法2,人力成本得到了有效的控制,信息收集效率也得到了提高,信息處理準確度有一定保障,但存在處理效率較低和信息時效滯后的問題。對于上述方法3,人力成本幾乎可以忽略不計,信息收集和處理效率高,時效性強,可以做到接近實時監(jiān)控,但信息準確度依賴于信息處理模型的好壞。
1.3??目的
本設計的主要目的是實現(xiàn)一個自動化的負面信息采集和分級系統(tǒng),系統(tǒng)能針對給定的目標企業(yè),從互聯(lián)網抓?。ɑ谒阉饕娣绞剑┢湄撁嫘畔?,然后根據負面信息嚴重程度進行簡單分級。
系統(tǒng)采用B/S架構,為用戶提供真正平臺無關的高可用服務。對于收集到的數(shù)據,系統(tǒng)在服務器進行持久化,提高用戶查詢速度,方便用戶查看歷史信息。系統(tǒng)提供的負面信息分級功能,幫助用戶快速過濾無效或低權值信息。系統(tǒng)還提供了一系列的管理功能,讓用戶對信息的處理能力不僅僅停留在查看上,最終幫助用戶進行輿情監(jiān)控,輿情分析和輿情處理。
1.4??范圍
以下為本說明書的預期讀者:
項目管理人員、項目產品經理、軟件開發(fā)工程師、軟件測試工程師、系統(tǒng)運維工程師、系統(tǒng)使用者。
1.5??主要內容
本系統(tǒng)主要包括瀏覽器端和服務器端兩個部分。瀏覽器端是用戶使用的部分,是信息展示的載體,同時負責為用戶提供各種功能的入口。服務器端負責處理用戶請求,處理文本數(shù)據,與數(shù)據庫進行交互以及為瀏覽器端提供數(shù)據。
系統(tǒng)按功能劃分可以分為五個子系統(tǒng):
- 負面信息展示系統(tǒng);
- 用戶認證系統(tǒng);
- 爬蟲系統(tǒng);
- 負面信息管理系統(tǒng);
- 負詞庫管理系統(tǒng);
本說明書將以此為基礎,對系統(tǒng)進行分析和設計。
?
2??技術路線
此項目基于B/S架構,采用了經典的MVC模式。項目中除了使用了常規(guī)的PHP、MySQL、Apache等技術,還使用到了網絡爬蟲、Laravel框架、DomCrawler組件以及NLP等流行的技術。
2.1??網絡爬蟲
網絡爬蟲是一種自動化的程序,它最基本的功能是按照一定規(guī)則,對網絡上的信息進行捕獲。爬蟲技術的出現(xiàn),主要是伴隨著互聯(lián)網的迅猛發(fā)展。大量的信息產生在萬維網上,如何有效捕獲信息成為了一個需要解決的問題。而網絡爬蟲技術隨著通用搜索引擎的出現(xiàn)和發(fā)展,逐漸形成體系成為一種新技術。之后,網絡爬蟲在不同的垂直領域,面對不同的業(yè)務環(huán)境,發(fā)展成不同的方向,比如,提高信息獲取速率的高并發(fā)多代理爬蟲,針對反爬蟲策略的反反爬蟲爬蟲,通過特定樣本訓練的人工智能爬蟲等等。爬蟲技術的本質是數(shù)據獲取,經常同數(shù)據處理技術結合起來面對業(yè)務需求。
2.2??Laravel框架
Laravel框架是目前最流行的PHP框架。Laravel的設計基于MVC構建,簡潔優(yōu)雅而富有表現(xiàn)力。MVC是一種分層設計的思想,目的在于分離業(yè)務邏輯、數(shù)據和展示。這樣可以在改進其中一層的時候,不需要對其他部分進行修改,同時也可以實現(xiàn)只更新數(shù)據就改變展示效果。本項目使用的Laravel5.5版本,支持Composer包管理,日志遵循PHP-FIG,提供了項目的低耦合,高可維護,統(tǒng)一異常處理等特性。
2.3??DomCrawler組件
DomCrawler是Symfony開發(fā)的HTML和XML文檔操作組件。組件支持通過Composer自動加載。DomCrawler組件簡化了文檔的DOM導航。它讀取一個HTML/XML文本,并建立文檔樹。DomCrawler在內部實現(xiàn)了一個XPath解析器,所以它支持通過XPath訪問文檔樹的節(jié)點,高效準確而優(yōu)雅。DomCrawler支持直接通過請求獲取頁面并轉化為DomCrawler對象,方便開發(fā)者快速開始自己的爬蟲應用。
2.4??文本向量
文本向量是一種文本表示模型,這種模型是為了讓計算機可以更好的識別文本。對于原始文本,許多文本挖掘或者文本分類算法無法直接處理,所以要對文本進行相應的處理,其中一種方法就是把文本向量化?;谠~典的文本向量化,首先需要確定一個向量空間。把詞典中的每個詞作為向量空間的一個維度,則對于基于N個詞的文本,可以表示為N維向量空間中的一個向量。
2.5??TF/IDF權值
對于文本向量,每一個維度需要有對應的值來表示。TF/IDF就是一種文本向量權值的計算思想。TF表示詞文本頻率,它表示對于一段文本,某個詞的權重應該伴隨它出現(xiàn)在文本中的頻率上升而上升,即詞權重與詞文本頻率正相關。IDF表示詞文件頻率,它描述了詞頻的另一種特性,即詞匯在全部樣本文件中出現(xiàn)的頻率越高,它在單個文件中的權重應該越低,故IDF也叫反詞頻。TF/IDF體現(xiàn)的思想是:如果一個詞在文件中反復出現(xiàn),那么它應該是被強調的,應該被更加重視;但是這個詞如果在整個主題中都有很高的頻率,那么說明這個詞匯是普遍的,對于單獨的文本可能并沒有特殊意義。總之,TF/IDF為文本向量化提供了一種考慮相關性的計算思想。
0 Comments.