企業(yè)負(fù)面信息采集和分級(jí)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)《網(wǎng)站規(guī)劃與設(shè)計(jì)》期末論文
《網(wǎng)站規(guī)劃與設(shè)計(jì)》期末論文
校外學(xué)習(xí)中心:湖南交通工程學(xué)院?學(xué)號(hào):20161202011009x姓名?:xxx??成績
?
?
?
企業(yè)負(fù)面信息采集和分級(jí)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
摘?要
輿情監(jiān)控對(duì)于企業(yè)來說是一個(gè)永恒的命題。伴隨著傳統(tǒng)互聯(lián)網(wǎng)的高度發(fā)展以及移動(dòng)互聯(lián)網(wǎng)的興起,傳統(tǒng)紙媒已經(jīng)不再是主流媒體。新型的互聯(lián)網(wǎng)媒體成為輿論的主流。在紙媒時(shí)代,輿情傳播速度慢,傳播源頭少,負(fù)面信息對(duì)企業(yè)造成的損害往往有限。而面對(duì)如今眾多的互聯(lián)網(wǎng)媒體,負(fù)面信息可以從任何時(shí)間產(chǎn)生,然后在一天甚至數(shù)小時(shí)內(nèi)大范圍傳播,造成的損失難以估量。由此可見,企業(yè)輿情監(jiān)控?zé)o疑遭到了全新的挑戰(zhàn)。如果可以快速高效準(zhǔn)確的把握負(fù)面的網(wǎng)絡(luò)輿情,對(duì)于企業(yè)的生存和發(fā)展將是重大利好。為了解決這一問題,本畢業(yè)設(shè)計(jì)實(shí)現(xiàn)了一個(gè)企業(yè)負(fù)面信息采集與分級(jí)系統(tǒng)。系統(tǒng)的核心功能是網(wǎng)絡(luò)爬蟲和文本情感傾向分析。用戶可以通過用瀏覽器訪問服務(wù)器地址來使用此系統(tǒng)。系統(tǒng)采用B/S架構(gòu),用PHP語言編寫。在web系統(tǒng)構(gòu)建方面,前端使用Bootstrap框架構(gòu)建,后端使用Laravel構(gòu)建。分詞和情感傾向分析則使用了百度提供的api。在項(xiàng)目管理上,本畢業(yè)設(shè)計(jì)通過GIT進(jìn)行版本控制,通過快速原型和多次迭代推動(dòng)項(xiàng)目流程,所編寫的文檔覆蓋項(xiàng)目的整個(gè)生命周期。
關(guān)鍵詞:Laravel;爬蟲;情感傾向分析;web系統(tǒng);軟件工程;
目??錄
摘?要 I
Abstract II
目??錄 III
1??引言 1
1.1??背景 1
1.2??現(xiàn)狀 1
1.3??目的 2
1.4??范圍 2
1.5??主要內(nèi)容 2
2??技術(shù)路線 3
2.1??網(wǎng)絡(luò)爬蟲 3
2.2??Laravel框架 3
2.3??DomCrawler組件 3
2.4??文本向量 4
2.5??TF/IDF權(quán)值 4
3??需求分析 5
3.1??功能性需求 5
3.1.1??用例模型 5
3.1.2??功能模型 7
3.1.3??數(shù)據(jù)模型 11
3.2??非功能性需求 13
3.2.1??易用性 13
3.2.2??通用性 14
3.2.3??可維護(hù)性 14
3.2.4??性能 14
3.2.5??時(shí)效 14
4??詳細(xì)設(shè)計(jì) 15
4.1??系統(tǒng)業(yè)務(wù)流程 15
4.2??系統(tǒng)結(jié)構(gòu)設(shè)計(jì) 18
4.3.1??系統(tǒng)結(jié)構(gòu)圖 18
4.3.2??數(shù)據(jù)訪問 19
4.3.3??身份認(rèn)證 19
4.3.4??負(fù)面信息展示 20
4.3.5??負(fù)面信息管理 20
4.3.6??負(fù)詞庫管理 21
4.3.7??爬蟲管理 21
5??系統(tǒng)實(shí)現(xiàn) 23
5.1??搭建腳手架 23
5.2??路由規(guī)劃 24
5.3??模型的創(chuàng)建與實(shí)現(xiàn) 25
5.4??控制器的創(chuàng)建與實(shí)現(xiàn) 25
5.4.1??NegativeInfoController的設(shè)計(jì) 25
5.4.2??NegativeWordController的設(shè)計(jì) 27
5.4.3??SpiderController的設(shè)計(jì) 28
5.4.4??HomeController的設(shè)計(jì) 32
5.5??視圖的實(shí)現(xiàn) 33
5.5.1??HomeController下的視圖 33
5.5.2??NegativeInfoController下的視圖 36
5.5.3??NegativeWordController下的視圖 39
5.5.4??SpiderController下的視圖 39
6??系統(tǒng)測(cè)試 42
6.1??黑盒測(cè)試 42
6.2??缺陷統(tǒng)計(jì) 42
6.3??測(cè)試結(jié)論和建議 43
參考文獻(xiàn) 45
?
1??引言
1.1??背景
在互聯(lián)網(wǎng)時(shí)代,信息的傳播快速而廣泛。許多機(jī)構(gòu)和個(gè)人可以輕易的發(fā)布、傳播信息。而負(fù)面信息在網(wǎng)絡(luò)的泛濫給企業(yè)帶來的傷害對(duì)比起傳統(tǒng)媒體來說有過之而無不及。企業(yè)負(fù)面信息主要會(huì)有以下三個(gè)方面的負(fù)面影響:
1.危害企業(yè)形象;
2.引發(fā)客戶的不信任甚至恐慌;
3.影響企業(yè)內(nèi)部穩(wěn)定。
在這樣的背景下,企業(yè)負(fù)面信息采集和分級(jí)系統(tǒng)具有重要意義。它可以幫助企業(yè)對(duì)網(wǎng)絡(luò)負(fù)面信息進(jìn)行防范、預(yù)測(cè)、控制和處理,可以幫助企業(yè)決定采取何種策略和措施,把握網(wǎng)絡(luò)負(fù)面信息的轉(zhuǎn)化機(jī)會(huì),盡可能的減少網(wǎng)絡(luò)負(fù)面信息影響損失,以保證企業(yè)安全運(yùn)行,維護(hù)企業(yè)持續(xù)經(jīng)營。
1.2??現(xiàn)狀
市面上現(xiàn)在已經(jīng)存在一些對(duì)企業(yè)負(fù)面信息進(jìn)行采集和監(jiān)控的方法?,F(xiàn)行的方法主要如下:
1.通過人工進(jìn)行周期性的線上搜索,對(duì)負(fù)面信息進(jìn)行收集和階段性處理;
2.通過爬蟲對(duì)特定網(wǎng)站進(jìn)行信息收集,之后通過人工審核判斷信息內(nèi)容;
3.使用商業(yè)輿情監(jiān)控系統(tǒng),進(jìn)行自動(dòng)化信息收集和信息分級(jí)。
對(duì)于上述方法1,所使用的人力成本高昂,信息收集和處理效率低下,信息時(shí)效滯后,但準(zhǔn)確度最高。對(duì)于上述方法2,人力成本得到了有效的控制,信息收集效率也得到了提高,信息處理準(zhǔn)確度有一定保障,但存在處理效率較低和信息時(shí)效滯后的問題。對(duì)于上述方法3,人力成本幾乎可以忽略不計(jì),信息收集和處理效率高,時(shí)效性強(qiáng),可以做到接近實(shí)時(shí)監(jiān)控,但信息準(zhǔn)確度依賴于信息處理模型的好壞。
1.3??目的
本設(shè)計(jì)的主要目的是實(shí)現(xiàn)一個(gè)自動(dòng)化的負(fù)面信息采集和分級(jí)系統(tǒng),系統(tǒng)能針對(duì)給定的目標(biāo)企業(yè),從互聯(lián)網(wǎng)抓?。ɑ谒阉饕娣绞剑┢湄?fù)面信息,然后根據(jù)負(fù)面信息嚴(yán)重程度進(jìn)行簡(jiǎn)單分級(jí)。
系統(tǒng)采用B/S架構(gòu),為用戶提供真正平臺(tái)無關(guān)的高可用服務(wù)。對(duì)于收集到的數(shù)據(jù),系統(tǒng)在服務(wù)器進(jìn)行持久化,提高用戶查詢速度,方便用戶查看歷史信息。系統(tǒng)提供的負(fù)面信息分級(jí)功能,幫助用戶快速過濾無效或低權(quán)值信息。系統(tǒng)還提供了一系列的管理功能,讓用戶對(duì)信息的處理能力不僅僅停留在查看上,最終幫助用戶進(jìn)行輿情監(jiān)控,輿情分析和輿情處理。
1.4??范圍
以下為本說明書的預(yù)期讀者:
項(xiàng)目管理人員、項(xiàng)目產(chǎn)品經(jīng)理、軟件開發(fā)工程師、軟件測(cè)試工程師、系統(tǒng)運(yùn)維工程師、系統(tǒng)使用者。
1.5??主要內(nèi)容
本系統(tǒng)主要包括瀏覽器端和服務(wù)器端兩個(gè)部分。瀏覽器端是用戶使用的部分,是信息展示的載體,同時(shí)負(fù)責(zé)為用戶提供各種功能的入口。服務(wù)器端負(fù)責(zé)處理用戶請(qǐng)求,處理文本數(shù)據(jù),與數(shù)據(jù)庫進(jìn)行交互以及為瀏覽器端提供數(shù)據(jù)。
系統(tǒng)按功能劃分可以分為五個(gè)子系統(tǒng):
- 負(fù)面信息展示系統(tǒng);
- 用戶認(rèn)證系統(tǒng);
- 爬蟲系統(tǒng);
- 負(fù)面信息管理系統(tǒng);
- 負(fù)詞庫管理系統(tǒng);
本說明書將以此為基礎(chǔ),對(duì)系統(tǒng)進(jìn)行分析和設(shè)計(jì)。
?
2??技術(shù)路線
此項(xiàng)目基于B/S架構(gòu),采用了經(jīng)典的MVC模式。項(xiàng)目中除了使用了常規(guī)的PHP、MySQL、Apache等技術(shù),還使用到了網(wǎng)絡(luò)爬蟲、Laravel框架、DomCrawler組件以及NLP等流行的技術(shù)。
2.1??網(wǎng)絡(luò)爬蟲
網(wǎng)絡(luò)爬蟲是一種自動(dòng)化的程序,它最基本的功能是按照一定規(guī)則,對(duì)網(wǎng)絡(luò)上的信息進(jìn)行捕獲。爬蟲技術(shù)的出現(xiàn),主要是伴隨著互聯(lián)網(wǎng)的迅猛發(fā)展。大量的信息產(chǎn)生在萬維網(wǎng)上,如何有效捕獲信息成為了一個(gè)需要解決的問題。而網(wǎng)絡(luò)爬蟲技術(shù)隨著通用搜索引擎的出現(xiàn)和發(fā)展,逐漸形成體系成為一種新技術(shù)。之后,網(wǎng)絡(luò)爬蟲在不同的垂直領(lǐng)域,面對(duì)不同的業(yè)務(wù)環(huán)境,發(fā)展成不同的方向,比如,提高信息獲取速率的高并發(fā)多代理爬蟲,針對(duì)反爬蟲策略的反反爬蟲爬蟲,通過特定樣本訓(xùn)練的人工智能爬蟲等等。爬蟲技術(shù)的本質(zhì)是數(shù)據(jù)獲取,經(jīng)常同數(shù)據(jù)處理技術(shù)結(jié)合起來面對(duì)業(yè)務(wù)需求。
2.2??Laravel框架
Laravel框架是目前最流行的PHP框架。Laravel的設(shè)計(jì)基于MVC構(gòu)建,簡(jiǎn)潔優(yōu)雅而富有表現(xiàn)力。MVC是一種分層設(shè)計(jì)的思想,目的在于分離業(yè)務(wù)邏輯、數(shù)據(jù)和展示。這樣可以在改進(jìn)其中一層的時(shí)候,不需要對(duì)其他部分進(jìn)行修改,同時(shí)也可以實(shí)現(xiàn)只更新數(shù)據(jù)就改變展示效果。本項(xiàng)目使用的Laravel5.5版本,支持Composer包管理,日志遵循PHP-FIG,提供了項(xiàng)目的低耦合,高可維護(hù),統(tǒng)一異常處理等特性。
2.3??DomCrawler組件
DomCrawler是Symfony開發(fā)的HTML和XML文檔操作組件。組件支持通過Composer自動(dòng)加載。DomCrawler組件簡(jiǎn)化了文檔的DOM導(dǎo)航。它讀取一個(gè)HTML/XML文本,并建立文檔樹。DomCrawler在內(nèi)部實(shí)現(xiàn)了一個(gè)XPath解析器,所以它支持通過XPath訪問文檔樹的節(jié)點(diǎn),高效準(zhǔn)確而優(yōu)雅。DomCrawler支持直接通過請(qǐng)求獲取頁面并轉(zhuǎn)化為DomCrawler對(duì)象,方便開發(fā)者快速開始自己的爬蟲應(yīng)用。
2.4??文本向量
文本向量是一種文本表示模型,這種模型是為了讓計(jì)算機(jī)可以更好的識(shí)別文本。對(duì)于原始文本,許多文本挖掘或者文本分類算法無法直接處理,所以要對(duì)文本進(jìn)行相應(yīng)的處理,其中一種方法就是把文本向量化?;谠~典的文本向量化,首先需要確定一個(gè)向量空間。把詞典中的每個(gè)詞作為向量空間的一個(gè)維度,則對(duì)于基于N個(gè)詞的文本,可以表示為N維向量空間中的一個(gè)向量。
2.5??TF/IDF權(quán)值
對(duì)于文本向量,每一個(gè)維度需要有對(duì)應(yīng)的值來表示。TF/IDF就是一種文本向量權(quán)值的計(jì)算思想。TF表示詞文本頻率,它表示對(duì)于一段文本,某個(gè)詞的權(quán)重應(yīng)該伴隨它出現(xiàn)在文本中的頻率上升而上升,即詞權(quán)重與詞文本頻率正相關(guān)。IDF表示詞文件頻率,它描述了詞頻的另一種特性,即詞匯在全部樣本文件中出現(xiàn)的頻率越高,它在單個(gè)文件中的權(quán)重應(yīng)該越低,故IDF也叫反詞頻。TF/IDF體現(xiàn)的思想是:如果一個(gè)詞在文件中反復(fù)出現(xiàn),那么它應(yīng)該是被強(qiáng)調(diào)的,應(yīng)該被更加重視;但是這個(gè)詞如果在整個(gè)主題中都有很高的頻率,那么說明這個(gè)詞匯是普遍的,對(duì)于單獨(dú)的文本可能并沒有特殊意義。總之,TF/IDF為文本向量化提供了一種考慮相關(guān)性的計(jì)算思想。
0 Comments.