DANG ?宕機(jī),有些人讀成雷機(jī),那么咱們必須知道是DANG機(jī)
一般指服務(wù)器死機(jī),當(dāng)然一般指計(jì)算機(jī)莫名其妙原因無法連接。
那么服務(wù)器宕機(jī)了怎么吧?
1:服務(wù)器宕機(jī)了,第一件事,就是看是不是藍(lán)屏或者死機(jī)了,這個(gè)時(shí)候,你趕快第一時(shí)間聯(lián)系機(jī)房值班幫你重啟服務(wù)器,
2:如果重啟還沒解決,那么就比較麻煩,需要密碼進(jìn)入服務(wù)器看是IP問題還是服務(wù)器硬件或者軟件故障。
3:如果是硬件或者軟件故障,都是聯(lián)系機(jī)房幫你更換硬件,或者重啟服務(wù)器解決。
4:如果是機(jī)房原因,導(dǎo)致IP無法連接,這個(gè)也是需要聯(lián)系機(jī)房解決的。
013年,由于火災(zāi)、洪水、電力以及軟件更新等熱門事件的發(fā)生,引起了眾多數(shù)據(jù)中心出現(xiàn)停機(jī)故障。故障主要覆蓋范圍包括云計(jì)算、企業(yè)、網(wǎng)絡(luò)支付、政府、 州以及相關(guān)地方。每起事件都給客戶和終端用戶帶來了不少麻煩。但這也促使我們吸取經(jīng)驗(yàn)教訓(xùn):完善數(shù)據(jù)中心和應(yīng)用程序,使其變得更加可靠。以下分別列出了 2013年的十項(xiàng)重大停機(jī)事件:
1.Healthcare.gov:聯(lián)邦政府的在線保險(xiǎn)網(wǎng)站已經(jīng)成為IT領(lǐng)域出錯(cuò)的一個(gè)典型事件。這次事件已經(jīng)不單單是一次簡(jiǎn)單的停機(jī)事件。該故障導(dǎo)致了一系列的硬中斷和軟中斷,最終使該網(wǎng)站的功能幾乎全部喪失。聯(lián)邦政府曾嘗試增加更多硬件設(shè)施來做彌補(bǔ),但該網(wǎng)站在十二月初直到奧巴馬管理的“IT團(tuán)隊(duì)”正確定位軟件和解決數(shù)據(jù)瓶頸時(shí)才恢復(fù)其功能。之后,又通過正式成立醫(yī)療改革法案以及政治審查,該網(wǎng)站的性能才趨于完備?;謴?fù)之后的網(wǎng)站在一些會(huì)導(dǎo)致系統(tǒng)崩潰的關(guān)鍵點(diǎn)上加強(qiáng)了防備。Healthcare.gov轉(zhuǎn)換Web站點(diǎn)性能這一這一事件應(yīng)該是本年度的新聞?lì)^條。
2.BlueHost、HostGator和HostMonster的重大停機(jī)事故:2013年8月2日,由位于美國猶他州的數(shù)據(jù)中心所支持的幾大全球知名品牌遭受停機(jī)事故,這也是2013年度波及范圍最廣的一次重大停機(jī)事故。該事故是由Endurance 國際集團(tuán)在猶他州普羅沃的一個(gè)設(shè)施故障所引起,直接對(duì)其客戶BlueHost、HostGator和HostMonster造成了重大影響。此次事件歸因于Endurance服務(wù)器常規(guī)維護(hù)的硬件故障,但卻直接迅速波及整個(gè)網(wǎng)絡(luò)系統(tǒng)。
3.Visa停機(jī)事件橫跨整個(gè)加拿大:2013年1月28日當(dāng)天,Visa卡暫停服務(wù),促使加拿大人民無法進(jìn)行網(wǎng)絡(luò)交易,給當(dāng)?shù)亟鹑跇I(yè)帶來了巨大的損失。該事故歸因于TSS(Total System Services Inc.)的一個(gè)數(shù)據(jù)中心的崩潰,直接影響到加拿大商業(yè)銀行、加拿大皇家銀行以及道明加拿大信托銀行。
4.Xbox One產(chǎn)品艱難發(fā)行:2013年11月,Xbox One產(chǎn)品成功發(fā)行,這對(duì)于協(xié)助于權(quán)威Xbox Live的Windows Azure云計(jì)算服務(wù)來說是非常不易的。早前,該平臺(tái)一直被各種問題所困擾,其中包括存儲(chǔ)和網(wǎng)絡(luò)問題。但這并不是微軟云操作平臺(tái)的唯一一次瓶頸。2013年3月,某款軟件的更新失敗直接影響到其數(shù)據(jù)中心,最終使得微軟的基于Web的電子郵件服務(wù)系統(tǒng)中斷,Hotmail與Outlook.com同時(shí)離線長達(dá)16小時(shí)。
5.停機(jī)故障導(dǎo)致DreamHost客戶離線:2013年3月20日,虛擬主機(jī)提供商DreamHost歷經(jīng)了一次長時(shí)間停機(jī)故障。該事故歸因于美國加利福利亞州爾灣的數(shù)據(jù)中心的電力系統(tǒng)故障。此次停機(jī)事故持續(xù)兩天,直接給DreamHost的35萬多客戶造成影響。
6.亞馬遜云計(jì)算服務(wù)未免其難:微軟并不是唯一一家遭受停機(jī)故障的云服務(wù)商。2013年,亞馬遜出現(xiàn)了幾次非常重大的停機(jī)故障,其中最嚴(yán)重的一次發(fā)生在8月份,這次事故對(duì)Amazon.com主頁和AWS雙方都造成了嚴(yán)重影響。9月份,連續(xù)的網(wǎng)絡(luò)問題已經(jīng)引起了AWS的第十三次停機(jī)故障,繼而直接影響到由AWS提供服務(wù)的Heroku、Github以及其他網(wǎng)站。早在2012年圣誕前夕,亞馬遜由于一起重大停機(jī)故障導(dǎo)致其平臺(tái)關(guān)閉,這起事件甚至影響到Netflix。而亞馬遜在2013年度的表現(xiàn)相對(duì)于2012年來說已經(jīng)具有顯著提高。
7.數(shù)據(jù)中心所引發(fā)的火災(zāi)導(dǎo)致美國密歇根離線:2013年4月17日,一場(chǎng)火災(zāi)直接摧毀了位于美國密歇根州馬科姆縣的數(shù)據(jù)中心,導(dǎo)致當(dāng)?shù)豂T服務(wù)中斷。馬科姆縣位于底特律西部,擁有85萬居民人口。此前,馬克姆縣并沒有備份數(shù)據(jù)中心,當(dāng)?shù)毓賳T只能采用筆、紙、復(fù)印本以及筆記本電腦試圖為網(wǎng)絡(luò)做臨時(shí)維護(hù)。目前該網(wǎng)絡(luò)仍然處于中斷狀態(tài),但新的網(wǎng)絡(luò)運(yùn)營中心有望在近期上線。該州政府和馬克姆社區(qū)學(xué)院也伸出了救援,幫助其恢復(fù)運(yùn)營。
8.多倫多洪澇災(zāi)害擊垮科斯數(shù)據(jù)中心:一場(chǎng)巨大的暴雨導(dǎo)致多倫多遭受洪澇和停電災(zāi)害,這也給處于全市最大的數(shù)據(jù)樞紐中心的居民們帶來了不小的挑戰(zhàn)。而多倫多供電公司暫停供電時(shí),位于151街道的一家酒店則采用發(fā)電機(jī)供電。然而,此次洪澇災(zāi)害仍然導(dǎo)致了一系列問題,一些數(shù)據(jù)中心并不能幸免于難。
9.美國新澤西州數(shù)據(jù)中心停機(jī)故障:2013年9月,美國新澤西州的數(shù)據(jù)中心暫停為一些國家機(jī)構(gòu)服務(wù),包括美國機(jī)動(dòng)車委員會(huì)和一些州的官方網(wǎng)站。新西澤為州和當(dāng)?shù)卣峁┑姆?wù)記錄中已經(jīng)存在一條最差記錄,而在2013年1月和8月又連續(xù)出現(xiàn)兩次長時(shí)間的中斷故障。
10.雅虎艱難度過12月:上周,雅虎郵箱連續(xù)四天出現(xiàn)一些功能性問題,而雅虎首席執(zhí)行官 Marissa Mayer對(duì)此已做出道歉。Marissa Mayer說,“本次停機(jī)事故比我們想象中的要嚴(yán)重很多,我們花了好幾天的時(shí)間來恢復(fù)系統(tǒng)功能”。雅虎本次事件歸咎于存儲(chǔ)系統(tǒng)一個(gè)罕見的硬件故障。
**********6月15日的回答
查詢whois得知,知乎的DNS服務(wù)器是http://ns3.dnsv4.com和http://ns4.dnsv4.com(屬于DNSPOD)。
使用Nslookup查詢知乎的DNS解析發(fā)現(xiàn),http://ns3.dnsv4.com沒有響應(yīng),http://ns4.dnsv4.com丟包75%,這大概是造成知乎出問題的直接原因。(用戶無法通過域名解析服務(wù)找到知乎的服務(wù)器)
但是上述兩個(gè)域名服務(wù)器其實(shí)是多地備份的,所以很可能是這兩個(gè)域名解析的域名掛了,或者配置數(shù)據(jù)亂了。
域名服務(wù)器: http://ns3.dnsv4.com的地址有:
182.140.167.169(成都電信)
221.204.186.6(太原聯(lián)通)
125.39.213.169(天津聯(lián)通)
180.153.10.166(上海電信)
119.167.195.8(青島聯(lián)通)
183.60.52.217(深圳電信)
115.236.151.140(杭州電信)
184.105.206.73(美國)
183.60.57.179(深圳電信)
上述數(shù)據(jù)來自網(wǎng)絡(luò),有可能并不準(zhǔn)確
知乎主站的地址是 60.28.215.70 / 71,下午一度ping不通,但是直接訪問備用的60.28.215.83可以訪問首頁,登錄后卻無法讀取內(nèi)容。
同一個(gè)網(wǎng)段的知乎日?qǐng)?bào)60.28.215.86 / 87,開始是可以訪問的,后來似乎也不行了。
手機(jī)客戶端對(duì)應(yīng)的則是API.zhihu.com: 60.28.215.74 / 75 / 109 / 110 / 122 / 123也一度不能訪問,不過比主站修復(fù)的快。
聯(lián)系到上周知乎一直訪問不穩(wěn)定,而且部分地址被解析到Amazon和AliKunlun(亞馬遜和阿里巴巴都有提供CDN以及相應(yīng)的流量清洗服務(wù)),很有可能知乎在遭遇一次比較持久的DoS拒絕服務(wù)攻擊。
當(dāng)然也不排除知乎自己的運(yùn)維人員或者天津聯(lián)通機(jī)房的工作人員“誤操作”的可能性。
從架構(gòu)角度來說,知乎把所有的雞蛋都放在了一個(gè)籃子里(同一個(gè)機(jī)房的同一個(gè)網(wǎng)段),其實(shí)是風(fēng)險(xiǎn)比較大的,大概是以前并沒有遭遇過成規(guī)模的攻擊的原因,以后還是要考慮異地備份。
此外,手機(jī)客戶端可以參考QQ的做法,預(yù)存IP地址在本地用于DNS出問題時(shí)的訪問,平時(shí)也減少了DNS解析的時(shí)延。
以上純屬猜測(cè),請(qǐng)勿對(duì)號(hào)入座。