九九线精品视频在线观看,国产欧美日韩精品丝袜高跟鞋 ,文中字幕一区二区三区视频播放

作者：李煌東

大家好，我是阿里云的李煌東。今天我為大家分享 Kubernetes 監(jiān)測公開課第四節(jié)，如何使用 Kubernetes?監(jiān)測定位慢調(diào)用。今天的課程主要分為三大部分，首先我會介紹一下慢調(diào)用的危害以及常見的原因；其次我會介紹慢調(diào)用的分析方法以及最佳實踐；最后通過幾個案例來去演示一下慢調(diào)用的分析過程。

慢調(diào)用危害及常見原因

如何使用 Kubernetes 監(jiān)測定位慢調(diào)用_響應(yīng)時間

在開發(fā)軟件過程中，慢調(diào)用是非常常見的異常。慢調(diào)用可能帶來的危害包括：

前端業(yè)務(wù)維度：首先慢調(diào)用可能會引起前端加載慢的問題，前端加載慢可能會進一步導(dǎo)致應(yīng)用卸載率高，進而影響品牌的口碑。

項目交付的維度：由于接口慢導(dǎo)致達不到 SLO，進而導(dǎo)致項目延期。

業(yè)務(wù)架構(gòu)穩(wěn)定性：當接口調(diào)用慢時，非常容易引起超時，當其他業(yè)務(wù)服務(wù)都依賴這個接口，那么就會引發(fā)大量重試，進而導(dǎo)致資源耗盡，最終導(dǎo)致部分服務(wù)或者整個服務(wù)不可用的雪崩的現(xiàn)象。

所以，看似一個無關(guān)痛癢的慢調(diào)用可能隱藏著巨大風(fēng)險，我們應(yīng)該引起警惕。對慢調(diào)用最好都不要去忽視它，應(yīng)該盡可能去分析其背后的原因，從而進行風(fēng)險控制。

如何使用 Kubernetes 監(jiān)測定位慢調(diào)用_響應(yīng)時間_02

產(chǎn)生慢調(diào)用的原因有哪些？產(chǎn)生慢調(diào)用的原因是千千萬萬的，歸結(jié)起來有五個常見原因。

第一個是資源使用率過高問題，比如說 CPU 內(nèi)存、磁盤、網(wǎng)卡等等。當這些使用率過高的時候，非常容易引起服務(wù)慢。

第二個是代碼設(shè)計的問題，通常來說如果 SQL 它關(guān)聯(lián)了很多表，做了很多表，那么會非常影響 SQL 執(zhí)行的性能。

第三個是依賴問題，服務(wù)自身沒有問題，但調(diào)用下游服務(wù)時下游返回慢，自身服務(wù)處于等待狀態(tài)，也會導(dǎo)致服務(wù)慢調(diào)用的情況。

第四個是設(shè)計問題，比如說海量數(shù)據(jù)的表非常大，億級別數(shù)據(jù)查詢沒有分庫分表，那么就會非常容易引起慢查詢。類似的情況還有耗時的操作沒有做緩存。

第五個是網(wǎng)絡(luò)方面問題，比如說跨洲調(diào)用，跨洲調(diào)用是物理距離太大了，導(dǎo)致往返時間比較長，進而導(dǎo)致慢調(diào)用。或者兩點之間的網(wǎng)絡(luò)性能可能比較差。比如說有丟包重傳率，重傳率高的問題。

今天我們的例子圍繞這五個方面，我們一起來看一下。

定位慢調(diào)用一般來說有什么樣的步驟，或者說有什么樣的最佳實踐呢？我這里總結(jié)的為三個方面：黃金信號 + 資源指標 + 全局架構(gòu)。?

如何使用 Kubernetes 監(jiān)測定位慢調(diào)用_mysql_03

我們先來看一下黃金信號。首先，黃金信號是出自谷歌 SRE 圣經(jīng)里面的?Site Reliability Engineering?一書。用來表征系統(tǒng)是否健康的最小指標的集合，這其中包括：

延時--用來描述系統(tǒng)執(zhí)行請求花費的時間。常見指標包括平均響應(yīng)時間，P90/P95/P99 這些分位數(shù)，這些指標能夠很好的表征這個系統(tǒng)對外響應(yīng)的快還是慢，是比較直觀的。

流量--用來表征服務(wù)繁忙程度，典型的指標有 QPS、TPS。

錯誤--也就是我們常見的類似于協(xié)議里 HTTP 協(xié)議里面的 500、400 這些，通常如果錯誤很多的話，說明可能已經(jīng)出現(xiàn)問題了。

飽和度--就是資源水位，通常來說接近飽和的服務(wù)比較容易出現(xiàn)問題，比如說磁盤滿了，導(dǎo)致日志沒辦法寫入，進而導(dǎo)致服務(wù)響應(yīng)。典型的那些資源有 CPU、內(nèi)存、磁盤、隊列長度、連接數(shù)等等。

?除了黃金信號，我們還需要關(guān)注一個資源指標。著名的性能分析大神 Brandan Gregg ，在他的性能分析方法論文章中提到一個 USE 方法。USE 方法是從資源角度進行分析，它是對于每一個資源去檢查 utilization（使用率），saturation （飽和度），error（錯誤），合起來就是 USE 了，檢查這三項基本上能夠解決 80% 的服務(wù)問題，而你只需要花費 5% 的時間。?

如何使用 Kubernetes 監(jiān)測定位慢調(diào)用_sql_04

前面有了黃金信號、資源指標之后，我們還需要關(guān)注什么？正如 Branda 在方法論里面提到的“我們不能只見樹木，不見森林”。諸葛亮也說過“不謀全局者，不足以謀一域”。我們應(yīng)該把系統(tǒng)架構(gòu)畫出來，從全局去看性能問題，而不只是看某個資源、某個服務(wù)。把所有東西進行綜合考慮，識別出瓶頸所在，通過設(shè)計方法系統(tǒng)性解決問題，這也是一種更優(yōu)的方法。所以，我們需要黃金信號、資源指標以及全局架構(gòu)這種組合。

慢調(diào)用最佳實踐

接下來我會講三個案例，第一個是節(jié)點 CPU 打滿問題，這也是典型的資源問題導(dǎo)致的服務(wù)慢的問題，即服務(wù)自身的資源導(dǎo)致的問題。第二個是依賴的服務(wù)中間件慢調(diào)用的問題。第三個是網(wǎng)絡(luò)性能差。第一個案例是判斷服務(wù)自身有沒有問題；第二個案例是判斷下游服務(wù)的問題；第三個就是判斷自身跟服務(wù)之間的網(wǎng)絡(luò)性能問題。

我們以一個電商應(yīng)用舉例。首先流量入口是阿里云 SLB，然后流量進入到微服務(wù)體系中，微服務(wù)里面我們通過網(wǎng)關(guān)去接收所有流量，然后網(wǎng)關(guān)會把流量打到對應(yīng)的內(nèi)部服務(wù)里面，比如說 ProductService、CartService、 PaymentService 這些。下面我們依賴了一些中間件，比如說 Redis 、MySQL 等等，這整個架構(gòu)我們會使用阿里云的 ARMS 的 Kubernetes 監(jiān)測產(chǎn)品來去監(jiān)測整個架構(gòu)。故障注入方面，我們會通過 chaosblade 去注入諸如 CPU 打滿、網(wǎng)絡(luò)異常等不同類型的異常。

如何使用 Kubernetes 監(jiān)測定位慢調(diào)用_sql_05

案例一：節(jié)點 CPU 打滿問題

節(jié)點 CPU 打滿會帶來什么樣的問題呢？節(jié)點 CPU 打滿之后，上面的 Pod 可能沒辦法申請到更多 CPU，導(dǎo)致里面的線程都處于等待調(diào)度的狀態(tài)，進而導(dǎo)致慢調(diào)用。除了節(jié)點上面，我們這除了 CPU 之外，還有一些像磁盤、Memory 等等資源。

如何使用 Kubernetes 監(jiān)測定位慢調(diào)用_響應(yīng)時間_06

如何使用 Kubernetes 監(jiān)測定位慢調(diào)用_最佳實踐_07

?接下來我們看一下 CPU 在 Kubernetes 的集群里面的一些特點。首先，CPU 是可壓縮的資源，在 Kubernetes 里面我們右邊看這些配置，有幾個常見配置，比如說 Requests，Requests 是主要是用來做調(diào)度的。Limits 是用來去做運行時的一個限制，超過這個 Limits，它就會被限流。所以，我們的實驗原理是說對節(jié)點這個 CPU 進行打滿注入，導(dǎo)致 Pod 沒辦法申請到更多的內(nèi)存，進而導(dǎo)致服務(wù)變慢。

在正式開始前，我們通過拓撲圖對關(guān)鍵鏈路進行識別，在上面配置一些告警。比如說網(wǎng)關(guān)及支付鏈路，我們會配置平均響應(yīng)時間 P90 以及慢調(diào)用等告警。然后配置完之后，我這邊會注入一個節(jié)點 CPU 打滿這么一個故障。那這個節(jié)點選的是網(wǎng)關(guān)的節(jié)點，大概等待五分鐘之后，我們就可以收到告警，就是第二步里面的那個驗證告警的有效性。

如何使用 Kubernetes 監(jiān)測定位慢調(diào)用_響應(yīng)時間_08

?接下來我們進入根因定位。首先，我們進入到查看到網(wǎng)關(guān)的應(yīng)用詳情里面。第一步是查看相關(guān)黃金信號，黃金信號就是響應(yīng)時間，我們看到響應(yīng)時間非常直觀顯示了突增，下面是慢調(diào)用數(shù)，慢調(diào)用數(shù)是有一千多個，慢調(diào)用數(shù)突然增多了，P90/P95 出現(xiàn)了明顯上升，并超過一秒，說明整個服務(wù)也變慢了。?

如何使用 Kubernetes 監(jiān)測定位慢調(diào)用_最佳實踐_09

接下來，我們需要分析資源指標，在 Pod CPU 使用量圖表中可以看到這段時間 Pod 使用量上升很快，這個過程說明需要向宿主機或者節(jié)點申請更多內(nèi)存。我們進一步看一下節(jié)點或者宿主機的 CPU 使用率是怎么樣的，我們看到這段時間使用率接近百分之百，Pod 申請不了更多 CPU，進一步導(dǎo)致服務(wù)慢了，進而導(dǎo)致平均響應(yīng)時間大量增長。?

如何使用 Kubernetes 監(jiān)測定位慢調(diào)用_最佳實踐_10

定位到問題之后，我們可以想想具體解決方案。通過 CPU 使用率配置彈性伸縮。因為我們不知道相關(guān)流量或者資源，不知道什么時候突然就不夠。那么應(yīng)對這種場景最好的辦法就是給資源配置彈性伸縮，為節(jié)點配置彈性伸縮，主要是為了確保在負載上升時，資源能夠動態(tài)擴容。為了給應(yīng)用配置彈性伸縮，我們可以給比如 CPU 指標，配置一個增加副本數(shù)的一個擴容動作來去分擔流量，這里面我們可以配置成最大副本數(shù)為十，最小副本數(shù)為三等等。?

效果如下：注入 CPU 慢故障時，慢調(diào)用會上升，上升完成之后會觸發(fā)到彈性伸縮，那就是 CPU 的使用率超過閾值了，如 70%。那么，它就會自動擴出一些副本去分擔這些流量，我們可以看到慢調(diào)用數(shù)逐步下降直到消失，說明我們的那個彈性伸縮起到作用了。

如何使用 Kubernetes 監(jiān)測定位慢調(diào)用_中間件_11

案例二：依賴的服務(wù)中間件慢調(diào)用的問題

接下來我們看第二個案例。首先介紹一下準備工作，左邊這邊圖我們可以看到網(wǎng)關(guān)進來掉了兩個下游服務(wù)，一個是 MySQL ，一個是 ProductService，所以在網(wǎng)關(guān)上直接配置一個大于一秒的告警，平均響應(yīng)時間 P99 大于一秒的告警。第二步我們看這個 Product 也是在關(guān)鍵鏈路上面，我給它配一個 P99 大于一秒的告警，第三個是 MySQL ，也配一個大于一秒的告警，配完之后，我會在 Product 這個服務(wù)上面去注入一個 MySQL 慢查詢的故障，大概等到兩分鐘之后，我們就可以看到陸續(xù)告警就觸發(fā)出來了，網(wǎng)關(guān)跟 Product 上面都有一個紅點跟一個灰色的點，這一點其實就是報出來的故障，報出的告警事件，Kubernetes 監(jiān)測會把這個告警事件通過命名空間應(yīng)用自動的 match 到這個節(jié)點上面，所以能夠一眼的看出哪些服務(wù)、哪些應(yīng)用是異常的，這樣能夠快速定位出問題所在。我們現(xiàn)在收到告警了之后，下一步去進行一個根因定位。

如何使用 Kubernetes 監(jiān)測定位慢調(diào)用_最佳實踐_12

首先說一下這個更新定位的流程，告警驅(qū)動因為預(yù)防總比補救要好，所以我們是采用先配置告警，再去更新定位這么一個過程。然后我們會用拓撲來去進行一個可視化分析，因為拓撲是能夠去進行架構(gòu)感知、分析上下游，可以進行可視化分析。當收到告警后，可以針對告警看對應(yīng)的一個應(yīng)用發(fā)生了什么情況。第一個我們看那個網(wǎng)關(guān)，我們看到網(wǎng)關(guān)的那個 P99 上升到 1800 毫秒以上，所以觸發(fā)了一個大于 1 秒閾值的這么一個告警。我們可以也可以看到幾個分位數(shù)都是上漲的，然后我們進一步看另外一個發(fā)生告警的服務(wù)，也就是 Product，點開這個節(jié)點之后，我們可以從那個 panel 上面看到這個 Product 也發(fā)生了一個慢調(diào)用，P99、P95 都已經(jīng)不同程度的發(fā)生慢調(diào)用大都是大于一秒的，然后這時候我們是可以去看一下 Product 的資源使用情況的，因為可能 Product 本身有問題。我們查看 Product 的下游，一個是 Nacos，一個是 MySQL，我們看 MySQL 的這個交互的時候就發(fā)現(xiàn)這里面有大量的一個慢調(diào)用，然后看到這些慢調(diào)用之后，點擊這些明細，去下鉆看一下它調(diào)用的時候發(fā)生了什么事情，我們進一步看這些數(shù)據(jù)之后，就會發(fā)現(xiàn) SQL 里面 Product 調(diào)用 Mysql 的時候執(zhí)行了一條很復(fù)雜，Join 了多張表的一個 SQL 的語句。從調(diào)用 Trace 看到耗時非常大，這樣的話我們就能夠定位到基本上是這條 SQL 產(chǎn)生的一個問題了。

如何使用 Kubernetes 監(jiān)測定位慢調(diào)用_最佳實踐_13

?總結(jié)一下我們整個流程，首先我們會通過架構(gòu)感知去識別關(guān)鍵的路徑，然后在這個關(guān)鍵路徑上去配置告警去主動發(fā)現(xiàn)異常。發(fā)現(xiàn)異常之后，我們通過應(yīng)用自身的資源指標黃金信號等來去定位問題。如果自身沒有問題，那我們就可往下追蹤下游，我們?nèi)タ聪掠蔚馁Y源指標，用這么一種方法去定位慢調(diào)用的一個依賴的問題，中間件調(diào)用的問題。

如何使用 Kubernetes 監(jiān)測定位慢調(diào)用_sql_14

案例三：網(wǎng)絡(luò)性能差

接下來我們講最后一個例子就是網(wǎng)絡(luò)性能差，Kubernetes?的網(wǎng)絡(luò)架構(gòu)是比較復(fù)雜的，容器之間的通信、Pod 之間的通信、Pod 與服務(wù)之間通信、外部與服務(wù)之間的通信等等。所以復(fù)雜度是比較高的，學(xué)習(xí)的曲線也比較陡峭，這給定位問題帶來一定困難。那么，我們怎么去應(yīng)對這種情況呢？如果采用關(guān)鍵網(wǎng)絡(luò)環(huán)境指標去發(fā)現(xiàn)網(wǎng)絡(luò)異常，有哪些關(guān)鍵環(huán)境指標呢？首先一個是速率跟帶寬，第二個是吞吐量，第三個是延時，第四個是 RTT。?

如何使用 Kubernetes 監(jiān)測定位慢調(diào)用_sql_15

首先我會這邊配置一個告警，注入 MySQL 所在節(jié)點丟包率高這個故障，等待幾分鐘之后，我們會收到慢調(diào)用告警，網(wǎng)關(guān)跟 Product 的響應(yīng)時間都發(fā)生了大于一秒的告警。接下來我們看一下根因定位，我們看到網(wǎng)關(guān)，發(fā)生了慢調(diào)用 P99 的響應(yīng)時間暴增，然后看 Product 也發(fā)生了平均響應(yīng)時間突增的問題，那就是剛才的服務(wù)慢調(diào)用了，然后我們進一步看 Product 的下游，依賴了 Nacos、Redis 、MySQL ?這三個服務(wù)，可以發(fā)現(xiàn)慢調(diào)用是比較明顯的，然后我們查看它的下游時就發(fā)現(xiàn)了 Product 調(diào) MySQL 的時候發(fā)生了比較嚴重的慢調(diào)用，同時它的 RTT 跟重傳現(xiàn)象也很明顯。?

如何使用 Kubernetes 監(jiān)測定位慢調(diào)用_最佳實踐_16

正常情況下 RTT 是很平穩(wěn)的。它反映的是上下游之間的往返的時間，如果它都上漲非?？?，基本上可以認定為它是網(wǎng)絡(luò)問題，所以說可以看到就是這里面有三條，從網(wǎng)關(guān)、Product、MySQL，從這里我們可以總結(jié)到就是通過這種識別關(guān)鍵路徑，然后在拓撲上面去配置告警的這種方法可以非?？斓娜ザㄎ粏栴}，不需要去查證很多散落在各個地方的信息。我們只需要去在這條拓撲上面去樹藤摸瓜的去查看對應(yīng)的性能指標，網(wǎng)絡(luò)指標等等，快速定位到問題所在。所以，這就是我們黃金信號 + 資源指標 + 資源拓撲定位像慢調(diào)用這種異常的最佳實踐。?

如何使用 Kubernetes 監(jiān)測定位慢調(diào)用_sql_17

最后總結(jié)下本次最佳實踐：

1、? 通過默認告警主動發(fā)現(xiàn)異常，默認告警模板涵蓋 RED，常見資源類型指標。除了默認下發(fā)的告警規(guī)則，用戶還可以基于模板定制化配置。

2、? 通過黃金信號和資源指標發(fā)現(xiàn)、定位異常，同時 Trace 配合下鉆定位根因。

3、? 通過拓撲圖做上下游分析、依賴分析、架構(gòu)感知，有利于從全局視角審視架構(gòu)，從而得到最優(yōu)解，做到持續(xù)改善，構(gòu)建更穩(wěn)定的系統(tǒng)。?

點擊??此處??，查看更多可觀測相關(guān)干貨內(nèi)容與產(chǎn)品實踐～

本節(jié)課的內(nèi)容到這里就結(jié)束了，歡迎大家前往釘釘掃碼或搜索釘釘群（31588365）加入答疑交流群進行交流。

如何使用 Kubernetes 監(jiān)測定位慢調(diào)用_中間件_18

近期熱門

#云原生加速器，為你而來#

就等你了！趕快點擊??此處??參與報名吧～

如何使用 Kubernetes 監(jiān)測定位慢調(diào)用_響應(yīng)時間_19

如何使用 Kubernetes 監(jiān)測定位慢調(diào)用_mysql_20

如何使用 Kubernetes 監(jiān)測定位慢調(diào)用_中間件_21

如何使用 Kubernetes 監(jiān)測定位慢調(diào)用_中間件_22

如何使用 Kubernetes 監(jiān)測定位慢調(diào)用_中間件_23

如何使用 Kubernetes 監(jiān)測定位慢調(diào)用_sql_24

本文摘自：https://blog.51cto.com/u

如何使用 Kubernetes 監(jiān)測定位慢調(diào)用2021-11-30 22:55:22

慢調(diào)用危害及常見原因

慢調(diào)用最佳實踐

案例一：節(jié)點 CPU 打滿問題

案例二：依賴的服務(wù)中間件慢調(diào)用的問題

案例三：網(wǎng)絡(luò)性能差

如何使用 Kubernetes 監(jiān)測定位慢調(diào)用
2021-11-30 22:55:22