用爬蟲做網(wǎng)站如何查看一個網(wǎng)站的訪問量
【Apache Doris】數(shù)據(jù)副本問題排查指南
- 一、問題現(xiàn)象
- 二、問題定位
- 三、問題處理
本文主要分享Doris中數(shù)據(jù)副本異常的問題現(xiàn)象、問題定位以及如何處理此類問題。
一、問題現(xiàn)象
- 問題日志
查詢報錯
Failed to initialize storage reader, tablet={tablet_id}.xxx.xxx
- 問題說明
查詢時,FE讓BE返回spec_version范圍的數(shù)據(jù),但是BE缺部分version了,就會報這個錯誤。
- 問題原因
遷移副本過程可能丟version,在2.0.3修復了,或者在數(shù)據(jù)導入過程中be宕機。
注意:
如果版本是2.0.1及以前,且它的所有副本last failed version > 0,通常需要重新建表進行導數(shù)。
二、問題定位
如上圖所示,查詢報錯的 tablet_id 是 606202, BE ip是 10.xxx, BE 需要包含version 區(qū)間 [0 - 35]。
當確定異常tablet_id時,參考如下步驟先進行問題信息收集:
-
show tablet {tablet_id} (這里是606202),拿到detail cmd
-
執(zhí)行detail cmd的輸出
SHOW PROC ' /dbs/10113/591325/partitions/606195/591326/606202";
找出該BE所在的副本(compact status url中包含有該BE的ip)
- 執(zhí)行curl<步驟2的compact status url>, 該例子是
curl http://10.xxx:8040/api/compaction/show?tablet_id=606202
查看該副本的rowset 和 missing_rowset,重點看rowset 的最大版本(這里是34)和 missing_rowsets。從上圖可以看出該副本的rowset 為 0 ~ 34, 且中間不缺version(missing_rowsets為空)。而查詢語句中是 special version 是 [0, 35], 但該BE不含version 35。所以需要給該BE補上version 35。
注意:這里的special version實際就是partition的visible version。 它也可以通過如下指令查看。
show partitions from <table-name xxx> where PartitionName = '<partition name xxx>'
三、問題處理
- 確認是否自動修復
由于doris內(nèi)部會自動做數(shù)據(jù)均衡和修復,所以當出現(xiàn)數(shù)據(jù)副本異常時,先確認異常數(shù)據(jù)副本能否自動修復:
如果是多副本,查看是否存在健康副本。健康副本是指副本version >= special version && last failed version = -1 && isBad = false, 且curl 它的 compact status, missing rowsets 為空。
如果存在這樣的副本,把查詢報錯的副本set bad,如上圖所示BackendId為10003上版本遠落后于其他兩個副本的version,可以通過設置為bad來自動修復。
ADMIN SET REPLICA STATUS PROPERTIES("tablet_id" = "7552021", "backend_id" = "10003", "status" = "bad");
等待一會(可能需要一兩分鐘),再執(zhí)行步驟2中的detail cmd,如果副本都健康了:
version >= special version && last failed version = -1 && isBad = false
且curl它的compact status, missing rowsets為空,說明修補OK了。且執(zhí)行select count (*) from table_xx 是否OK。
如果沒問題,就自動修復完成了,不用往下看。如果還是有問題,接著往下看。
- 重新導數(shù)手動修復
- 如果是多個副本都損壞,并且是分區(qū)表的情況下,可以刪除這個分區(qū),然后手動重建這個分區(qū),重新導入數(shù)據(jù)即可。
- 如果是多個副本都損壞,并且是非分區(qū)表的情況下,只能刪除這個表重新導入數(shù)據(jù)。
- 填充空副本進行修復
注意:
以上兩個方法可以恢復丟失的數(shù)據(jù),而填充空副本方法,是插入若干個空rowset,它能恢復讀寫。但如果丟失的rowset是包含數(shù)據(jù)的,這種方法實質(zhì)是丟數(shù)據(jù)的。
空副本修復方式如下:
curl -X POST "http://10.151.2.29:8040/api/pad_rowset?tablet_id=606202&start_version=35&end_version=35"
- tablet_id table 的 id
- start_version 起始版本
- end_version 終止版本
該功能用于使用一個空的 rowset 填充損壞的副本。這個例子中修補的url中 start_version = 35, end_version = 35。
這個例子只是缺一個rowset, 實際中可能缺多個(missing rowset,最大version + 1 ~ special version),缺多少個rowset,就調(diào)用多少次修補的方法。
修補完之后,再執(zhí)行下show tablet xxx,該副本last fail version 是否等于 -1,如果它的version都補上了,但是last fail version = version + 1, 還需要手工執(zhí)行把last fail version 改成 -1:
ADMIN SET REPLICA VERSION PROPERTIES("tablet_id" = "10003", "backend_id" = "10001", "last_failed_version" = "-1");
低版本的doris可能不含這個SQL, 如果不支持這個SQL且是單副本的,通常需要重新建表進行導數(shù)。
如果沒問題,使用
select count(*) from table_xx;
查看是否可讀,可讀則說明數(shù)據(jù)副本問題已處理。