網(wǎng)站開發(fā)開題報告怎樣推廣一個產(chǎn)品
文章目錄
- 前言
- 一、當前的狀態(tài)是什么?
- 二、集群啟動異常懷疑對象
- 1.排查心跳網(wǎng)絡異常
- ping自己私有IP延遲高
- ping其它主機私有IP不通
- 2.是否發(fā)生過重啟
- 三、日志信息收集
- ocssd.trc
- 集群crs日志
- cell的griddisk狀態(tài)及報錯
- 四、IB交換機的問題排查處理
- 五、緊急恢復業(yè)務
- 在IB完成正常重啟后,重新啟動所有cell服務
- 拉起集群:
- 六、收尾工作
- check修復第二臺IB交換機
- 重新掛載nfs共享目錄
- 檢查PDU,確實已掉電
- 七、原因調(diào)查
- PDU問題由于29日晚操作切電操作導致UPS路跳閘
- 主機等log顯示電源切換
- 29日有檢測到FAN0風扇數(shù)值是0
- 總結
前言
客戶突然聯(lián)系說應用無法連接數(shù)據(jù)庫,報錯如下:
[ERROR]-[Thread: Druid-ConnectionPool-Create-26728049]-[com.alibaba.druid.pool.DruidDataSource$CreateConnectionThread.run()]: create connection error, url: jdbc:oracle:thin:@x.x.x.93:1521:empdb011, errorCode 17002, state 08006
java.sql.SQLRecoverableException: IO 錯誤: The Network Adapter could not establish the connectionat oracle.jdbc.driver.T4CConnection.logon(T4CConnection.java:774)at oracle.jdbc.driver.PhysicalConnection.connect(PhysicalConnection.java:688)at oracle.jdbc.driver.T4CDriverExtension.getConnection(T4CDriverExtension.java:39)at oracle.jdbc.driver.OracleDriver.connect(OracleDriver.java:691)at com.alibaba.druid.filter.FilterChainImpl.connection_connect(FilterChainImpl.java:148)at com.alibaba.druid.filter.stat.StatFilter.connection_connect(StatFilter.java:220)at com.alibaba.druid.filter.FilterChainImpl.connection_connect(FilterChainImpl.java:142)at com.alibaba.druid.filter.FilterAdapter.connection_connect(FilterAdapter.java:785)at com.alibaba.druid.filter.FilterChainImpl.connection_connect(FilterChainImpl.java:142)at com.alibaba.druid.pool.DruidAbstractDataSource.createPhysicalConnection(DruidAbstractDataSource.java:1463)at com.alibaba.druid.pool.DruidAbstractDataSource.createPhysicalConnection(DruidAbstractDataSource.java:1525)at com.alibaba.druid.pool.DruidDataSource$CreateConnectionThread.run(DruidDataSource.java:2100)
Caused by: oracle.net.ns.NetException: The Network Adapter could not establish the connectionat oracle.net.nt.ConnStrategy.execute(ConnStrategy.java:523)at oracle.net.resolver.AddrResolution.resolveAndExecute(AddrResolution.java:521)at oracle.net.ns.NSProtocol.establishConnection(NSProtocol.java:660)at oracle.net.ns.NSProtocol.connect(NSProtocol.java:286)at oracle.jdbc.driver.T4CConnection.connect(T4CConnection.java:1438)at oracle.jdbc.driver.T4CConnection.logon(T4CConnection.java:518)... 11 more
Caused by: java.io.IOException: Connection timed out: connect, socket connect lapse 20998 ms. /x.x.x.93 1521 0 1 trueat ora
一、當前的狀態(tài)是什么?
集群狀態(tài)宕掉了,且無法正常啟動!!!
二、集群啟動異常懷疑對象
1.排查心跳網(wǎng)絡異常
ping自己私有IP延遲高
ping其它主機私有IP不通
那么問題定位到私有IP不通導致的集群無法啟動,一體機內(nèi)部私有IP交互是通過自身的IB交換機完成的,很有可能是IB交換機問題,下面進行日志查詢?nèi)∽C。
2.是否發(fā)生過重啟
每臺機器都發(fā)生過重啟,明顯掉電情況
三、日志信息收集
ocssd.trc
集群crs日志
cell的griddisk狀態(tài)及報錯
嘗試啟動:
那么排查到這里可以斷定,是由于上層問題導致的griddisk不正常無法拉起集群,此處上層的IB交換機就成為重要排查對象。
四、IB交換機的問題排查處理
通過融合IP登入ilom管理網(wǎng)頁失敗,只能通過ssh
登入后看到明顯的提示,嘗試boot重啟失敗:
還發(fā)現(xiàn)掉了一個PDU,進行確認私有IP通信正常
五、緊急恢復業(yè)務
在IB完成正常重啟后,重新啟動所有cell服務
拉起集群:
六、收尾工作
check修復第二臺IB交換機
重新掛載nfs共享目錄
檢查PDU,確實已掉電
七、原因調(diào)查
PDU問題由于29日晚操作切電操作導致UPS路跳閘
主機等log顯示電源切換
29日有檢測到FAN0風扇數(shù)值是0
但實際風扇只應該顯示FAN1~3才對,出現(xiàn)FAN0也是奇怪,有知道朋友可以留言。
總結
通過整體問題梳理,應該是在用過進行切電作業(yè)時候導致UPS跳閘,且市電進行切換導致的整個一體機機柜出現(xiàn)了掉電情況,然后服務器重啟后,IB交換機自檢硬件有問題導致自檢失敗所有整體的私有IP和以下的集群服務無法正常啟動。