
Hadoop常見錯誤和處理方式
常見問題及處理
查詢辦法mysqladmin version
在建立hive數據庫的時候,最好是:create database hive;
oozie的數據庫,同樣:create database oozie;
hadoop采集的字符集問題。
修改/etc/sysconfig/i18n 更改字符集為en_US.UTF-8
重啟機器生效。
重啟機器的指令為:在root下敲入如下指令:sync;sync;init 6
修改mapreduce。
在gateway/性能下修改:MapReduce 子 Java 基礎選項 、Map 任務 Java 選項庫 、Reduce 任務 Java 選項庫 全部配置成 -Xmx4294967296
在TASKTRACKER/性能下修改:MapReduce 子 Java 基礎選項 、Map 任務 Java 選項庫 、Reduce 任務 Java 選項庫 全部配置成 -Xmx4294967296
必須關注各個任務的詳細情況
當出現如下的錯誤的時候,請及時的將下載的進程數調小。
vi /home/boco/oozie_wy/config/lte/mro/ftp/807101.xml 將max_thread由原來的6個調整為3個,或者協調廠家加大FTP的最大線程數
stderr logs:
org.apache.commons.net.ftp.FTPConnectionClosedException: FTP response 421 received. Server closed connection.
at org.apache.commons.net.ftp.FTP.__getReply(FTP.java:363)
at org.apache.commons.net.ftp.FTP.__getReply(FTP.java:290)
at org.apache.commons.net.ftp.FTP.connectAction(FTP.java:396)
at org.apache.commons.net.ftp.FTPClient.connectAction(FTPClient.java:796)
at org.apache.commons.net.SocketClient.connect(SocketClient.java:172)
at org.apache.commons.net.SocketClient.connect(SocketClient.java:192)
at org.apache.commons.net.SocketClient.connect(SocketClient.java:285)
at com.boco.wangyou.utils.Ftp.connectServer(Ftp.java:550)
at com.boco.wangyou.lte.mro.ftp.tools.FindFileThread.run(FindFileThread.java:67)
登錄ftp服務器【10.140.177.149】失敗,FTP服務器無法打開!
org.apache.commons.net.ftp.FTPConnectionClosedException: FTP response 421 received. Server closed connection.
at org.apache.commons.net.ftp.FTP.__getReply(FTP.java:363)
at org.apache.commons.net.ftp.FTP.__getReply(FTP.java:290)
at org.apache.commons.net.ftp.FTP.connectAction(FTP.java:396)
at org.apache.commons.net.ftp.FTPClient.connectAction(FTPClient.java:796)
at org.apache.commons.net.SocketClient.connect(SocketClient.java:172)
at org.apache.commons.net.SocketClient.connect(SocketClient.java:192)
at org.apache.commons.net.SocketClient.connect(SocketClient.java:285)
at com.boco.wangyou.utils.Ftp.connectServer(Ftp.java:550)
at com.boco.wangyou.lte.mro.ftp.tools.FindFileThread.run(FindFileThread.java:67)
登錄ftp服務器【10.140.177.149】失敗,FTP服務器無法打開!
org.apache.commons.net.ftp.FTPConnectionClosedException: FTP response 421 received. Server closed connection.
at org.apache.commons.net.ftp.FTP.__getReply(FTP.java:363)
at org.apache.commons.net.ftp.FTP.__getReply(FTP.java:290)
at org.apache.commons.net.ftp.FTP.connectAction(FTP.java:396)
at org.apache.commons.net.ftp.FTPClient.connectAction(FTPClient.java:796)
at org.apache.commons.net.SocketClient.connect(SocketClient.java:172)
at org.apache.commons.net.SocketClient.connect(SocketClient.java:192)
TASKTRACKER和HDFS組的問題
發(fā)現部分地方在安裝的時候,將所有的機器分組的問題。
如果分組,需要將每個組的參數都要修改。
目前發(fā)現很多的地方,TASKTRACKER和HDFS都分了組,但是只修改一組的參數,造成系統大量出問題。
java heap size以及tasktracker被拉黑名單的問題。
namenode和datanode的內存配置問題。
建議將使用的內存修改為4G左右。
建議將HIVE2服務放到一個輔節(jié)點上。
hive2放到輔節(jié)點上,經常出現add_partation掛起報錯。
解決HIVE經常掛死的問題
修改zookeeper的最大客戶端連接數,maxClientCnxns修改為3600或者修改成0不限制
自動清空時間間隔,autopurge.purgeInterval 修改為1小時
廠家XML配置的問題。
如果廠家是這樣的:/data/dataservice/mr/ltemro/huawei/20140815/01/362323/TD-LTE_MRO_HUAWEI_010133150144_362323_20140815011500.xml.gz
建議配置成這樣的:
路徑:/data/dataservice/mr/ltemro/huawei/$TIME$/$ENODEB$
時間格式:yymmdd/hh
在/home/boco/oozie_wy/config/lte/mro/ftp下禁止存放.bak文件
有一個省份的mapper數超多,導致解析很長時間沒有完成。
進一步發(fā)現FTP在合并文件的時候報錯,再進一步發(fā)現同一個IP地址,同一個OMC啟動了三個mapper進程去下載數據導致文件合并失敗。
發(fā)現是修改了ftp.xml文件,沒有刪除原來的文件,而是以一個bak文件存放。
刪除這些bak文件,mapper數量正常。
原mapper數1731個,刪除之后mapper數41個,采集正常。
打開50030看FTP的日志,存在如下的報錯:
java.io.FileNotFoundException: File does not exist: /user/boco/cache/wy/ltemro/1411032293348/xml/155/2014-09-18_11/TD-LTE_MRO_ERICSSON_OMC1_303024_20140918111500.xml.zip
at org.apache.hadoop.hdfs.server.namenode.INodeFile.valueOf(INodeFile.java:39)
at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.getBlockLocationsUpdateTimes(FSNamesystem.java:1341)
at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.getBlockLocationsInt(FSNamesystem.java:1293)
at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.getBlockLocations(FSNamesystem.java:1269)
at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.getBlockLocations(FSNamesystem.java:1242)
at org.apache.hadoop.hdfs.server.namenode.NameNodeRpcServer.getBlockLocations(NameNodeRpcServer.java:392)
at org.apache.hadoop.hdfs.protocolPB.ClientNamenodeProtocolServerSideTranslatorPB.getBlockLocations(ClientNamenodeProtocolServerSideTranslatorPB.java:172)
at org.apache.hadoop.hdfs.protocol.proto.ClientNamenodeProtocolProtos$ClientNamenodeProtocol$2.callBlockingMethod(ClientNamenodeProtocolProtos.java:44938)
at org.apache.hadoop.ipc.ProtobufRpcEngine$Server$ProtoBufRpcInvoker.call(ProtobufRpcEngine.java:453)
at org.apache.hadoop.ipc.RPC$Server.call(RPC.java:1002)
at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:1701)
at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:1697)
at java.security.AccessController.doPrivileged(Native Method)
或者:
org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.server.namenode.LeaseExpiredException):
Lease mismatch on /user/boco/cache/wy/ltemro/1411032293348/xml/155/2014-09-18_11/TD-LTE_MRO_ERICSSON_OMC1_3030_20140918.xml owned by DFSClient_NONMAPREDUCE_
-1274827212_1 but is accessed by DFSClient_NONMAPREDUCE_-216613905_1
at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.checkLease(FSNamesystem.java:2459)
at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.checkLease(FSNamesystem.java:2437)
at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.completeFileInternal(FSNamesystem.java:2503)
at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.completeFile(FSNamesystem.java:2480)
at org.apache.hadoop.hdfs.server.namenode.NameNodeRpcServer.complete(NameNodeRpcServer.java:535)
at org.apache.hadoop.hdfs.protocolPB.ClientNamenodeProtocolServerSideTranslatorPB.complete(ClientNamenodeProtocolServerSideTranslatorPB.java:337)
at org.apache.hadoop.hdfs.protocol.proto.ClientNamenodeProtocolProtos$ClientNamenodeProtocol$2.callBlockingMethod(ClientNamenodeProtocolProtos.java:44958)
at org.apache.hadoop.ipc.ProtobufRpcEngine$Server$ProtoBufRpcInvoker.call(ProtobufRpcEngine.java:453)
at org.apache.hadoop.ipc.RPC$Server.call(RPC.java:1002)
REDIS故障
解析時候報錯,錯誤如下:
redis.clients.jedis.exceptions.JedisConnectionException: Could not get a resource from the pool
at redis.clients.util.Pool.getResource(Pool.java:22)
at com.boco.wangyou.utils.JedisUtils.getJedis(JedisUtils.java:47)
at com.boco.wangyou.utils.JedisUtils.getTableValues(JedisUtils.java:119)
at com.boco.wangyou.lte.mro.tdl.tools.LteMroXMLParser.
此問題一般是因為REDIS沒有啟動導致。
克隆機器安裝的問題
把一個節(jié)點的第二步都裝好了,把它克隆到其它主機上,再把克隆到的主機的IP
(注意在修改IP配置文件的時候,將HWaddr也改了,一般是這種格式:00:50:56:80:4E:D6,
否則在連接時會找不到硬盤)和主機名改下。
此種情況主要出現在使用vmvare vsphere克隆導致的。
注意:
克隆之后的機器要修改IP地址,主機名,MAC地址。
redis掛死,導致無法采集
#現象
redis.clients.jedis.exceptions.JedisDataException:
MISCONF Redis is configured to save RDB snapshots,
but is currently not able to persist on disk.
啟動客戶端:
/usr/local/redis/redis-cli
輸入:
config set stop-writes-on-bgsave-error no
主節(jié)點7180無法訪問
1)檢查主節(jié)點是不是日志空間滿了,如果滿了,需要刪除/var/log/hive下面日志
hadoop相關服務啟動命令:
sudo service cloudera-scm-server stop
sudo service cloudera-scm-server-db stop
sudo service cloudera-scm-server start
sudo service cloudera-scm-server-db start
LTEMRO采集報錯
主要是在這一步報錯:CREATE_EXTERNAL_TABLE_NODE
MR.LteScEarfcn 主小區(qū)頻點
MR.LteScPci 主小區(qū)PCI
MR.LteScRSRP 主小區(qū)的RSRP
MR.LteScRSRQ 主小區(qū)RSRQ
MR.LteNcEarfcn 鄰小區(qū)頻點
MR.LteNcPci 鄰小區(qū)PCI
MR.LteNcRSRP 鄰小區(qū)的RSRP
MR.LteNcRSRQ 鄰小區(qū)RSRQ
只要有有效數據,就不會報這個錯。
查看日志
HIVE的日志主要是在:/var/log/hive/
oozie的日志主要在: /var/log/oozie/
HDFS的日志主要在: /var/log/hadoop-hdfs/
zookeeper的日志主要在:/var/log/zookeeper/
在出現問題的時候,可以看看這些日志。
zookeeper無法啟動
處理辦法:到master主機的/var/lib/zookeeper,刪除所有的文件,重啟zookeeper即可。
sudo mkdir version-2
sudo chown -R zookeeper:zookeeper version-2
loudera-manager-installer.bin安裝報錯。
報錯如下:
Loaded plugins: aliases, changelog, downloadonly, fastestmirror, kabi, presto,
: refresh-packagekit, security, tmprepo, verify, versionlock
Loading support for CentOS kernel ABI
Loading mirror speeds from cached hostfile
http://10.233.9.63/cdh4.3.0/cdh4.3/repodata/repomd.xml: [Errno 14] PYCURL ERROR 22 - "The requested URL returned error: 403"
Trying other mirror.
Error: Cannot retrieve repository metadata (repomd.xml) for repository: cloudera-cdh4. Please verify its path and try again
處理辦法:
刪除集群中每一臺機器上原有的repo文件,rm -rf /etc/yum.repos.d/*
然后修改cloudera-chd4.repo、cloudera-impala.repo和 cloudera-manager.repo文件,將文件中的地址換成主節(jié)點的地址。
將cloudera-chd4.repo、cloudera-impala.repo和 cloudera-manager.repo文件上傳到集群中每一臺機器的/etc/yum.repos.d/目錄下。
數據分析咨詢請掃描二維碼
若不方便掃碼,搜微信號:CDAshujufenxi
DSGE 模型中的 Et:理性預期算子的內涵、作用與應用解析 動態(tài)隨機一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明確:TIF 中的地名有哪兩種存在形式? 在開始提取前,需先判斷 TIF 文件的類型 —— ...
2025-09-17CDA 數據分析師:解鎖表結構數據特征價值的專業(yè)核心 表結構數據(以 “行 - 列” 規(guī)范存儲的結構化數據,如數據庫表、Excel 表、 ...
2025-09-17Excel 導入數據含缺失值?詳解 dropna 函數的功能與實戰(zhàn)應用 在用 Python(如 pandas 庫)處理 Excel 數據時,“缺失值” 是高頻 ...
2025-09-16深入解析卡方檢驗與 t 檢驗:差異、適用場景與實踐應用 在數據分析與統計學領域,假設檢驗是驗證研究假設、判斷數據差異是否 “ ...
2025-09-16CDA 數據分析師:掌控表格結構數據全功能周期的專業(yè)操盤手 表格結構數據(以 “行 - 列” 存儲的結構化數據,如 Excel 表、數據 ...
2025-09-16MySQL 執(zhí)行計劃中 rows 數量的準確性解析:原理、影響因素與優(yōu)化 在 MySQL SQL 調優(yōu)中,EXPLAIN執(zhí)行計劃是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 對象的 text 與 content:區(qū)別、場景與實踐指南 在 Python 進行 HTTP 網絡請求開發(fā)時(如使用requests ...
2025-09-15CDA 數據分析師:激活表格結構數據價值的核心操盤手 表格結構數據(如 Excel 表格、數據庫表)是企業(yè)最基礎、最核心的數據形態(tài) ...
2025-09-15Python HTTP 請求工具對比:urllib.request 與 requests 的核心差異與選擇指南 在 Python 處理 HTTP 請求(如接口調用、數據爬取 ...
2025-09-12解決 pd.read_csv 讀取長浮點數據的科學計數法問題 為幫助 Python 數據從業(yè)者解決pd.read_csv讀取長浮點數據時的科學計數法問題 ...
2025-09-12CDA 數據分析師:業(yè)務數據分析步驟的落地者與價值優(yōu)化者 業(yè)務數據分析是企業(yè)解決日常運營問題、提升執(zhí)行效率的核心手段,其價值 ...
2025-09-12用 SQL 驗證業(yè)務邏輯:從規(guī)則拆解到數據把關的實戰(zhàn)指南 在業(yè)務系統落地過程中,“業(yè)務邏輯” 是連接 “需求設計” 與 “用戶體驗 ...
2025-09-11塔吉特百貨孕婦營銷案例:數據驅動下的精準零售革命與啟示 在零售行業(yè) “流量紅利見頂” 的當下,精準營銷成為企業(yè)突圍的核心方 ...
2025-09-11CDA 數據分析師與戰(zhàn)略 / 業(yè)務數據分析:概念辨析與協同價值 在數據驅動決策的體系中,“戰(zhàn)略數據分析”“業(yè)務數據分析” 是企業(yè) ...
2025-09-11Excel 數據聚類分析:從操作實踐到業(yè)務價值挖掘 在數據分析場景中,聚類分析作為 “無監(jiān)督分組” 的核心工具,能從雜亂數據中挖 ...
2025-09-10統計模型的核心目的:從數據解讀到決策支撐的價值導向 統計模型作為數據分析的核心工具,并非簡單的 “公式堆砌”,而是圍繞特定 ...
2025-09-10CDA 數據分析師:商業(yè)數據分析實踐的落地者與價值創(chuàng)造者 商業(yè)數據分析的價值,最終要在 “實踐” 中體現 —— 脫離業(yè)務場景的分 ...
2025-09-10機器學習解決實際問題的核心關鍵:從業(yè)務到落地的全流程解析 在人工智能技術落地的浪潮中,機器學習作為核心工具,已廣泛應用于 ...
2025-09-09SPSS 編碼狀態(tài)區(qū)域中 Unicode 的功能與價值解析 在 SPSS(Statistical Product and Service Solutions,統計產品與服務解決方案 ...
2025-09-09