Author: Tim Jiang

又有新的一体机中文文档添加到 My Oracle Support 中了! (2018年6月)

最新翻译的文档列表:

 

Note 2359940.1: SRDC – Exadata: 数据库或存储节点的硬件问题

Note 2359908.1: SRDC – Exadata: Infiniband 问题

Note 2365353.1: SRDC – Exadata: 智能扫描(Smart Scan)不工作的问题

Note 2370145.1: SRDC – Exadata存储服务器(Cell)相关的性能问题

Note 2370131.1: SRDC – EEST 基于 Solaris 的 Exadata 节点 reboot 或者 crash

Note 2373432.1: SRDC – Exadata: RAC/Clusterware 相关问题

Note 2372800.1: SRDC – 一体机ILOM Snapshot 收集

Note 2372841.1: SRDC – Zero Data Loss Recovery Appliance (ZDLRA) 诊断信息收集

Note 2354802.1: SRDC – Infiniband 交换机

Note 2370231.1: SRDC – EEST Flash 卡性能不佳

Note 2370225.1: SRDC – EEST 网络线缆问题

Note 2370130.1: SRDC – Oracle 工程系统 (ES) Linux 服务器 Sosreport 数据收集

Note 2368495.1: SRDC – EEST 存储节点 IPS 包问题

Note 2368492.1: SRDC – EEST Sundiag

Note 2373434.1: SRDC – EEST Exadata Storage cell IORM 问题

Note 2372189.1: SRDC – SuperCluster Infiniband (IB) 交换机补丁问题

Note 2371255.1: SRDC – Exadata: Smart Scan 错误结果集问题

Note 2370760.1: SRDC – EEST一般存储节点问题

Note 2371307.1: SRDC – EEST EM 12c 环境问题

Note 2370198.1: SRDC – Exadata:存储软件服务或offload服务器服务故障

Note 2370161.1: SRDC – Exadata:存储/数据库节点修补和升级问题

Note 2370142.1: SRDC – EEST存储(cell)打补丁

Note 2372233.1: SRDC – EEST Exachk

Note 2372749.1: SRDC – SuperCluster Solaris 打补丁问题

Note 2372292.1: SRDC – Oracle 服务器平台上的硬件问题

Note 2372234.1: SRDC – EEST DB/ASM IPS 包问题

Note 2402812.1: SRDC – EEST Cisco 管理交换机的问题

Note 2404014.1: SRDC – Exadata:数据库/实例/进程 hang 或 spin 问题

Note 2402814.1: SRDC – EEST企业管理器中的 Exadata 相关问题

Note 2401074.1: Exadata Cloud SRDC:Exachk 收集

Note 2402810.1: Exadata Cloud SRDC: 使用dbcs_diag_tool 收集TFA

Note 2402809.1: Exadata 云服务SRDC: VM/DomU 无法访问

Note 2404897.1: Exadata Cloud SRDC:外部挂载NFS / ZFS块存储到VM / DomU

Note 2402294.1: Exadata Cloud SRDC: Infiniband 连接问题

Note 2402287.1: Exadata Cloud SRDC – Exadata DB节点reboot或者crash

Note 2401073.1: Exadata Cloud SRDC:DB / ASM IPS软件包问题

Note 2405526.1: Exadata Cloud SRDC: Cell IPS 包问题(Cloud Ops)

Note 2403379.1: Exadata Cloud SRDC – DB节点reboot或者crash(Cloud Ops)

Note 2403272.1: SRDC – EEST Infiniband 在Solaris上的连接问题

Note 2405523.1: SRDC – EEST Linux节点或Cell节点重启或宕机

Note 2403323.1: SRDC – EEST Power Distribution Unit

Note 2407465.1: SRDC – EEST企业管理器上关于SuperCluster Targets问题的数据搜集

Note 2383794.1: SRDC – SuperCluster Application Domain/Zone Crash/Panic/Reboot

Note 2383804.1: SRDC – SuperCluster Database Domain/Zone Crash/Panic/Reboot

Note 2403989.1: Exadata: 在Solaris机器执行Exachk导致ASM磁盘组dismount

Note 2388395.1: 如何替换ODA内存dimm

 

 

完整的列表请点击这里
或登录 My Oracle Support 并查找:

中文文档列表 – Oracle 集成系统 (DocID 2133788.2) 

 

Exadata x5-2 High Capacity eighth rack扩展到 quarter rack的案例

为了满足大型任务关键型数据库的大数据需求, Oracle 推出了存储扩展机架, 可帮助您扩展Oracle Exadata数据库云平台以及Oracle SuperCluster超级集群的存储容量和带宽。它专为需要处理大量数据(包括历史或存档数据;Oracle Exadata 数据库云平台数据的备份或存档;文档、图像、文件和XML数据;LOB和其他大型非结构化数据)的数据库部署而设计。我们可以选择四分之一机架, 半机架或全机架配置来扩展Oracle Exadata Oracle SuperCluster的存储容量和带宽;

本文介绍只是从软件层面把Exadata X5-2 High Capacity eighth rack扩展到quarter rack; 它不需要对机架上的硬件做任何变动.

首先我们看下eighth rack当前的内核数, 使用root用户在数据库服务器上执行:

# dcli -gdb_group -l root ‘dbmcli -e list dbserver attributes coreCount’

X5-2 eighth rack 的内核数应为18; 我们把所有的内核都激活:

# dcli -g db_group -l root ‘dbmcli -e ALTER DBSERVER pendingCoreCount = 36’

重启数据库服务器就生效了.

关于存储, Eighth rack每一个cell存储服务器只是使用了其中的6块盘, 接下来所做的是把每个cell存储上的12块盘全都都使用.

先看一下当前的celldisk:
[root@demo52db01 onecommand]# dcli -l root -g cell_group cellcli -e listcelldisk
demo52cel01: CD_00_demo52cel01 normal
demo52cel01: CD_01_demo52cel01 normal
demo52cel01: CD_02_demo52cel01 normal
demo52cel01: CD_03_demo52cel01 normal
demo52cel01: CD_04_demo52cel01 normal
demo52cel01: CD_05_demo52cel01 normal
demo52cel01: FD_00_demo52cel01 normal
demo52cel01: FD_01_demo52cel01 normal

demo52cel02: CD_00_demo52cel02 normal
demo52cel02: CD_01_demo52cel02 normal
demo52cel02: CD_02_demo52cel02 normal
demo52cel02: CD_03_demo52cel02 normal
demo52cel02: CD_04_demo52cel02 normal
demo52cel02: CD_05_demo52cel02 normal
demo52cel02: FD_00_demo52cel02 normal
demo52cel02: FD_01_demo52cel02 normal

demo52cel03: CD_00_demo52cel03 normal
demo52cel03: CD_01_demo52cel03 normal
demo52cel03: CD_02_demo52cel03 normal
demo52cel03: CD_03_demo52cel03 normal
demo52cel03: CD_04_demo52cel03 normal
demo52cel03: CD_05_demo52cel03 normal
demo52cel03: FD_00_demo52cel03 normal
demo52cel03: FD_01_demo52cel03 normal

然后在每个cell存储上都执行:


CellCLI> alter cell eighthRack=false;

<<<< 我们要把1/8变成1/4 rack, 需要把此参数设置为false.
CellCLI> create celldiskall

<<<< 为未使用的6块物理盘创建相应的6个新的celldisk, 不会对当前已有的6celldisk做改变.
CellCLI> list celldisk

<<<< 检查下CD_05_demo52cel01CD_11_demo52cel01是否被成功创建.
CellCLI> drop flashlog allforce
CellCLI> create flashlog all
CellCLI> alter flashcache all

<<<< 我们增加了2flash, 所以需要重新创建flashlogflash cache.

继续去创建grid disks:

CellCLI> CREATEGRIDDISK ALL HARDDISK PREFIX=DATA, size=2.7041015625T
CellCLI> CREATE GRIDDISK ALL HARDDISK PREFIX=DBFS, size=33.796875G
CellCLI> CREATE GRIDDISK ALL HARDDISK PREFIX=RECO, size=737G

CellCLI> CREATEGRIDDISK ALL HARDDISK PREFIX=SP, size=100G, virtualsize=500G

<<<< 这里的size值可以参考已有的griddisk的值

接下来再把grid disks添加到ASM磁盘组里:

1. 先把磁盘组的appliance.mode属性改为false


SQL> ALTER DISKGROUP RECOset attribute ‘appliance.mode’=’FALSE’;
SQL> ALTER DISKGROUP DBFS_DG set attribute ‘appliance.mode’=’FALSE’;
SQL> ALTER DISKGROUP SPARSE set attribute ‘appliance.mode’=’FALSE’;
SQL> ALTER DISKGROUP DATA set attribute ‘appliance.mode’=’FALSE’;

2. 给磁盘组添加新创建的grid disks


SQL> ALTER DISKGROUP DATAADD DISK ‘o/*/DATA_CD_0[6-9]*’,’ \o/*/DATA_CD_1[0-1]*’ REBALANCE POWER 16; 
SQL> ALTER DISKGROUP DBFS_DG ADD DISK ‘o/*/DBFS_DG_CD_0[6-9]*’,’\o/*/DBFS_DG_CD_1[0-1]*’ REBALANCE POWER 16;  
SQL> ALTER DISKGROUP RECO ADD DISK ‘o/*/RECO_CD_0[6-9]*’,’ \o/*/RECO_CD_1[0-1]*’REBALANCE POWER 16;  
SQL> ALTER DISKGROUP SP ADD DISK ‘o/*/SP_CD_0[6-9]*’,’ \o/*/SP_CD_1[0-1]*’REBALANCE POWER 16;

3. 使用命令查看rebalance操作的情况:

SQL> SELECT * FROM  gv$asm_operation;

4. 最后再把磁盘组的appliance.mode属性改为true

SQL> ALTERDISKGROUP RECO set attribute ‘appliance.mode’=’TRUE’;
SQL> ALTER DISKGROUP DBFS_DG set attribute ‘appliance.mode’=’TRUE’;
SQL> ALTER DISKGROUP SPARSE set attribute ‘appliance.mode’=’TRUE’;
SQL> ALTER DISKGROUP DATA set attribute ‘appliance.mode’=’TRUE’;

因为1/8 rack扩展到1/4 rack涉及到费用和license等事宜, 在做上面操作前请先致电license sales: (CN) 800-810-0161 / (TW) 0800-684-636

参考文献

http://docs.oracle.com/cd/E50790_01/doc/doc.121/e51952/hardware.htm#DBMMR22013

Steps to manually create cell/grid disks onExadata if auto-create fails during disk replacement (Doc ID 1281395.1)

Exadata的诊断工具

1.    Sundiag
每个Exadata的数据库服务器和存储服务器节点都安装了sundiag.sh脚本, 在/opt/oracle.SupportTools 路径下;因为是Exadata初始软件包(image)里所包含的sundiag.sh,所以如果image版本比较旧, 可以到文档 761868.1去下载最新版本的sundiag.sh脚本。
当Exadata 存储服务器 (Exadata Storage Servers) 或数据库节点 (Db nodes)出现磁盘故障或一些其他硬件问题时,我们就使用Sundiag 去收集相关的诊断信息。
执行时请使用root用户:
#cd /opt/oracle.SupportTools/
 #./sundiag.sh
它会自动生成sundiag_<hostname>_<serialnumber>_<timestamp>.tar.bz2 文件并存放在/tmp 文件夹中。
接下来看看disk有问题的几个案例:
alerthistory.out
12_1     2016-09-02T00:38:57+08:00     critical     “Data hard disk failed.  Status : NOT PRESENT  Manufacturer : HGST  Model Number : H101212SESUN1.2T  Size : 1.2TB  Serial Number : 1419DLRADF  Firmware : A690  Slot Number : 6  Cell Disk : CD_06_exa02cel02  Grid Disk : DATA1_CD_06_exa02cel02, DBFS_DG_CD_06_exa02cel02, RECO1_CD_06_exa02cel02”

20_1 2016-09-18T02:22:43+00:00 critical “Hard disk status changed to predictive failure. Status : PREDICTIVE FAILURE Manufacturer : SEAGATE Model Number : ST32000SSSUN2.0T Size : 2.0TB Serial Number : L1A2B3 Firmware : 0514 Slot Number : 11 Cell Disk : CD_11_exd1cel01 Grid Disk DATA_EXD1_CD_11_exd1cel01, RECO_EXD1_CD_11_exd1cel01, DBFS_DG_CD_11_exd1cel01”

physicaldisk-fail.out
20:2     L5YH9W     warning  <<<

megacli64-PdList_short_2012_08_23_18_24.out

Slot 02 Device 17 (SEAGATE ST32000SSSUN2.0T061A1120L5YH9W  ) status is: Unconfigured(bad)

还要看一些日志。所以当您发现磁盘有问题时,请及时开SR联系我们售后support,当然现在大部分客户已配置好ASR功能的就可以自动生成SR到我们这里了。
在您提交SR时, 请务必把有问题server的sundiag报告也上传到SR中,这样我们收到SR后就可以尽快分析,并且根据disk是否需要更换来尽快安排工程师去现场。所以只提供disk亮灯的照片对我们support解决问题的帮助是不大的。
Sundiag报告里还有操作系统日志, image的版本, cell的alert日志,ms的日志,系统的一些配置信息等等。因为日志很多,在此就不一一列举了。

2.    Exawatcher
操作系统资源监控工具, 就是我们常用的OSWatcher。具体请参阅blog中有专门介绍此工具的帖子

3.    ILOM snapshot
管理员可以通过Integrated Lights-Out Management (ILOM) 远程监视和控制服务器硬件的状态。当遇到硬件故障时,我们通常需要收集ILOM snapshot,里面会记录着硬件的故障信息。
我们可以使用Web界面或者CLI命令行的方式进行收集。如何收集请参考MOS文档1062544.1 。
看个内存有故障的案例,通过日志:
 @usr@local@bin@spshexec_show_faulty.out

-> show faulty
Target             | Property              | Value                            
——————-+———————–+———————————–
/SP/faultmgmt/0    | fru                   | /SYS/MB/P0/D11
/SP/faultmgmt/0/   | class                 | fault.memory.intel.dimm.training-f
 faults/0          |                       | ailed-single-symbol
/SP/faultmgmt/0/   | sunw-msg-id           | SPX86A-8004-7U
 faults/0          |                       |
/SP/faultmgmt/0/   | component             | /SYS/MB/P0/D11
 faults/0          |                       |
/SP/faultmgmt/0/   | uuid                  | 956766c8-a7d1-ef22-f0e1-ccbc7e82bd
 faults/0          |                       | 6b
/SP/faultmgmt/0/   | timestamp             | 2016-08-22/15:47:24
 faults/0          |                       |
/SP/faultmgmt/0/   | system_serial_number  | AK0032xxxx
 faults/0          |                       |
/SP/faultmgmt/0/   | system_part_number    | Exadata X5-2
 faults/0          |                       |
/SP/faultmgmt/0/   | system_name           | Exadata X5-2
 faults/0          |                       |
/SP/faultmgmt/0/   | system_manufacturer   | Oracle Corporation
 faults/0          |                       |
/SP/faultmgmt/0/   | chassis_serial_number | 1527xxxxxx
 faults/0          |                       |
/SP/faultmgmt/0/   | chassis_part_number   | 7090664
 faults/0          |                       |
/SP/faultmgmt/0/   | chassis_name          | ORACLE SERVER X5-2
 faults/0          |                       |
/SP/faultmgmt/0/   | chassis_manufacturer  | Oracle Corporation
 faults/0          |                       |
/SP/faultmgmt/0/   | system_component_seri | 1527xxxxxx
 faults/0          | al_number             |
/SP/faultmgmt/0/   | system_component_part | 7090664
 faults/0          | _number               |
/SP/faultmgmt/0/   | system_component_name | ORACLE SERVER X5-2
 faults/0          |                       |
/SP/faultmgmt/0/   | system_component_manu | Oracle Corporation
 faults/0          | facturer              |
/SP/faultmgmt/0/   | fru_name              | 32768MB DDR4 SDRAM DIMM
 faults/0          |                       |
/SP/faultmgmt/0/   | fru_manufacturer      | Samsung
 faults/0          |                       |
/SP/faultmgmt/0/   | fru_serial_number     | 00CE021521407xxxxx
 faults/0          |                       |
/SP/faultmgmt/0/   | fru_rev_level         | 01
 faults/0          |                       |
/SP/faultmgmt/0/   | fru_part_number       | 07075400,M386A4G40DM0-CPB
 faults/0          |                       |

-> Session closed

FE到现场更换完内存后,

-> show -d properties -level all /SYS
/SYS
  Properties:
      type = Host System
      ipmi_name = SYS
      product_name = ORACLE SERVER X5-2
      product_part_number = 7090664
      product_serial_number = 1527xxxxxx
      product_manufacturer = Oracle Corporation
      fault_state = OK          =====================> 服务器运行状态OK
      clear_fault_action = (none)
      power_state = On

-> show faulty
Target             | Property              | Value                           
——————-+———————–+———————————–

-> Session closed

OK               | ON               =====================> OK灯显示
SERVICE          | OFF
LOCATE           | OFF
SP/OK            | ON
PS_FAULT         | OFF
TEMP_FAULT       | OFF
FAN_FAULT        | OFF
FM0/SERVICE      | OFF
FM1/SERVICE      | OFF
FM2/SERVICE      | OFF
FM3/SERVICE      | OFF
P0/SERVICE       | OFF
P0/D0/SERV       | OFF
P0/D1/SERV       | na
P0/D2/SERV       | na
P0/D3/SERV       | OFF
P0/D4/SERV       | na
P0/D5/SERV       | na
P0/D6/SERV       | na
P0/D7/SERV       | na
P0/D8/SERV       | OFF
P0/D9/SERV       | na
P0/D10/SERV      | na
P0/D11/SERV      | OFF
P1/SERVICE       | OFF
P1/D0/SERV       | OFF
P1/D1/SERV       | na
P1/D2/SERV       | na
P1/D3/SERV       | OFF
P1/D4/SERV       | na
P1/D5/SERV       | na
P1/D6/SERV       | na
P1/D7/SERV       | na
P1/D8/SERV       | OFF
P1/D9/SERV       | na
P1/D10/SERV      | na
P1/D11/SERV      | OFF
通过新生成的ILOM snapshot来看,目前这台x5-2服务器硬件运行一切正常了。

除了诊断硬件问题外, 当遇到server自动重启等问题时,OS日志里面还没有任何的信息。我们可以看下ILOM snapshot的hostconsole日志。
举个例子:
@persist@hostconsole.log

Call Trace:
Kernel panic – not syncing: softlockup: hung tasks
Pid: 12344, comm: oracle Tainted: G   M       2.6.32-100.23.1.el5 #1
Call Trace:
<IRQ>  [<ffffffff81056a86>] panic+0xa5/0x162
[<ffffffff810128ae>] ? apic_timer_interrupt+0xe/0x20
[<ffffffff810128ae>] ? apic_timer_interrupt+0xe/0x20
[<ffffffff810156b1>] ? show_trace_log_lvl+0x51/0x5d
[<ffffffff810156d2>] ? show_trace+0x15/0x17
[<ffffffff810108ac>] ? show_regs+0x49/0x4d
[<ffffffff810ac9db>] softlockup_tick+0x178/0x187
[<ffffffff8108257e>] ? tick_sched_timer+0x0/0xa1
[<ffffffff81064317>] run_local_timers+0x1d/0x1f
[<ffffffff810647a2>] update_process_times+0x35/0x59
[<ffffffff810825f6>] tick_sched_timer+0x78/0xa1
[<ffffffff8107848c>] __run_hrtimer+0xbb/0x118
[<ffffffff8107859c>] hrtimer_interrupt+0xb3/0x197
[<ffffffff8143cc02>] smp_apic_timer_interrupt+0x7a/0x8d
[<ffffffff810128b3>] apic_timer_interrupt+0x13/0x20
这个案例最后定位是由于Linux Bug 14258279,因为问题发生在Exadata机器上,所以只能升级Exadata storage server software来解决此问题。(参考文档1473825.1)
因为hostconsole里的信息没有时间戳,我一般都是搜索关键字‘login’,找到最后一次的login,然后看前面是否有错误信息。

4.    Sosreport
操作系统诊断报告。它会收集Linux上的配置和诊断信息。
使用root用户直接执行# sosreport,然后报告文件就会生成在/tmp中。在Exadata的server上执行如果遇到hang的问题请参考文档1614364.1

5.    TFA
TFA是个11.2版本上推出的用来收集Grid Infrastructure/ RAC环境下的诊断日志的工具,它可以用非常简单的命令协助用户收集RAC里的日志,以便进一步进行诊断;TFA是类似 diagcollection的一个oracle 集群日志收集器,而且TFA比diagcollection集中和自动化的诊断信息收集能力更强大。
如何使用请参考Blog中Supercluster诊断工具的帖子。

最后,再附上两篇文档作为参考。毕竟不同的问题有不同的诊断,所用到的诊断工具也是不同的。

Where / How to find OS crashcore file in Exadata Systems [Linux] (Doc ID 1389225.1)
Information Center: Troubleshooting Oracle Exadata Database Machine (Doc ID 1346612.2)

TEL/電話+86 13764045638
Email service@parnassusdata.com
QQ 47079569