<div dir="ltr"><div>Thanks Tom! I've tried the following:</div><div>*) set /sys/class/drm/card0/device/power_dpm_force_performance_level to low (default: auto)</div><div><div>> cat /sys/kernel/debug/dri/0/amdgpu_pm_info </div><div>> GFX Clocks and Power:</div><div><span class="gmail-Apple-tab-span" style="white-space:pre">>       </span>300 MHz (MCLK)</div><div><span class="gmail-Apple-tab-span" style="white-space:pre">>     </span>214 MHz (SCLK)</div><div>></div><div>> GPU Temperature: 46 C</div><div>> GPU Load: 100 %</div><div>> </div><div>> UVD: Disabled</div><div>> </div><div>> VCE: Disabled</div></div><div>--> no difference in behavior</div><div><br></div><div>*) set /sys/class/drm/card0/device/power_dpm_state to battery (default: performance)</div><div>--> screen flicker when X starts, but nothing displayed or reported to dmesg. Trying to quit/kill X crashes the system.</div><div><br></div><div><br></div><div>After some more testing, I think its not a stability issue in the sense that the system crashes after some time after X has started. For example, running glxgears works fine (no crash for at least 15 minutes), but resizing/moving any X windows (using just the xfce4 WM and a terminal window) results always in crashing (but not immediately, need to grab the window and make it a couple of times large/small or move it around a few times).</div><div><br></div><div>Do you think it would be worth trying to test older/stable amdgpu releases on earlier kernel versions? and/or different POLARIS11 firmware versions?</div><div><br></div><div>Here some more random observations/issues:</div><div><br></div><div>*) After a partial crash where I can still interact with the system (over ssh), but no debug/error messages reported in dmesg:</div><div><div>> # cat amdgpu_pm_info </div><div>> GFX Clocks and Power:</div><div><span class="gmail-Apple-tab-span" style="white-space:pre">>        </span>0 MHz (MCLK)</div><div><span class="gmail-Apple-tab-span" style="white-space:pre">>       </span>0 MHz (SCLK)</div><div>></div><div>> GPU Temperature: 511 C</div><div>> GPU Load: 0 %</div><div>> </div><div>> UVD: Disabled</div><div>> </div><div>> VCE: Disabled</div></div><div><br></div><div><br></div>*) Changing resolution resulted once in a blank screen and the following reported in dmesg:<div><div>> [  615.748723] [drm:atom_op_jump [amdgpu]] *ERROR* atombios stuck in loop for more than 5secs aborting</div><div>> [  615.748751] [drm:amdgpu_atom_execute_table_locked [amdgpu]] *ERROR* atombios stuck executing D89C (len 869, WS 0, PS 0) @ 0xDA2C</div><div>> [  615.748759] [drm:amdgpu_atom_execute_table_locked [amdgpu]] *ERROR* atombios stuck executing D756 (len 326, WS 0, PS 0) @ 0xD846</div><div>> [  620.820778] [drm:atom_op_jump [amdgpu]] *ERROR* atombios stuck in loop for more than 5secs aborting</div><div>> [  620.820789] [drm:amdgpu_atom_execute_table_locked [amdgpu]] *ERROR* atombios stuck executing B406 (len 1227, WS 8, PS 8) @ 0xB7F3</div><div>> [  620.820797] [drm:amdgpu_atom_execute_table_locked [amdgpu]] *ERROR* atombios stuck executing D756 (len 326, WS 0, PS 0) @ 0xD7C9</div><div>> [  620.855226] [drm:amdgpu_atombios_dp_link_train [amdgpu]] *ERROR* channel eq failed: 5 tries</div><div>> [  620.855236] [drm:amdgpu_atombios_dp_link_train [amdgpu]] *ERROR* channel eq failed</div><div>> [  625.868714] [drm:atom_op_jump [amdgpu]] *ERROR* atombios stuck in loop for more than 5secs aborting</div><div>> [  625.868723] [drm:amdgpu_atom_execute_table_locked [amdgpu]] *ERROR* atombios stuck executing B406 (len 1227, WS 8, PS 8) @ 0xB7F3</div><div>> [  625.868732] [drm:amdgpu_atom_execute_table_locked [amdgpu]] *ERROR* atombios stuck executing D756 (len 326, WS 0, PS 0) @ 0xD7C9</div><div>> [  625.904885] [drm:amdgpu_atombios_dp_link_train [amdgpu]] *ERROR* channel eq failed: 5 tries</div><div>> [  625.904897] [drm:amdgpu_atombios_dp_link_train [amdgpu]] *ERROR* channel eq failed</div></div><div>After a reboot the changed resolution is used in X without problems.</div><div><br></div><div>*) Encountered one crash where the card did not recover after rebooting, i.e., the display worked during booting as normal, but loading the driver failed (see also attached dmesg):</div><div><div>> [    6.000280] [AVFS] Something is broken. See log!</div><div>> [    6.019383] [drm] ring test on 0 succeeded in 9 usecs</div><div>> [    6.221898] pstore: Registered efi as persistent store backend</div><div>> [    6.264161] [drm:gfx_v8_0_ring_test_ring [amdgpu]] *ERROR* amdgpu: ring 1 test failed (scratch(0xC040)=0xCAFEDEAD)</div><div>> [    6.458520] [drm:gfx_v8_0_ring_test_ring [amdgpu]] *ERROR* amdgpu: ring 2 test failed (scratch(0xC040)=0xCAFEDEAD)</div><div>> [    6.652974] [drm:gfx_v8_0_ring_test_ring [amdgpu]] *ERROR* amdgpu: ring 3 test failed (scratch(0xC040)=0xCAFEDEAD)</div><div>> [    6.847435] [drm:gfx_v8_0_ring_test_ring [amdgpu]] *ERROR* amdgpu: ring 4 test failed (scratch(0xC040)=0xCAFEDEAD)</div><div>> [    7.041777] [drm:gfx_v8_0_ring_test_ring [amdgpu]] *ERROR* amdgpu: ring 5 test failed (scratch(0xC040)=0xCAFEDEAD)</div><div>> [    7.236305] [drm:gfx_v8_0_ring_test_ring [amdgpu]] *ERROR* amdgpu: ring 6 test failed (scratch(0xC040)=0xCAFEDEAD)</div><div>> [    7.430672] [drm:gfx_v8_0_ring_test_ring [amdgpu]] *ERROR* amdgpu: ring 7 test failed (scratch(0xC040)=0xCAFEDEAD)</div><div>> [    7.625041] [drm:gfx_v8_0_ring_test_ring [amdgpu]] *ERROR* amdgpu: ring 8 test failed (scratch(0xC040)=0xCAFEDEAD)</div><div>> [    7.731919] [drm:sdma_v3_0_ring_test_ring [amdgpu]] *ERROR* amdgpu: ring 9 test failed (0xCAFEDEAD)</div><div>> [    7.731936] [drm:amdgpu_device_init [amdgpu]] *ERROR* hw_init of IP block <sdma_v3_0> failed -22</div><div>> [    7.731940] amdgpu 0000:01:00.0: amdgpu_init failed</div></div><div><br></div><div>Only after booting OSX and then rebooting into Linux allowed to load the driver again. Did not try to completely power-off the system (might have recovered it as well).</div><div><br></div><div><br></div><div>Just some further information:</div><div><br></div><div>*) glxinfo</div><div>> display: :0  screen: 0</div><div>> direct rendering: Yes</div><div>> server glx vendor string: SGI</div><div>> server glx version string: 1.4</div><div>> [..]</div><div>> client glx vendor string: Mesa Project and SGI</div><div>> client glx version string: 1.4</div><div>> Extended renderer info (GLX_MESA_query_renderer):</div><div>>     Vendor: X.Org (0x1002)</div><div>>     Device: AMD POLARIS11 (DRM 3.8.0 / 4.9.0-rc6, LLVM 3.8.1) (0x67ef)</div><div>>     Version: 12.0.4</div><div>>     Accelerated: yes</div><div>>     Video memory: 4036MB</div><div>>     Unified memory: no</div><div>>     Preferred profile: core (0x1)</div><div>>     Max core profile version: 4.1</div><div>>     Max compat profile version: 3.0</div><div>>     Max GLES1 profile version: 1.1</div><div>>     Max GLES[23] profile version: 3.0</div><div>> [..]</div><div><br></div><div><div>*) amdgpu_firmware_info </div><div>> VCE feature version: 0, firmware version: 0x34040300</div><div>> UVD feature version: 0, firmware version: 0x014f1000</div><div>> MC feature version: 0, firmware version: 0x00000000</div><div>> ME feature version: 38, firmware version: 0x00000096</div><div>> PFP feature version: 38, firmware version: 0x000000e0</div><div>> CE feature version: 37, firmware version: 0x00000080</div><div>> RLC feature version: 1, firmware version: 0x00000037</div><div>> MEC feature version: 38, firmware version: 0x000002a9</div><div>> MEC2 feature version: 38, firmware version: 0x000002a9</div><div>> SMC feature version: 0, firmware version: 0x013353e6</div><div>> SDMA0 feature version: 31, firmware version: 0x00000036</div><div>> SDMA1 feature version: 0, firmware version: 0x00000036</div></div><div><br></div><div><br></div><div>Greetings,</div><div>  Bernhard</div><div><div class="gmail_extra"><br><div class="gmail_quote">On Sat, Nov 26, 2016 at 1:02 AM, StDenis, Tom <span dir="ltr"><<a href="mailto:Tom.StDenis@amd.com" target="_blank">Tom.StDenis@amd.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">




<div dir="ltr">
<div id="gmail-m_6482160102420555397divtagdefaultwrapper" style="font-size:12pt;color:rgb(0,0,0);font-family:calibri,arial,helvetica,sans-serif" dir="ltr">
<p>if PP is being sketchy can you force the performance to low (e.g. manual) instead of auto and see if keeping at lower clocks helps keep it stable?</p>
<p><br>
</p>
<p>Just an idea to try.</p>
<p><br>
</p>
<p>Tom</p></div></div></blockquote></div></div></div></div>