<div dir="ltr"><div>Thanks Harry and Alex, that was pretty useful.<br><br>I've attached the two dmesg logs for two separate trials I first manually loaded amdgpu and then after 
triggering the crash in ue4editor, reboot and tried again with the 
manually loaded radeon module.<br><br>The radeon one 
seems to give more information and the screen flashed a few times before
 freezing. When running amdgpu the x session just hangs and does 
nothing. <br><br>I made sure I was running the latest (git 17-06-05) padoka builds. I blacklisted both modules and rebuilt grub config.<br><br></div><div>I was able to ssh into the machine for a while after the x session had completely frozen (including frozen mouse) until it also disconnected after a few minutes.<br></div><div></div><div><br></div><div>This is the part of dmesg running radeon where it appears to go off the rails:<br><br>radeon 0000:07:00.0: ring 4 stalled for more than 10024msec<br>[  +0.000004] radeon 0000:07:00.0: GPU lockup (current fence id 0x0000000000000fd0 last fence id 0x0000000000000fd2 on ring 4)<br>[  +0.485614] radeon 0000:07:00.0: Saved 724 dwords of commands on ring 0.<br>[  +0.000126] radeon 0000:07:00.0: GPU softreset: 0x0000004D<br>[  +0.000001] radeon 0000:07:00.0:   GRBM_STATUS               = 0xA0403028<br>[  +0.000001] radeon 0000:07:00.0:   GRBM_STATUS_SE0           = 0x08000006<br>[  +0.000001] radeon 0000:07:00.0:   GRBM_STATUS_SE1           = 0x08000006<br>[  +0.000001] radeon 0000:07:00.0:   SRBM_STATUS               = 0x200000C0<br>[  +0.000118] radeon 0000:07:00.0:   SRBM_STATUS2              = 0x00000000<br>[  +0.000002] radeon 0000:07:00.0:   R_008674_CP_STALLED_STAT1 = 0x00000000<br>[  +0.000001] radeon 0000:07:00.0:   R_008678_CP_STALLED_STAT2 = 0x00018000<br>[  +0.000001] radeon 0000:07:00.0:   R_00867C_CP_BUSY_STAT     = 0x00400006<br>[  +0.000001] radeon 0000:07:00.0:   R_008680_CP_STAT          = 0x84038647<br>[  +0.000001] radeon 0000:07:00.0:   R_00D034_DMA_STATUS_REG   = 0x44C83106<br>[  +0.000001] radeon 0000:07:00.0:   R_00D834_DMA_STATUS_REG   = 0x44C83D57<br>[  +0.000002] radeon 0000:07:00.0:   VM_CONTEXT1_PROTECTION_FAULT_ADDR   0x00000000<br>[  +0.000001] radeon 0000:07:00.0:   VM_CONTEXT1_PROTECTION_FAULT_STATUS 0x00000000<br>[  +0.465637] radeon 0000:07:00.0: GRBM_SOFT_RESET=0x0000DDFF<br>[  +0.000052] radeon 0000:07:00.0: SRBM_SOFT_RESET=0x00100100<br>[  +0.001146] radeon 0000:07:00.0:   GRBM_STATUS               = 0x00003028<br>[  +0.000002] radeon 0000:07:00.0:   GRBM_STATUS_SE0           = 0x00000006<br>[  +0.000001] radeon 0000:07:00.0:   GRBM_STATUS_SE1           = 0x00000006<br>[  +0.000000] radeon 0000:07:00.0:   SRBM_STATUS               = 0x200000C0<br>[  +0.000111] radeon 0000:07:00.0:   SRBM_STATUS2              = 0x00000000<br>[  +0.000001] radeon 0000:07:00.0:   R_008674_CP_STALLED_STAT1 = 0x00000000<br>[  +0.000001] radeon 0000:07:00.0:   R_008678_CP_STALLED_STAT2 = 0x00000000<br>[  +0.000001] radeon 0000:07:00.0:   R_00867C_CP_BUSY_STAT     = 0x00000000<br>[  +0.000001] radeon 0000:07:00.0:   R_008680_CP_STAT          = 0x00000000<br>[  +0.000001] radeon 0000:07:00.0:   R_00D034_DMA_STATUS_REG   = 0x44C83D57<br>[  +0.000001] radeon 0000:07:00.0:   R_00D834_DMA_STATUS_REG   = 0x44C83D57<br>[  +0.000247] radeon 0000:07:00.0: GPU reset succeeded, trying to resume<br>[  +0.025448] [drm] probing gen 2 caps for device 8086:151 = 261a103/e<br>[  +0.000003] [drm] PCIE gen 3 link speeds already enabled<br>[  +0.002586] [drm] PCIE GART of 2048M enabled (table at 0x00000000001D6000).<br>[  +0.000120] radeon 0000:07:00.0: WB enabled<br>[  +0.000002] radeon 0000:07:00.0: fence driver on ring 0 use gpu addr 0x0000000080000c00 and cpu addr 0xffff94260bdd8c00<br>[  +0.000001] radeon 0000:07:00.0: fence driver on ring 1 use gpu addr 0x0000000080000c04 and cpu addr 0xffff94260bdd8c04<br>[  +0.000000] radeon 0000:07:00.0: fence driver on ring 2 use gpu addr 0x0000000080000c08 and cpu addr 0xffff94260bdd8c08<br>[  +0.000001] radeon 0000:07:00.0: fence driver on ring 3 use gpu addr 0x0000000080000c0c and cpu addr 0xffff94260bdd8c0c<br>[  +0.000001] radeon 0000:07:00.0: fence driver on ring 4 use gpu addr 0x0000000080000c10 and cpu addr 0xffff94260bdd8c10<br>[  +0.000314] radeon 0000:07:00.0: fence driver on ring 5 use gpu addr 0x0000000000075a18 and cpu addr 0xffffaa3d89635a18<br>[  +0.010136] radeon 0000:07:00.0: failed VCE resume (-22).<br>[  +0.159454] [drm] ring test on 0 succeeded in 4 usecs<br>[  +0.000004] [drm] ring test on 1 succeeded in 1 usecs<br>[  +0.000003] [drm] ring test on 2 succeeded in 1 usecs<br>[  +0.000009] [drm] ring test on 3 succeeded in 6 usecs<br>[  +0.000007] [drm] ring test on 4 succeeded in 5 usecs<br>[  +0.175707] [drm] ring test on 5 succeeded in 2 usecs<br>[  +0.000004] [drm] UVD initialized successfully.<br>[  +1.041140] [drm:r600_ib_test [radeon]] *ERROR* radeon: fence wait timed out.<br>[  +0.000018] [drm:radeon_ib_ring_tests [radeon]] *ERROR* radeon: failed testing IB on GFX ring (-110).<br>[  +0.474934] radeon 0000:07:00.0: GPU softreset: 0x00000048<br>[  +0.000002] radeon 0000:07:00.0:   GRBM_STATUS               = 0xA0003028<br>[  +0.000001] radeon 0000:07:00.0:   GRBM_STATUS_SE0           = 0x00000006<br>[  +0.000001] radeon 0000:07:00.0:   GRBM_STATUS_SE1           = 0x00000006<br>[  +0.000001] radeon 0000:07:00.0:   SRBM_STATUS               = 0x200000C0<br>[  +0.000118] radeon 0000:07:00.0:   SRBM_STATUS2              = 0x00000000<br>[  +0.000001] radeon 0000:07:00.0:   R_008674_CP_STALLED_STAT1 = 0x00000000<br>[  +0.000001] radeon 0000:07:00.0:   R_008678_CP_STALLED_STAT2 = 0x00010000<br>[  +0.000001] radeon 0000:07:00.0:   R_00867C_CP_BUSY_STAT     = 0x00400002<br>[  +0.000002] radeon 0000:07:00.0:   R_008680_CP_STAT          = 0x84010243<br>[  +0.000001] radeon 0000:07:00.0:   R_00D034_DMA_STATUS_REG   = 0x44C83D57<br>[  +0.000001] radeon 0000:07:00.0:   R_00D834_DMA_STATUS_REG   = 0x44C83D57<br>[  +0.000002] radeon 0000:07:00.0:   VM_CONTEXT1_PROTECTION_FAULT_ADDR   0x00000000<br>[  +0.000001] radeon 0000:07:00.0:   VM_CONTEXT1_PROTECTION_FAULT_STATUS 0x00000000<br>[  +0.465304] radeon 0000:07:00.0: GRBM_SOFT_RESET=0x0000DDFF<br>[  +0.000056] radeon 0000:07:00.0: SRBM_SOFT_RESET=0x00000100<br>[  +0.001147] radeon 0000:07:00.0:   GRBM_STATUS               = 0x00003028<br>[  +0.000001] radeon 0000:07:00.0:   GRBM_STATUS_SE0           = 0x00000006<br>[  +0.000001] radeon 0000:07:00.0:   GRBM_STATUS_SE1           = 0x00000006<br>[  +0.000001] radeon 0000:07:00.0:   SRBM_STATUS               = 0x200000C0<br>[  +0.000110] radeon 0000:07:00.0:   SRBM_STATUS2              = 0x00000000<br>[  +0.000001] radeon 0000:07:00.0:   R_008674_CP_STALLED_STAT1 = 0x00000000<br>[  +0.000001] radeon 0000:07:00.0:   R_008678_CP_STALLED_STAT2 = 0x00000000<br>[  +0.000001] radeon 0000:07:00.0:   R_00867C_CP_BUSY_STAT     = 0x00000000<br>[  +0.000001] radeon 0000:07:00.0:   R_008680_CP_STAT          = 0x00000000<br>[  +0.000001] radeon 0000:07:00.0:   R_00D034_DMA_STATUS_REG   = 0x44C83D57<br>[  +0.000001] radeon 0000:07:00.0:   R_00D834_DMA_STATUS_REG   = 0x44C83D57<br>[  +0.000238] radeon 0000:07:00.0: GPU reset succeeded, trying to resume<br><br></div><div>Eventually it starts to do this:<br>[  +1.153721] [drm:uvd_v1_0_ib_test [radeon]] *ERROR* radeon: fence wait timed out.<br>[  +0.000018] [drm:radeon_ib_ring_tests [radeon]] *ERROR* radeon: failed testing IB on ring 5 (-110).<br>[  +0.000008] radeon 0000:07:00.0: scheduling IB failed (-12).<br>[  +0.000011] [drm:radeon_vce_get_create_msg [radeon]] *ERROR* radeon: failed to schedule ib (-12).<br>[  +0.000018] [drm:radeon_vce_ib_test [radeon]] *ERROR* radeon: failed to get create msg (-12).<br>[  +0.000010] [drm:radeon_ib_ring_tests [radeon]] *ERROR* radeon: failed testing IB on ring 6 (-12).<br>[  +0.000002] radeon 0000:07:00.0: scheduling IB failed (-12).<br>[  +0.000010] [drm:radeon_vce_get_create_msg [radeon]] *ERROR* radeon: failed to schedule ib (-12).<br>[  +0.000009] [drm:radeon_vce_ib_test [radeon]] *ERROR* radeon: failed to get create msg (-12).<br>[  +0.000009] [drm:radeon_ib_ring_tests [radeon]] *ERROR* radeon: failed testing IB on ring 7 (-12).<br>[  +0.001058] radeon 0000:07:00.0: GPU fault detected: 147 0x00044802<br>[  +0.000003] radeon 0000:07:00.0:   VM_CONTEXT1_PROTECTION_FAULT_ADDR   0x000FF000<br>[  +0.000001] radeon 0000:07:00.0:   VM_CONTEXT1_PROTECTION_FAULT_STATUS 0x04048002<br>[  +0.000001] VM fault (0x02, vmid 2) at page 1044480, read from TC (72)<br>[ +10.114896] radeon 0000:07:00.0: ring 0 stalled for more than 10116msec<br>[  +0.000004] radeon 0000:07:00.0: GPU lockup (current fence id 0x0000000000001506 last fence id 0x000000000000151a on ring 0)<br>[  +0.000022] radeon 0000:07:00.0: ring 4 stalled for more than 10112msec<br>[  +0.000003] radeon 0000:07:00.0: GPU lockup (current fence id 0x0000000000000fd3 last fence id 0x0000000000000fd7 on ring 4)<br>[  +0.000029] radeon 0000:07:00.0: ring 3 stalled for more than 10116msec<br>[  +0.000002] radeon 0000:07:00.0: GPU lockup (current fence id 0x00000000000018b7 last fence id 0x000000000000190c on ring 3)<br>[  +0.507937] radeon 0000:07:00.0: ring 3 stalled for more than 10624msec<br>[  +0.000001] radeon 0000:07:00.0: ring 0 stalled for more than 10624msec<br><br>Then the log repeats a few hundred times the non-utf-8 character "\00" before it cuts off.<br><br></div><div><br></div><div><br>This is the part of dmesg running amdgpu where it appears to go off the rails:<br><br>[Jun 6 11:16] INFO: task RenderThread 3:6190 blocked for more than 120 seconds.<br>[  +0.000006]       Tainted: G           OE   4.11.0-mytest #2<br>[  +0.000002] "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message.<br>[  +0.000002] RenderThread 3  D    0  6190   1612 0x00000000<br>[  +0.000003] Call Trace:<br>[  +0.000007]  __schedule+0x3c6/0x8c0<br>[  +0.000004]  schedule+0x36/0x80<br>[  +0.000043]  amd_sched_entity_push_job+0xc4/0x110 [amdgpu]<br>[  +0.000003]  ? wake_atomic_t_function+0x60/0x60<br>[  +0.000031]  amdgpu_job_submit+0x72/0x90 [amdgpu]<br>[  +0.000027]  amdgpu_vm_bo_split_mapping+0x51f/0x7c0 [amdgpu]<br>[  +0.000024]  ? amdgpu_vm_do_copy_ptes+0x90/0x90 [amdgpu]<br>[  +0.000024]  amdgpu_vm_clear_freed+0x70/0xb0 [amdgpu]<br>[  +0.000024]  amdgpu_gem_va_ioctl+0x39a/0x3f0 [amdgpu]<br>[  +0.000014]  drm_ioctl+0x218/0x4b0 [drm]<br>[  +0.000010]  ? drm_ioctl+0x218/0x4b0 [drm]<br>[  +0.000023]  ? amdgpu_gem_metadata_ioctl+0x1d0/0x1d0 [amdgpu]<br>[  +0.000003]  ? kmem_cache_free+0x1b6/0x1e0<br>[  +0.000020]  amdgpu_drm_ioctl+0x4f/0x90 [amdgpu]<br>[  +0.000003]  do_vfs_ioctl+0xa3/0x600<br>[  +0.000002]  ? ____fput+0xe/0x10<br>[  +0.000003]  ? task_work_run+0x85/0xa0<br>[  +0.000002]  SyS_ioctl+0x79/0x90<br>[  +0.000002]  entry_SYSCALL_64_fastpath+0x1e/0xad<br>[  +0.000002] RIP: 0033:0x7fb15e3cb987<br>[  +0.000001] RSP: 002b:00007faefab6a778 EFLAGS: 00000246 ORIG_RAX: 0000000000000010<br>[  +0.000002] RAX: ffffffffffffffda RBX: 00007faf340060e0 RCX: 00007fb15e3cb987<br>[  +0.000001] RDX: 00007faefab6a7c0 RSI: 00000000c0286448 RDI: 0000000000000009<br>[  +0.000001] RBP: 00007faefab6a810 R08: 000000011c430000 R09: 000000000000000e<br>[  +0.000001] R10: 0000000000000002 R11: 0000000000000246 R12: 0000000040086409<br>[  +0.000001] R13: 0000000000000009 R14: 00007faf34ef5700 R15: 00007faf34d61780<br>[Jun 6 11:17] wlp4s0: disconnect from AP 80:2a:a8:11:23:5e for new auth to 80:2a:a8:11:24:29<br>[  +0.011326] wlp4s0: authenticate with 80:2a:a8:11:24:29<br>[  +0.020720] wlp4s0: send auth to 80:2a:a8:11:24:29 (try 1/3)<br>[  +0.002594] wlp4s0: authenticated<br>[  +0.002803] wlp4s0: associate with 80:2a:a8:11:24:29 (try 1/3)<br>[  +0.005088] wlp4s0: RX AssocResp from 80:2a:a8:11:24:29 (capab=0x431 status=0 aid=2)<br>[  +0.000223] wlp4s0: associated<br><br><br></div><div><br></div><div>End of xorg.log.0 (for an earlier run)<br><br>[    12.056] (II) systemd-logind: got pause for 13:79<br>[    32.415] (II) config/udev: removing GPU device /sys/devices/pci0000:00/0000:00:01.0/0000:07:00.0/drm/card0 /dev/dri/card0<br>[    32.415] (II) config/udev: Adding drm device (/dev/dri/card0)<br>[    32.415] (II) xfree86: Adding drm device (/dev/dri/card0)<br>[    35.984] (II) systemd-logind: got resume for 13:81<br>[    35.984] (EE) FBDEV(0): FBIOPUT_VSCREENINFO: No such device<br>[    35.984] (EE) <br>Fatal server error:<br>[    35.984] (EE) EnterVT failed for screen 0<br>[    35.984] (EE) <br>[    35.984] (EE) <br>Please consult the The X.Org Foundation support <br>     at <a href="http://wiki.x.org">http://wiki.x.org</a><br> for help. <br>[    35.984] (EE) Please also check the log file at "/var/log/Xorg.0.log" for additional information.<br>[    35.984] (EE) <br>[    35.984] (EE) FBDEV(0): FBIOPUT_VSCREENINFO: No such device<br>[    36.074] (EE) Server terminated with error (1). Closing log file.<br></div><br></div><div class="gmail_extra"><br><div class="gmail_quote">On 6 June 2017 at 05:45, Alex Deucher <span dir="ltr"><<a href="mailto:alexdeucher@gmail.com" target="_blank">alexdeucher@gmail.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><span class="">On Mon, Jun 5, 2017 at 2:36 PM, Harry Wentland <<a href="mailto:harry.wentland@amd.com">harry.wentland@amd.com</a>> wrote:<br>
> Hi Luke,<br>
><br>
> the first things to check would be the saved kern.log and Xorg.0.log from<br>
> before the crash occured. Both should be in /var/log. These logs will keep a<br>
> long record but you should be able to find the bad run as kern.log is<br>
> timestamped and with Xorg.0.log you should be able to scroll back to the<br>
> previous X run.<br>
><br>
> That might give some indication, either by logging an error or even showing<br>
> a stack trace, but sometimes they don't flush out completely when the system<br>
> crashes.<br>
><br>
> Some of the other experts on here (Alex, Michel, Christian, etc) might give<br>
> you more ideas should these logs not show anything.<br>
<br>
</span>Basically include your xorg log and dmesg output and a description of<br>
the problem you are seeing.  If possible, can you get remote access to<br>
the system (e.g., ssh)?  If you lose your console, you can still get<br>
the logs remotely.  Another option would be to blacklist the driver<br>
(append modprobe.blacklist=radeon,<wbr>amdgpu to the kernel command line in<br>
grub) and then boot to a non-X runlevel.   Then manually load the<br>
driver (modprobe radeon or modprobe amdgpu) and see if you can get<br>
better logs.<br>
<span class="HOEnZb"><font color="#888888"><br>
Alex<br>
</font></span><div class="HOEnZb"><div class="h5"><br>
><br>
> Harry<br>
><br>
><br>
> On 2017-06-02 06:46 PM, Luke Miller wrote:<br>
>><br>
>> Greetings, thanks for the awesome drivers.<br>
>><br>
>> I have a recurring problem with one 3D program (UE4editor) crashing my<br>
>> computer during a particular operation.<br>
>><br>
>> I believe the problem is at the DRM layer.<br>
>><br>
>> Brief details:<br>
>> Radeon 7850HD<br>
>> It crashes using radeon and amdgpu (on ubuntu 17.04, linux 4.12, padoka<br>
>> ppa).<br>
>> It does not crash using the fglrx driver (on ubuntu 14.04).<br>
>> The entire machine hangs and requires a reset.<br>
>><br>
>> My question:<br>
>> How can I go about collecting more information to fix/report the problem?<br>
>> Is there a tutorial on which logs to look at? I may even be able to fix it<br>
>> myself if I could get a stack trace.<br>
>><br>
>> Part of the fun is that it is an older card.<br>
>><br>
>><br>
>><br>
>><br>
>><br>
>><br>
>> ______________________________<wbr>_________________<br>
>> amd-gfx mailing list<br>
>> <a href="mailto:amd-gfx@lists.freedesktop.org">amd-gfx@lists.freedesktop.org</a><br>
>> <a href="https://lists.freedesktop.org/mailman/listinfo/amd-gfx" rel="noreferrer" target="_blank">https://lists.freedesktop.org/<wbr>mailman/listinfo/amd-gfx</a><br>
>><br>
> ______________________________<wbr>_________________<br>
> amd-gfx mailing list<br>
> <a href="mailto:amd-gfx@lists.freedesktop.org">amd-gfx@lists.freedesktop.org</a><br>
> <a href="https://lists.freedesktop.org/mailman/listinfo/amd-gfx" rel="noreferrer" target="_blank">https://lists.freedesktop.org/<wbr>mailman/listinfo/amd-gfx</a><br>
</div></div></blockquote></div><br></div>