<html dir="ltr"><head></head><body style="text-align:left; direction:ltr;"><div>I apologize if the name callout is disconcerting. I was trying to follow instructions for sending bugs and saw your name listed as the owner of this code area. </div><div><br></div><div>FYI, I'd done some more troubleshooting and tinkering regarding the crashing and Mate seems to be at the center of all the issues. As a result, I also opened an Issue with the Mate Desktop team (<a href="https://github.com/mate-desktop/mate-panel/issues/1242">https://github.com/mate-desktop/mate-panel/issues/1242</a>). Mate also has a power management component, which is probably responsible for the excess logging and the confusion over Navil10. However, I have no way to vouch for now accurately the Mate PM applet gathered data for its instantiation. I have no external devices connected that I'm aware would use it since I thought that was via HDMI. I *do* have a Jabra Evolve2 headset that uses the TypeC USB connector, but I assume that's not using the GPU.</div><div><br></div><div>The issue documentation I left with Mate notes that if I launch apps from a terminal that is NOT launched from the Mate panel (right-click on desktop instead to open terminal), the parent for all the apps (Firefox, Evolution, etc.) is separate from Mate (at least separate from mate-panel). Everything has worked fine (except for the constant logging of the wake-up action) since I've done that (and turned off the screensaver and screensaver lock). So, I'm not sure what else to do at this point. Please advise if I should do anything on the driver side.</div><div><br></div><div>Thanks,</div><div>Tim </div><div><br></div><div>On Thu, 2021-07-29 at 11:14 -0400, Felix Kuehling wrote:</div><blockquote type="cite" style="margin:0 0 0 .8ex; border-left:2px #729fcf solid;padding-left:1ex"><pre>Am 2021-07-28 um 12:10 p.m. schrieb Tim Cahill:</pre><blockquote type="cite" style="margin:0 0 0 .8ex; border-left:2px #729fcf solid;padding-left:1ex"><pre>Hi Felix,</pre></blockquote><pre><br></pre><pre>I'm not sure why you're calling me out by name. I'm not working on</pre><pre>anything obviously related to your crashes.</pre><pre><br></pre><pre>Anyway, I took a quick look at the backtraces. They all point at libgdk.</pre><pre>Two of them are segfaults, one is an abort. It's not clear how these</pre><pre>would be related to the GPU driver. That said, when you boot with</pre><pre>nomodeset, the GPU driver and all HW acceleration is completely</pre><pre>disabled. If that makes the problem disappear, the GPU driver is clearly</pre><pre>involved in the problem in some way.</pre><pre><br></pre><pre>The abort points at a problem while freeing memory. This could be caused</pre><pre>by a double-free problem in some unrelated code, possibly related to the</pre><pre>GPU driver. This would be a problem in a user mode component (maybe</pre><pre>Mesa), not the kernel mode driver.</pre><pre><br></pre><pre>I believe the messages you're seeing when you move the mouse are the</pre><pre>result of runtime power management that puts the GPU to sleep when it's</pre><pre>idle and reinitializes it when it's needed. You have 2 GPUs in your</pre><pre>laptop, an integrated Renoir GPU in the Ryzen CPU, and an external</pre><pre>Navi10 GPU for higher gaming performance. The GPU that goes to sleep and</pre><pre>wakes up is the external Navi10 GPU.</pre><pre><br></pre><pre>The OpenGL renderer string specifies "RENOIR". Therefore I'm surprised</pre><pre>that the Navi10 GPU wakes up when you move the mouse. Ideally it</pre><pre>shouldn't be used at all when you're just using the desktop.</pre><pre><br></pre><pre>If you suspect that runtime power management is responsible for your</pre><pre>problems, you could disable it with amdgpu.runpm=0 on the kernel command</pre><pre>line. That means the Navi10 GPU won't go into the low power mode and</pre><pre>drain your battery more quickly. So this is not a permanent solution.</pre><pre>Just an experiment to narrow down the problem.</pre><pre><br></pre><pre>Regards,</pre><pre>  Felix</pre><pre><br></pre><pre><br></pre><blockquote type="cite" style="margin:0 0 0 .8ex; border-left:2px #729fcf solid;padding-left:1ex"><pre><br></pre><pre>I'm not sure how to do this as I haven't had to report a bug before.</pre><pre>I've looked to a variety of bug reporting sites to see if anyone else</pre><pre>is running into the same issues that I'm having (such as the Mate</pre><pre>project) and haven't seen anything at all similar to the issue I'm</pre><pre>having. Since I had issues with AMD drivers with my distro (info</pre><pre>below) and some consistent and high volume dmesg content shows up,</pre><pre>I've decided that I should start here with the AMD kernel team.</pre><pre><br></pre><pre>I have a fairly new MSI laptop with the following configuration:</pre><pre><br></pre><pre>[code]</pre><pre>System:    Kernel: 5.11.0-25-generic x86_64 bits: 64 compiler: N/A</pre><pre>Desktop: MATE 1.24.0 wm: marco </pre><pre>           dm: LightDM Distro: Linux Mint 20.2 Uma base: Ubuntu 20.04</pre><pre>focal </pre><pre>Machine:   Type: Laptop System: Micro-Star product: Alpha 17 A4DEK v:</pre><pre>REV:1.0 serial: <filter> </pre><pre>           Chassis: type: 10 serial: <filter> </pre><pre>           Mobo: Micro-Star model: MS-17EK v: REV:1.0 serial: <filter></pre><pre>UEFI: American Megatrends </pre><pre>           v: E17EKAMS.101 date: 10/26/2020 </pre><pre>Battery:   ID-1: BAT1 charge: 66.2 Wh condition: 67.0/65.7 Wh (102%)</pre><pre>volts: 12.4/10.8 </pre><pre>           model: MSI Corp. MS-17EK serial: N/A status: Unknown </pre><pre>CPU:       Topology: 8-Core model: AMD Ryzen 7 4800H with Radeon</pre><pre>Graphics bits: 64 type: MT MCP </pre><pre>           arch: Zen rev: 1 L2 cache: 4096 KiB </pre><pre>           flags: avx avx2 lm nx pae sse sse2 sse3 sse4_1 sse4_2 sse4a</pre><pre>ssse3 svm bogomips: 92630 </pre><pre>           Speed: 4278 MHz min/max: 1400/2900 MHz Core speeds (MHz):</pre><pre>1: 4280 2: 1865 3: 1397 </pre><pre>           4: 2188 5: 1489 6: 2265 7: 1907 8: 1906 9: 1729 10: 1397</pre><pre>11: 1397 12: 1397 13: 1397 </pre><pre>           14: 1397 15: 1907 16: 1740 </pre><pre>Graphics:  Device-1: AMD Navi 10 [Radeon RX 5600 OEM/5600 XT /</pre><pre>5700/5700 XT] </pre><pre>           vendor: Micro-Star MSI driver: amdgpu v: kernel bus ID:</pre><pre>03:00.0 chip ID: 1002:731f </pre><pre>           Device-2: AMD Renoir vendor: Micro-Star MSI driver: amdgpu</pre><pre>v: kernel bus ID: 08:00.0 </pre><pre>           chip ID: 1002:1636 </pre><pre>           Display: x11 server: X.Org 1.20.9 driver: amdgpu,ati </pre><pre>           unloaded: fbdev,modesetting,radeon,vesa compositor: marco</pre><pre>resolution: 1920x1080~144Hz </pre><pre>           OpenGL: renderer: AMD RENOIR (DRM 3.40.0 5.11.0-25-generic</pre><pre>LLVM 11.0.0) </pre><pre>           v: 4.6 Mesa 20.2.6 direct render: Yes </pre><pre>Audio:     Device-1: AMD Navi 10 HDMI Audio vendor: Micro-Star MSI</pre><pre>driver: snd_hda_intel v: kernel </pre><pre>           bus ID: 03:00.1 chip ID: 1002:ab38 </pre><pre>           Device-2: AMD Raven/Raven2/FireFlight/Renoir Audio</pre><pre>Processor vendor: Micro-Star MSI </pre><pre>           driver: N/A bus ID: 08:00.5 chip ID: 1022:15e2 </pre><pre>           Device-3: AMD Family 17h HD Audio vendor: Micro-Star MSI</pre><pre>driver: snd_hda_intel </pre><pre>           v: kernel bus ID: 08:00.6 chip ID: 1022:15e3 </pre><pre>           Sound Server: ALSA v: k5.11.0-25-generic </pre><pre>Network:   Device-1: Intel Wi-Fi 6 AX200 driver: iwlwifi v: kernel bus</pre><pre>ID: 04:00.0 </pre><pre>           chip ID: 8086:2723 </pre><pre>           IF: wlp4s0 state: up mac: <filter> </pre><pre>           Device-2: Realtek RTL8111/8168/8411 PCI Express Gigabit</pre><pre>Ethernet vendor: Micro-Star MSI </pre><pre>           driver: r8169 v: kernel port: f000 bus ID: 05:00.0 chip ID:</pre><pre>10ec:8168 </pre><pre>           IF: eno1 state: down mac: <filter> </pre><pre>Drives:    Local Storage: total: 476.94 GiB used: 89.79 GiB (18.8%) </pre><pre>           ID-1: /dev/nvme0n1 vendor: Kingston model: OM8PCP3512F-AI1</pre><pre>size: 476.94 GiB </pre><pre>           speed: 31.6 Gb/s lanes: 4 serial: <filter> </pre><pre>Partition: ID-1: / size: 466.30 GiB used: 89.28 GiB (19.1%) fs: ext4</pre><pre>dev: /dev/dm-1 </pre><pre>           ID-2: /boot size: 704.5 MiB used: 519.7 MiB (73.8%) fs:</pre><pre>ext4 dev: /dev/nvme0n1p2 </pre><pre>           ID-3: swap-1 size: 980.0 MiB used: 0 KiB (0.0%) fs: swap</pre><pre>dev: /dev/dm-2 </pre><pre>USB:       Hub: 1-0:1 info: Full speed (or root) Hub ports: 4 rev: 2.0</pre><pre>chip ID: 1d6b:0002 </pre><pre>           Device-1: 1-3:2 info: SteelSeries ApS SteelSeries KLC type:</pre><pre>HID </pre><pre>           driver: hid-generic,usbhid rev: 2.0 chip ID: 1038:1122 </pre><pre>           Device-2: 1-4:3 info: Acer HD Webcam type: Video driver:</pre><pre>uvcvideo rev: 2.0 </pre><pre>           chip ID: 5986:211c </pre><pre>           Hub: 2-0:1 info: Full speed (or root) Hub ports: 2 rev: 3.1</pre><pre>chip ID: 1d6b:0003 </pre><pre>           Hub: 3-0:1 info: Full speed (or root) Hub ports: 4 rev: 2.0</pre><pre>chip ID: 1d6b:0002 </pre><pre>           Device-3: 3-3:2 info: Intel type: Bluetooth driver: btusb</pre><pre>rev: 2.0 chip ID: 8087:0029 </pre><pre>           Hub: 4-0:1 info: Full speed (or root) Hub ports: 2 rev: 3.1</pre><pre>chip ID: 1d6b:0003 </pre><pre>Sensors:   System Temperatures: cpu: 46.5 C mobo: N/A </pre><pre>           Fan Speeds (RPM): N/A </pre><pre>           GPU: device: amdgpu temp: 0 C fan: 65535 device: amdgpu</pre><pre>temp: 31 C </pre><pre>Repos:     No active apt repos in: /etc/apt/sources.list </pre><pre>           Active apt repos in:</pre><pre>/etc/apt/sources.list.d/official-package-repositories.list </pre><pre>           1: deb http: //mirrors.seas.harvard.edu/linuxmint-packages</pre><pre>uma main upstream import backport</pre><pre>           2: deb http: //mirror.us-ny2.kamatera.com/ubuntu focal main</pre><pre>restricted universe multiverse</pre><pre>           3: deb http: //mirror.us-ny2.kamatera.com/ubuntu</pre><pre>focal-updates main restricted universe multiverse</pre><pre>           4: deb http: //mirror.us-ny2.kamatera.com/ubuntu</pre><pre>focal-backports main restricted universe multiverse</pre><pre>           5: deb http: //security.ubuntu.com/ubuntu/ focal-security</pre><pre>main restricted universe multiverse</pre><pre>           6: deb http: //archive.canonical.com/ubuntu/ focal partner</pre><pre>Info:      Processes: 372 Uptime: 2h 44m Memory: 15.10 GiB used: 1.15</pre><pre>GiB (7.6%) Init: systemd </pre><pre>           v: 245 runlevel: 5 Compilers: gcc: 9.3.0 alt: 9 Client:</pre><pre>Unknown python3.8 client </pre><pre>           inxi: 3.0.38 </pre><pre>[/code]</pre><pre><br></pre><pre><br></pre><pre>If I am using it interactively, I get random crashes that seems to hit</pre><pre>elements of mate (mate-panel, etc.) </pre><pre>consistently - just not predictably. LibreOffice applications, xed,</pre><pre>Firefox, and Evolution seem to be more prone</pre><pre>to crashing the X session. I can easily move to tty1, login, and kill</pre><pre>services running in tty7 as the crashes</pre><pre>don't appear to completely kill tty7. Sometimes, I can kill mate and</pre><pre>launch a new instance to salvage</pre><pre>the tty7 session. However, i usually end up having to kill the root</pre><pre>pid of the xwindows session in order</pre><pre>to re-login. But I think this is related to the AMD GPU driver because</pre><pre>every  time I simply move the mouse in </pre><pre>tty7 session, I get the following in dmesg:</pre><pre><br></pre><pre>[13164.399550] [drm] PCIE GART of 512M enabled (table at</pre><pre>0x0000008000000000).</pre><pre>[13164.399579] [drm] PSP is resuming...</pre><pre>[13164.486593] [drm] reserve 0xa00000 from 0x800f400000 for PSP TMR</pre><pre>[13164.678788] amdgpu 0000:03:00.0: amdgpu: RAS: optional ras ta ucode</pre><pre>is not available</pre><pre>[13164.702624] amdgpu 0000:03:00.0: amdgpu: RAP: optional rap ta ucode</pre><pre>is not available</pre><pre>[13164.702639] amdgpu 0000:03:00.0: amdgpu: SMU is resuming...</pre><pre>[13164.702648] amdgpu 0000:03:00.0: amdgpu: smu driver if version =</pre><pre>0x00000036, smu fw if version = 0x00000037, smu fw version =</pre><pre>0x002a3f00 (42.63.0)</pre><pre>[13164.702664] amdgpu 0000:03:00.0: amdgpu: SMU driver if version not</pre><pre>matched</pre><pre>[13164.746143] amdgpu 0000:03:00.0: amdgpu: SMU is resumed successfully!</pre><pre>[13164.768978] [drm] kiq ring mec 2 pipe 1 q 0</pre><pre>[13164.779651] [drm] VCN decode and encode initialized</pre><pre>successfully(under DPG Mode).</pre><pre>[13164.779758] [drm] JPEG decode initialized successfully.</pre><pre>[13164.779779] amdgpu 0000:03:00.0: amdgpu: ring gfx_0.0.0 uses VM inv</pre><pre>eng 0 on hub 0</pre><pre>[13164.779783] amdgpu 0000:03:00.0: amdgpu: ring comp_1.0.0 uses VM</pre><pre>inv eng 1 on hub 0</pre><pre>[13164.779784] amdgpu 0000:03:00.0: amdgpu: ring comp_1.1.0 uses VM</pre><pre>inv eng 4 on hub 0</pre><pre>[13164.779785] amdgpu 0000:03:00.0: amdgpu: ring comp_1.2.0 uses VM</pre><pre>inv eng 5 on hub 0</pre><pre>[13164.779786] amdgpu 0000:03:00.0: amdgpu: ring comp_1.3.0 uses VM</pre><pre>inv eng 6 on hub 0</pre><pre>[13164.779787] amdgpu 0000:03:00.0: amdgpu: ring comp_1.0.1 uses VM</pre><pre>inv eng 7 on hub 0</pre><pre>[13164.779788] amdgpu 0000:03:00.0: amdgpu: ring comp_1.1.1 uses VM</pre><pre>inv eng 8 on hub 0</pre><pre>[13164.779789] amdgpu 0000:03:00.0: amdgpu: ring comp_1.2.1 uses VM</pre><pre>inv eng 9 on hub 0</pre><pre>[13164.779790] amdgpu 0000:03:00.0: amdgpu: ring comp_1.3.1 uses VM</pre><pre>inv eng 10 on hub 0</pre><pre>[13164.779792] amdgpu 0000:03:00.0: amdgpu: ring kiq_2.1.0 uses VM inv</pre><pre>eng 11 on hub 0</pre><pre>[13164.779793] amdgpu 0000:03:00.0: amdgpu: ring sdma0 uses VM inv eng</pre><pre>12 on hub 0</pre><pre>[13164.779803] amdgpu 0000:03:00.0: amdgpu: ring sdma1 uses VM inv eng</pre><pre>13 on hub 0</pre><pre>[13164.779804] amdgpu 0000:03:00.0: amdgpu: ring vcn_dec uses VM inv</pre><pre>eng 0 on hub 1</pre><pre>[13164.779805] amdgpu 0000:03:00.0: amdgpu: ring vcn_enc0 uses VM inv</pre><pre>eng 1 on hub 1</pre><pre>[13164.779806] amdgpu 0000:03:00.0: amdgpu: ring vcn_enc1 uses VM inv</pre><pre>eng 4 on hub 1</pre><pre>[13164.779807] amdgpu 0000:03:00.0: amdgpu: ring jpeg_dec uses VM inv</pre><pre>eng 5 on hub 1</pre><pre>[13164.783807] amdgpu 0000:03:00.0: [drm] Cannot find any crtc or sizes</pre><pre>[13170.722306] [drm] free PSP TMR buffer</pre><pre><br></pre><pre>If I boot with nomodeset, I can operate fine - just without screen</pre><pre>brightness control, etc. It just</pre><pre>seems strange that an event is generated like this all the time.</pre><pre><br></pre><pre>I only get sporadic crashes, though. Humorously, I've been running</pre><pre>only Firefox, crash reporter and</pre><pre>Mate Terminal this morning and it's run fine for over 4 hours. There</pre><pre>were times when I wouldn't run</pre><pre>anything at all and it's lock up on me. So I just can't find any</pre><pre>common denominator for this (using vi </pre><pre>in terminal to type this - going to copy-paste into email client</pre><pre>[Evolution] once I'm done this).</pre><pre><br></pre><pre>I've attached 3 crash reports that were captured on the system over</pre><pre>the last couple days. I apologize</pre><pre>in advance - profusely! - if the problem turns out to be somewhere else. </pre><pre><br></pre><pre>Thanks,</pre><pre>Tim </pre><pre><br></pre><pre>_______________________________________________</pre><pre>amd-gfx mailing list</pre><a href="mailto:amd-gfx@lists.freedesktop.org"><pre>amd-gfx@lists.freedesktop.org</pre></a><pre><br></pre><a href="https://lists.freedesktop.org/mailman/listinfo/amd-gfx"><pre>https://lists.freedesktop.org/mailman/listinfo/amd-gfx</pre></a><pre><br></pre></blockquote><pre><br></pre></blockquote></body></html>