<html>
    <head>
      <base href="https://bugs.freedesktop.org/">
    </head>
    <body>
      <p>
        <div>
            <b><a class="bz_bug_link 
          bz_status_NEW "
   title="NEW - [BDW][EXT] igt@kms_flip@vblank-vs-dpms-suspend-interruptible hard LOCKUP on cpu 3"
   href="https://bugs.freedesktop.org/show_bug.cgi?id=100419#c6">Comment # 6</a>
              on <a class="bz_bug_link 
          bz_status_NEW "
   title="NEW - [BDW][EXT] igt@kms_flip@vblank-vs-dpms-suspend-interruptible hard LOCKUP on cpu 3"
   href="https://bugs.freedesktop.org/show_bug.cgi?id=100419">bug 100419</a>
              from <span class="vcard"><a class="email" href="mailto:marta.lofstedt@intel.com" title="Marta Löfstedt <marta.lofstedt@intel.com>"> <span class="fn">Marta Löfstedt</span></a>
</span></b>
        <pre>Here is info on the HW: <a href="https://intel-gfx-ci.01.org/CI/hardware.html">https://intel-gfx-ci.01.org/CI/hardware.html</a>

On the farm this issue is reproducible on Intel NUC5I7RYB. I can also reproduce
on NUCi5RYH. 

The drm-tip kernel is here:
<a href="https://cgit.freedesktop.org/drm-tip">https://cgit.freedesktop.org/drm-tip</a>
This issue typically cause suspend-resume tests to not terminate. As we don't
have serial connectors on most of the machines in our farms, we use pstore to
capture logs that will be available on next reboot. So, what you see in below
stacktrace is:
system is going to suspend:
<7>[ 1193.676773] PM: Suspending system (mem)
nmi watchdog discovers lockup:
<0>[ 1211.603046] NMI watchdog: Watchdog detected hard LOCKUP on cpu 3
This will generate a panic which will trigger pstore to store the logs.
Then the system will reboot. After reboot the pstore captured logs will be
available in:
/sys/fs/pstore
Note, the pstore logs should be cleaned up between runs.

For this we have added kernel configs:

CONFIG_EFI_VARS_PSTORE=y
CONFIG_BOOTPARAM_HARDLOCKUP_PANIC=y
CONFIG_BOOTPARAM_HARDLOCKUP_PANIC_VALUE=1
CONFIG_BOOTPARAM_SOFTLOCKUP_PANIC=y
CONFIG_BOOTPARAM_SOFTLOCKUP_PANIC_VALUE=1
CONFIG_BOOTPARAM_HUNG_TASK_PANIC=y
CONFIG_BOOTPARAM_HUNG_TASK_PANIC_VALUE=1

and kernel boot params:
nmi_watchdog=panic,auto panic=1


To reproduce I suggest setting up the IGT test suit:
<a href="https://cgit.freedesktop.org/drm/igt-gpu-tools/">https://cgit.freedesktop.org/drm/igt-gpu-tools/</a>
follow the README on how to setup piglit which is the framework we use to run
and capture results of the IGT tests. You will probably need to update your:
piglit/piglit.conf
by adding:
[igt]
path="path to your igt directory"

The extended.testlist is available in Jira, but I will upload it here as well.

You need to stop your window manager to run the IGT test. On Ubuntu enter
virtual terminal:
<span class="quote">> sudo systemctl stop lightdm</span >

Now you can run the extended.testlist like this:
<span class="quote">> sudo ./piglit/piglit run igt --test-list tests/intel-ci/extended.testlist -o -l verbose -s results</span >

But you may want to write a little script to loop over the execution. The full
extended list takes about 6 hours to complete, my guess is that by only running
suspend-resume related test the issue would be reproduced faster, but I am not
100% sure that is the case.</pre>
        </div>
      </p>


      <hr>
      <span>You are receiving this mail because:</span>

      <ul>
          <li>You are on the CC list for the bug.</li>
          <li>You are the QA Contact for the bug.</li>
      </ul>
    </body>
</html>