<p dir="ltr">Thanks Raimund.  Can you also provide th configure magic for that?</p>
<p dir="ltr">b</p>
<div class="gmail_quote">On Jan 8, 2013 8:44 PM, "Raimund Steger" <<a href="mailto:rs@mytum.de">rs@mytum.de</a>> wrote:<br type="attribution"><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Behdad Esfahbod wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Raimund,<br>
<br>
Can we use these:<br>
<br>
   <a href="http://docs.oracle.com/cd/E18659_01/html/821-1383/gjzmf.html" target="_blank">http://docs.oracle.com/cd/<u></u>E18659_01/html/821-1383/gjzmf.<u></u>html</a><br>
<br>
I have your patch in my tree, waiting to see if we can resolve this part.<br>
Without correct memory barrier, undefined behavior can result, though, it's<br>
only known to happen for Alpha architectures.<br>
</blockquote>
<br>
I believe we could use these instructions. Though they seem to be rather recent additions and some people (not including me) might still use older Sun Studio versions, but well, the non-threadsafe behavior will always continue to work.<br>

<br>
At first glance, __memory_rw_barrier seems to be what we need. I've now compared disassembly of a few relevant routines on SPARC:<br>
<br>
<br>
Sun Studio translates __machine_rw_barrier() into:<br>
<br>
        [ 5]    10684:  membar      #StoreStore | #LoadStore | #StoreLoad | #LoadLoad<br>
     6.     __machine_rw_barrier();<br>
<br>
<br>
GCC translates __sync_synchronize() into the same:<br>
<br>
     4.     __sync_synchronize();<br>
        [ 4]    106f8:  membar      #StoreStore | #LoadStore | #StoreLoad | #LoadLoad<br>
<br>
<br>
As for the Solaris atomic ops (add/compare-exchange), they are library functions but they can be looked up here:<br>
<br>
<a href="http://src.opensolaris.org/source/xref/onnv/onnv-gate/usr/src/common/atomic/sparc/atomic.s" target="_blank">http://src.opensolaris.org/<u></u>source/xref/onnv/onnv-gate/<u></u>usr/src/common/atomic/sparc/<u></u>atomic.s</a><br>

<br>
<br>
What GCC does in comparison:<br>
<br>
- translates __sync_fetch_and_add() into:<br>
<br>
     8.     return __sync_fetch_and_add(ai,v);<br>
        [ 8]    10710:  ld          [%fp + 72], %o5<br>
        [ 8]    10714:  ld          [%fp + 68], %g3<br>
        [ 8]    10718:  ld          [%g3], %g2<br>
        [ 8]    1071c:  mov         %g2, %g1<br>
        [ 8]    10720:  mov         %g1, %g4<br>
        [ 8]    10724:  add         %g1, %o5, %g2<br>
        [ 8]    10728:  membar      #StoreStore | #LoadStore | #StoreLoad | #LoadLoad<br>
        [ 8]    1072c:  cas         [%g3] , %g1, %g2<br>
        [ 8]    10730:  cmp         %g2, %g1<br>
        [ 8]    10734:  bne,pt      %icc,0x1071c<br>
        [ 8]    10738:  nop<br>
        [ 8]    1073c:  mov         %g4, %g1<br>
<br>
- translates __sync_bool_compare_and_swap() into:<br>
<br>
    12.     return __sync_bool_compare_and_swap(<u></u>p,o,n);<br>
        [12]    1075c:  ld          [%fp + 72], %g1<br>
        [12]    10760:  ld          [%fp + 76], %g2<br>
        [12]    10764:  ld          [%fp + 68], %g3<br>
        [12]    10768:  membar      #StoreStore | #LoadStore | #StoreLoad | #LoadLoad<br>
        [12]    1076c:  cas         [%g3] , %g1, %g2<br>
        [12]    10770:  xor         %g2, %g1, %g1<br>
        [12]    10774:  cmp         %g0, %g1<br>
        [12]    10778:  subc        %g0, -1, %g1<br>
        [12]    1077c:  and         %g1, 255, %g1<br>
<br>
<br>
So this looks like it is necessary to add __machine_rw_barrier() before the atomic ops.<br>
<br>
Interestingly though, GCC on amd64 (still Solaris) translates __sync_synchronize() into 'mfence' but includes no fence instruction for the atomic add and compare-exchange operations.<br>
<br>
I should add that there are memory barrier operations in libc on Solaris as well. They are from atomic.s, too (see link, at the end of the page). They (more or less, it differs between SPARC and amd64) provide individual access to the above 'membar' flavors. Hence to achieve the same effect as __machine_rw_barrier(), a sequence of such function calls were required.<br>

<br>
Well in the end I suppose if we want to follow GCC's example we should probably use __machine_rw_barrier(). It's a macro that expands to an inline assembly statement.<br>
<br>
So, maybe like the following in fcatomic.h:<br>
<br>
[...]<br>
#elif !defined(FC_NO_MT) && defined(HAVE_SOLARIS_ATOMIC_<u></u>OPS)<br>
<br>
#include <atomic.h><br>
#include <mbarrier.h><br>
<br>
typedef unsigned int fc_atomic_int_t;<br>
#define fc_atomic_int_add(AI, V)        ( ({__machine_rw_barrier ();}), atomic_add_int_nv (&(AI), (V)) - (V))<br>
<br>
#define fc_atomic_ptr_get(P)            ( ({__machine_rw_barrier ();}), (void *) *(P))<br>
#define fc_atomic_ptr_cmpexch(P,O,N)    ( ({__machine_rw_barrier ();}), atomic_cas_ptr ((P), (O), (N)) == (void *) (O) ? FcTrue : FcFalse)<br>
<br>
#elif !defined(FC_NO_MT)<br>
[...]<br>
<br>
<br>
<br>
Raimund<br>
<br>
<br>
<br>
<br>
<br>
-- <br>
Worringer Str 31 Duesseldorf 40211 DE  home: <<a href="mailto:rs@mytum.de" target="_blank">rs@mytum.de</a>><br>
<a href="tel:%2B49-179-2981632" value="+491792981632" target="_blank">+49-179-2981632</a> icq 16845346           work: <<a href="mailto:rs@interface-ag.de" target="_blank">rs@interface-ag.de</a>><br>
</blockquote></div>