<div dir="ltr">Found it!<div><br><div>Besides the "raid.sh" script in ext/ I needed a raid configuration in</div><div>etc/client.d/. I thought that was defined in another file but apparently not.</div></div></div><div class="gmail_extra"><br><div class="gmail_quote">On Mon, Aug 31, 2015 at 10:53 AM, Walter Rutherford <span dir="ltr"><<a href="mailto:wlrutherford@alaska.edu" target="_blank">wlrutherford@alaska.edu</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr"><div><div>All good questions. Hunting for the answers helped me to see some patterns I'd missed before.</div><div><br></div><div>The xymon server hostname and IP seem to be consistent, but that's about all that is consistent.</div><div>There is a separate column for 'disks' on the main webpage and it correctly shows the output from<br></div><div>a 'df' command. The script running on the clients' sides is called "raid.sh", the comments at the top</div><div>of the script indicate it is over a decade old; bb-mdstat.h based on bb-raid.sh. There's a link from</div><div>/home/xymon-client/ext to /usr/share/xymon-client/ext on most systems. The directory and the</div><div>scripts in it are owned by either root or xymon. Changing location, ownership, and perms to match</div><div>one of the working systems hasn't helped. </div><div><br></div><div>The broken raid reports are all from Linux boxes. The working reports look like this:</div><div><div><br></div><div><b><i>          Mon Aug 31 09:38:49 AKDT 2015 RAID ALL devices OK</i></b></div><div><b><i><br></i></b></div><div><b><i>             green md0 Status OK<br></i></b></div><div><b><i>             green md1 Status OK</i></b></div><div><b><i>             green md2 Status OK</i></b></div><div><b><i><br></i></b></div><div><b><i>          ============================ /proc/mdstat ===========================</i></b></div><div><b><i><br></i></b></div><div><b><i>          Personalities : [raid1] </i></b></div><div><b><i>          md0 : active raid1 sdc1[1] sda1[0]</i></b></div><div><b><i>                511988 blocks super 1.0 [2/2] [UU]</i></b></div><div><b><i><br></i></b></div><div><b><i>          md2 : active raid1 sdd[3] sdb[2]</i></b></div><div><b><i>                536869888 blocks super 1.2 [2/2] [UU]</i></b></div><div><b><i><br></i></b></div><div><b><i>          md1 : active raid1 sdc2[1] sda2[2]</i></b></div><div><b><i>                41428924 blocks super 1.1 [2/2] [UU]</i></b></div><div><b><i>                bitmap: 1/1 pages [4KB], 65536KB chunk</i></b></div><div><b><i><br></i></b></div><div><b><i>          unused devices: </i></b></div><div><b><i><br></i></b></div><div><b><i>          Run /sbin/mdadm -D /dev/md* for more info</i></b></div></div><div><br></div><div>The non-working systems either show nothing at all (that's better than purple) OR show the same</div><div>three green md[0-2] devices (whether it has three raid devices or not) on a blue disabled background.</div><div>So, I'm almost positive someone copied a working system incorrectly to other clients without cleaning</div><div>up the foreign logs. The working systems overwrote or just aged out the incorrect information while the</div><div>non-working ones just keep reporting it. I have found logs but none for this raid information. Perhaps the</div><div>logs are compressed or otherwise rendered humanly unreadable.</div><div><br></div><div>So, I copied the /usr/share/xymon-client/ext scripts from a working system to several that were reporting</div><div>nothing and restarted xymon-client. Most did nothing, one is showing a "no data" indicator. The raid out-</div><div>put looks normal except the device is md127 - perhaps the high number is confusing the script.  But the</div><div>wbinfo.sh script I copied at the same time to/from the same directory is now showing green. Argh!</div><div><br></div><div>I don't even know where the xymon-client scripts running here came from so I'm reluctant (but motivated)</div><div>to just rip them all out by the roots and start over from a known baseline.</div><div><br></div><div>  WLR</div><div><br></div><div><br></div><div><div>==================================================================================</div><div><br></div></div><div>Phil Crooker <<a href="mailto:Phil.Crooker@orix.com.au" target="_blank">Phil.Crooker@orix.com.au</a>></div><div>3:57 PM (17 hours ago)</div><div><br></div><div>Is the hostname wrong somewhere? I'm thinking maybe the scipt is sending the wrong hostname, somehow....</div><div><br></div><div><br></div><div>==================================================================================</div><div><br></div><div><br></div><div>Jeremy Laidman <<a href="mailto:jlaidman@rebel-it.com.au" target="_blank">jlaidman@rebel-it.com.au</a>></div><div><br></div><div>7:07 PM (14 hours ago)</div><div><br></div><div><br></div><div>On 30 August 2015 at 14:22, Walter Rutherford <<a href="mailto:wlrutherford@alaska.edu" target="_blank">wlrutherford@alaska.edu</a>> wrote:</div><div>This is probably an old issue but I didn't see a way to search the archives.</div><div><br></div><div><a href="https://www.google.com/?q=site:lists.xymon.com+purple+raid" target="_blank">https://www.google.com/?q=site:lists.xymon.com+purple+raid</a></div><div> </div><div>Our xymon server is showing purple indicators for two of our custom scripts</div><div>but only on a handful of systems.</div><div><br></div><div>The scripts are running client-side and/or server-side?  Can you describe how the scripts work?  Are they locally-written scripts or did you get them from somewhere online?</div><div><br></div><div>RAID checks are not standard for most Xymon clients.  I've never used or seen RAID checks.  A quick look at the source code indicates built-in support for only Linux, where "md" devices are identified in /proc/mdstat.</div><div> </div><div>At the bottom of the incorrect raid report page there is a</div><div>link to "client data". If I follow the link I get a full report including the correct,</div><div>current raid information!</div><div><br></div><div>How is the RAID information getting into the client data?  This might not be used by your custom scripts, and so might be a red herring.  More detail is required about the raid scripts.  Or whether you're using the built-in support for Linux RAID meta-devices reporting with client data in the [mdstat] section.  If the latter, perhaps you could show the [mdstat] section of client data?</div><div><br></div><div>Cheers</div></div><div><br></div><div>====================================================================================</div><div><br></div><br><div class="gmail_quote">---------- Forwarded message ----------<br>From: <b class="gmail_sendername">Walter Rutherford</b> <span dir="ltr"><<a href="mailto:wlrutherford@alaska.edu" target="_blank">wlrutherford@alaska.edu</a>></span><br>Date: Sat, Aug 29, 2015 at 8:22 PM<br>Subject: purple problems<br>To: <a href="mailto:Xymon@xymon.com" target="_blank">Xymon@xymon.com</a><br><br><br><div dir="ltr">Hey all,<div><br></div><div>This is probably an old issue but I didn't see a way to search the archives.</div><div><br></div><div>Our xymon server is showing purple indicators for two of our custom scripts</div><div>but only on a handful of systems. I've found differences in file location, file</div><div>ownership, UID, GID, etc.. but so far none of that seems to be the problem.</div><div><br></div><div>The custom script checks raids. Strangely, all of the stagnant hosts show</div><div>the same three disks entries from mid-July no matter how many disks they</div><div>really have. Unfortunately I don't know what may've happened in July; that</div><div>was before I started working here. I suspect the xymon-client software was</div><div>copied from a live system, including the old status reports, but in so doing</div><div>something wasn't re-configured correctly for the new systems.</div><div><br></div><div>Even stranger, at my urging the Lead SA undisabled the purple notifications.</div><div>I was expecting the page to go purple but it remains green even though the</div><div>page isn't updating. At the bottom of the incorrect raid report page there is a</div><div>link to "client data". If I follow the link I get a full report <u>including the correct,</u></div><div><u>current raid information</u>!</div><div><br></div><div>I think this means that the client is capturing the correct data and sending</div><div>it to the server, the server is actually receiving the report, but after that the</div><div>raid report isn't being handled correctly. Other systems display as expected.</div><div>So far I haven't found anywhere on the server that  the purple systems are</div><div>configured or handled differently.</div><div><br></div><div>I doubt we're the first to experience this problem. Does this sound familiar?</div><div><br></div><div>Thanks in advance for any hints you can provide for where to look next.</div><div><br></div><div>   WLR</div><div><br></div><div><br></div></div>
</div><br></div>
</blockquote></div><br></div>