<div dir="ltr"><div><div><div><div><div>Hi all<br><br></div>Back at the customer's site, and back on this problem.<br><br></div><div>I just captured data as this happened. <br></div><div>Ran the command you suggested, slightly modified for our environment. I also redirected it to a file for analysis.<br>Here's what I ran, with error output.<br><font size="1"><span style="font-family:monospace,monospace">./xymoncmd xymond_channel  --channel=data --filter=e-series cat > /var/tmp/xymon.out<br>2015-03-04 08:45:22 Using default environment file /opt/local/xymon/server/etc/xymonserver.cfg<br>2015-03-04 08:45:58 Peer not up, flushing message queue<br>2015-03-04 09:05:21 Gave up waiting for GOCLIENT to go low.</span></font><br><br></div><div>What is that GOCLIENT thing?<br></div><div>It might be relevant, since it occurred just <i>after </i>some errant data files were created. (Note timestamp)<br></div><div>The errant data files are <br><font size="1"><span style="font-family:monospace,monospace">-rw-r--r--   1 xymon    xymon      19580 Mar  4 09:02 SINFSPNA01/e-series-davgiolat,subversionsize.rrd<br>-rw-r--r--   1 xymon    xymon      19580 Mar  4 09:02 SINFSPNA01/e-series-davgiolat,subversionrss.rrd<br>-rw-r--r--   1 xymon    xymon      19580 Mar  4 09:02 SINFSPNA01/e-series-davgiolat,subversionmemory.rrd<br>-rw-r--r--   1 xymon    xymon      19580 Mar  4 09:02 SINFSPNA01/e-series-davgiolat,subversioncpu.rrd<br>-rw-r--r--   1 xymon    xymon      19580 Mar  4 09:02 SINFSPNA01/e-series-davgiolat,subversion.rrd<br>-rw-r--r--   1 xymon    xymon      19580 Mar  4 09:02 SINFSPNA01/e-series-davgiolat,energisesize.rrd</span></font><br><br></div><div>This is supposed to graph the average IO latency of the disks in the e-series, so we expect output to look like this.<br><font size="1"><span style="font-family:monospace,monospace">-rw-r--r--   1 xymon    xymon      19580 Mar  4 09:24 SINFSPNA01/e-series-davgiolat,Tray99_Slot1.rrd<br>-rw-r--r--   1 xymon    xymon      19580 Mar  4 09:24 SINFSPNA01/e-series-davgiolat,Tray0_Slot1.rrd<br>-rw-r--r--   1 xymon    xymon      19580 Mar  4 09:22 SINFSPNA03/e-series-davgiolat,Tray99_Slot12.rrd<br>-rw-r--r--   1 xymon    xymon      19580 Mar  4 09:22 SINFSPNA03/e-series-davgiolat,Tray0_Slot12.rrd<br>-rw-r--r--   1 xymon    xymon      19580 Mar  4 09:21 SINFSPNA01/e-series-davgiolat,Tray99_Slot8.rrd<br>-rw-r--r--   1 xymon    xymon      19580 Mar  4 09:21 SINFSPNA01/e-series-davgiolat,Tray99_Slot7.rrd<br>-rw-r--r--   1 xymon    xymon      19580 Mar  4 09:21 SINFSPNA01/e-series-davgiolat,Tray99_Slot6.rrd</span></font><br><br></div><div>The subversion and energize are actually host names for completely unrelated servers.<br></div><div>The subversionsize and subversionrsss and similar data points are being sent for another host, but are not related to the e-series graphs.<br></div><div><br></div><div>In the output file, /var/tmp/xymon.out from <br><font size="1"><span style="font-family:monospace,monospace">./xymoncmd xymond_channel  --channel=data --filter=e-series cat > /var/tmp/xymon.out</span></font><br></div><div>there is no mention of the subversion or energise stuff either.<br></div><div><br></div>Does this narrow the field at all? <br>Based on Jeremy's earlier email, it looks like the issue is in xymond_rrd, unless that GOCLIENT error can tell us something more?<br><br></div><div>Regards<br></div><div>Vernon<br><br></div></div></div><br></div><div class="gmail_extra"><br><div class="gmail_quote">On 25 February 2015 at 18:06, Jeremy Laidman <span dir="ltr"><<a href="mailto:jlaidman@rebel-it.com.au" target="_blank">jlaidman@rebel-it.com.au</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr"><div class="gmail_extra"><span class=""><div class="gmail_quote">On 25 February 2015 at 19:16, Vernon Everett <span dir="ltr"><<a href="mailto:everett.vernon@gmail.com" target="_blank">everett.vernon@gmail.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">These hosts all have nothing at all to do with the storage arrays being monitored, which makes me think the client data might be a red herring.</blockquote></div><br></span>Yup, makes sense.</div><div class="gmail_extra"><br></div><div class="gmail_extra">My best guess is memory corruption within xymond.  So let's see if the corruption is visible in the messages being passed between xymond and xymond_channel.  If we see corrupt messages in there, we can start to delve into the source code to see if there's a bug somewhere.  Are you able to run your own instance of xymond_channel?  Maybe something like this:</div><div class="gmail_extra"><br></div><div class="gmail_extra">sudo -u xymon xymoncmd xymond_channel --channel=data --filter=zmem cat</div><div class="gmail_extra"><br></div><div class="gmail_extra">One you get an idea what it looks like, change "cat" for something like "egrep -A5 ^@" to get only the first 5 lines.  Also, redirect to a file until you notice a dodgy RRD file and then kill the process.</div><div class="gmail_extra"><br></div><div class="gmail_extra">Did you try running xymond with "--dbghost=HOSTNAME" ?  It might be too voluminous, but might be worth a try, if you can manage to snag the traffic at the right time.</div><span class="HOEnZb"><font color="#888888"><div class="gmail_extra"><br></div><div class="gmail_extra">J</div><div class="gmail_extra"><br></div></font></span></div>
</blockquote></div><br><br clear="all"><br>-- <br><div class="gmail_signature"><span>"Accept the challenges so that you can feel the exhilaration of victory"</span><div><span>- General George Patton</span></div></div>
</div>