<div dir="ltr"><div><div><div><div><div><div>Hi J.C.,<br><br></div>Thanks for the e-mail and advice!<br><br></div>A couple of questions:<br><br></div>What's the default --lqueue value that Xymon uses? (Is there a way to see what it's using?)<br><br></div>What exactly is your definition of "tons of simultaneous connections" here? Can you give me a number or range that you think would warrant increasing the --lqueue value?<br></div><div><br></div>Could it be from clients/senders with longer than usual process listings? Or other clientlog statistics? (But still under the max client message value.)<br><br>How would I be able to tell if there are long messages being sent in if the long messages are being discarded?<br><br><br>The clients/senders are all different and there doesn't seem to be a 
pattern that I can see. Some hosts are showing up more then once though. All the connections to these machines SHOULD be coming in at the same connection speed....<br><br>I'm not seeing any network issues over any of our switches. And I'm not
 seeing any significant or unusual network traffic on the machines in 
question around the time of the time-out error messages (although it 
could be a very brief spike in traffic that isn't being seen since the 
status message is being discarded).<br></div><div class="gmail_extra"><br></div><div class="gmail_extra">I'll definitely look into the possibility of doing some TCP tuning on the Xymon server machine!<br><br></div><div class="gmail_extra">Thanks again!<br><br clear="all"></div><div class="gmail_extra"><div><div class="gmail_signature"><div>--</div><div>Matt Vander Werf</div></div></div>
<br><div class="gmail_quote">On Tue, Nov 24, 2015 at 3:17 PM, J.C. Cleaver <span dir="ltr"><<a href="mailto:cleaver@terabithia.org" target="_blank">cleaver@terabithia.org</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><span class=""><br>
<br>
On Tue, November 24, 2015 6:29 am, Matt Vander Werf wrote:<br>
> Hey all,<br>
><br>
> Lately, I've been seeing quite a few error messages show up in xymond<br>
> indicating that it was discarding a timed-out partial message from some<br>
> machine.<br>
><br>
> i.e.<br>
><br>
> Latest error messages:<br>
> Discarding timed-out partial msg from X.X.X.X<br>
><br>
> They seem to be happening sporadically but more often than usual as of<br>
> late. Maybe one or two every couple of days or so. They don't seem to be<br>
> coming from the same machine/machines either.<br>
><br>
> Is this something I should be worried about? Are there any side-effects<br>
> from this happening too much?<br>
><br>
> What are the causes of this happening? Any way to make it not happen as<br>
> much?<br>
><br>
><br>
> Any ideas or advice is greatly appreciated!<br>
><br>
> Thanks!!<br>
<br>
<br>
</span>Broadly speaking, this is a result of the entire message not making it in<br>
in the time allotted by xymond, which is 10s by default. It could be the<br>
result of network congestion issues or packet loss, slow sender<br>
performance, or slow xymon server performance.<br>
<br>
A quick fix might be to increase the --timeout= option to xymond to<br>
something like 15 or 20s.<br>
<br>
If a netstat shows tons of simultaneous connections, you could also<br>
increase --lqueue= to 768 or 1024.<br>
<br>
Are there any patterns on the clients/senders that are affected? Unusually<br>
huge messages being sent over slow connections?<br>
<br>
If there isn't a network issue per se, and there are no local network<br>
errors (or you're seeing the reports about messages from all over the<br>
place), then it's time to look at network performance tuning on the xymon<br>
box. Consider the various tcp* options via sysctl (recycle and reuse in<br>
particular). If xymonnet is running on the same system (and you're doing)<br>
high concurrency testing, be sure to increase your ip_local_port_range for<br>
outbound connections.<br>
<br>
<a href="http://www.lognormal.com/blog/2012/09/27/linux-tcpip-tuning/" rel="noreferrer" target="_blank">http://www.lognormal.com/blog/2012/09/27/linux-tcpip-tuning/</a> is a nice<br>
resource for that.<br>
<br>
<br>
HTH,<br>
<br>
-jc<br>
<br>
</blockquote></div><br></div></div>