<div dir="ltr"><div><div><div><div><div>Hi J.C.,<br><br></div>Moving the xymond.chk checkpoint file out of the way after it was stopped seemed to fix this (at least so far).<br><br></div>I see that I lost all record of disabled tests (getting alerts for things that were disabled).<br><br></div>What all data exactly did I lose with moving that checkpoint file out of the way?<br><br>Is there anyway to get the data back? Or maybe figure out the corruptness in the checkpoint file and then move the file back in place?<br><br></div>Also, see my most recent e-mail with the xymonlaunch log (if you haven't already). Looks like this has happened in the past but resolved itself....<br><br></div>Regarding the backtrace....<br><br>I put those lines in /etc/sysconfig/xymonlaunch and I see the core files being generated now.<br>I feel embarrassed to admit this, but how exactly do I get the backtrace out of the binary core files, besides trying to read the files with an editor? Any way to know which core file had the backtrace?<br><div><div><div class="gmail_extra"><br></div><div class="gmail_extra">Also, I see this in journalctl:<br><br>Ignoring invalid environment assignment 'export DAEMON_COREFILE_LIMIT=unlimited': /etc/sysconfig/xymonlaunch<br><br></div><div class="gmail_extra"><br>Thanks for your help!!<br><br clear="all"></div><div class="gmail_extra"><div><div class="gmail_signature"><div>--</div><div>Matt Vander Werf</div></div></div>
<br><div class="gmail_quote">On Sat, Jan 30, 2016 at 12:39 PM, J.C. Cleaver <span dir="ltr"><<a href="mailto:cleaver@terabithia.org" target="_blank">cleaver@terabithia.org</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">Hi Matt,<br>
<br>
The log lines you're seeing are actually from the new xymond process<br>
trying to start up, then failing because the port is already in use. I<br>
think the timeout right below it is from the previous process's signal<br>
handler giving up, based on the timestamps.<br>
<br>
Can you get a backtrace from xymond's core file? It should be left in<br>
/var/lib/xymon/tmp/, or in the (*shudder*) systemd journal somewhere...<br>
<br>
If your system is set not to keep them by default, add<br>
''<br>
export DAEMON_COREFILE_LIMIT="unlimited"<br>
ulimit -c unlimited<br>
''<br>
to /etc/sysconfig/xymonlaunch<br>
<br>
I suspect there might be something corrupted in the xymond checkpoint file.<br>
First, do a 'service xymon stop' and make sure all xymon processes are<br>
completely gone, including any xymond's still pending, then start xymon<br>
back up. If it crashes again, do the same, but move the<br>
/var/lib/xymon/xymond.chk checkpoint file out of the way after it's off,<br>
and let it come back up.<br>
<br>
If it *still* doesn't come up, there's something else going on. Either<br>
way, a full backtrace will help let us see where exactly it's dying.<br>
<br>
<br>
HTH,<br>
-jc<br>
<div><div class="h5"><br>
<br>
On Sat, January 30, 2016 8:28 am, Matt Vander Werf wrote:<br>
> As a followup, xymond seems to try and start itself up again after a while<br>
> (probably because xymonlaunch is still running) and goes for a short while<br>
> working just fine and then just crashes again with the same messages and<br>
> results.<br>
><br>
> --<br>
> Matt Vander Werf<br>
><br>
> On Sat, Jan 30, 2016 at 11:21 AM, Matt Vander Werf <<a href="mailto:matt1299@gmail.com">matt1299@gmail.com</a>><br>
> wrote:<br>
><br>
>> Hello,<br>
>><br>
>> I'm having a major issue with xymond crashing shortly after the service<br>
>> starts.<br>
>><br>
>> I'm using the the latest Terabithia RPM for RHEL 7<br>
>> (4.3.24-3.el7.terabithia).<br>
>><br>
>> When I check the status of the xymon service, it shows it as up but with<br>
>> only the xymonlaunch parent process and vmstat processes. Upon<br>
>> restarting<br>
>> the service, I see it start normally (all the normal channel processes,<br>
>> etc.) and then after a while they all go away, leaving the following<br>
>> process behind:<br>
>><br>
>>            ├─2760 xymon-signal 0.0.0.0 status+1d/group:signal<br>
>> <server<br>
>> hostname>.xymond red (Check time of report) - xymond program crashed<br>
>> Fatal<br>
>> signal caught!<br>
>><br>
>> along with the xymonlaunch process and some vmstat processes. After a<br>
>> while that process goes away. Sometimes a single xymond_rrd will show up<br>
>> alongside the xymonlaunch and vmstat processes as well after a little<br>
>> while.<br>
>><br>
>> I'm already running xymond in --debug mode.<br>
>><br>
>> This is what I see in the xymond log around the time of the crash:<br>
>><br>
>> 2773 2016-01-30 11:02:32.515505 Status: Host=<host>, test=ntp<br>
>> 2773 2016-01-30 11:02:32.515507  -- create_hostlist_t for <host><br>
>> (<client<br>
>> IP address>)<br>
>> 2773 2016-01-30 11:02:32.515513 Status: Host=<host>, test=conn<br>
>> 2773 2016-01-30 11:02:32.515520 Status: Host=<host>, test=raid<br>
>> 2773 2016-01-30 11:02:32.515529 Status: Host=<host>, test=memory<br>
>> 2773 2016-01-30 11:02:32.515534 Status: Host=<host>, test=files<br>
>> 2773 2016-01-30 11:02:32.515670 Status: Host=<host>, test=procs<br>
>> 2773 2016-01-30 11:02:32.515879 Status: Host=<host>, test=inode<br>
>> 2773 2016-01-30 11:02:32.515891 Status: Host=<host>, test=disk<br>
>> 2773 2016-01-30 11:02:32.516004 Status: Host=<host>, test=cpu<br>
>> 2773 2016-01-30 11:02:32.516605 Loaded 14419 status logs<br>
>> 2016-01-30 11:02:32 Setting up network listener on <a href="http://0.0.0.0:1984" rel="noreferrer" target="_blank">0.0.0.0:1984</a><br>
>> 2016-01-30 11:02:32.516677 Cannot bind to listen socket (Address already<br>
>> in use)<br>
>> 2016-01-30 11:02:59.538906 Whoops ! Failed to send message (Timeout)<br>
>> 2016-01-30 11:02:59.539020 -><br>
>> 2016-01-30 11:02:59.539023 ->  Recipient '<server IP address>', timeout<br>
>> 50<br>
>> 2016-01-30 11:02:59.539024 ->  1st line: 'status+1d/group:signal <server<br>
>> hostname>.xymond red (Check time of report) - xymond program crashed'<br>
>><br>
>> It seems to get finished with loading all the hosts and then it crashes<br>
>> (the last host before it crashes is the last client I have<br>
>> alphabetically).<br>
>><br>
>> I've tried stopping the service, killing off any remaining xymon owned<br>
>> processes, and started the service with the same results. I've also<br>
>> tried<br>
>> restarting the xymon server machine itself, with the same crash<br>
>> happening<br>
>> when the service starts the first time.<br>
>><br>
>> This just started happening out of the blue a couple of hours ago...<br>
>><br>
>> Looking in netstat, there are no active connections using port 1984 on<br>
>> the<br>
>> local side, just a bunch of clients trying to connect to the server with<br>
>> 1984 in the foreign address.<br>
>><br>
>> ANY help would be much appreciated as currently our Xymon server is not<br>
>> working!!<br>
>><br>
>> Thanks!!<br>
>><br>
>> --<br>
>> Matt Vander Werf<br>
>><br>
</div></div>> _______________________________________________<br>
> Xymon mailing list<br>
> <a href="mailto:Xymon@xymon.com">Xymon@xymon.com</a><br>
> <a href="http://lists.xymon.com/mailman/listinfo/xymon" rel="noreferrer" target="_blank">http://lists.xymon.com/mailman/listinfo/xymon</a><br>
><br>
<br>
<br>
</blockquote></div><br></div></div></div></div>