<div dir="ltr"><div><div><div><div>Hi J.C.,<br><br></div>So it appears that only fixed it temporarily.<br><br></div>If I stop the service and start it back up again, it crashes again.<br><br></div>I think I figured out how to read the core file and get a backtrace for you (I think).<br><br></div>Here's what I got from the most recent crash (with some host names obfuscated):<br><br>[New LWP 13283]<br>Reading symbols from /usr/sbin/xymond...Reading symbols from /usr/lib/debug/usr/sbin/xymond.debug...done.<br>done.<br>Missing separate debuginfo for <br>Try: yum --enablerepo='*debug*' install /usr/lib/debug/.build-id/33/97b0d696701dbd7c09eb4bf023f7f4eebec9ed<br>[Thread debugging using libthread_db enabled]<br>Using host libthread_db library "/lib64/libthread_db.so.1".<br>Core was generated by `xymond --restart=/var/lib/xymon/tmp/xymond.chk --checkpoint-file=/var/lib/xymon'.<br>Program terminated with signal 6, Aborted.<br>#0  0x00007f570e29a5f7 in raise () from /lib64/libc.so.6<br>Missing separate debuginfos, use: debuginfo-install glibc-2.17-106.el7_2.1.x86_64 keyutils-libs-1.5.8-3.el7.x86_64 krb5-libs-1.13.2-10.el7.x86_64 libcom_err-1.42.9-7.el7.x86_64 libselinux-2.2.2-6.el7.x86_64 lz4-r131-1.el7.x86_64 openssl-libs-1.0.1e-51.el7_2.2.x86_64 pcre-8.32-15.el7.x86_64 xz-libs-5.1.2-12alpha.el7.x86_64 zlib-1.2.7-15.el7.x86_64<br>(gdb) backtrace<br>#0  0x00007f570e29a5f7 in raise () from /lib64/libc.so.6<br>#1  0x00007f570e29bce8 in abort () from /lib64/libc.so.6<br>#2  0x00007f570f53cdf5 in sigsegv_handler (signum=<optimized out>) at sig.c:57<br>#3  <signal handler called><br>#4  0x00007f570f5403b4 in xtree_i_compare (pa=0x7ffead8cb9a0, pb=0x2020202020202020) at tree.c:47<br>#5  0x00007f570e3574c0 in tfind () from /lib64/libc.so.6<br>#6  0x00007f570f5405d4 in xtreeFind (treehandle=<optimized out>, key=key@entry=0x7f57142cb320 "<i><client hostname></i>") at tree.c:140<br>#7  0x00007f570f5386bd in get_clientconfig (hostname=hostname@entry=0x7f57142cb320 "<i><client hostname></i>", hostclass=hostclass@entry=0x7f57208e4612 "linux", <br>    hostos=hostos@entry=0x7f57208e460c "linux") at clientlocal.c:192<br>#8  0x00007f570f535dec in do_message (msg=msg@entry=0x7f572064c300, origin=origin@entry=0x7f570f550e97 "", can_respond=can_respond@entry=1) at xymond.c:4955<br>#9  0x00007f570f5282c7 in main (argc=<optimized out>, argv=<optimized out>) at xymond.c:6288<br><br><div class="gmail_extra"><br>Is this what you wanted? Do you want me to install the debug package for glibc or other packages?<br><br></div><div class="gmail_extra">Let me know what I can do.<br></div><div class="gmail_extra"><br></div><div class="gmail_extra">Thanks!!<br><br clear="all"></div><div class="gmail_extra"><div><div><div>--</div><div>Matt Vander Werf</div></div></div>
<br><div class="gmail_quote">On Sat, Jan 30, 2016 at 1:10 PM, Matt Vander Werf <span dir="ltr"><<a href="mailto:matt1299@gmail.com" target="_blank">matt1299@gmail.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr"><div><div><div><div><div>Hi J.C.,<br><br></div>Moving the xymond.chk checkpoint file out of the way after it was stopped seemed to fix this (at least so far).<br><br></div>I see that I lost all record of disabled tests (getting alerts for things that were disabled).<br><br></div>What all data exactly did I lose with moving that checkpoint file out of the way?<br><br>Is there anyway to get the data back? Or maybe figure out the corruptness in the checkpoint file and then move the file back in place?<br><br></div>Also, see my most recent e-mail with the xymonlaunch log (if you haven't already). Looks like this has happened in the past but resolved itself....<br><br></div>Regarding the backtrace....<br><br>I put those lines in /etc/sysconfig/xymonlaunch and I see the core files being generated now.<br>I feel embarrassed to admit this, but how exactly do I get the backtrace out of the binary core files, besides trying to read the files with an editor? Any way to know which core file had the backtrace?<br><div><div><div class="gmail_extra"><br></div><div class="gmail_extra">Also, I see this in journalctl:<br><br>Ignoring invalid environment assignment 'export DAEMON_COREFILE_LIMIT=unlimited': /etc/sysconfig/xymonlaunch<br><br></div><div class="gmail_extra"><br>Thanks for your help!!<br><br clear="all"></div><div class="gmail_extra"><div><div><div>--</div><div>Matt Vander Werf</div></div></div><div><div>
<br><div class="gmail_quote">On Sat, Jan 30, 2016 at 12:39 PM, J.C. Cleaver <span dir="ltr"><<a href="mailto:cleaver@terabithia.org" target="_blank">cleaver@terabithia.org</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">Hi Matt,<br>
<br>
The log lines you're seeing are actually from the new xymond process<br>
trying to start up, then failing because the port is already in use. I<br>
think the timeout right below it is from the previous process's signal<br>
handler giving up, based on the timestamps.<br>
<br>
Can you get a backtrace from xymond's core file? It should be left in<br>
/var/lib/xymon/tmp/, or in the (*shudder*) systemd journal somewhere...<br>
<br>
If your system is set not to keep them by default, add<br>
''<br>
export DAEMON_COREFILE_LIMIT="unlimited"<br>
ulimit -c unlimited<br>
''<br>
to /etc/sysconfig/xymonlaunch<br>
<br>
I suspect there might be something corrupted in the xymond checkpoint file.<br>
First, do a 'service xymon stop' and make sure all xymon processes are<br>
completely gone, including any xymond's still pending, then start xymon<br>
back up. If it crashes again, do the same, but move the<br>
/var/lib/xymon/xymond.chk checkpoint file out of the way after it's off,<br>
and let it come back up.<br>
<br>
If it *still* doesn't come up, there's something else going on. Either<br>
way, a full backtrace will help let us see where exactly it's dying.<br>
<br>
<br>
HTH,<br>
-jc<br>
<div><div><br>
<br>
On Sat, January 30, 2016 8:28 am, Matt Vander Werf wrote:<br>
> As a followup, xymond seems to try and start itself up again after a while<br>
> (probably because xymonlaunch is still running) and goes for a short while<br>
> working just fine and then just crashes again with the same messages and<br>
> results.<br>
><br>
> --<br>
> Matt Vander Werf<br>
><br>
> On Sat, Jan 30, 2016 at 11:21 AM, Matt Vander Werf <<a href="mailto:matt1299@gmail.com" target="_blank">matt1299@gmail.com</a>><br>
> wrote:<br>
><br>
>> Hello,<br>
>><br>
>> I'm having a major issue with xymond crashing shortly after the service<br>
>> starts.<br>
>><br>
>> I'm using the the latest Terabithia RPM for RHEL 7<br>
>> (4.3.24-3.el7.terabithia).<br>
>><br>
>> When I check the status of the xymon service, it shows it as up but with<br>
>> only the xymonlaunch parent process and vmstat processes. Upon<br>
>> restarting<br>
>> the service, I see it start normally (all the normal channel processes,<br>
>> etc.) and then after a while they all go away, leaving the following<br>
>> process behind:<br>
>><br>
>>            ├─2760 xymon-signal 0.0.0.0 status+1d/group:signal<br>
>> <server<br>
>> hostname>.xymond red (Check time of report) - xymond program crashed<br>
>> Fatal<br>
>> signal caught!<br>
>><br>
>> along with the xymonlaunch process and some vmstat processes. After a<br>
>> while that process goes away. Sometimes a single xymond_rrd will show up<br>
>> alongside the xymonlaunch and vmstat processes as well after a little<br>
>> while.<br>
>><br>
>> I'm already running xymond in --debug mode.<br>
>><br>
>> This is what I see in the xymond log around the time of the crash:<br>
>><br>
>> 2773 2016-01-30 11:02:32.515505 Status: Host=<host>, test=ntp<br>
>> 2773 2016-01-30 11:02:32.515507  -- create_hostlist_t for <host><br>
>> (<client<br>
>> IP address>)<br>
>> 2773 2016-01-30 11:02:32.515513 Status: Host=<host>, test=conn<br>
>> 2773 2016-01-30 11:02:32.515520 Status: Host=<host>, test=raid<br>
>> 2773 2016-01-30 11:02:32.515529 Status: Host=<host>, test=memory<br>
>> 2773 2016-01-30 11:02:32.515534 Status: Host=<host>, test=files<br>
>> 2773 2016-01-30 11:02:32.515670 Status: Host=<host>, test=procs<br>
>> 2773 2016-01-30 11:02:32.515879 Status: Host=<host>, test=inode<br>
>> 2773 2016-01-30 11:02:32.515891 Status: Host=<host>, test=disk<br>
>> 2773 2016-01-30 11:02:32.516004 Status: Host=<host>, test=cpu<br>
>> 2773 2016-01-30 11:02:32.516605 Loaded 14419 status logs<br>
>> 2016-01-30 11:02:32 Setting up network listener on <a href="http://0.0.0.0:1984" rel="noreferrer" target="_blank">0.0.0.0:1984</a><br>
>> 2016-01-30 11:02:32.516677 Cannot bind to listen socket (Address already<br>
>> in use)<br>
>> 2016-01-30 11:02:59.538906 Whoops ! Failed to send message (Timeout)<br>
>> 2016-01-30 11:02:59.539020 -><br>
>> 2016-01-30 11:02:59.539023 ->  Recipient '<server IP address>', timeout<br>
>> 50<br>
>> 2016-01-30 11:02:59.539024 ->  1st line: 'status+1d/group:signal <server<br>
>> hostname>.xymond red (Check time of report) - xymond program crashed'<br>
>><br>
>> It seems to get finished with loading all the hosts and then it crashes<br>
>> (the last host before it crashes is the last client I have<br>
>> alphabetically).<br>
>><br>
>> I've tried stopping the service, killing off any remaining xymon owned<br>
>> processes, and started the service with the same results. I've also<br>
>> tried<br>
>> restarting the xymon server machine itself, with the same crash<br>
>> happening<br>
>> when the service starts the first time.<br>
>><br>
>> This just started happening out of the blue a couple of hours ago...<br>
>><br>
>> Looking in netstat, there are no active connections using port 1984 on<br>
>> the<br>
>> local side, just a bunch of clients trying to connect to the server with<br>
>> 1984 in the foreign address.<br>
>><br>
>> ANY help would be much appreciated as currently our Xymon server is not<br>
>> working!!<br>
>><br>
>> Thanks!!<br>
>><br>
>> --<br>
>> Matt Vander Werf<br>
>><br>
</div></div>> _______________________________________________<br>
> Xymon mailing list<br>
> <a href="mailto:Xymon@xymon.com" target="_blank">Xymon@xymon.com</a><br>
> <a href="http://lists.xymon.com/mailman/listinfo/xymon" rel="noreferrer" target="_blank">http://lists.xymon.com/mailman/listinfo/xymon</a><br>
><br>
<br>
<br>
</blockquote></div><br></div></div></div></div></div></div>
</blockquote></div><br></div></div>