<div dir="ltr"><div>Hi Chris,</div><div><br></div><div>I've seen plenty of segfaults though I haven't seen one happen during I/O before. Could you check if your cluster ran out of disk? (E.g., run "df -h") It is very odd if you were writing checkpoint files perfectly fine earlier and nothing changed and it suddenly stopped working. If you restart from the checkpoint before the issue does it crash at the same point or randomly later on? If it crashes at the same point, then you could use DDT (parallel debugging tool) or litter io_xfer_mesh_dataset.c with "printf" statements to localize the error (you might have to put "#include <stdio.h>" at the top of the file (that is, the version of the file you'd copy from object to your problem directory to preserve the original)).<br></div><div><br></div><div>Best,<br></div><div><div><div dir="ltr" class="gmail_signature" data-smartmail="gmail_signature"><div dir="ltr"><div><div dir="ltr"><div dir="ltr">--------<div>Ryan</div></div></div></div></div></div></div><br></div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Fri, Mar 15, 2019 at 9:17 AM Plechaty, Christopher <<a href="mailto:cplechaty@riversideresearch.org">cplechaty@riversideresearch.org</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div lang="EN-US"><div class="gmail-m_6267098287404243834WordSection1"><p class="MsoNormal">To all,<u></u><u></u></p><p class="MsoNormal"><u></u> <u></u></p><p class="MsoNormal">I am experiencing a SIGSEGV 174 error that I cannot seem to figure it out. <u></u><u></u></p><p class="MsoNormal"><u></u> <u></u></p><p class="MsoNormal">I have been running the lasslab example (in 3D) which has been modified for my purposes. The simulation runs great, and happily dumps restart and plot data files for a long time. However, after some time, FLASH decides to write a restart dump and suddenly crashes due to a SIGSEGV 174 error (placed below). <u></u><u></u></p><p class="MsoNormal"><u></u> <u></u></p><p class="MsoNormal">I am running:<u></u><u></u></p><p class="MsoNormal">Flash 4.5<u></u><u></u></p><p class="MsoNormal">Intel compliers and mpi (2018)<u></u><u></u></p><p class="MsoNormal">HDF 1.8.13<u></u><u></u></p><p class="MsoNormal">Hypre 2.11.2<u></u><u></u></p><p class="MsoNormal"><u></u> <u></u></p><p class="MsoNormal">My cluster runs Centos 7. <u></u><u></u></p><p class="MsoNormal"><u></u> <u></u></p><p class="MsoNormal">The error is as follows:<u></u><u></u></p><p class="MsoNormal">forrtl: severe (174): SIGSEGV, segmentation fault occurred<u></u><u></u></p><p class="MsoNormal">Image              PC                Routine            Line        Source             <u></u><u></u></p><p class="MsoNormal">flash4debug        0000000000E4EA7D  Unknown               Unknown  Unknown<u></u><u></u></p><p class="MsoNormal">libpthread-2.17.s  00002ACEDECD56D0  Unknown               Unknown  Unknown<u></u><u></u></p><p class="MsoNormal">libmpifort.so.12.  00002ACEDDB60460  __I_MPI___intel_a     Unknown  Unknown<u></u><u></u></p><p class="MsoNormal">libmpi.so.12.0     00002ACEDDEFE836  Unknown               Unknown  Unknown<u></u><u></u></p><p class="MsoNormal">libmpi.so.12       00002ACEDDF08184  ADIOI_GEN_WriteSt     Unknown  Unknown<u></u><u></u></p><p class="MsoNormal">libmpi.so.12.0     00002ACEDE326ABC  Unknown               Unknown  Unknown<u></u><u></u></p><p class="MsoNormal">libmpi.so.12       00002ACEDE327B35  PMPI_File_write_a     Unknown  Unknown<u></u><u></u></p><p class="MsoNormal">flash4debug        000000000098661C  Unknown               Unknown  Unknown<u></u><u></u></p><p class="MsoNormal">flash4debug        0000000000981469  Unknown               Unknown  Unknown<u></u><u></u></p><p class="MsoNormal">flash4debug        000000000096F95A  Unknown               Unknown  Unknown<u></u><u></u></p><p class="MsoNormal">flash4debug        0000000000972536  Unknown               Unknown  Unknown<u></u><u></u></p><p class="MsoNormal">flash4debug        000000000095036D  Unknown               Unknown  Unknown<u></u><u></u></p><p class="MsoNormal">flash4debug        00000000009509B7  Unknown               Unknown  Unknown<u></u><u></u></p><p class="MsoNormal">flash4debug        000000000094D295  Unknown               Unknown  Unknown<u></u><u></u></p><p class="MsoNormal">flash4debug        0000000000706157  Unknown               Unknown  Unknown<u></u><u></u></p><p class="MsoNormal">flash4debug        00000000007152FD  Unknown               Unknown  Unknown<u></u><u></u></p><p class="MsoNormal">flash4debug        0000000000714B10  io_xfer_mesh_data         362  io_xfer_mesh_data.F90<u></u><u></u></p><p class="MsoNormal">flash4debug        0000000000713FA1  io_writedata_             341  io_writeData.F90<u></u><u></u></p><p class="MsoNormal">flash4debug        000000000049A5B1  io_writecheckpoin         129  IO_writeCheckpoint.F90<u></u><u></u></p><p class="MsoNormal">flash4debug        000000000049962F  io_output_                267  IO_output.F90<u></u><u></u></p><p class="MsoNormal">flash4debug        0000000000417F6F  driver_evolveflas         423  Driver_evolveFlash.F90<u></u><u></u></p><p class="MsoNormal">flash4debug        000000000044D805  MAIN__                     51  Flash.F90<u></u><u></u></p><p class="MsoNormal">flash4debug        0000000000407E9E  Unknown               Unknown  Unknown<u></u><u></u></p><p class="MsoNormal"><a href="http://libc-2.17.so" target="_blank">libc-2.17.so</a>       00002ACEDF5E1445  __libc_start_main     Unknown  Unknown<u></u><u></u></p><p class="MsoNormal">flash4debug        0000000000407DA9  Unknown               Unknown  Unknown<u></u><u></u></p><p class="MsoNormal"><u></u> <u></u></p><p class="MsoNormal">Has anyone seen this type of error before? <u></u><u></u></p><p class="MsoNormal">-Chris <span style="color:rgb(31,73,125)"><u></u><u></u></span></p><p class="MsoNormal"><u></u> <u></u></p><p class="MsoNormal"><u></u> <u></u></p></div></div></blockquote></div>