Supercómputo

jueves, 20 de septiembre de 2007

acceso restablecido

Les informamos que ya se restableció el acceso a la supercomputadora KanBalam.

Por favor, revisen bien sus jobs, pues puede ser que algunos archivos no estén bien debido a la interrupción del sistema de archivos.

Nuevamente agradecemos su paciencia y comprensión.

Acceso a KanBalam

Estimados usuarios de la supercomputadora KanBalam,

hemos cerrado temporalmente el acceso al equipo debido a problemas con el sistema de archivos.
Esperamos reabrir en el transcurso del día.

domingo, 16 de septiembre de 2007

Red de datos

Estimados usuarios de la supercomputadora KanBalam,

el domingo 16 de septiembre se presentó un problema con la red de datos de
la supercomputadora entre las 20:30 y las 21:30 hrs. Debido a esta falla, el
sistema de archivos y el ambiente MPI fueron inaccesibles durante este
lapso.

Les pedimos que revisen sus datos y el estatus de sus jobs, ya que varios
jobs fueron abortados. Tambien les
agradeceremos que nos comuniquen cualquier problema que encuentren.

viernes, 24 de agosto de 2007

Limite de procesadores en la cola regular

Estimados usuarios de la supercomputadora KanBalam:

el límite de procesadores de la cola regular es ahora 164.
Dicho límite aplica por grupo de usuarios (el titular y cuentas adicionales).

El comando "busers", pasando como parámetro el login del titular de la cuenta, con el sufijo _g, proporciona en la columna RUN el número de procesadores que están siendo utilizados por el grupo.

Por ejemplo, para el grupo pruebas

% buser pruebas_g
USER/GROUP JL/P MAX NJOBS PEND RUN SSUSP USUSP RSV
pruebas_g - 164 0 0 0 0 0 0

miércoles, 25 de julio de 2007

kanbalam nuevamente accesible

Estimados usuarios de la supercomputadora KanBalam,

la supercomputadora ya está accesible nuevamente.
Les pedimos su comprensión por la demora.

viernes, 6 de julio de 2007

Instalación en la sala de kanbalam

Estimados usuarios de la supercomputadora KanBalam,

Como estaba planeado desde 2006, DGSCA adquirio equipos de enfriamiento
para complementar la infraestructura de KanBalam y dotarla de redundancia
adicional. Para instalar estos equipos con el minimo riesgo de efectos
colaterales para KanBalam se requiere interrumpir el servicio que esta
computadora provee.

Los trabajos de instalacion se llevaran a cabo durante el proximo periodo
vacacional, por lo que les pedimos que tomen las debidas precauciones.
Estos trabajos empezaran tentativamente a partir del lunes 9 de julio, a las 8 hrs.
El servicio de la supercomputadora será reestablecido aproximandamente el 23 de julio. Estaremos informándoles al respecto.

Lamentamos los contratiempos de estas actividades, cuyos beneficios de
largo plazo esperamos suplan ampliamente los inconvenientes temporales que
causaremos a Uds.

Enfatizamos nuevamente nuestro llamado a que provean las protecciones
pertinentes a sus datos y calculos, y quedamos a sus ordenes para
cualquier consulta al respecto.

Atentamente,

Departamento de Supercomputo
Direccion General de Servicios de Computo Academico
UNAM

miércoles, 27 de junio de 2007

Directorio de "scratch" en discos locales

Estimados usuarios de la supercomputadora KanBalam:

Se ha habilitado un directorio de "scratch" en el disco local de cada uno de los nodos de cálculo.

Para utilizarlo, por favor consideren lo siguiente:

1. La ruta del directorio de "scratch" es diferente para cada job, y es accesible en el mismo script del job a través de la variable SCRATCHDIR.
El directorio debe ser creado dentro del mismo script. Por ejemplo, para usar el disco local como scratch de un job de gaussian, se tiene el siguiente script (en bash):

#BSUB -oo salida
#BSUB -eo error
#BSUB -q regular
#BSUB -n 4

ulimit -s 8000000

mkdir -p $SCRATCHDIR
export GAUSS_SCRDIR=$SCRATCHDIR
g03 < PAR4_1.inp

2.- En cada nodo existe un único directorio de "scratch" para todos los procesos que genere el job en dicho nodo. Es tarea del programa crear nombres de archivos diferentes para cada proceso o sincronizar las operaciones de I/O en un mismo archivo.

3.- El directorio de "scratch" sólo es visible para los proceso de un mismo nodo.

4.- El directorio de "scratch" se borra inmediatamente después de terminar el job.

5.- El espacio de scratch disponible es 60 Gigabytes

Atentamente,

Departamento de Supercómputo

martes, 12 de junio de 2007

cambio de "shell" por omisión

Estimados usuarios de la supercomputadora KanBalam,

les recordamos que el shell por omisión en todas las cuentas es bash. Los otros shells disponibles son tcsh, csh y ksh.
Si desean cambiar el shell por omisión en su cuenta, utilicen el comando chshell. Este funciona del mismo modo que el comando chsh
de Linux, pero lleva a cabo el cambio en todo el cluster.

Por ejemplo,

-------

[user@n339 ~]$ chshell
Changing shell for user.
Password:
New shell [/bin/bash]: /bin/tcsh
Shell changed.
Connection to n349 closed.

-------

Las opciones para "New shell" son /bin/tcsh, /bin/csh, /bin/ksh.

lunes, 11 de junio de 2007

Información sobre funcionamiento y uso de KanBalam

Estimados usuarios de la supercomputadora KanBalam,

el día de hoy se publican tres textos acerca del funcionamiento y uso de la supercomputadora:

En el periódico Reforma

(puede leer el texto íntegro en http://aldergutnews.wordpress.com/)

y en la Gaceta de la UNAM, pags. 3, 4 y 5.

http://www.dgcs.unam.mx/gacetaweb/2007/070611/gaceta.htm

Atentamente,

Departamento de Supercómputo

* Esta información puede ser consultada en línea en supercomputo-unam.blogspot.com

jueves, 7 de junio de 2007

NETCDF

Estimados usuarios de la supercomputadora KanBalam,

se ha instalado la biblioteca NetCDF, útil para la creación, uso e intercambio de arreglos (matrices) de datos.

Pueden encontrar mayor información sobre la misma en

http://www.unidata.ucar.edu/software/netcdf/

Las instrucciones de uso son:

PARA PATHSCALE:

pathcc -I/opt/appl/include ejemplo.c -L/opt/appl/lib -lnetcdf

pathCC -I/opt/appl/include ejemplo.cc -L/opt/appl/lib -lnetcdf -lnetcdf_c++

pathf90 -I/opt/appl/include ejemplo.f -L/opt/appl/lib -lnetcdf -lnetcdff

pathf90 -I/opt/appl/include ejemplo.f90 -L/opt/appl/lib -lnetcdf -lnetcdff

-------

PARA INTEL 64 BITS

icc -I/opt/appl/include ejemplo.c -L/opt/appl/lib -lnetcdf

icpc -I/opt/appl/include ejemplo.cc -L/opt/appl/lib -lnetcdf -lnetcdf_c++

pathf90 -assume 2underscores -I/opt/appl/include ejemplo.f -L/opt/appl/lib -lnetcdf -lnetcdff -L /opt/pathscale/lib/2.4/ -lpathfortran

-----------------

PARA GNU

gcc -I/opt/appl/include ejemplo.c -L/opt/appl/lib -lnetcdf

g++ -I/opt/appl/include ejemplo.cc -L/opt/appl/lib -lnetcdf -lnetcdf_c++

g77 -I/opt/appl/include ejemplo.f -L/opt/appl/lib -lnetcdf -lnetcdff -L /opt/pathscale/lib/2.4/ -lpathfortran

--------------------

Dejamos pendiente la instrucción para intel/fortran 90

viernes, 25 de mayo de 2007

KanBalam - Fin de semana

Estimados usuarios de la supercomputadora KanBalam,

el equipo seguirá encendido y accesible durante el fin de semana. El lunes les confirmaremos la nueva fecha y hora de apagado.
Nuevamente les solicitamos tomen las debidas precauciones con respecto a sus jobs y datos.

Altix - estado del sistema de archivos

Estimados usuarios de la supercomputadora Alebrije (Altix350)

En este momento, el sistema de archivos /tmpu esta en funcionamiento,
sin embargo, la maquina sera dada
de baja este lunes 28 de mayo para reemplazar uno de los discos.

Les pedimos de la manera mas atenta respaldar su informacion y solo
hacer corridas que puedan terminar o hacer un checkpointing durante el fin de semana.

Información general - Frecuencia de "checkpointing" en TERAGRID

Estimados usuarios de los equipos de supercómputo de la UNAM,

La siguiente liga seguramente será de su interés.

Contiene recomendaciones sobre la frecuencia de "checkpointings" en una aplicación.

miércoles, 23 de mayo de 2007

Alebrije (Altix 350): problemas de disco

Estimados usuarios de la supercomputadora Alebrije (Altix 350)

Debido a una falla en el arreglo de discos del directorio /tmpu, el sistema
esta fuera de servicio por el momento. Estamos trabajando en la reconstruccion
del mismo. Esperamos que el dia de ma~nana (24 de mayo) se reinicien las
operaciones.

Mientras tanto les pedimos su comprension al respecto.

Recordatorio interrupción de servicio

Estimados usuarios de la supercomputadora KanBalam,

para recordarles que este jueves 24 de mayo a las 20 horas se suspenderá el servicio, para reiniciarse tentativamente el 4 de junio.

Les recordamos tomar las precauciones necesarias con sus trabajos y sus datos, y quedamos a sus ordenes para cualquier consulta
al respecto.

lunes, 21 de mayo de 2007

Instalacion aire acondicionado - Interrupcion de servicio

Estimados usuarios de la supercomputadora KanBalam

Como estaba planeado desde 2006, DGSCA ha adquirido equipos de
enfriamiento para complementar la infraestructura de KanBalam y dotarla de
redundancia adicional. Para
instalar estos equipos con el minimo riesgo de efectos colaterales para
KanBalam se requiere interrumpir el servicio que esta computadora provee.

Prevemos que la interrupcion del servicio iniciara el jueves 24 a las 8
de la noche, y que se reestablecera el 4 de junio por la ma~ana. Lamentamos
la interrupcion, cuyos beneficios de largo plazo esperamos suplan
ampliamente los inconvenientes temporales que causaremos a Uds.

Como en toda interrupcion de servicio, enfatizamos nuestro llamado a que
Uds. prevean la proteccion
de sus datos y calculos, y quedamos a sus ordenes para cualquier consulta
al respecto.

Atentamente,

Departamento de Supercomputo

viernes, 11 de mayo de 2007

Ya funciona nuevamente el sistema de archivos

El sistema ya está funcionando nuevamente. Les pedimos que relancen los jobs que tenían en ejecución. Es probable que las escrituras a archivos hayan fallado en las últimas 6 horas, pero la información anterior debe estar intacta. También les pedimos que nos comuniquen cualquier problema que les haya surgido derivado de esta interrupción.

Lamentamos los contratiempos que esto les haya causado. Un sistema de archivos de 128 Terabytes y 768 discos es susceptible de este tipo de interrupciones.

Atentamente,

Departamento de Supercómputo

Problemas en sistemas de archivos global

estamos teniendo problemas con el sistema de archivos /global (LUSTRE). Será necesario reiniciarlo. Como consecuencia, debemos terminar los jobs que actualmente están ejecutándose.

Se estima que se podrán relanzar los jobs a partir de las 5pm.

Atentamente,

Departamento de Supercómputo

lunes, 7 de mayo de 2007

Estadísticas de jobs

como seguramente habrán notado, al final del archivo de salida estándar de cada trabajo aparece una sección denominada "Estadísticas del Job", la cual contiene información sobre los recursos consumidos por cada job terminado. Esta información es:

Tiempo de pared: La duración del job.

HORASNODO: Las horas consumidas por el job. Es igual a la duración del mismo por el número de procesadores solicitados. Este es el factor que se contabiliza sobre sus recursos asignados.

Tiempo de CPU: El tiempo de uso efectivo de todos los procesadores solicitados.

Eficiencia: El porcentaje de Tiempo de CPU con respecto a las HORASNODO. Este factor indica que tanto se han usado los procesadores solicitados para el job.

Una eficiencia menor al 50% indica que durante el job se ha ocupado más tiempo en comunicaciones que en procesamiento, o que los procesadores han estado ociosos más tiempo del que han estado trabajando.

En estos casos, el tiempo de pared sería muy similar utilizando solamente la mitad de los procesadores, y en consecuencia, se reducirían las HORASNODO consumidas por el job.
Por lo anterior, se recomienda que si la eficiencia de un job es menor a 50%, se reduzca a la mitad el número de procesadores solicitados para jobs similares en el futuro.

Atentamente,

Departamento de Supercómputo

martes, 24 de abril de 2007

MPI: Ligas

para su información, enviamos ligas de información referente al estándar MPI:

Version 1.0 de MPI en su presentación eléctronica:

http://www.mpi-forum.org/docs/mpi-11-html/mpi-report.html

Utilización de MPI, ejemplos:

http://www-unix.mcs.anl.gov/mpi/usingmpi/

http://www-unix.mcs.anl.gov/mpi/usingmpi/examples/main.htm

Utilización de MPI-2, ejemplos:

http://www-unix.mcs.anl.gov/mpi/usingmpi2/index.html

http://www-unix.mcs.anl.gov/mpi/usingmpi2/examples/main.htm

Supercómputo - UNAM