Supercómputo

miércoles, 25 de julio de 2007

kanbalam nuevamente accesible

Estimados usuarios de la supercomputadora KanBalam,

la supercomputadora ya está accesible nuevamente.
Les pedimos su comprensión por la demora.

viernes, 6 de julio de 2007

Instalación en la sala de kanbalam

Estimados usuarios de la supercomputadora KanBalam,

Como estaba planeado desde 2006, DGSCA adquirio equipos de enfriamiento
para complementar la infraestructura de KanBalam y dotarla de redundancia
adicional. Para instalar estos equipos con el minimo riesgo de efectos
colaterales para KanBalam se requiere interrumpir el servicio que esta
computadora provee.

Los trabajos de instalacion se llevaran a cabo durante el proximo periodo
vacacional, por lo que les pedimos que tomen las debidas precauciones.
Estos trabajos empezaran tentativamente a partir del lunes 9 de julio, a las 8 hrs.
El servicio de la supercomputadora será reestablecido aproximandamente el 23 de julio. Estaremos informándoles al respecto.

Lamentamos los contratiempos de estas actividades, cuyos beneficios de
largo plazo esperamos suplan ampliamente los inconvenientes temporales que
causaremos a Uds.

Enfatizamos nuevamente nuestro llamado a que provean las protecciones
pertinentes a sus datos y calculos, y quedamos a sus ordenes para
cualquier consulta al respecto.

Atentamente,

Departamento de Supercomputo
Direccion General de Servicios de Computo Academico
UNAM

miércoles, 27 de junio de 2007

Directorio de "scratch" en discos locales

Estimados usuarios de la supercomputadora KanBalam:

Se ha habilitado un directorio de "scratch" en el disco local de cada uno de los nodos de cálculo.

Para utilizarlo, por favor consideren lo siguiente:

1. La ruta del directorio de "scratch" es diferente para cada job, y es accesible en el mismo script del job a través de la variable SCRATCHDIR.
El directorio debe ser creado dentro del mismo script. Por ejemplo, para usar el disco local como scratch de un job de gaussian, se tiene el siguiente script (en bash):

#BSUB -oo salida
#BSUB -eo error
#BSUB -q regular
#BSUB -n 4

ulimit -s 8000000

mkdir -p $SCRATCHDIR
export GAUSS_SCRDIR=$SCRATCHDIR
g03 < PAR4_1.inp

2.- En cada nodo existe un único directorio de "scratch" para todos los procesos que genere el job en dicho nodo. Es tarea del programa crear nombres de archivos diferentes para cada proceso o sincronizar las operaciones de I/O en un mismo archivo.

3.- El directorio de "scratch" sólo es visible para los proceso de un mismo nodo.

4.- El directorio de "scratch" se borra inmediatamente después de terminar el job.

5.- El espacio de scratch disponible es 60 Gigabytes

Atentamente,

Departamento de Supercómputo

martes, 12 de junio de 2007

cambio de "shell" por omisión

Estimados usuarios de la supercomputadora KanBalam,

les recordamos que el shell por omisión en todas las cuentas es bash. Los otros shells disponibles son tcsh, csh y ksh.
Si desean cambiar el shell por omisión en su cuenta, utilicen el comando chshell. Este funciona del mismo modo que el comando chsh
de Linux, pero lleva a cabo el cambio en todo el cluster.

Por ejemplo,

-------

[user@n339 ~]$ chshell
Changing shell for user.
Password:
New shell [/bin/bash]: /bin/tcsh
Shell changed.
Connection to n349 closed.

-------

Las opciones para "New shell" son /bin/tcsh, /bin/csh, /bin/ksh.

lunes, 11 de junio de 2007

Información sobre funcionamiento y uso de KanBalam

Estimados usuarios de la supercomputadora KanBalam,

el día de hoy se publican tres textos acerca del funcionamiento y uso de la supercomputadora:

En el periódico Reforma

(puede leer el texto íntegro en http://aldergutnews.wordpress.com/)

y en la Gaceta de la UNAM, pags. 3, 4 y 5.

http://www.dgcs.unam.mx/gacetaweb/2007/070611/gaceta.htm

Atentamente,

Departamento de Supercómputo

* Esta información puede ser consultada en línea en supercomputo-unam.blogspot.com

jueves, 7 de junio de 2007

NETCDF

Estimados usuarios de la supercomputadora KanBalam,

se ha instalado la biblioteca NetCDF, útil para la creación, uso e intercambio de arreglos (matrices) de datos.

Pueden encontrar mayor información sobre la misma en

http://www.unidata.ucar.edu/software/netcdf/

Las instrucciones de uso son:

PARA PATHSCALE:

pathcc -I/opt/appl/include ejemplo.c -L/opt/appl/lib -lnetcdf

pathCC -I/opt/appl/include ejemplo.cc -L/opt/appl/lib -lnetcdf -lnetcdf_c++

pathf90 -I/opt/appl/include ejemplo.f -L/opt/appl/lib -lnetcdf -lnetcdff

pathf90 -I/opt/appl/include ejemplo.f90 -L/opt/appl/lib -lnetcdf -lnetcdff

-------

PARA INTEL 64 BITS

icc -I/opt/appl/include ejemplo.c -L/opt/appl/lib -lnetcdf

icpc -I/opt/appl/include ejemplo.cc -L/opt/appl/lib -lnetcdf -lnetcdf_c++

pathf90 -assume 2underscores -I/opt/appl/include ejemplo.f -L/opt/appl/lib -lnetcdf -lnetcdff -L /opt/pathscale/lib/2.4/ -lpathfortran

-----------------

PARA GNU

gcc -I/opt/appl/include ejemplo.c -L/opt/appl/lib -lnetcdf

g++ -I/opt/appl/include ejemplo.cc -L/opt/appl/lib -lnetcdf -lnetcdf_c++

g77 -I/opt/appl/include ejemplo.f -L/opt/appl/lib -lnetcdf -lnetcdff -L /opt/pathscale/lib/2.4/ -lpathfortran

--------------------

Dejamos pendiente la instrucción para intel/fortran 90

viernes, 25 de mayo de 2007

KanBalam - Fin de semana

Estimados usuarios de la supercomputadora KanBalam,

el equipo seguirá encendido y accesible durante el fin de semana. El lunes les confirmaremos la nueva fecha y hora de apagado.
Nuevamente les solicitamos tomen las debidas precauciones con respecto a sus jobs y datos.

Altix - estado del sistema de archivos

Estimados usuarios de la supercomputadora Alebrije (Altix350)

En este momento, el sistema de archivos /tmpu esta en funcionamiento,
sin embargo, la maquina sera dada
de baja este lunes 28 de mayo para reemplazar uno de los discos.

Les pedimos de la manera mas atenta respaldar su informacion y solo
hacer corridas que puedan terminar o hacer un checkpointing durante el fin de semana.

Información general - Frecuencia de "checkpointing" en TERAGRID

Estimados usuarios de los equipos de supercómputo de la UNAM,

La siguiente liga seguramente será de su interés.

Contiene recomendaciones sobre la frecuencia de "checkpointings" en una aplicación.

miércoles, 23 de mayo de 2007

Alebrije (Altix 350): problemas de disco

Estimados usuarios de la supercomputadora Alebrije (Altix 350)

Debido a una falla en el arreglo de discos del directorio /tmpu, el sistema
esta fuera de servicio por el momento. Estamos trabajando en la reconstruccion
del mismo. Esperamos que el dia de ma~nana (24 de mayo) se reinicien las
operaciones.

Mientras tanto les pedimos su comprension al respecto.

Recordatorio interrupción de servicio

Estimados usuarios de la supercomputadora KanBalam,

para recordarles que este jueves 24 de mayo a las 20 horas se suspenderá el servicio, para reiniciarse tentativamente el 4 de junio.

Les recordamos tomar las precauciones necesarias con sus trabajos y sus datos, y quedamos a sus ordenes para cualquier consulta
al respecto.

lunes, 21 de mayo de 2007

Instalacion aire acondicionado - Interrupcion de servicio

Estimados usuarios de la supercomputadora KanBalam

Como estaba planeado desde 2006, DGSCA ha adquirido equipos de
enfriamiento para complementar la infraestructura de KanBalam y dotarla de
redundancia adicional. Para
instalar estos equipos con el minimo riesgo de efectos colaterales para
KanBalam se requiere interrumpir el servicio que esta computadora provee.

Prevemos que la interrupcion del servicio iniciara el jueves 24 a las 8
de la noche, y que se reestablecera el 4 de junio por la ma~ana. Lamentamos
la interrupcion, cuyos beneficios de largo plazo esperamos suplan
ampliamente los inconvenientes temporales que causaremos a Uds.

Como en toda interrupcion de servicio, enfatizamos nuestro llamado a que
Uds. prevean la proteccion
de sus datos y calculos, y quedamos a sus ordenes para cualquier consulta
al respecto.

Atentamente,

Departamento de Supercomputo

viernes, 11 de mayo de 2007

Ya funciona nuevamente el sistema de archivos

El sistema ya está funcionando nuevamente. Les pedimos que relancen los jobs que tenían en ejecución. Es probable que las escrituras a archivos hayan fallado en las últimas 6 horas, pero la información anterior debe estar intacta. También les pedimos que nos comuniquen cualquier problema que les haya surgido derivado de esta interrupción.

Lamentamos los contratiempos que esto les haya causado. Un sistema de archivos de 128 Terabytes y 768 discos es susceptible de este tipo de interrupciones.

Atentamente,

Departamento de Supercómputo

Problemas en sistemas de archivos global

estamos teniendo problemas con el sistema de archivos /global (LUSTRE). Será necesario reiniciarlo. Como consecuencia, debemos terminar los jobs que actualmente están ejecutándose.

Se estima que se podrán relanzar los jobs a partir de las 5pm.

Atentamente,

Departamento de Supercómputo

lunes, 7 de mayo de 2007

Estadísticas de jobs

como seguramente habrán notado, al final del archivo de salida estándar de cada trabajo aparece una sección denominada "Estadísticas del Job", la cual contiene información sobre los recursos consumidos por cada job terminado. Esta información es:

Tiempo de pared: La duración del job.

HORASNODO: Las horas consumidas por el job. Es igual a la duración del mismo por el número de procesadores solicitados. Este es el factor que se contabiliza sobre sus recursos asignados.

Tiempo de CPU: El tiempo de uso efectivo de todos los procesadores solicitados.

Eficiencia: El porcentaje de Tiempo de CPU con respecto a las HORASNODO. Este factor indica que tanto se han usado los procesadores solicitados para el job.

Una eficiencia menor al 50% indica que durante el job se ha ocupado más tiempo en comunicaciones que en procesamiento, o que los procesadores han estado ociosos más tiempo del que han estado trabajando.

En estos casos, el tiempo de pared sería muy similar utilizando solamente la mitad de los procesadores, y en consecuencia, se reducirían las HORASNODO consumidas por el job.
Por lo anterior, se recomienda que si la eficiencia de un job es menor a 50%, se reduzca a la mitad el número de procesadores solicitados para jobs similares en el futuro.

Atentamente,

Departamento de Supercómputo

martes, 24 de abril de 2007

MPI: Ligas

para su información, enviamos ligas de información referente al estándar MPI:

Version 1.0 de MPI en su presentación eléctronica:

http://www.mpi-forum.org/docs/mpi-11-html/mpi-report.html

Utilización de MPI, ejemplos:

http://www-unix.mcs.anl.gov/mpi/usingmpi/

http://www-unix.mcs.anl.gov/mpi/usingmpi/examples/main.htm

Utilización de MPI-2, ejemplos:

http://www-unix.mcs.anl.gov/mpi/usingmpi2/index.html

http://www-unix.mcs.anl.gov/mpi/usingmpi2/examples/main.htm

lunes, 23 de abril de 2007

GAMESS InfiniBand

Estimados usuarios de la supercomputadora Kanbalam,

se ha modificado el script (rungms) de GAMESS con MKL, para hacer el intercambio de información a través de la red InfiniBand del cluster.

En una prueba de rendimiento con 20 procesadores (single-point (B3LYP/ccpvqz) del aminoácido triptofano neutro), se obtuvieron los siguientes tiempos de ejecución:

Versión Tiempo de pared (secs)
MKL-Infiniband 9931.0
MKL-eth 10882.5

por el momento, se mantendrán las dos versiones MKL. Para usar la versión infiniband,
primero deberán generar las llaves para tener acceso a los nodos a través de dicha red:

% ssh_create_shared_keys-ib

y después cargar el módulo correspondiente:

% module load gamess/mkl-ib

el script sigue siendo el mismo:

% cat script
#!/bin/tcsh
#BSUB -q pruebas
#BSUB -oo salida
#BSUB -eo error
#BSUB -n 16

rungms ccpvdz.inp 01 16 $SLURM_JOBID "$LSB_HOSTS" > stdout

jueves, 29 de marzo de 2007

GAMESS

Se ha instalado GAMESS, en tres versiones diferentes: MKL (utiliza la biblioteca BLAS de MKL), ACML (utiliza la biblioteca BLAS de ACML) y BLAS-G (utiliza la biblioteca BLAS proporcionada por el mismo gamess).

En una prueba de rendimiento con 20 procesadores (single-point (B3LYP/ccpvqz) del aminoácido triptofano neutro), se obtuvieron los siguientes tiempos de ejecución:

Versión Tiempo de pared (secs)
MKL 10882.5
ACML 36298.5
BLAS-G 36974.5

Obviamente, la versión recomendad es MKL. Sin embargo, se hace de su conocimiento que
en los tests incluidos con gamess se obtuvieron los siguientes errores:

MKL: exam23 (Herr=2.8e+00 Gerr=1.9e-05)

ACML: exam06 (Eerr=2.0e-01 Gerr=-1.2e-06)
exam25 (Eerr=1.1e-06 Gerr=8.0e-06)

BLAS-G: ninguno

Para utlizarlo, cree el directorio /global/LOGIN/scr (donde LOGIN es su loginname).
Este directorio será el scratch para todas sus corridas. Sólo necesita crearlo una vez.

Después cargue el modulo de la versión que desee utilizar:

% module load gamess/mkl

o

% module load gamess/acml

o

% module load gamess/blas-g

y tome el siguiente script como ejemplo (suponiendo 64 procesadores):

% cat script.gamess
#BSUB -q regular
#BSUB -o salida
#BSUB -e error
#BSUB -n 64

rungms archivo.entrada 01 64 $SLURM_JOBID "$LSB_HOSTS" > output

% bsub < script.gamess

NOTAS:

1. El directorio scratch es /global/LOGIN/scr .. no confundir con /global/LOGIN/src

2. Gamess requiere la redirección de la salida estándar al archivo "output" -tal como está en el ejemplo-. NO cambie esa parte.

3. Se está trabajando en un método para definir flexiblemente el directorio de scratch.

El Departamento de Supercómputo agradece a Emilio Orgaz y el grupo de la Facultad de Química por proporcionar la versión MKL.

sábado, 24 de marzo de 2007

Cola de pruebas y nodos de login

Les recordamos hacer sus corridas de prueba en la cola "pruebas".

Esta cola tiene un limite de 30 minutos y 16 procesadores.

Los nodos de login deben usarse para compilar, depurar, someter jobs o
hacer transferencias de archivos. Se les recomienda no dejar procesos
corriendo en estos nodos, pues pueden ser terminados si interfieren con
las actividades de otros usuarios.

jueves, 22 de marzo de 2007

Políticas de uso de nodos especiales (64 GB RAM)

Debido a que los nodos especiales son pocos (5), y su demanda suele ser mayor, el Comité Académico de Supercómputo ha establecido las siguientes políticas de uso para dichos nodos:

- La duración máxima por job será de 72 hrs.
- Un grupo (el titular y sus cuentas adicionales) tendrá a lo más 1 job en ejecución, en un máximo de 1 nodo.
- Se eliminarán aquellos jobs que no utilicen más de 8 GB de RAM.

Supercómputo - UNAM