viernes, 25 de mayo de 2007

KanBalam - Fin de semana

Estimados usuarios de la supercomputadora KanBalam,

el equipo seguirá encendido y accesible durante el fin de semana. El lunes les confirmaremos la nueva fecha y hora de apagado.
Nuevamente les solicitamos tomen las debidas precauciones con respecto a sus jobs y datos.

Altix - estado del sistema de archivos

Estimados usuarios de la supercomputadora Alebrije (Altix350)

En este momento, el sistema de archivos /tmpu esta en funcionamiento,
sin embargo, la maquina sera dada
de baja este lunes 28 de mayo para reemplazar uno de los discos.

Les pedimos de la manera mas atenta respaldar su informacion y solo
hacer corridas que puedan terminar o hacer un checkpointing durante el fin de semana.

Información general - Frecuencia de "checkpointing" en TERAGRID

Estimados usuarios de los equipos de supercómputo de la UNAM,

La siguiente liga seguramente será de su interés.

Contiene recomendaciones sobre la frecuencia de "checkpointings" en una aplicación.

miércoles, 23 de mayo de 2007

Alebrije (Altix 350): problemas de disco

Estimados usuarios de la supercomputadora Alebrije (Altix 350)

Debido a una falla en el arreglo de discos del directorio /tmpu, el sistema
esta fuera de servicio por el momento. Estamos trabajando en la reconstruccion
del mismo. Esperamos que el dia de ma~nana (24 de mayo) se reinicien las
operaciones.

Mientras tanto les pedimos su comprension al respecto.

Recordatorio interrupción de servicio

Estimados usuarios de la supercomputadora KanBalam,

para recordarles que este jueves 24 de mayo a las 20 horas se suspenderá el servicio, para reiniciarse tentativamente el 4 de junio.

Les recordamos tomar las precauciones necesarias con sus trabajos y sus datos, y quedamos a sus ordenes para cualquier consulta
al respecto.

lunes, 21 de mayo de 2007

Instalacion aire acondicionado - Interrupcion de servicio

Estimados usuarios de la supercomputadora KanBalam

Como estaba planeado desde 2006, DGSCA ha adquirido equipos de
enfriamiento para complementar la infraestructura de KanBalam y dotarla de
redundancia adicional. Para
instalar estos equipos con el minimo riesgo de efectos colaterales para
KanBalam se requiere interrumpir el servicio que esta computadora provee.

Prevemos que la interrupcion del servicio iniciara el jueves 24 a las 8
de la noche, y que se reestablecera el 4 de junio por la ma~ana. Lamentamos
la interrupcion, cuyos beneficios de largo plazo esperamos suplan
ampliamente los inconvenientes temporales que causaremos a Uds.

Como en toda interrupcion de servicio, enfatizamos nuestro llamado a que
Uds. prevean la proteccion
de sus datos y calculos, y quedamos a sus ordenes para cualquier consulta
al respecto.



Atentamente,

Departamento de Supercomputo

viernes, 11 de mayo de 2007

Ya funciona nuevamente el sistema de archivos

El sistema ya está funcionando nuevamente. Les pedimos que relancen los jobs que tenían en ejecución. Es probable que las escrituras a archivos hayan fallado en las últimas 6 horas, pero la información anterior debe estar intacta. También les pedimos que nos comuniquen cualquier problema que les haya surgido derivado de esta interrupción.

Lamentamos los contratiempos que esto les haya causado. Un sistema de archivos de 128 Terabytes y 768 discos es susceptible de este tipo de interrupciones.



Atentamente,

Departamento de Supercómputo

Problemas en sistemas de archivos global

estamos teniendo problemas con el sistema de archivos /global (LUSTRE). Será necesario reiniciarlo. Como consecuencia, debemos terminar los jobs que actualmente están ejecutándose.

Se estima que se podrán relanzar los jobs a partir de las 5pm.


Atentamente,

Departamento de Supercómputo

lunes, 7 de mayo de 2007

Estadísticas de jobs

como seguramente habrán notado, al final del archivo de salida estándar de cada trabajo aparece una sección denominada "Estadísticas del Job", la cual contiene información sobre los recursos consumidos por cada job terminado. Esta información es:

Tiempo de pared: La duración del job.

HORASNODO: Las horas consumidas por el job. Es igual a la duración del mismo por el número de procesadores solicitados. Este es el factor que se contabiliza sobre sus recursos asignados.

Tiempo de CPU: El tiempo de uso efectivo de todos los procesadores solicitados.

Eficiencia: El porcentaje de Tiempo de CPU con respecto a las HORASNODO. Este factor indica que tanto se han usado los procesadores solicitados para el job.

Una eficiencia menor al 50% indica que durante el job se ha ocupado más tiempo en comunicaciones que en procesamiento, o que los procesadores han estado ociosos más tiempo del que han estado trabajando.

En estos casos, el tiempo de pared sería muy similar utilizando solamente la mitad de los procesadores, y en consecuencia, se reducirían las HORASNODO consumidas por el job.
Por lo anterior, se recomienda que si la eficiencia de un job es menor a 50%, se reduzca a la mitad el número de procesadores solicitados para jobs similares en el futuro.



Atentamente,

Departamento de Supercómputo