Les informamos que ya se restableció el acceso a la supercomputadora KanBalam.
Por favor, revisen bien sus jobs, pues puede ser que algunos archivos no estén bien debido a la interrupción del sistema de archivos.
Nuevamente agradecemos su paciencia y comprensión.
jueves, 20 de septiembre de 2007
Acceso a KanBalam
Estimados usuarios de la supercomputadora KanBalam,
hemos cerrado temporalmente el acceso al equipo debido a problemas con el sistema de archivos.
Esperamos reabrir en el transcurso del día.
hemos cerrado temporalmente el acceso al equipo debido a problemas con el sistema de archivos.
Esperamos reabrir en el transcurso del día.
domingo, 16 de septiembre de 2007
Red de datos
Estimados usuarios de la supercomputadora KanBalam,
el domingo 16 de septiembre se presentó un problema con la red de datos de
la supercomputadora entre las 20:30 y las 21:30 hrs. Debido a esta falla, el
sistema de archivos y el ambiente MPI fueron inaccesibles durante este
lapso.
Les pedimos que revisen sus datos y el estatus de sus jobs, ya que varios
jobs fueron abortados. Tambien les
agradeceremos que nos comuniquen cualquier problema que encuentren.
el domingo 16 de septiembre se presentó un problema con la red de datos de
la supercomputadora entre las 20:30 y las 21:30 hrs. Debido a esta falla, el
sistema de archivos y el ambiente MPI fueron inaccesibles durante este
lapso.
Les pedimos que revisen sus datos y el estatus de sus jobs, ya que varios
jobs fueron abortados. Tambien les
agradeceremos que nos comuniquen cualquier problema que encuentren.
viernes, 24 de agosto de 2007
Limite de procesadores en la cola regular
Estimados usuarios de la supercomputadora KanBalam:
el límite de procesadores de la cola regular es ahora 164.
Dicho límite aplica por grupo de usuarios (el titular y cuentas adicionales).
El comando "busers", pasando como parámetro el login del titular de la cuenta, con el sufijo _g, proporciona en la columna RUN el número de procesadores que están siendo utilizados por el grupo.
Por ejemplo, para el grupo pruebas
% buser pruebas_g
USER/GROUP JL/P MAX NJOBS PEND RUN SSUSP USUSP RSV
pruebas_g - 164 0 0 0 0 0 0
el límite de procesadores de la cola regular es ahora 164.
Dicho límite aplica por grupo de usuarios (el titular y cuentas adicionales).
El comando "busers", pasando como parámetro el login del titular de la cuenta, con el sufijo _g, proporciona en la columna RUN el número de procesadores que están siendo utilizados por el grupo.
Por ejemplo, para el grupo pruebas
% buser pruebas_g
USER/GROUP JL/P MAX NJOBS PEND RUN SSUSP USUSP RSV
pruebas_g - 164 0 0 0 0 0 0
miércoles, 25 de julio de 2007
kanbalam nuevamente accesible
Estimados usuarios de la supercomputadora KanBalam,
la supercomputadora ya está accesible nuevamente.
Les pedimos su comprensión por la demora.
la supercomputadora ya está accesible nuevamente.
Les pedimos su comprensión por la demora.
viernes, 6 de julio de 2007
Instalación en la sala de kanbalam
Estimados usuarios de la supercomputadora KanBalam,
Como estaba planeado desde 2006, DGSCA adquirio equipos de enfriamiento
para complementar la infraestructura de KanBalam y dotarla de redundancia
adicional. Para instalar estos equipos con el minimo riesgo de efectos
colaterales para KanBalam se requiere interrumpir el servicio que esta
computadora provee.
Los trabajos de instalacion se llevaran a cabo durante el proximo periodo
vacacional, por lo que les pedimos que tomen las debidas precauciones.
Estos trabajos empezaran tentativamente a partir del lunes 9 de julio, a las 8 hrs.
El servicio de la supercomputadora será reestablecido aproximandamente el 23 de julio. Estaremos informándoles al respecto.
Lamentamos los contratiempos de estas actividades, cuyos beneficios de
largo plazo esperamos suplan ampliamente los inconvenientes temporales que
causaremos a Uds.
Enfatizamos nuevamente nuestro llamado a que provean las protecciones
pertinentes a sus datos y calculos, y quedamos a sus ordenes para
cualquier consulta al respecto.
Atentamente,
Departamento de Supercomputo
Direccion General de Servicios de Computo Academico
UNAM
Como estaba planeado desde 2006, DGSCA adquirio equipos de enfriamiento
para complementar la infraestructura de KanBalam y dotarla de redundancia
adicional. Para instalar estos equipos con el minimo riesgo de efectos
colaterales para KanBalam se requiere interrumpir el servicio que esta
computadora provee.
Los trabajos de instalacion se llevaran a cabo durante el proximo periodo
vacacional, por lo que les pedimos que tomen las debidas precauciones.
Estos trabajos empezaran tentativamente a partir del lunes 9 de julio, a las 8 hrs.
El servicio de la supercomputadora será reestablecido aproximandamente el 23 de julio. Estaremos informándoles al respecto.
Lamentamos los contratiempos de estas actividades, cuyos beneficios de
largo plazo esperamos suplan ampliamente los inconvenientes temporales que
causaremos a Uds.
Enfatizamos nuevamente nuestro llamado a que provean las protecciones
pertinentes a sus datos y calculos, y quedamos a sus ordenes para
cualquier consulta al respecto.
Atentamente,
Departamento de Supercomputo
Direccion General de Servicios de Computo Academico
UNAM
miércoles, 27 de junio de 2007
Directorio de "scratch" en discos locales
Estimados usuarios de la supercomputadora KanBalam:
Se ha habilitado un directorio de "scratch" en el disco local de cada uno de los nodos de cálculo.
Para utilizarlo, por favor consideren lo siguiente:
1. La ruta del directorio de "scratch" es diferente para cada job, y es accesible en el mismo script del job a través de la variable SCRATCHDIR.
El directorio debe ser creado dentro del mismo script. Por ejemplo, para usar el disco local como scratch de un job de gaussian, se tiene el siguiente script (en bash):
#BSUB -oo salida
#BSUB -eo error
#BSUB -q regular
#BSUB -n 4
ulimit -s 8000000
mkdir -p $SCRATCHDIR
export GAUSS_SCRDIR=$SCRATCHDIR
g03 < PAR4_1.inp
2.- En cada nodo existe un único directorio de "scratch" para todos los procesos que genere el job en dicho nodo. Es tarea del programa crear nombres de archivos diferentes para cada proceso o sincronizar las operaciones de I/O en un mismo archivo.
3.- El directorio de "scratch" sólo es visible para los proceso de un mismo nodo.
4.- El directorio de "scratch" se borra inmediatamente después de terminar el job.
5.- El espacio de scratch disponible es 60 Gigabytes
Atentamente,
Departamento de Supercómputo
Se ha habilitado un directorio de "scratch" en el disco local de cada uno de los nodos de cálculo.
Para utilizarlo, por favor consideren lo siguiente:
1. La ruta del directorio de "scratch" es diferente para cada job, y es accesible en el mismo script del job a través de la variable SCRATCHDIR.
El directorio debe ser creado dentro del mismo script. Por ejemplo, para usar el disco local como scratch de un job de gaussian, se tiene el siguiente script (en bash):
#BSUB -oo salida
#BSUB -eo error
#BSUB -q regular
#BSUB -n 4
ulimit -s 8000000
mkdir -p $SCRATCHDIR
export GAUSS_SCRDIR=$SCRATCHDIR
g03 < PAR4_1.inp
2.- En cada nodo existe un único directorio de "scratch" para todos los procesos que genere el job en dicho nodo. Es tarea del programa crear nombres de archivos diferentes para cada proceso o sincronizar las operaciones de I/O en un mismo archivo.
3.- El directorio de "scratch" sólo es visible para los proceso de un mismo nodo.
4.- El directorio de "scratch" se borra inmediatamente después de terminar el job.
5.- El espacio de scratch disponible es 60 Gigabytes
Atentamente,
Departamento de Supercómputo
martes, 12 de junio de 2007
cambio de "shell" por omisión
Estimados usuarios de la supercomputadora KanBalam,
les recordamos que el shell por omisión en todas las cuentas es bash. Los otros shells disponibles son tcsh, csh y ksh.
Si desean cambiar el shell por omisión en su cuenta, utilicen el comando chshell. Este funciona del mismo modo que el comando chsh
de Linux, pero lleva a cabo el cambio en todo el cluster.
Por ejemplo,
-------
[user@n339 ~]$ chshell
Changing shell for user.
Password:
New shell [/bin/bash]: /bin/tcsh
Shell changed.
Connection to n349 closed.
-------
Las opciones para "New shell" son /bin/tcsh, /bin/csh, /bin/ksh.
les recordamos que el shell por omisión en todas las cuentas es bash. Los otros shells disponibles son tcsh, csh y ksh.
Si desean cambiar el shell por omisión en su cuenta, utilicen el comando chshell. Este funciona del mismo modo que el comando chsh
de Linux, pero lleva a cabo el cambio en todo el cluster.
Por ejemplo,
-------
[user@n339 ~]$ chshell
Changing shell for user.
Password:
New shell [/bin/bash]: /bin/tcsh
Shell changed.
Connection to n349 closed.
-------
Las opciones para "New shell" son /bin/tcsh, /bin/csh, /bin/ksh.
lunes, 11 de junio de 2007
Información sobre funcionamiento y uso de KanBalam
Estimados usuarios de la supercomputadora KanBalam,
el día de hoy se publican tres textos acerca del funcionamiento y uso de la supercomputadora:
En el periódico Reforma
(puede leer el texto íntegro en http://aldergutnews.wordpress.com/)
y en la Gaceta de la UNAM, pags. 3, 4 y 5.
http://www.dgcs.unam.mx/gacetaweb/2007/070611/gaceta.htm
Atentamente,
Departamento de Supercómputo
* Esta información puede ser consultada en línea en supercomputo-unam.blogspot.com
el día de hoy se publican tres textos acerca del funcionamiento y uso de la supercomputadora:
En el periódico Reforma
(puede leer el texto íntegro en http://aldergutnews.wordpress.com/)
y en la Gaceta de la UNAM, pags. 3, 4 y 5.
http://www.dgcs.unam.mx/gacetaweb/2007/070611/gaceta.htm
Atentamente,
Departamento de Supercómputo
* Esta información puede ser consultada en línea en supercomputo-unam.blogspot.com
jueves, 7 de junio de 2007
NETCDF
Estimados usuarios de la supercomputadora KanBalam,
se ha instalado la biblioteca NetCDF, útil para la creación, uso e intercambio de arreglos (matrices) de datos.
Pueden encontrar mayor información sobre la misma en
http://www.unidata.ucar.edu/software/netcdf/
Las instrucciones de uso son:
PARA PATHSCALE:
pathcc -I/opt/appl/include ejemplo.c -L/opt/appl/lib -lnetcdf
pathCC -I/opt/appl/include ejemplo.cc -L/opt/appl/lib -lnetcdf -lnetcdf_c++
pathf90 -I/opt/appl/include ejemplo.f -L/opt/appl/lib -lnetcdf -lnetcdff
pathf90 -I/opt/appl/include ejemplo.f90 -L/opt/appl/lib -lnetcdf -lnetcdff
-------
PARA INTEL 64 BITS
icc -I/opt/appl/include ejemplo.c -L/opt/appl/lib -lnetcdf
icpc -I/opt/appl/include ejemplo.cc -L/opt/appl/lib -lnetcdf -lnetcdf_c++
pathf90 -assume 2underscores -I/opt/appl/include ejemplo.f -L/opt/appl/lib -lnetcdf -lnetcdff -L /opt/pathscale/lib/2.4/ -lpathfortran
-----------------
PARA GNU
gcc -I/opt/appl/include ejemplo.c -L/opt/appl/lib -lnetcdf
g++ -I/opt/appl/include ejemplo.cc -L/opt/appl/lib -lnetcdf -lnetcdf_c++
g77 -I/opt/appl/include ejemplo.f -L/opt/appl/lib -lnetcdf -lnetcdff -L /opt/pathscale/lib/2.4/ -lpathfortran
--------------------
Dejamos pendiente la instrucción para intel/fortran 90
se ha instalado la biblioteca NetCDF, útil para la creación, uso e intercambio de arreglos (matrices) de datos.
Pueden encontrar mayor información sobre la misma en
http://www.unidata.ucar.edu/software/netcdf/
Las instrucciones de uso son:
PARA PATHSCALE:
pathcc -I/opt/appl/include ejemplo.c -L/opt/appl/lib -lnetcdf
pathCC -I/opt/appl/include ejemplo.cc -L/opt/appl/lib -lnetcdf -lnetcdf_c++
pathf90 -I/opt/appl/include ejemplo.f -L/opt/appl/lib -lnetcdf -lnetcdff
pathf90 -I/opt/appl/include ejemplo.f90 -L/opt/appl/lib -lnetcdf -lnetcdff
-------
PARA INTEL 64 BITS
icc -I/opt/appl/include ejemplo.c -L/opt/appl/lib -lnetcdf
icpc -I/opt/appl/include ejemplo.cc -L/opt/appl/lib -lnetcdf -lnetcdf_c++
pathf90 -assume 2underscores -I/opt/appl/include ejemplo.f -L/opt/appl/lib -lnetcdf -lnetcdff -L /opt/pathscale/lib/2.4/ -lpathfortran
-----------------
PARA GNU
gcc -I/opt/appl/include ejemplo.c -L/opt/appl/lib -lnetcdf
g++ -I/opt/appl/include ejemplo.cc -L/opt/appl/lib -lnetcdf -lnetcdf_c++
g77 -I/opt/appl/include ejemplo.f -L/opt/appl/lib -lnetcdf -lnetcdff -L /opt/pathscale/lib/2.4/ -lpathfortran
--------------------
Dejamos pendiente la instrucción para intel/fortran 90
viernes, 25 de mayo de 2007
KanBalam - Fin de semana
Estimados usuarios de la supercomputadora KanBalam,
el equipo seguirá encendido y accesible durante el fin de semana. El lunes les confirmaremos la nueva fecha y hora de apagado.
Nuevamente les solicitamos tomen las debidas precauciones con respecto a sus jobs y datos.
el equipo seguirá encendido y accesible durante el fin de semana. El lunes les confirmaremos la nueva fecha y hora de apagado.
Nuevamente les solicitamos tomen las debidas precauciones con respecto a sus jobs y datos.
Altix - estado del sistema de archivos
Estimados usuarios de la supercomputadora Alebrije (Altix350)
En este momento, el sistema de archivos /tmpu esta en funcionamiento,
sin embargo, la maquina sera dada
de baja este lunes 28 de mayo para reemplazar uno de los discos.
Les pedimos de la manera mas atenta respaldar su informacion y solo
hacer corridas que puedan terminar o hacer un checkpointing durante el fin de semana.
En este momento, el sistema de archivos /tmpu esta en funcionamiento,
sin embargo, la maquina sera dada
de baja este lunes 28 de mayo para reemplazar uno de los discos.
Les pedimos de la manera mas atenta respaldar su informacion y solo
hacer corridas que puedan terminar o hacer un checkpointing durante el fin de semana.
Información general - Frecuencia de "checkpointing" en TERAGRID
Estimados usuarios de los equipos de supercómputo de la UNAM,
La siguiente liga seguramente será de su interés.
Contiene recomendaciones sobre la frecuencia de "checkpointings" en una aplicación.
La siguiente liga seguramente será de su interés.
Contiene recomendaciones sobre la frecuencia de "checkpointings" en una aplicación.
miércoles, 23 de mayo de 2007
Alebrije (Altix 350): problemas de disco
Estimados usuarios de la supercomputadora Alebrije (Altix 350)
Debido a una falla en el arreglo de discos del directorio /tmpu, el sistema
esta fuera de servicio por el momento. Estamos trabajando en la reconstruccion
del mismo. Esperamos que el dia de ma~nana (24 de mayo) se reinicien las
operaciones.
Mientras tanto les pedimos su comprension al respecto.
Debido a una falla en el arreglo de discos del directorio /tmpu, el sistema
esta fuera de servicio por el momento. Estamos trabajando en la reconstruccion
del mismo. Esperamos que el dia de ma~nana (24 de mayo) se reinicien las
operaciones.
Mientras tanto les pedimos su comprension al respecto.
Recordatorio interrupción de servicio
Estimados usuarios de la supercomputadora KanBalam,
para recordarles que este jueves 24 de mayo a las 20 horas se suspenderá el servicio, para reiniciarse tentativamente el 4 de junio.
Les recordamos tomar las precauciones necesarias con sus trabajos y sus datos, y quedamos a sus ordenes para cualquier consulta
al respecto.
para recordarles que este jueves 24 de mayo a las 20 horas se suspenderá el servicio, para reiniciarse tentativamente el 4 de junio.
Les recordamos tomar las precauciones necesarias con sus trabajos y sus datos, y quedamos a sus ordenes para cualquier consulta
al respecto.
lunes, 21 de mayo de 2007
Instalacion aire acondicionado - Interrupcion de servicio
Estimados usuarios de la supercomputadora KanBalam
Como estaba planeado desde 2006, DGSCA ha adquirido equipos de
enfriamiento para complementar la infraestructura de KanBalam y dotarla de
redundancia adicional. Para
instalar estos equipos con el minimo riesgo de efectos colaterales para
KanBalam se requiere interrumpir el servicio que esta computadora provee.
Prevemos que la interrupcion del servicio iniciara el jueves 24 a las 8
de la noche, y que se reestablecera el 4 de junio por la ma~ana. Lamentamos
la interrupcion, cuyos beneficios de largo plazo esperamos suplan
ampliamente los inconvenientes temporales que causaremos a Uds.
Como en toda interrupcion de servicio, enfatizamos nuestro llamado a que
Uds. prevean la proteccion
de sus datos y calculos, y quedamos a sus ordenes para cualquier consulta
al respecto.
Atentamente,
Departamento de Supercomputo
Como estaba planeado desde 2006, DGSCA ha adquirido equipos de
enfriamiento para complementar la infraestructura de KanBalam y dotarla de
redundancia adicional. Para
instalar estos equipos con el minimo riesgo de efectos colaterales para
KanBalam se requiere interrumpir el servicio que esta computadora provee.
Prevemos que la interrupcion del servicio iniciara el jueves 24 a las 8
de la noche, y que se reestablecera el 4 de junio por la ma~ana. Lamentamos
la interrupcion, cuyos beneficios de largo plazo esperamos suplan
ampliamente los inconvenientes temporales que causaremos a Uds.
Como en toda interrupcion de servicio, enfatizamos nuestro llamado a que
Uds. prevean la proteccion
de sus datos y calculos, y quedamos a sus ordenes para cualquier consulta
al respecto.
Atentamente,
Departamento de Supercomputo
viernes, 11 de mayo de 2007
Ya funciona nuevamente el sistema de archivos
El sistema ya está funcionando nuevamente. Les pedimos que relancen los jobs que tenían en ejecución. Es probable que las escrituras a archivos hayan fallado en las últimas 6 horas, pero la información anterior debe estar intacta. También les pedimos que nos comuniquen cualquier problema que les haya surgido derivado de esta interrupción.
Lamentamos los contratiempos que esto les haya causado. Un sistema de archivos de 128 Terabytes y 768 discos es susceptible de este tipo de interrupciones.
Atentamente,
Departamento de Supercómputo
Lamentamos los contratiempos que esto les haya causado. Un sistema de archivos de 128 Terabytes y 768 discos es susceptible de este tipo de interrupciones.
Atentamente,
Departamento de Supercómputo
Problemas en sistemas de archivos global
estamos teniendo problemas con el sistema de archivos /global (LUSTRE). Será necesario reiniciarlo. Como consecuencia, debemos terminar los jobs que actualmente están ejecutándose.
Se estima que se podrán relanzar los jobs a partir de las 5pm.
Atentamente,
Departamento de Supercómputo
Se estima que se podrán relanzar los jobs a partir de las 5pm.
Atentamente,
Departamento de Supercómputo
lunes, 7 de mayo de 2007
Estadísticas de jobs
como seguramente habrán notado, al final del archivo de salida estándar de cada trabajo aparece una sección denominada "Estadísticas del Job", la cual contiene información sobre los recursos consumidos por cada job terminado. Esta información es:
Tiempo de pared: La duración del job.
HORASNODO: Las horas consumidas por el job. Es igual a la duración del mismo por el número de procesadores solicitados. Este es el factor que se contabiliza sobre sus recursos asignados.
Tiempo de CPU: El tiempo de uso efectivo de todos los procesadores solicitados.
Eficiencia: El porcentaje de Tiempo de CPU con respecto a las HORASNODO. Este factor indica que tanto se han usado los procesadores solicitados para el job.
Una eficiencia menor al 50% indica que durante el job se ha ocupado más tiempo en comunicaciones que en procesamiento, o que los procesadores han estado ociosos más tiempo del que han estado trabajando.
En estos casos, el tiempo de pared sería muy similar utilizando solamente la mitad de los procesadores, y en consecuencia, se reducirían las HORASNODO consumidas por el job.
Por lo anterior, se recomienda que si la eficiencia de un job es menor a 50%, se reduzca a la mitad el número de procesadores solicitados para jobs similares en el futuro.
Atentamente,
Departamento de Supercómputo
Tiempo de pared: La duración del job.
HORASNODO: Las horas consumidas por el job. Es igual a la duración del mismo por el número de procesadores solicitados. Este es el factor que se contabiliza sobre sus recursos asignados.
Tiempo de CPU: El tiempo de uso efectivo de todos los procesadores solicitados.
Eficiencia: El porcentaje de Tiempo de CPU con respecto a las HORASNODO. Este factor indica que tanto se han usado los procesadores solicitados para el job.
Una eficiencia menor al 50% indica que durante el job se ha ocupado más tiempo en comunicaciones que en procesamiento, o que los procesadores han estado ociosos más tiempo del que han estado trabajando.
En estos casos, el tiempo de pared sería muy similar utilizando solamente la mitad de los procesadores, y en consecuencia, se reducirían las HORASNODO consumidas por el job.
Por lo anterior, se recomienda que si la eficiencia de un job es menor a 50%, se reduzca a la mitad el número de procesadores solicitados para jobs similares en el futuro.
Atentamente,
Departamento de Supercómputo
martes, 24 de abril de 2007
MPI: Ligas
para su información, enviamos ligas de información referente al estándar MPI:
Version 1.0 de MPI en su presentación eléctronica:
http://www.mpi-forum.org/docs/mpi-11-html/mpi-report.html
Utilización de MPI, ejemplos:
http://www-unix.mcs.anl.gov/mpi/usingmpi/
http://www-unix.mcs.anl.gov/mpi/usingmpi/examples/main.htm
Utilización de MPI-2, ejemplos:
http://www-unix.mcs.anl.gov/mpi/usingmpi2/index.html
http://www-unix.mcs.anl.gov/mpi/usingmpi2/examples/main.htm
Version 1.0 de MPI en su presentación eléctronica:
http://www.mpi-forum.org/docs/mpi-11-html/mpi-report.html
Utilización de MPI, ejemplos:
http://www-unix.mcs.anl.gov/mpi/usingmpi/
http://www-unix.mcs.anl.gov/mpi/usingmpi/examples/main.htm
Utilización de MPI-2, ejemplos:
http://www-unix.mcs.anl.gov/mpi/usingmpi2/index.html
http://www-unix.mcs.anl.gov/mpi/usingmpi2/examples/main.htm
Suscribirse a:
Entradas (Atom)