Guía ràpida d'ús del sistema Condor

Aquest document pretén donar una introducció breu per utilitzar el sistema Condor i executar-ne treballs. Cal indicar que els exemples inclosos en aquesta guia mostren algunes opcions amb valors que s'ajusten a la configuració del sistema Condor tal i com està configurat a les aules de la UAB. Per a una descripció més completa i detallada el lector pot utilitzar altres documents produïts pel grup Condor de la Universitat de Wiscondin-Madison i que és poden trobar a http://www.cs.wisc.edu/condor. Allà s'hi pot trobar el manual complet i alguns capítols de llibre de caràcter general i introductori.

Condor és un sistema software que crea una entorn de Càlcul d'Alta Productivitat (High-Throughput Computing) aprofitant la potència de càlcul d'un conjunt de computadors interconnectats mitjançant una xarxa de comunicació. Condor, de la mateixa forma que altres sistema de cues, disposa d'un mecanisme de cues de treballs, de polítiques de planificació, mecanismes de monitorització i gestió de recursos. Els usuaris envien els seus treballs a Condor, Condor els posa en una cua i decideix quan i on s'executaran segons les necessitats dels treballs i la disponibilitat de recursos, monitoritza el progrés dels treballs i informa a l'usuari de la seva finalització. El funcionament del sistema es basa en una sèrie de conceptes clau:

  • En el sistema es diferencien tres tipus de màquina: el gestor central (o Central Manager), les màquines clients i les màquines treballadores. És possible que una màquina sigui client i treballadora alhora. El gestor central, en canvi, acostuma a ser una màquina dedicada només a aquesta tasca.
  • Els usuaris envien els seus treballs des de màquines clients, en les que hi tindran els seus programes i els fitxers de dades necessaris. La cua de tots els treballs enviats es manté sempre en aquesta màquina de forma permanent fins a la seva finalització.
  • El gestor central s'encarrega de buscar un màquina treballadora adient per a cada treball enviat pels usuaris. El paper del gestor central és fonamentalment de mitjancer entre màquines clients i màquines treballadores. A part d'això, s'encarrega també de mantenir algunes estadístiques generals sobre l'ús del sistema per tal de garantir l'ús equitatiu de recursos entre els diferents usuaris.
  • Els treballs i les màquines es descriuen mitjançant un formalisme similar als anuncis classificats dels diaris (ClassAds).
  • Els treballs que es poden executar sobre un sistema Condor poden ser de diferents tipus (anomenats universes). Els universos més importants són: vanilla, standard, java, MPI i PVM.
  • Checkpoint i migració de treball. Amb determinats tipus de treballs, Condor és capaç d'interrompre la seva execució i continuar-la posteriorment en una altra màquina com si no s'hagués produït cap interrupció temporal.

Condor funciona sobre diferents plataformes de tipus Unix i Windows. Els exemples inclosos en aquesta guia pertanyen a entorns Linux, però en la majoria de casos, són fàcilment transportables a entorns Windows.