Pas 8 - Resolució de problemes

Si no heu aconseguit completar els 7 passos anteriors, però heu pogut fer correctament el cinc primers, a continuació us indiquem algunes accions que podeu fer per esbrinar la causa del problema:

  • Analitzar el missatge d'error indicat en la comanda del pas 6:
    $ /usr/local/condor/sbin/condor_master
  • Verificar l'existència de dos fitxers de log en el directori LOCAL_DIR/log. Són fitxers de text que es poden llegir com qualsevol altre fitxer de text normal. Un fitxer és el MasterLog i l'altre l'SchedLog. Cada fitxer està associat a un procés de Condor (el condor_master i el condor_schedd, respectivament).
    • Si el fitxer MasterLog no hi és, el problema l'heu de buscar en el missatge d'error de la comanda condor_master.
    • Si el procés condor_master no apareix quan executeu la comanda ps, la causa de la mort del procés apareixerà dins el MasterLog.
    • Si falta l'SchedLog, el MasterLog contindrà alguna línea indicant l'error que el condor_master s'ha trobat quan intentava crear el procés condor_schedd.
    • Si el procés condor_schedd no hi apareix però hi ha l'SchedLog, alguna indicació de la causa de la mort del condor_schedd la trobareu a l'SchedLog.
  • Consulteu els dos fitxers de log si el sistema us dona un error en intentar alguna comanda d'usuari (condor_submit, condor_q, condor_rm, etc.) o d'administrador (suposant que l'executeu com a usuari amb suficients privilegis).

En general, alguns dels problemes més habituals que solen aparèixer estan relacionats amb la configuració del elements de xarxa, de permisos d'accés a directoris o d'espai de swap.

Per verificar la configuració de xarxa podeu comprovar que la comanda nslookup us donagui resultats correctes. Per exemple:

	$ nslookup 158.109.66.171
	Server:         158.109.0.1
	Address:        158.109.0.1#53

	171.66.109.158.in-addr.arpa     name = condor-1.uab.es.

	nslookup condor-1.uab.es
	Server:         158.109.0.1
	Address:        158.109.0.1#53

	Name:   condor-1.uab.es
	Address: 158.109.66.171

El problema de l'espai de swap s'acostuma a detectar perquè al fitxer SchedLog hi apareixen unes línies que diuen:

	2/3 17:46:53 Swap space estimate reached! No more jobs can be run!
	12/3 17:46:53 Solution: get more swap space, or set RESERVED_SWAP = 0
	12/3 17:46:53     0 jobs matched, 1 jobs idle

Això es pot arreglar:

  1. Configurant la vostra màquina perquè tingui espai real de swap.
  2. Desactivant la comprovació que fa Condor. Per afegir una línia cal posar RESERVED_SWAP = 0 en el fitxer de configuració (condor_config.local) i arrencar els dimonis de nou (condor_ restart).

Envieu un missatge a pr.oliba@uab.es si els vostres problemes d'instal·lació persisteixen.