2010-10-08 16:15:50 +02:00
|
|
|
|
function [nCPU, totCPU, nBlockPerCPU, totSLAVES] = distributeJobs(Parallel, fBlock, nBlock)
|
2010-05-31 11:24:55 +02:00
|
|
|
|
% PARALLEL CONTEXT
|
|
|
|
|
% In parallel context this function is used to determine the total number of available CPUs,
|
|
|
|
|
% and the number of threads to run on each CPU.
|
|
|
|
|
%
|
|
|
|
|
% INPUTS
|
|
|
|
|
% o Parallel [struct vector] copy of options_.parallel
|
2010-09-06 16:59:57 +02:00
|
|
|
|
% o fBlock [int] index number of the first job (e.g. MC iteration or MH block)
|
2010-05-31 11:24:55 +02:00
|
|
|
|
% (between 1 and nBlock)
|
2010-09-06 16:59:57 +02:00
|
|
|
|
% o nBlock [int] index number of the last job.
|
2010-05-31 11:24:55 +02:00
|
|
|
|
%
|
|
|
|
|
% OUTPUT
|
|
|
|
|
% o nBlockPerCPU [int vector] for each CPU used, indicates the number of
|
|
|
|
|
% threads run on that CPU
|
|
|
|
|
% o totCPU [int] total number of CPU used (can be lower than
|
|
|
|
|
% the number of CPU declared in "Parallel", if
|
2010-10-22 11:27:26 +02:00
|
|
|
|
% the number of required threads is lower!)
|
|
|
|
|
% o nCPU the number of CPU in user format.
|
2011-04-06 14:27:47 +02:00
|
|
|
|
% o totSLAVES dovrebbe rappresentare il numero dei nodi
|
|
|
|
|
% di calcolo elencati in Parallel ed
|
|
|
|
|
% effettivamente coinvolti nella computazione
|
|
|
|
|
% attuale <20> compreso tra 1 e
|
|
|
|
|
% length(Parallel).
|
|
|
|
|
|
2010-02-15 16:52:36 +01:00
|
|
|
|
|
|
|
|
|
% Copyright (C) 2010 Dynare Team
|
|
|
|
|
%
|
|
|
|
|
% This file is part of Dynare.
|
|
|
|
|
%
|
|
|
|
|
% Dynare is free software: you can redistribute it and/or modify
|
|
|
|
|
% it under the terms of the GNU General Public License as published by
|
|
|
|
|
% the Free Software Foundation, either version 3 of the License, or
|
|
|
|
|
% (at your option) any later version.
|
|
|
|
|
%
|
|
|
|
|
% Dynare is distributed in the hope that it will be useful,
|
|
|
|
|
% but WITHOUT ANY WARRANTY; without even the implied warranty of
|
|
|
|
|
% MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the
|
|
|
|
|
% GNU General Public License for more details.
|
|
|
|
|
%
|
|
|
|
|
% You should have received a copy of the GNU General Public License
|
|
|
|
|
% along with Dynare. If not, see <http://www.gnu.org/licenses/>.
|
|
|
|
|
|
|
|
|
|
totCPU=0;
|
|
|
|
|
for j=1:length(Parallel),
|
2010-10-22 11:27:26 +02:00
|
|
|
|
nCPU(j)=length(Parallel(j).CPUnbr);
|
2010-02-15 16:52:36 +01:00
|
|
|
|
totCPU=totCPU+nCPU(j);
|
|
|
|
|
end
|
|
|
|
|
|
2011-04-06 14:27:47 +02:00
|
|
|
|
nCPUoriginal=nCPU;
|
|
|
|
|
|
2010-02-15 16:52:36 +01:00
|
|
|
|
nCPU=cumsum(nCPU);
|
|
|
|
|
offset0 = fBlock-1;
|
|
|
|
|
if (nBlock-offset0)>totCPU,
|
|
|
|
|
diff = mod((nBlock-offset0),totCPU);
|
|
|
|
|
nBlockPerCPU(1:diff) = ceil((nBlock-offset0)/totCPU);
|
|
|
|
|
nBlockPerCPU(diff+1:totCPU) = floor((nBlock-offset0)/totCPU);
|
2010-10-08 16:15:50 +02:00
|
|
|
|
totSLAVES=length(Parallel);
|
2010-02-15 16:52:36 +01:00
|
|
|
|
else
|
|
|
|
|
nBlockPerCPU(1:nBlock-offset0)=1;
|
|
|
|
|
totCPU = nBlock-offset0;
|
2010-10-08 16:15:50 +02:00
|
|
|
|
totSLAVES = min(find(cumsum(nCPU)>=totCPU));
|
2010-02-15 16:52:36 +01:00
|
|
|
|
end
|
2011-04-06 14:27:47 +02:00
|
|
|
|
|
|
|
|
|
% Supponiamo che ereditiamo un vettore normalizzato
|
|
|
|
|
% della lunghezza di Parallel con tutti i valori > 0.
|
|
|
|
|
% Per avere un valore 0 basta non elencarlo sopra nei nodi coinvolti nel
|
|
|
|
|
% calcolo o non mettere il nodo nel file di configurazione.
|
|
|
|
|
% Supponiamo inoltre che tutti i controlli per avere questa consistenza
|
|
|
|
|
% siano fatte dal compilatore o nella Analyze ...
|
|
|
|
|
|
|
|
|
|
% La notra filosofia fino ad ora <20>:
|
|
|
|
|
% 1. Considera la mole di lavoro che devi fare,
|
|
|
|
|
% 2. Valuta le risorse che hai,
|
|
|
|
|
% 3. Parti dalla risorsa numero 1 e distribuisci il lavoro tra le
|
|
|
|
|
% diverse risorse in modo bilanciato.
|
|
|
|
|
|
|
|
|
|
% Con questa soluzione tutte le cpu, partendo dal primo nodo elencato nel
|
|
|
|
|
% file di configurazione hanno lo stesso carico. L'unica eccezione pu<70>
|
|
|
|
|
% essere l'ultima cpu quando le configuazioni possibili sono 'dispari' e
|
|
|
|
|
% viene a trovarsi con un job in meno.
|
|
|
|
|
|
|
|
|
|
% Io per modificare il meno possibile farei semplicemente cos<6F>:
|
|
|
|
|
|
|
|
|
|
% Faccio i punti 1, 2, 3 come prima, e in questo punto ho:
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
% nCPU: numero delle cpu dichiarate nel file di configurazione,
|
|
|
|
|
|
|
|
|
|
% totCPU: numero delle cpu che verranno effettivamente
|
|
|
|
|
% coinvolte nello step parallelo considerato. Ogni volta viene ricalcolato
|
|
|
|
|
% tutto.
|
|
|
|
|
%
|
|
|
|
|
% nBlockPerCPU <20> il numero di threads che deve eseguire una cpu/core (non il
|
|
|
|
|
% nodo che pu<70> avere molte cpu e molti core).
|
|
|
|
|
|
|
|
|
|
% totSLAVES numero delle macchine (non cpu) effettivamente coinvolte
|
|
|
|
|
% nell'attuale frazione di calcolo parallelo.
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
% Esempi:
|
|
|
|
|
|
|
|
|
|
% 1. mh_nblocks=2,mh_replic=1005
|
|
|
|
|
% con 2 nodi il primo con 2 cpu il secondo con 1 cpu
|
|
|
|
|
%
|
|
|
|
|
% Durante la computazione possiamo avere situazioni come:
|
|
|
|
|
%
|
|
|
|
|
% fBlock =1
|
|
|
|
|
% nBlock =2
|
|
|
|
|
% nCPU = 2 3
|
|
|
|
|
% totCPU = 2
|
|
|
|
|
% nBlockPerCPU = 1 1
|
|
|
|
|
% totSlaves = 1
|
|
|
|
|
|
|
|
|
|
% Che significa:
|
|
|
|
|
% devo fare 2 jobs ho due macchine la prima con 2 cpu
|
|
|
|
|
% la terza con 3-2=1 cpu.
|
|
|
|
|
%
|
|
|
|
|
% Quindi per farli uso solo la prima e gli assegno un job a cpu.
|
|
|
|
|
% Il secondo nodo <20> inattivo.
|
|
|
|
|
%
|
|
|
|
|
%
|
|
|
|
|
%
|
|
|
|
|
% 2. Allo stesso modo se ho:
|
|
|
|
|
% fBlock =1
|
|
|
|
|
% nBlock = 17
|
|
|
|
|
% nCPU = 2 3
|
|
|
|
|
% totCPU = 3
|
|
|
|
|
% nBlockPerCPU = 6 6 5
|
|
|
|
|
% totSlaves = 2
|
|
|
|
|
%
|
|
|
|
|
% Significa:
|
|
|
|
|
% devo fare 17 jobs ho due macchine la prima con 2 cpu
|
|
|
|
|
% la terza con 3-2=1 cpu.
|
|
|
|
|
%
|
|
|
|
|
% Per farli le uso tutte e tre e assegno 6 job alla prima 6 alla seconda
|
|
|
|
|
% e 5 all'ultima.
|
|
|
|
|
% Tutti e due i nodi sono attivi.
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
% Quindi per evitare di cambiare il codice posso semplicemente fare cosi:
|
|
|
|
|
%
|
|
|
|
|
% Abbiamo
|
|
|
|
|
% lp= length(Parallel);
|
|
|
|
|
% CPUWeight[c1 c2 ... clp];
|
|
|
|
|
% Con c1+c2+...+clp=1;
|
|
|
|
|
%
|
|
|
|
|
% lc=length(nCpu);
|
|
|
|
|
|
|
|
|
|
% if (Tutti i ci sono uguali) | (L'utente non definisce CPUWeight)
|
|
|
|
|
%
|
|
|
|
|
% NON FARE NIENTE perch<63>:
|
|
|
|
|
% - Quello di adesso va bene.
|
|
|
|
|
% oppure perch<63>
|
|
|
|
|
% - Mi viene chiesto di non fare niente.
|
|
|
|
|
%
|
|
|
|
|
% else
|
|
|
|
|
% Considera tutti i nodi,
|
|
|
|
|
% Per tutti i ci in CPUWeight, fai:
|
|
|
|
|
% Considera la frazione ci del numero totale dei jobs (=
|
|
|
|
|
% nBlock-fBlock+1) e assegnali al nodo ni. Se il nodo ni
|
|
|
|
|
% ha pi<70> di una cpu, distribuiscili in modo uniforme tra le cpu.
|
|
|
|
|
% end
|
|
|
|
|
|
|
|
|
|
% Possibile Implementazione
|
|
|
|
|
|
|
|
|
|
global options_
|
|
|
|
|
|
|
|
|
|
% Copio in locale e normalizzo ...
|
|
|
|
|
CPUWeight=options_.CPUWeight.*nCPUoriginal,
|
|
|
|
|
CPUWeight=CPUWeight/sum(CPUWeight)
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
lCw=length(CPUWeight);
|
|
|
|
|
|
|
|
|
|
EqFlag=1;
|
|
|
|
|
|
|
|
|
|
for i=1:(lCw-1)
|
|
|
|
|
if CPUWeight(i)~=CPUWeight(i+1)
|
|
|
|
|
EqFlag=0;
|
|
|
|
|
SonoQui='Diverso'
|
|
|
|
|
break;
|
|
|
|
|
end
|
|
|
|
|
end
|
|
|
|
|
|
|
|
|
|
% L'utente non ha inserito il vettore di pesi, oppure i pesi sono tutti
|
|
|
|
|
% uguali.
|
|
|
|
|
|
|
|
|
|
if (EqFlag==1) | (lCw==0)
|
|
|
|
|
SonoQui='Uguale'
|
|
|
|
|
return;
|
|
|
|
|
|
|
|
|
|
else
|
|
|
|
|
|
|
|
|
|
% Numero dei Nodi nel cluster ...
|
|
|
|
|
lnC=length(nCPUoriginal);
|
|
|
|
|
|
|
|
|
|
% Numero totale dei Jobs ...
|
|
|
|
|
NumbersOfJobs=sum(nBlockPerCPU);
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
SumOfJobs=0;
|
|
|
|
|
JobsForNode=zeros(1,lnC);
|
|
|
|
|
|
|
|
|
|
% keyboard
|
|
|
|
|
|
|
|
|
|
% Ridistribusco i jobs tra i nodi in base ai pesi dell'utenti.
|
|
|
|
|
|
|
|
|
|
for i=1:lnC
|
|
|
|
|
|
|
|
|
|
JobsForNode(i)=CPUWeight(i)*NumbersOfJobs;
|
|
|
|
|
% Ci sono diverse soluzioni possibili: round sembra la
|
|
|
|
|
% migliore.
|
|
|
|
|
|
|
|
|
|
JobsForNode(i)=ceil(JobsForNode(i));
|
|
|
|
|
% JobsForNode(i)=round(JobsForNode(i));
|
|
|
|
|
|
|
|
|
|
% SumOfJobs=sum(JobsForNode(1:i));
|
|
|
|
|
end
|
|
|
|
|
|
|
|
|
|
% Tolgo gli eventuali 'eccessi' o 'mancanze' derivanti dall modo usato sopra
|
|
|
|
|
% per 'arrotondare'.
|
|
|
|
|
% Ci sono diverse strategie per fare questo ...
|
|
|
|
|
|
|
|
|
|
SumOfJobs=sum(JobsForNode);
|
|
|
|
|
|
|
|
|
|
if SumOfJobs~=NumbersOfJobs
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
% Ho assegnato pi<70> jobs di quelli veri ..
|
|
|
|
|
|
|
|
|
|
if SumOfJobs>NumbersOfJobs
|
|
|
|
|
% Li tolgo al meno veloce,
|
|
|
|
|
% posso anche toglierli a chi ne ha di pi<70>, ... da decidere
|
|
|
|
|
% ...
|
|
|
|
|
|
|
|
|
|
[NonServe VerySlow]= min(CPUWeight);
|
|
|
|
|
|
|
|
|
|
while SumOfJobs>NumbersOfJobs
|
|
|
|
|
JobsForNode(VerySlow)=JobsForNode(VerySlow)-1;
|
|
|
|
|
SumOfJobs=SumOfJobs-1;
|
|
|
|
|
end
|
|
|
|
|
|
|
|
|
|
end
|
|
|
|
|
|
|
|
|
|
if SumOfJobs<NumbersOfJobs
|
|
|
|
|
|
|
|
|
|
% Li metto al pi<70> veloce,
|
|
|
|
|
% posso anche toglierli a chi ne ha di pi<70>, ... da decidere
|
|
|
|
|
% ...
|
|
|
|
|
|
|
|
|
|
[NonServe VeryFast]= min(CPUWeight);
|
|
|
|
|
|
|
|
|
|
while SumOfJobs<NumbersOfJobs
|
|
|
|
|
JobsForNode(VeryFast)=JobsForNode(VeryFast)+1;
|
|
|
|
|
SumOfJobs=SumOfJobs+1;
|
|
|
|
|
end
|
|
|
|
|
|
|
|
|
|
end
|
|
|
|
|
end
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
% Adesso ridistribusco i jobs assegnati ad ogni nodo tra le
|
|
|
|
|
% cpu/core disponibili in quel nodo! Poi si pu<70> eventualmente
|
|
|
|
|
% accorpare con il codice sopra.
|
|
|
|
|
|
|
|
|
|
JobsForCpu=zeros(1,nCPU(lnC));
|
|
|
|
|
JobAssignedCpu=0;
|
|
|
|
|
|
|
|
|
|
RelativePosition=1;
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
for i=1:lnC
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
% Diverse possibilit<69> ...
|
|
|
|
|
|
|
|
|
|
% JobAssignedCpu=ceil(JobsForNode(i)/nCPUoriginal(i));
|
|
|
|
|
% JobAssignedCpu=round(JobsForNode(i)/nCPUoriginal(i));
|
|
|
|
|
JobAssignedCpu=floor(JobsForNode(i)/nCPUoriginal(i));
|
|
|
|
|
|
|
|
|
|
ChekOverFlow=0;
|
|
|
|
|
|
|
|
|
|
for j=RelativePosition:nCPU(i)
|
|
|
|
|
JobsForCpu(j)=JobAssignedCpu;
|
|
|
|
|
ChekOverFlow=ChekOverFlow+JobAssignedCpu;
|
|
|
|
|
|
|
|
|
|
if ChekOverFlow>=JobsForNode(i)
|
|
|
|
|
break;
|
|
|
|
|
end
|
|
|
|
|
|
|
|
|
|
end
|
|
|
|
|
|
|
|
|
|
% Tolgo gli eventuali 'eccessi'- 'mancanze' derivanti dall modo usato sopra
|
|
|
|
|
% per 'arrotondare'. Anche qui come sopra <20> da decidere la
|
|
|
|
|
% strategia migliore ...
|
|
|
|
|
|
|
|
|
|
if ChekOverFlow ~=(JobsForNode(i))
|
|
|
|
|
|
|
|
|
|
if ChekOverFlow >(JobsForNode(i))
|
|
|
|
|
while ChekOverFlow>JobsForNode(i)
|
|
|
|
|
JobsForCpu(nCPU(i))=JobsForCpu(nCPU(i))-1;
|
|
|
|
|
ChekOverFlow=ChekOverFlow-1;
|
|
|
|
|
end
|
|
|
|
|
end
|
|
|
|
|
|
|
|
|
|
if ChekOverFlow <(JobsForNode(i))
|
|
|
|
|
while ChekOverFlow<JobsForNode(i)
|
|
|
|
|
JobsForCpu(nCPU(i))=JobsForCpu(nCPU(i))+1;
|
|
|
|
|
ChekOverFlow=ChekOverFlow+1;
|
|
|
|
|
end
|
|
|
|
|
end
|
|
|
|
|
end
|
|
|
|
|
|
|
|
|
|
RelativePosition=nCPU(i)+1;
|
|
|
|
|
|
|
|
|
|
end
|
|
|
|
|
|
|
|
|
|
% Only for testing ...
|
|
|
|
|
|
|
|
|
|
SonoQui='Maggiore'
|
|
|
|
|
|
|
|
|
|
nCPUoriginal
|
|
|
|
|
nCPU
|
|
|
|
|
JobsForNode
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
display('New')
|
|
|
|
|
|
|
|
|
|
%nBlockPerCPUWweigh= JobsForCpu(JobsForCpu~=0)
|
|
|
|
|
JobsForCpu
|
|
|
|
|
|
|
|
|
|
display('Old')
|
|
|
|
|
|
|
|
|
|
nBlockPerCPU
|
|
|
|
|
|
|
|
|
|
display('Check')
|
|
|
|
|
|
|
|
|
|
Check=sum(JobsForCpu)-sum(nBlockPerCPU)
|
|
|
|
|
|
|
|
|
|
%pause
|
|
|
|
|
end
|
|
|
|
|
|
|
|
|
|
|