Trening pa flere maskiner # 1758.

Trening pa flere maskiner # 1758.

bansungmin kommenterte 18. april 2017.

Jeg prover a kjore CNTK pa 2 maskiner med 4 GPUer pa hver maskin.

Nar du kjorer under kommandoen, blir trening oppnadd eller mislyktes i henhold til vertsfilen.

mpiexec -np 2 -hostfile hostfile cntk configFile = globals.config configFile = cntk.config.

Hvis hostfile inneholder bare 1 maskin, for eksempel.

hostfile: machine1 slots = 2 eller.

hostfile: machine2 slots = 2.

, trening har blitt oppnadd uansett hvilken maskin kommandoen er utfort.

exp / loggfil finnes pa maskinen som er angitt av vertsfilen.

Hvis hostfile inneholder 2 maskiner, har trening mislyktes.

exp / log eksisterer ikke pa begge maskinene og under meldingen skrives ut.

Config-filer er vedlagt, noen har noen ide om hva som er galt?

CNTK 2.0.beta15.0 + (master fd5786, 30. mars 2017 16:34:15) pa GPU-H07-115 ved 2017/04/18 08:52:44.

cntk configFile = conf / globals.config configFile = conf / cntk.config.

CNTK 2.0.beta15.0 + (master e68b17, mar 30 2017 15:43:43) pa GPU-H07-114 ved 2017/04/18 08:53:29.

cntk configFile = conf / globals.config configFile = conf / vad_multi_gpu_dataPa.config.

ping [requestnodes (for endring)]: 2 noder pinging hverandre.

ping [requestnodes (for endring)]: 2 noder pinging hverandre.

spokelse kommenterte 20. april 2017 & # 8226;

Kan du prove a oppdatere til RC1 (du trenger bare a gi nytt navn til gammel .. \ cntk-mappe og erstatte den med den nye – hvis du bare vil teste losningen). Pass pa at du har den nodvendige MSMPI-versjonen installert som folger med CNTK (eller du kan laste ned den nyere).

Forutsatt at du skal starte oppl ringen pa maskin1, er cntk installert lokalt i c: \ localcntk og du har 2 GPUer pa hver knute (totalt 4), v r sa snill:

deaktiver brannmur pa begge vertene (hvis losningen fungerer, kan du lese msmpi docs og konfigurere brannmur pa riktig mate) sorg for at hver vert kan pinge en annen ved a bruke vertsnavnet du bruker til a starte oppl ringen. Hvis du ikke kan pinge, ma du manuelt inkludere begge vertsnavnene med ips i Windows-vertsfilen pa begge noder, slik at c: \ localcntk eller annen vei du har, er kartlagt og tilgjengelig under begge maskinene. Hvis du har installert CNTK pa machine1 i «c: \ localcntk», sa under maskin2 ma du opprette katalog «c: \ localcntk» og kartlegge det / opprette fjern del som peker pa maskinen1 via nettbrukskommando. start smpd -d 1 pa hver maskin (daemonen / tjenesten som brukes til distribuert kommunikasjon). sorg for at brukerkontoen du starter smpd, far tilgang til «c: \ localcntk» og dens innholdstest mpiexec-funksjonalitet ved a starte fra maskin1 (det skal skrive vertsnavn pa begge maskinene) test mpiexec-funksjonalitet ved a starte fra machine2 opprett en underkatalog for loggfilene dine under c: \ localcntk \ … I din Brainscript-modell, vennligst ta med linjen stderr = «c: \ localcntk \ path \ to \ whereyouwantyour \ log» som peker til den underkatalogen, v r sa snill a sorge for at du velger minibatchstorrelsen lav nok til at den passer til GPU-minnet til lavest spesifikasjon kort (hvis GPU-kortene dine er forskjellige). Du kan deretter overvake GPU-minne pa hver vert for a estimere en tilstrekkelig bach-storrelse eller kalkulere den «teoretisk» gitt tenseorstorrelsene lansere distribuert trening med.

hvor xxx.yyy.zzz.qqq er maskin1 ip-adresse. mpiexec docs finner du her mpiexec. Hvis du har 4 GPUer per node, totalt 8, vil kommandoen for a starte CNTK v re:

Det anbefales a fa det til a fungere ved a bruke 2 noder med 1 GPU hver (totalt 2 GPUer). For det vil i lanseringslinjen / vertene 2 forbli (angir 2 verter), men tallet etter hver vert vil v re 1:. / verter 2 localhost 1 machine2 1 ..

Ved start vil CNTK vise noe som helst (i dette eksemplet trening er gjort ved hjelp av 3 noder):

Den utgangen indikerer at MPI-motorer kommuniserer uten problemer.

En loggfil per vert vil bli opprettet i katalogen du hadde oppgitt med filnavn logg og log.rank1. Du kan sjekke dem for eventuelle feil / opplysninger.

Pa slutten av treningen vil en tilkoblingstabell bli skrevet ut med folgende informasjon (igjen er dette et eksempel fra 3 node-oppsett)

Hvis disse instruksjonene ikke loser problemet, kan du beskrive plattformen du bruker (OS, gfx-kort) og gi utdrag av loggfilene. Vi ma finne ut om dette er problemet med MPI-oppsett eller med CNTK.

bansungmin kommenterte 24. april 2017.

Takk for ditt vennlige svar.

Etter din guide, er CNTK oppdatert til RC1. (OS er Linux)

Etter det, nar kjorer under kommandoer, er problemet fortsatt.

mpiexec -hostfile hostfile cntk configFile = globals.config configFile = cntk.config.

Problemet er lost med kommandoer nedenfor. Det er et problem om apen MPI.

mpiexec –mca btl_tcp_if_include bond0 -hostfile hostfile cntk configFile = globals.config configFile = cntk.config.

liqunfu kommenterte 14 juli 2017.

Lukk dette problemet – ifolge @ bansungmins siste kommentar, ble problemet lost med postet mpiexec-kommando.

&kopiere; 2018 GitHub, Inc. Vilkar Personvern Sikkerhetsstatus Hjelp.

Du kan ikke utfore denne handlingen pa dette tidspunktet.

Du logget pa med en annen fane eller et vindu. Oppdater for a oppdatere okten din. Du logget ut i en annen kategori eller et vindu. Oppdater for a oppdatere okten din.


Hallo! Vil du spille i det største kasinoet? Vi samlet det for deg. Registrer deg nå!