Le conseguenze di un PING negativo…

…possono essere le più imprevedibili. Non so se qualcuno abbia mai avuto a che fare con un simile risultato su Linux, ma su Windows per la prima volta nella mia vita (ed anche altrui visto che nessuno ha saputo risolvere fino a ieri) ho visto dei ping NEGATIVI. Premetto che la macchina su cui lavoraiamo era un cluster Windows 2003, che funge da backend SQL. Le caratteristiche HW (il cui particolare è causa di tutto): dual Opteron 64 dual core, 8 GB di ram per nodo, 2 schede di rete per nodo (entrambe doppio canale) per collegamento e heartbeat, scheda in fibra per la BAN, scheda in fibra per la SAN (ha un tera e rotti di disco dati sul sedere).

Bella macchina vero? se non fosse per Windows direi che sarebbe ottima, ma visto che ci deve girare M$ Exchange, non c’era molta alternativa. Alle caratteristiche HW aggiungiamo i “dettagli” software, tra i quali SQL Server, Exchange, ed il Volume Manager di NOTA ditta. Le macchine hanno inumerevoli problemi, e non posso negare che il tutto è anche dovuto al pochissimo tempo nel quale sono state messe in piedi, pezzo per pezzo si cercava di risolvere la moltitudine di errori semi-inspiegabili tra cui anche il fantomatico PING negativo. Giusto per nota erano aperti 2 case in M$, uno al fornitore HW, ed un altro al fornitore del Volume Manager. Il problema di fondo è che il cluster non stava in piedi, i programmi di stress test davano risultati anomali (e fallivano), il volume manager faceva le bizze non rilasciando/prendendo le risorse correttamente. Per caso sabato mattina stavo pasticciando nel boot.ini della mia macchina da gioco (che si è XP, ma fidatevi, c’è su solo quello, ed i giochi ovviamente :D) per abilitare LOTRO ad usare più di 2 GB di RAM (seppure abbia un processore 64 bit per compatibilità uso XP 32 bit), quindi volevo aggiungere il tipico “/3GB” (e si, ho + di 2 GB di ram su quella macchina :D). Caso vuole che il mio boot.ini fosse un schifezza, trovandomi impostati già 3 parametri tra cui un fatomatico “/usepmtimer”. Ovviamente da bravo tecnico mi sono messo a cercare su Google tutte le opzioni passate al kernel, e molto culo vuole che lo slash citato sopra (non sto a linkarvi la pagina ufficiale di M$, mettete il parametro in google ed il primo risultato sarà ciò che volete) fosse relativo ad alcuni problemi con CPU multi-core con funzionalità di Cool&Quiet attive. La technet sempre citava che il problema era presente solo su Windows 2003 e Windows XP, e che un esempio era appunto che programmi come il ping (che usano una chiamata particolare al sistema) avrebbero dato valori bassi o non corretti. Al che il dubbio mi ha assalito, e così prima sabato, e poi lunedì ho cominciato a passare voce di questa cosa ai colleghi. Ieri sono quindi stati inseriti questi switch nel boot.ini dei nodi del cluster…e magia i ping negativi sono scomparsi. Ma non solo quelli, e quando era il momento di far switchare il cluster il volume manager non ha più dato problemi, switchato 4 volte senza fare un piega (non era mai riuscita prima questa operazione, ovvero il cluster andava switchato a mano prima!). A quanto pare a causa delle variaizoni di frequenza per il risparmio energetico, anche negli Opteron che non hanno questa funzione attiva, ma le relativa schede madri a quanto pare hanno il supporto, se non si usa lo swtich nel boot ini la chiamata ad un timer di sistema sballa, e da risultati assurdi, mettendo quello switch il kernel si appoggia su un altro sistema e quindi fornisce dei valori corretti. C’è un articolo del produttore del server a riguardo su un altra serie di macchine che quell’errore era dovuto al loro bios e che l’avevano corretto, ma ovviamente si deve essere ripresentato un regression bug…della serie “ma cosa a vuoi che serva quella vite…”!

Annunci
  1. No trackbacks yet.

Rispondi

Inserisci i tuoi dati qui sotto o clicca su un'icona per effettuare l'accesso:

Logo WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione / Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione / Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione / Modifica )

Google+ photo

Stai commentando usando il tuo account Google+. Chiudi sessione / Modifica )

Connessione a %s...

%d blogger hanno fatto clic su Mi Piace per questo: