Asa cum va povesteam in zilele premergatoare hiper-mediatizatului eveniment Black Friday, am facut niste modificari tintite exact asupra zilei de vineri. S-au dovedit a fi niste miscari inspirate, in conditiile in care ziua de vineri nu ne-a adus decat 3 minute de downtime in total. Adica 1.437 de minute de uptime. :).

Povestea a inceput inca din seara de joi, cand click-urile au inceput sa se inregistreze cu o viteza atat de mare incat, incet-incet, coada de procesare de actiuni a inceput sa primeasca mai multe inregistrari decat putea prelucra. Totul a culminat la ora 00:01, cand uneltele de monitorizare raportau un trafic de aproape 200 de cereri pe secunda venite in serverele 2Parale.

Am facut aroganta sa credem ca daca am mutat tracking-ul pe un server dedicat acesta va duce intregul trafic, insa conditiile reale ne-au dat peste nas si serverul respectiv a inceput sa geama sub incarcarea imensa la care era supus. Imediat am distribuit traficul intre toate webserverele de care dispuneam, insa totul s-a soldat cu aproape un minut in care ni s-au raportat din toate sursele erori de Gateway timeout.

Dupa miezul noptii, traficul a inceput sa scada foarte lent, reusind insa sa omoare un server de baze de date, pe care nu l-am mai putut resuscita pret de cateva ore. Desi nu a existat un impact vizibil, problema a fost una destul de serioasa pentru noi. La aceasta ora deja se adunasera cateva sute de mii de actiuni in coada de procesare despre care vorbeam si nu aveam fizic mijloace prin care sa prelucram acele date mai rapid decat traficul covarsitor, cel putin nu fara a fi obligati sa dam site-ul jos pret de cateva minute, ceea ce era inacceptabil. Pentru a evita situatiile in care suprasolicitarea serverelor ar fi dus la vreo defectiune fizica a serverelor, am preferat sa ne concentram atentia pe mentinerea lor in picioare mai degraba decat pe afisarea in timp real a statisticilor.

Am mai suferit o lovitura pe la pranz, cand serverul principal de baze de date a reusit sa umple tot spatiul de stocare. Nu cu date, ci cu log-uri :). Pana cand am eliberat niste spatiu si am restartat serviciul, am mai facut vreo 2 minute de downtime.

Toate aceste lucruri s-au intamplat pe 5 servere optimizate la sange, dintre care unul a murit si a fost inlocuit de unul dintre cele 2 servere pregatite sa intre in actiune cu orice rol, la orice moment.

Inspre seara zilei de vineri, cand lucrurile se linistisera semnificativ, log-ul de acces pentru evenimente (click-uri, comisioane) arata cam asa:

Multumirile noastre merg catre partenerii de la Appnor, care au avut grija sa nu avem probleme hardware si de conexiune. In mod special dorim sa multumim echipei de la Eloquentix (mentiune speciala pentru Marius Ionescu), care au facut minuni cu serverele pentru a ne ajuta sa trecem cu bine peste aceasta zi uimitoare.

Dorim de asemenea sa multumim afiliatilor si advertiserilor pentru intelegerea de care au dat dovada. Speram ca faptul ca ne-am onorat promisiunea si ca am inregistrat toate comisioanele sa fie o revansa suficienta pentru povestea cu desincronizarea. E momentul sa verificati statisticile si comisioanele de pe 23 noiembrie.

Naucitor!

  1. Oricum fata de restul ati fost foarte ok. /like
    Probabil de Craciun o sa va asigurati ca de acum campaniile nu mai au pdf-uri si subdomenii si alte magarii si mai ales ca sunt up. Poate un live-chat, unde sa puteti vedea parerile/notificarile advertiserilor sau un facebook ceva.

  2. @tetele ai tot respectul meu. Sunteti mai tari decat majoritatea magazinelor pline de specialisti
    Am trimis si un email cu un advertiser descoperit ca a tras teapa si a facut in asa fel incat codul de traking sa fie afisat foarte rar, astept un raspuns pe email cand aveti timp

Comentează

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *

<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>