Saidi töökindluse tehnika - kursus 65 000 hõõruda. Slurmist, koolitus, kuupäev 1. jaanuar 2024.
Varia / / November 29, 2023
INIMESELE
SRE insener võib olla kas käitamisinsener või arendaja. Intensiivkursusel harjutad palju ning saadud oskusi ja teadmisi on võimalik kohandada ja rakendada igas valdkonnas.
ÄRI
SRE lahendab samu probleeme, mis DevOps: see kiirendab uute funktsioonide väljalaskmist ja parandab meeskonnasiseseid protsesse. Kuid SRE peamine ülesanne on tagada teenuste stabiilsus ja usaldusväärsus, välistades olukorrad, kus kasutajad kurdavad rikete üle ja inseneridel on rohelised graafikud.
Ehitame:
Meie koolitusleht koosneb mitmest mikroteenustest. See koondab andmed kõikide kinode etenduste, hindade ja vabade kohtade kohta, näitab filmiteateid, võimaldab valida kino, etenduse, saali ja koha, broneerida ja maksta pileteid.
Sõnastame selle saidi jaoks SLO, SLI, SLA näitajad, arendame neid toetava arhitektuuri ja infrastruktuuri, seadistame jälgimise ja hoiatamise.
Arendaja vead, infrastruktuuri tõrked, külastajate sissevool ja DoS-rünnakud põhjustavad SLO-de halvenemist.
Analüüsime stabiilsust, veaeelarvet, testimispraktikat, katkestuste ja töökoormuse juhtimist.
Juhtus õnnetus. Maksetöötlusteenus ei tööta. Kuidas toimida, et taastada funktsionaalsus võimalikult lühikese ajaga?
Korraldame hädaolukorra lahendamise meeskonna tööd: kolleegide kaasamine, huvirühmade teavitamine, prioriteetide seadmine. Treenime töötama pinge all äärmiselt piiratud aja tingimustes.
Vaatame saidi lähenemist SRE vaatepunktist. Analüüsime intsidente (esinemise põhjused, likvideerimise käik). Teeme otsuseid nende edasiseks ennetamiseks: täiustame seiret, muudame arhitektuuri, lähenemist arendusele ja toimimisele ning regulatsioone. Automatiseerime protsesse.
— Meil on kümneid ehitatud infrastruktuure ja sadu kirjutatud CI/CD torujuhtmeid,
— Kubernetese sertifitseeritud administraator,
— mitmete Kubernetese ja DevOpsi kursuste autor,
— Regulaarne esineja Venemaa ja rahvusvahelistel IT-konverentsidel.
1. PÄEV: AMA avaseanss
Arutame läbi kursuse eesmärgid ja ülesanded, samuti räägime teile, mis on SRE ja jagame selle meeskondadeks.
2 teoreetilise teema avamine:
Teema 1: Seire
- Miks on jälgimine vajalik?
- Protsentiilid
- Hoiatus
- Vaadeldavus
Teema 2: SRE teooria
- SLO, SLI, SLA
- Vastupidavus
- Viga eelarve
2. PÄEV: tavade ja juhtumite analüüs
Harjuta: Põhilise armatuurlaua tegemine ja vajalike hoiatuste seadistamine
Harjuta: SLO/SLI + hoiatuste lisamine armatuurlauale
Harjuta: Esimene süsteemi laadimine
1. juhtumi lahendus: allavoolu sõltuvus.
Suures süsteemis on palju üksteisest sõltuvaid teenuseid ja need ei tööta alati võrdselt hästi. See on eriti tüütu, kui teie teenus on korras, kuid naaber, millest sõltute, läheb perioodiliselt alla.
Haridusprojekt satub täpselt sellistesse tingimustesse ja te kindlustate, et see toodab endiselt kvaliteeti võimalikult kõrgel tasemel.
3. PÄEV: AMA seanss, küsimustele vastatud
Avaneb juurdepääs 2. teoreetilisele moodulile:
Keskkonna ja arhitektuuriga seotud probleemide lahendamine
Teine moodul on üles ehitatud kahe juhtumi lahendamisele: ülesvoolu sõltuvus ja arhitektuuriprobleemid. Esinejad räägivad intsidentide juhtimisest, tuletõrje reeglitest ja tööst surmajärgsete isikutega ning pakuvad malle, mida saate oma meeskonnas kasutada.
3. teema: Juhtumijuhtimine
- Vastupidavustehnika
- Kuidas tuletõrje moodustatakse
- Kui tõhus on teie meeskond juhtumis?
- 7 reeglit intsidendi juhile
- 5 reeglit tuletõrjujale
- HiPPO – kõige kõrgema tasu saanud inimese arvamus. Kommunikatsioonijuht
T4. teema: Varrumi tööriistad ja hoiatuste haldamine.
Teiste ettevõtete parim praktika intsidentide haldamise korraldamisel.
4. PÄEV: tavade ja juhtumite analüüs
2. juhtumi lahendus: ülesvoolu sõltuvus.
Üks asi on see, kui sõltute madala SLO-ga teenusest. Teine asi on see, kui teie teenus on süsteemi muude osade jaoks sama. See juhtub siis, kui hindamiskriteeriumid ei ole järjepidevad: näiteks vastate päringule sekundi jooksul ja loete selle õnnestunuks, kuid sõltuv teenus ootab vaid 500 Moskva aega ja lahkub veaga.
Juhtumi puhul arutleme mõõdikute ühtlustamise olulisuse üle ning õpime vaatama kvaliteeti läbi kliendi silmade.
3. juhtumi lahendus: probleemid andmebaasiga.
Andmebaas võib olla ka probleemide allikas. Näiteks kui te ei jälgi replikatsioonireleed, siis replica aegub ja rakendus tagastab vanad andmed. Veelgi enam, selliste juhtumite silumine on eriti keeruline: nüüd on andmed vastuolulised, kuid mõne sekundi pärast pole need enam järjepidevad ja pole selge, mis on probleemi põhjus.
Juhtumi kaudu tunnete kogu silumise valu ja õpite selliseid probleeme ennetama.
Harjuta: Kirjutame eelmise juhtumi kohta postmortemi ja arutame seda esinejatega.
5. PÄEV: AMA seanss, küsimustele vastatud
AMA seanss ja vastused eelmiste teemade küsimustele.
Avaneb juurdepääs 3. teoreetilisele moodulile:
Liiklusvarjestus ja kanaarivabad
Kolmandas moodulis analüüsime juhtumit, mis on pühendatud keskkonnaprobleemile (sellel on Tervise üksikasjalik analüüs Kontrollimine), samuti analüüsime samm-sammult, kuidas SRE-d ettevõtetes juurutada ning õpime nende ettevõtete kogemusi, kus esinejad töötavad. intensiivne
5. teema: Tervisekontroll
- Tervisekontroll Kubernetesis
- Kas meie teenistus on veel elus?
- Exec sondid
- InitialDelaySeconds
- Sekundaarne tervisesadam
- Külgkorvi terviseserver
- Peata sond
- Riistvarasond
6. teema: juurutamismeetodid
Teema 7: SRE projekti kaasamine
Suured ettevõtted moodustavad sageli eraldi SRE meeskonna, mis võtab toetuseks teiste osakondade teenused. Kuid mitte iga teenus pole valmis toetuse saamiseks vastu võtma. Me ütleme teile, millistele nõuetele see peab vastama. Esinejad jagavad ka oma kogemusi, kuidas nad SRE-d rakendasid ja milliseid vigu tegid.
6. PÄEV: tavade ja juhtumite analüüs
4. juhtumi lahendus: probleem on keskkonnaga, pileteid ei saa osta.
Healthchecki ülesanne on tuvastada rikkis teenus ja blokeerida sellele liiklus. Ja kui arvate, et selleks piisab juurtega teenusele päringu esitamisest ja vastuse saamisest, siis teie eksite: isegi kui teenus reageerib, ei garanteeri see selle toimimist - võivad tekkida probleemid ümbrus.
Selle juhtumi kaudu saate teada, kuidas konfigureerida õiget Healthchecki ja mitte lubada liiklust sinna, kus seda ei saa töödelda.
Kokkuvõtteid tehes