Infrastrukturen må samsvare med brukstilfellene og egenskapene til dataene. I den ene enden finner vi brukstilfeller med små, ikke-sensitive data og batch-behandling. I den andre enden ser vi brukstilfeller med store data, parallell prosessering og personvernutfordringer. Datainnhenting, lagring, pipelines, modellopplæring og prediksjon må settes opp deretter. Sky- og administrerte tjenester har forenklet driften. Vi benytter oss av dette, men evaluerer fortsatt den daglige styringen av systemene. Viktige temaer når vi bygger datainfrastruktur inkluderer:

  • Små og store data. Tilpass infrastrukturen til datamengdene som skal lagres og prosesseres, uten å overkomplisere. Vurder nøye når du trenger parallell prosessering og kompleksiteten som følger med.
  • Teknologiske beslutninger. Velg den tech stacken og evaluer teknologier etter hvert som brukstilfellene modnes. Velg teknologier som er bredt brukt og støttet.
  • Maskinlæringssystemer. Nye utfordringer følger disse systemene. Man må håndtere modellopplæring og serving, styring av modellene, inkludert validering, kvalifisering, distribusjon og overvåking, med forsiktighet.
  • Sikkerhet og personvern. Angi riktig sikkerhetsnivå og administrer tilganger til data.