Video: IT Chapter Two 2024
Tilastomallien muodostaminen rinnakkain on haastava tehtävä. Rinnakkaisohjelmoinnin perinteisessä paradigmassa muistiin pääsyä ohjataan käyttämällä langoja - käyttöjärjestelmän luomia aliprosesseja jakamaan yksittäinen jaettu muisti useissa prosessoreissa.
Kilpailevien kierteiden kilpailuedellytykset - kun kaksi tai useampi kierre yrittävät vaihtaa jaettua dataa samanaikaisesti - voivat vaikuttaa algoritmisi suorituskykyyn ja vaikuttavat ohjelmasi tuottamien tilastollisten tulosten tarkkuuteen, erityisesti suurten näyteikkunoiden pitkäkestoisille analyyseille.
Tämän ongelman käytännönläheinen lähestymistapa on olettaa, että monet tilastotieteilijät eivät tunne MapReducen (ja päinvastoin) sisäänkäyntejä, eivätkä myöskään voi odottaa heidän olevan tietoisia kaikista epäonnistumisista että rinnakkaisohjelmointi merkitsee sitä. Hadoop-projektin osallistujat ovat (ja edelleen kehittävät) tilastollisia työkaluja näiden realiteettien suhteen.
Tulos: Hadoop tarjoaa monia ratkaisuja sellaisten algoritmien toteuttamiseen, joita tarvitaan tilastollisen mallintamisen ja analyysin suorittamiseen ilman, että tilastovirkailija ylikuormittuu värillisillä rinnakkaisilla ohjelmasuunnitelmilla.