Může se stát úspěšným architektem velkých dat, aniž by se učil Data Science? Jaký je rozdíl mezi architektem Big Data a datovým vědcem?


Odpověď 1:

Děkujeme za více A2A! :)

To jsou moje ruce na osobní zkušenosti v této záležitosti.

V Miniclipu máme tým datové vědy a tým datového inženýrství. Tým datového inženýrství zpracovává všechna velká data. S prací to dokázal tým pro vědu o datu, ale udělali bychom to horší a pomalejší ... to nechceme! :)

Tým datového inženýrství opravdu nemusí jít do specifik znalostí domény tak, jak postupuje tým vědeckých údajů. Znají však docela dost strojového učení a ve větších automatizovaných datových projektech spolupracujeme.

Takže podle mého názoru se můžete stát úspěšným velkým datovým architektem / technikem bez vědy o datech, což znamená, bez znalosti domény / algoritmu, že společnosti jsou závislé na údajových vědcích. Budete-li v tom však mít ruce, budete mnohem lepší datový inženýr.


Odpověď 2:

Souhlasím s Marcinem. Vědci dat mohou využít infrastrukturu velkých dat architektem velkých dat. IMO, některé z klíčových aspektů, které by měl architekt velkých dat vědět, jsou následující, jejichž součástí je analytika / věda o datech (bod 3 níže):

1) Příjem dat - dávkové a datové proudy

2) Úložiště dat - distribuované úložiště, NoSQL

3) Zpracování a analýza ** - Dávkové zpracování, zpracování toku, analytika. Zde by měl velký datový architekt alespoň vědět o dostupných analytických nástrojích / API, aby je mohl doporučit a zahrnout je do velké datové infrastruktury (na základě případu obchodního použití a preferencí vědců údajů). Jen málo z faktorů, které je třeba zvážit v nástroji umožňujícím datovému vědci, by mohlo být - typy dostupných algoritmů, podpora rodného jazyka, připojení k prostředí velkých dat, možnosti analýzy dat, profilování dat atd.

4) Spotřeba - dávka nebo spotřeba proudu

5) Potřeba hardwaru pro různé komponenty prostředí distribuovaného velkých dat

6) Provozní potřeby prostředí velkých dat


Odpověď 3:

Souhlasím s Marcinem. Vědci dat mohou využít infrastrukturu velkých dat architektem velkých dat. IMO, některé z klíčových aspektů, které by měl architekt velkých dat vědět, jsou následující, jejichž součástí je analytika / věda o datech (bod 3 níže):

1) Příjem dat - dávkové a datové proudy

2) Úložiště dat - distribuované úložiště, NoSQL

3) Zpracování a analýza ** - Dávkové zpracování, zpracování toku, analytika. Zde by měl velký datový architekt alespoň vědět o dostupných analytických nástrojích / API, aby je mohl doporučit a zahrnout je do velké datové infrastruktury (na základě případu obchodního použití a preferencí vědců údajů). Jen málo z faktorů, které je třeba zvážit v nástroji umožňujícím datovému vědci, by mohlo být - typy dostupných algoritmů, podpora rodného jazyka, připojení k prostředí velkých dat, možnosti analýzy dat, profilování dat atd.

4) Spotřeba - dávka nebo spotřeba proudu

5) Potřeba hardwaru pro různé komponenty prostředí distribuovaného velkých dat

6) Provozní potřeby prostředí velkých dat