BigData_Week1_Assignmrnt
C o
p yr
ig h
t ©
2 0
1 4
E M
C C
o rp
o ra
ti o
n . A
ll R
ig h
ts R
e se
rv ed
.
In tr
o d
u ct
io n
t o
B ig
D at
a A
n al
yt ic
s
1 M
o d
u le
1 :
In tr
o d
u ct
io n
t o
B D
A
C o
p yr
ig h
t ©
2 0
1 4
E M
C C
o rp
o ra
ti o
n . A
ll R
ig h
ts R
e se
rv ed
.
In tr
o d
u ct
io n
t o
B ig
D at
a A
n al
yt ic
s
U p
o n
c o
m p
le ti
o n
o f
th is
le ss
o n
, y o
u s
h o
u ld
b e
a b
le t
o :
D ef
in e
b ig
d at
a Id
e n
ti fy
f o
u r
b u
si n
e ss
d ri
ve rs
f o
r ad
va n
ce d
a n
al yt
ic s
D is
ti n
gu is
h t
h e
t e
ch n
iq u
e s
fo r
B u
si n
e ss
In te
lli ge
n ce
f ro
m D
at a
Sc ie
n ce
D e
sc ri
b e
t h
e r
o le
o f
th e
D at
a Sc
ie n
ti st
w it
h in
t h
e n
ew b
ig d
at a
e co
sy st
e m
C it
e a
t le
as t
th re
e il
lu st
ra ti
ve e
xa m
p le
s o
f b
ig d
at a
o p
p o
rt u
n it
ie s
M o
d u
le 1
: In
tr o
d u
ct io
n t
o B
D A
2
C o
p yr
ig h
t ©
2 0
1 4
E M
C C
o rp
o ra
ti o
n . A
ll R
ig h
ts R
e se
rv ed
. 3
Bi g
D a
a is
d a
a ho
se s
ca le
d is
ri b
io n
d i
er si
an
d/ or
ti m
el in
es s
re qu
ire th
e us
e of
n ew
te ch
ni ca
l ar
ch ite
ct ur
es a
nd a
na ly
tic s
to e
na bl
e in
si gh
ts th
at u
nl oc
k ne
w s
ou rc
es o
f b us
in es
s va
lu e.
� R
e q
u ir
e s
n ew
d at
a ar
ch it
e ct
u re
s, a
n al
yt ic
s an
d b
o xe
s
� N
ew t
o o
ls
� N
ew a
n al
yt ic
al m
et h
o d
s
� In
te gr
at in
g m
u lt
ip le
s ki
lls in
to n
ew r
o le
o f
d at
a sc
ie n
ti st
O rg
an iz
at io
n s
ar e
d e
ri vi
n g
b u
si n
e ss
b e
n ef
it f
ro m
a n
al yz
in g
e ve
r la
rg e
r an
d m
o re
c o
m p
le x
d at
a se
ts t
h at
in cr
e as
in gl
y re
q u
ir e
r e
al -t
im e
o r
n e
ar -r
e al
t im
e c
ap ab
ili ti
e s
B ig
D at
a D
ef in
e d
S ou
rc e:
M cK
in se
y M
ay 2
01 1
ar tic
le B
ig D
at a:
T he
n ex
t f ro
nt ie
r fo
r in
no va
tio n,
c om
pe tit
io n,
a nd
p ro
du ct
iv ity
M o
d u
le 1
: In
tr o
d u
ct io
n t
o B
D A
C o
p yr
ig h
t ©
2 0
1 4
E M
C C
o rp
o ra
ti o
n . A
ll R
ig h
ts R
e se
rv ed
. 4
1. D
at a
V o
lu m
e �
4 4
x in
cr e
as e
fr o
m 2
0 0
9 t
o 2
0 2
0
(0 .8
z et
ta b
yt e
s to
3 5
.2 zb
)
2. P
ro ce
ss in
g C
o m
p le
xi ty
( ve
lo ci
ty )
� C
h an
gi n
g d
at a
st ru
ct u
re s
� U
se c
as e
s w
ar ra
n ti
n g
ad d
it io
n al
t ra
n sf
o rm
at io
n s
an d
an
al yt
ic al
t e
ch n
iq u
e s
3. D
at a
St ru
ct u
re (
va ri
et y)
� G
re at
e r
va ri
et y
o f
d at
a st
ru ct
u re
s to
m in
e a
n d
a n
al yz
e
K ey
C h
ar ac
te ri
st ic
s o
f B
ig D
at a
M o
d u
le 1
: In
tr o
d u
ct io
n t
o B
D A
C o
p yr
ig h
t ©
2 0
1 4
E M
C C
o rp
o ra
ti o
n . A
ll R
ig h
ts R
e se
rv ed
.
B ig
D at
a C
h ar
ac te
ri st
ic s:
D at
a St
ru ct
u re
s D
at a
G ro
w th
is In
cr e
as in
gl y
U n
st ru
ct u
re d
M o
d u
le 1
: In
tr o
d u
ct io
n t
o B
D A
5
St ru
ct u
re d
Se m
i- St
ru ct
u re
d
Q a
i S
c ed
U n
st ru
ct u
re d
D at
a co
nt ai
ni ng
a d
ef in
ed d
at a
ty pe
, f or
m at
, s tr
uc tu
re
E xa
m p
le :
T ra
ns ac
tio n
da ta
a nd
O LA
P
D at
a th
at h
as n
o in
he re
nt
st ru
ct ur
e an
d is
u su
al ly
s to
re d
as d
iff er
en t t
yp es
o f f
ile s.
E xa
m p
le :
T ex
t d oc
um en
ts ,
P D
F s,
im ag
es a
nd v
id eo
Te xt
ua l d
at a
w ith
e rr
at ic
d at
a fo
rm at
s, c
an
be fo
rm at
te d
w ith
e ffo
rt , t
oo ls
, a nd
ti m
e
E xa
m p
le :
W
eb c
lic ks
tr ea
m d
at a
th at
m
ay c
on ta
in s
om e
in co
ns is
te nc
ie s
in d
at a
va lu
es a
nd fo
rm at
s
Te xt
ua l d
at a
fil es
w ith
a d
is ce
rn ab
le p
at te
rn ,
en ab
lin g
pa rs
in g
E xa
m p
le :
X M
L da
ta fi
le s
th at
a re
s el
f de
sc rib
in g
an d
de fin
ed b
y an
x m
l s ch
em a
More Structured
C o
p yr
ig h
t ©
2 0
1 4
E M
C C
o rp
o ra
ti o
n . A
ll R
ig h
ts R
e se
rv ed
.
Fo u
r M
ai n
T yp
e s
o f
D at
a St
ru ct
u re
s
M o
d u
le 1
: In
tr o
d u
ct io
n t
o B
D A
6
ht tp
:/ /w
w w
.g oo
g le
.c om
/# h
l= en
& su
ge xp
=k jr
m c&
cp =8
& g
s_ id
=2 m
& xh
r= t&
q =d
at a+
sc ie
n ti
st &
pq =b
ig +d
at a&
p f=
p& sc
lie n
t= p
sy b&
so ur
ce =h
p& pb
x= 1&
o q=
da ta
+s ci
& aq
=0 &
aq i=
g4 &
aq l=
f& gs
_s m
=& gs
_u pl
=& ba
v= on
.2 ,o
r. r_
gc .r
_p w
.,c f.
os b&
fp =d
56 6e
0f bd
09 c8
60 4&
b iw
=1 38
2& b
ih =6
51
T he
R ed
W he
el ba
rr ow
, b y
W ill
ia m
C ar
lo s
W ill
ia m
s
V ie
w Æ
S ou
rc e
St ru
ct u
re d
D at
a
Se m
i- St
ru ct
u re
d D
at a
Q u
as i-
St ru
ct u
re d
D at
a
U n
st ru
ct u
re d
D at
a
C o
p yr
ig h
t ©
2 0
1 4
E M
C C
o rp
o ra
ti o
n . A
ll R
ig h
ts R
e se
rv ed
.
D at
a R
e p
o si
to ri
e s,
A n
A n
al ys
t Pe
rs p
ec ti
ve
Sp re
ad sh
e et
s an
d lo
w -
l m
e D
B f
re
co rd
ke ep
in g
A n
al ys
t d
e p
en d
e n
t o
n
d at
a ex
tr ac
ts
M o
d u
le 1
: In
tr o
d u
ct io
n t
o B
D A
7
D at
a Is
la n
d s
S pr ea dm
ar
Is ol
at ed
d at
a m
ar ts
D at
a W
ar eh
o u
se s
C en
tr al
iz ed
d at
a co
nt ai
ne rs
in
a p
ur po
se -b
ui lt
sp ac
e
A n
al yt
ic S
an d
bo x
D at
a as
se ts
g at
he re
d fr
om m
ul tip
le
so ur
ce s
an d
te ch
no lo
gi es
fo r
an al
ys is
Su p
p o
rt s
B I a
n d
r e
p o
rt in
g, b
u t
re st
ri ct
s ro
b u
st a
n al
ys e
s
A n
al ys
t d
e p
e n
d e
n t
o n
IT &
D
B A
s fo
r d
at a
ac ce
ss a
n d
sc
h e
m a
ch an
ge s
A n
al ys
ts m
u st
s p
e n
d s
ig n
if ic
an t
ti m
e to
g et
e xt
ra ct
s fr
o m
m
u lt
ip le
s o
u rc
es
En ab
le s
h ig
h p
e rf
o rm
an ce
a n
al yt
ic s
u si
n g
in -d
b p
ro ce
ss in
g
R e
d u
ce s
co st
s as
so ci
at e
d w
it h
d at
a re
p lic
at io
n in
to "
sh ad
o w
" fi
le
sy st
e m
s
A na
ly st
-o w
ne d
r at
he r
th an
D
BA
ow ne
d
C o
p yr
ig h
t ©
2 0
1 4
E M
C C
o rp
o ra
ti o
n . A
ll R
ig h
ts R
e se
rv ed
.
In tr
o d
u ct
io n
t o
B ig
D at
a A
n al
yt ic
s: M
in i-
C as
e S
tu d
y
Yo yo
d yn
e B
an k
Sc en
ar io
Ev
o lv
in g
fr o
m s
m al
l c o
m m
u n
it y
b an
k to
a g
lo b
al b
an k
N e
ed s
to m
o ve
a w
ay f
ro m
it s
le ga
cy m
ai n
fr am
e s
to a
n e
n vi
ro n
m en
t th
at
su p
p o
rt s
m o
re r
o b
u st
a n
al yt
ic s
G ro
w in
g th
ro u
gh m
er ge
rs a
n d
a cq
u is
it io
n s
Su b
je ct
t o
m an
y n
ew r
e gu
la to
ry r
e q
u ir
e m
e n
ts
In cr
e as
in g
cu st
o m
e r
b as
e an
d in
cr e
as e
d p
ro d
u ct
o ff
e ri
n gs
D is
cu ss
io n
Q u
es ti
o n
s 1
. D
i c
h h
e ba
k d
a a
ld c
ha ge
de
h e
e ci
c m
a ce
2
. H
o w
a re
t h
e ir
n e
e d
s ch
an gi
n g
w it
h t
h e
se b
u si
n e
ss c
h an
ge s?
3 .
W h
at d
o y
o u
n e
e d
t o
c o
n si
d e
r fr
o m
a n
a n
al ys
t p
o in
t o
f vi
ew ?
W h
at a
re
so m
e t
h in
gs t
o c
o n
si d
e r
im p
le m
e n
ti n
g as
t h
e b
an k
gr o
w s?
M o
d u
le 1
: In
tr o
d u
ct io
n t
o B
D A
8
Y o
u r
T h
o u
g h
ts ?
C o
p yr
ig h
t ©
2 0
1 4
E M
C C
o rp
o ra
ti o
n . A
ll R
ig h
ts R
e se
rv ed
.
D ri
ve r
Ex am
p le
s
D e
si re
t o
o p
ti m
iz e
b u
si n
e ss
o
p e
ra ti
o n
s Sa
le s,
p ri
ci n
g, p
ro fi
ta b
ili ty
, e ff
ic ie
n cy
D e
si re
t o
id e
n ti
fy b
u si
n e
ss r
is k
C u
st o
m e
r ch
u rn
, f ra
u d
, d ef
au lt
P re
d ic
t n
ew b
u si
n e
ss o
p p
o rt
u n
it ie
s U
p se
ll, c
ro ss
-s e
ll, b
e st
n ew
c u
st o
m e
r p
ro sp
e ct
s
C o
m p
ly w
it h
la w
s o
r re
gu la
to ry
re
q u
ir e
m e
n ts
A
n ti
-M o
n ey
L au
n d
e ri
n g,
F ai
r Le
n d
in g,
B as
e l I
I
B u
si n
e ss
D ri
ve rs
f o
r A
n al
yt ic
s
1 2 3 4
Cu rr
en t B
us in
es s
Pr ob
le m
s Pr
ov id
e O
pp or
tu ni
tie s f
or O
rg an
iz at
io ns
to
Be co
m e
M or
e A
na ly
tic al
& D
at a
D riv
en
M o
d u
le 1
: In
tr o
d u
ct io
n t
o B
D A
9
C o
p yr
ig h
t ©
2 0
1 4
E M
C C
o rp
o ra
ti o
n . A
ll R
ig h
ts R
e se
rv ed
.
H ig
h
Fu tu
re P
as t
T IM
E
B U
SI N
ES S
VA LU
E Bu
sin es
s In
te lli
ge nc
e
P re
d ic
ti ve
A n
al yt
ic s
& D
at a
M in
in g
(D
at a
Sc ie
n ce
)
Ty p
ic al
Te
ch n
iq u
es &
D
at a
Ty p
es
O p
ti m
iz at
io n
, p re
d ic
ti ve
m o
d e
lin g,
fo
re ca
st in
g, s
ta ti
st ic
al a
n al
ys is
St ru
ct u
re d
/u n
st ru
ct u
re d
d at
a, m
an y
ty p
e s
o f
so u
rc e
s, v
e ry
la rg
e d
at a
se ts
C o
m m
o n
Q
u es
ti o
n s
W h
at if
W ha
h e
im al
ce
a i
f
b
u si
n e
ss ?
W
h at
w ill
h ap
p e
n n
e xt
? W
h at
if t
h e
se
tr e
n d
s co
n ti
n u
e ?
W h
y is
t h
is h
ap p
e n
in g?
B u
si n
es s
In te
lli ge
n ce
Ty p
ic al
Te
ch n
iq u
es &
D
at a
Ty p
es
St an
d ar
d an
d a
d h
o c
re p
o rt
in g,
d
as h
b o
ar d
s, a
le rt
s, q
u e
ri e
s, d
e ta
ils o
n
d e
m an
d
St ru
ct u
re d
d at
a, t
ra d
it io
n al
s o
u rc
e s,
m
an ag
e ab
le d
at a
se ts
C o
m m
o n
Q
u es
ti o
n s
W h
at h
ap p
e n
e d
la st
q u
ar te
r? H
o w
m an
y d
id w
e s
e ll?
W h
e re
is t
h e
p ro
b le
m ?
In w
h ic
h
si tu
at io
n s?
Da ta
Sc
ie nc
e
Lo w
A n
al yt
ic al
A p
p ro
ac h
e s
fo r
M e
et in
g B
u si
n e
ss D
ri ve
rs B
u si
n e
ss In
te lli
ge n
ce v
s. D
at a
Sc ie
n ce
1 0
M o
d u
le 1
: In
tr o
d u
ct io
n t
o B
D A
C o
p yr
ig h
t ©
2 0
1 4
E M
C C
o rp
o ra
ti o
n . A
ll R
ig h
ts R
e se
rv ed
.
A T
yp ic
al A
n al
yt ic
al A
rc h
it e
ct u
re
D e
p ar
tm en
ta l
W ar
e h
o u
se
En te
rp ri
se A
p p
lic at
io n
s
R e
p o
rt in
g
N o
n -P
ri o
ri ti
ze d
D at
a P
ro vi
si o
n in
g
N o
n -A
gi le
M o
d e
ls
S pr ea d
M ar
D at
a S
o u
rc es
S ilo
ed A
n al
yt ic
s
S ta
tic s
ch em
as ac
cr et
e ov
er ti
m e
P ri
o ri
ti ze
d O
p er
at io
n al
P
ro ce
ss es
E rr
an t d
at a
& m
ar ts
D e
p ar
tm en
ta l
W ar
e h
o u
se
1
2
3
1 1
M o
d u
le 1
: In
tr o
d u
ct io
n t
o B
D A
4
C o
p yr
ig h
t ©
2 0
1 4
E M
C C
o rp
o ra
ti o
n . A
ll R
ig h
ts R
e se
rv ed
.
Im p
lic at
io n
s o
f Ty
p ic
al A
rc h
it e
ct u
re f
o r
D at
a Sc
ie n
ce
1 2
H ig
h -v
al u
e d
at a
is h
ar d
t o
r e
ac h
a n
d le
ve ra
ge
P re
d ic
ti ve
a n
al yt
ic s
& d
at a
m in
in g
ac ti
vi ti
e s
ar e
la st
in
li n
e f
o r
d at
a �
Q u
e u
e d
a ft
e r
p ri
o ri
ti ze
d o
p e
ra ti
o n
al p
ro ce
ss es
D at
a is
m o
vi n
g in
b at
ch e
s fr
o m
E D
W t
o lo
ca l
an al
yt ic
al t
o o
ls �
In -m
em o
ry a
n al
yt ic
s (s
u ch
a s
R , S
A S,
S P
SS , E
xc e
l)
� Sa
m p
lin g
ca n
s ke
w m
o d
e l a
cc u
ra cy
Is o
la te
d , a
d ho
c an
al yt
ic p
ro je
ct s,
r at
h e
r th
an
ce n
tr al
ly -m
an ag
e d
h ar
n e
ss in
g o
f an
al yt
ic s
� N
o n
-s ta
n d
ar d
iz e
d in
it ia
ti ve
s
� Fr
e q
u e
n tl
y, n
o t
al ig
n e
d w
it h
c o
rp o
ra te
b u
si n
e ss
g o
al s
S lo
w
tim e-
to -in
si gh
t &
re
du ce
d bu
si ne
ss im
pa ct
M o
d u
le 1
: In
tr o
d u
ct io
n t
o B
D A
C o
p yr
ig h
t ©
2 0
1 4
E M
C C
o rp
o ra
ti o
n . A
ll R
ig h
ts R
e se
rv ed
.
O p
p o
rt u
n it
ie s
fo r
a N
ew A
p p
ro ac
h t
o A
n al
yt ic
s N
ew A
p p
lic at
io n
s D
ri vi
n g
D at
a V
o lu
m e
M o
d u
le 1
: In
tr o
d u
ct io
n t
o B
D A
1 3
2 0
0 0 ’
s (C
O N
TE N
T &
D IG
IT A
L A
SS ET
M
A N
A G
EM EN
T)
1 9
9 0 ’
s (R
D B
M S
& D
A TA
W
A R
EH O
U SE
)
2 0
1 0 ’
s (N
O -S
Q L
& K
EY /V
A LU
E)
VOLUME OF INFORMATION
LA R
G E
SM A
LL
M EA
SU R
ED IN
TE R
A B
YT ES
1 TB
= 1
,0 0
0 G
B
M EA
SU R
ED IN
P ET
A B
YT ES
1 P
B =
1 ,0
0 0
TB
W IL
L B
E M
EA SU
R ED
IN
EX A
B YT
ES 1
EB =
1 ,0
0 0
P B
C o
p yr
ig h
t ©
2 0
1 4
E M
C C
o rp
o ra
ti o
n . A
ll R
ig h
ts R
e se
rv ed
.
O p
p o
rt u
n it
ie s
fo r
a N
ew A
p p
ro ac
h t
o A
n al
yt ic
s B
ig D
at a
Ec o
sy st
e m
1 4
1 4
M o
d u
le 1
: In
tr o
d u
ct io
n t
o B
D A
A n
al yt
ic Se
rv ic
es A
d ve
rt is
in g
La w
En fo
rc em
en t
M ed
ia
B an
ks G
o ve
rn m
en t
D el
iv er
y Se
rv ic
e
P ri
va te
In ve
st ig
at o
rs /L
aw ye
rs
M ar
ke te
rs Em
p lo
ye rs
In d
iv id
u al
D a
ta U
s e
rs /
B u
y e
rs
W eb
si te
s
In fo
rm at
io n
B
ro ke
rs
M ed
ia A
rc h
iv es
C re
d it
B
u re
au s
Li st
B ro
ke rs
C at
al o
g C
o -O
p s
R e
ta il
P h
o n
e /T
V
G o
ve rn
m en
t In
te rn
e t
M e
d ic
al
Fi n
an ci
al
D a
ta C
o ll
e c
to rs
D a
ta D
e v
ic e
s
D a
ta A
g g
re g
a to
rs
1
2 3
4
C o
p yr
ig h
t ©
2 0
1 4
E M
C C
o rp
o ra
ti o
n . A
ll R
ig h
ts R
e se
rv ed
.
C o
n si
d e
ra ti
o n
s fo
r B
ig D
at a
A n
al yt
ic s
1 .
Sp e
e d
o f
d e
ci si
o n
m ak
in g
2 .
Th ro
u gh
p u
t
3 .
A n
al ys
is f
le xi
b ili
ty
A n
al yt
ic S
an db
ox D
at a
as se
ts g
at he
re d
fr om
m ul
tip le
s ou
rc es
an
d te
ch no
lo gi
es fo
r an
al ys
is
E na
bl es
h ig
h pe
rf or
m an
ce a
na ly
tic s
us in
g in
-d b
pr oc
es si
ng
R ed
uc es
c os
ts a
ss oc
ia te
d w
ith d
at a
re pl
ic at
io n
in to
" sh
ad ow
" fil
e sy
st em
s
A na
l st
-o ne
d r
at he
r th
an
D B
A
o ne
d
C ri
te ri
a fo
r B
ig D
at a
P ro
je ct
s N
ew A
n al
yt ic
A rc
h it
ec tu
re
1 .
Sp e
e d
o f
d e
ci si
o n
m ak
in g
2 .
Th ro
u gh
p u
t
3 .
A n
al ys
is f
le xi
b ili
ty
1 5
M o
d u
le 1
: In
tr o
d u
ct io
n t
o B
D A
C o
p yr
ig h
t ©
2 0
1 4
E M
C C
o rp
o ra
ti o
n . A
ll R
ig h
ts R
e se
rv ed
.
St at
e o
f th
e P
ra ct
ic e
in A
n al
yt ic
s: M
in i-
C as
e S
tu d
y B
ig D
at a
En ab
le d
L o
an P
ro ce
ss in
g at
Y o
yo d
yn e
Underwriting Risk Tr
ad iti
on al
U nd
er w
rit in
g R
is k
Le ve
l
T R
A D
IT IO
N A
L D
AT A
L E
V E
R A
G E
D B
IG D
AT A
L E
V E
R A
G E
D
B ig
D at
a E
na bl
ed
U nd
er w
rit in
g R
is k
Le ve
l
1 6
M o
d u
le 1
: In
tr o
d u
ct io
n t
o B
D A
Y o
u r
T h
o u
g h
ts ?
C o
p yr
ig h
t ©
2 0
1 4
E M
C C
o rp
o ra
ti o
n . A
ll R
ig h
ts R
e se
rv ed
.
Sk ill
s N
ee d
e d
In t
h e
N ew
D at
a Ec
o sy
st e
m
W h
at n
ew s
ki ll
se ts
d o
y o
u n
e e
d t
o t
ak e
a d
va n
ta ge
o f
th e
b ig
d at
a se
ts in
t h
e lo
an p
ro ce
ss in
g im
p ro
ve m
e n
t ca
se s
tu d
y?
D o
m o
st la
rg e
o rg
an iz
at io
n s
h av
e p
e o
p le
w it
h t
h e
se
sk ill
s et
s?
If s
o , w
h o
a re
t h
ey ?
M o
d u
le 1
: In
tr o
d u
ct io
n t
o B
D A
1 7
Y o
u r
T h
o u
g h
ts ?
C o
p yr
ig h
t ©
2 0
1 4
E M
C C
o rp
o ra
ti o
n . A
ll R
ig h
ts R
e se
rv ed
.
T hr
ee K
ey R
ol es
o f t
he N
ew D
at a
E co
sy st
em
R o
le R
o le
D es
cr ip
ti o
n
D ee
p A
n al
yt ic
al T
al en
t
Pe o
p le
w it
h a
d va
n ce
d t
ra in
in g
in
q u
an ti
ta ti
ve d
is ci
p lin
e s,
s u
ch a
s m
at h
e m
at ic
s, s
ta ti
st ic
s, a
n d
m ac
h in
e
le ar
n in
g.
D at
a Sa
vv y
P ro
fe ss
io n
al s
Pe o
p le
w it
h a
b as
ic k
n o
w le
d ge
o f
st at
is ti
cs an
d /o
r m
ac h
in e
le ar
n in
g, w
h o
c an
d ef
in e
ke
y q
u e
st io
n s
th at
c an
b e
a n
sw e
re d
u si
n g
ad va
n ce
d a
n al
yt ic
s
Te ch
n o
lo gy
& D
at a
En ab
le rs
Pe o
p le
p ro
vi d
in g
te ch
n ic
al e
xp e
rt is
e t
o
su p
p o
rt a
n al
yt ic
al p
ro je
ct s.
S ki
lls s
e ts
in
cl u
d in
g co
m p
u te
r p
ro gr
am m
in g
an d
d
at ab
as e
a d
m in
is tr
at io
n
N ot
e: F
ig ur
es a
bo ve
r ef
le ct
a p
ro je
ct ed
ta le
nt g
ap in
U S
in 2
01 8,
a s
sh ow
n in
M cK
in se
y M
ay 2
01 1
ar tic
le B
ig D
at a:
T he
n ex
t f ro
nt ie
r fo
r in
no va
tio n,
co
m pe
tit io
n, a
nd p
ro du
ct iv
ity
D at
a Sc
ie nt
is ts
Pr oj
ec te
d U
.S .
ta le
nt g
ap :
14 0,
00 0
to
19 0,
00 0
An al
ys ts
& D
at a
Sa vv
y M
an ag
er s
Pr oj
ec te
d U
.S .
ta le
nt g
ap : 1
.5
m ill
io n
1 8
M o
d u
le 1
: In
tr o
d u
ct io
n t
o B
D A
C o
p yr
ig h
t ©
2 0
1 4
E M
C C
o rp
o ra
ti o
n . A
ll R
ig h
ts R
e se
rv ed
.
In fr
as tr
u ct
u re
D at
a Sc
ie n
ti st
K ey
A ct
iv it
ie s
R ef
ra m
e b
u si
n e
ss
ch al
le n
ge s
as a
n al
yt ic
s ch
al le
n ge
s
D e
si gn
, i m
p le
m e
n t
an d
d
e p
lo y
st at
is ti
ca l m
o d
e ls
an
d d
at a
m in
in g
te ch
n iq
u e
s o
n b
ig d
at a
C re
at e
in si
gh ts
t h
at le
ad
to a
ct io
n ab
le
re co
m m
e n
d at
io n
s
D at
a P
la tf
o rm
A
d m
in
To o
ls &
S e
rv ic
e s
A n
al yt
ic P
ro d
u ct
iv it
y P
la tf
o rm
D at
a En
gi n
e er
s D
at a
A n
al ys
t B
l A
n al
ys t
LO B
U
se r
M o
d u
le 1
: In
tr o
d u
ct io
n t
o B
D A
1 9
D at
a Sc
ie n
ti st
s
C o
p yr
ig h
t ©
2 0
1 4
E M
C C
o rp
o ra
ti o
n . A
ll R
ig h
ts R
e se
rv ed
.
P ro
fi le
o f
a D
at a
Sc ie
n ti
st
M o
d u
le 1
: In
tr o
d u
ct io
n t
o B
D A
2 0
Te ch
n ic
al
Q u
an ti
ta ti
ve
C u
ri o
u s
&
C re
at iv
e
C o
m m
un ic
at iv
e &
C o
lla bo
ra ti
ve S
ke p
ti ca
l
C o
p yr
ig h
t ©
2 0
1 4
E M
C C
o rp
o ra
ti o
n . A
ll R
ig h
ts R
e se
rv ed
.
B ig
D at
a A
n al
yt ic
s: In
d u
st ry
E xa
m p
le s
M o
d u
le 1
: In
tr o
d u
ct io
n t
o B
D A
2 1
H e
al th
C ar
e
R e
d u
ci n
g C
o st
o f
C ar
e
P u
b lic
S e
rv ic
e s
P re
ve n
ti n
g P
an d
e m
ic s
Li fe
S ci
e n
ce s
G en
o m
ic M
ap p
in g
IT In
fr as
tr u
ct u
re U
n st
ru ct
u re
d D
at a
A n
al ys
is
O n
lin e
S e
rv ic
e s
So ci
al M
ed ia
f o
r P
ro fe
ss io
n al
s
R e
ta il
P h
o n
e /T
V
G o
ve rn
m en
t In
te rn
e t
M e
d ic
al
Fi n
an ci
al
D a
ta C
o ll
e c
to rs
1 2 3 4 5
C o
p yr
ig h
t ©
2 0
1 4
E M
C C
o rp
o ra
ti o
n . A
ll R
ig h
ts R
e se
rv ed
.
B ig
D at
a A
n al
yt ic
s: H
ea lth
ca re
U se
o f
B ig
D at
a
K ey
O
u tc
o m
es
S it
u at
io n
P oo
r po
lic e
re sp
on se
a nd
p ro
bl em
s w
ith m
ed ic
al c
ar e,
tr ig
ge re
d by
s ho
ot in
g of
a R
ut ge
rs s
tu de
nt T
he e
ve nt
d ro
ve lo
ca l d
oc to
r to
m ap
c rim
e da
ta a
nd e
xa m
in e
lo ca
l h ea
lth c
ar e
D r.
Je ffr
ey B
re nn
er g
en er
at ed
h is
o w
n cr
im e
m ap
s fr
om m
ed ic
al
bi lli
ng r
ec or
ds o
f 3 h
os pi
ta ls
C it
h os
pi ta
ls &
E R
s pr
o id
ed e
pe ns
i e
ca re
, l o
q al
it c
ar e
R ed
ce d
ho sp
ita l c
os ts
b 5
6% b
r ea
li in
g th
at 8
0% o
f c it
s m
ed ic
al c
os ts
c am
e fr
om 1
3% o
f i ts
r es
id en
ts , m
ai nl
y lo
w -
in co
m e
or e
ld er
ly
N ow
o ffe
rs p
re ve
nt at
iv e
ca re
o ve
r th
e ph
on e
or th
ro ug
h ho
m e
vi si
ts
1
2 2
M o
d u
le 1
: In
tr o
d u
ct io
n t
o B
D A
C o
p yr
ig h
t ©
2 0
1 4
E M
C C
o rp
o ra
ti o
n . A
ll R
ig h
ts R
e se
rv ed
.
B ig
D at
a A
n al
yt ic
s: P
ub lic
S er
vi ce
s
U se
o f
B ig
D at
a
K ey
O
u tc
o m
es
S it
u at
io n
T hr
ea t o
f g lo
ba l p
an de
m ic
s ha
s in
cr ea
se d
ex po
ne nt
ia lly
P an
de m
ic s
sp re
ad s
at fa
st er
r at
es , m
or e
re si
st an
t t o
an tib
io tic
s
C re
at ed
a n
et w
or k
of v
ira l l
is te
ni ng
p os
ts
C om
bi ne
s da
ta fr
om v
ira l d
is co
ve ry
in th
e fie
ld , r
es ea
rc h
in
di se
as e
ho ts
po ts
, a nd
s oc
ia l m
ed ia
tr en
ds U
si ng
B ig
D at
a to
m ak
e ac
cu ra
te p
re di
ca tio
ns o
n sp
re ad
o f n
ew
pa nd
em ic
s
Id en
tif ie
d a
fif th
fo rm
o f h
um an
m al
ar ia
, i nc
lu di
ng it
s or
ig in
Id en
tif ie
d w
hy e
ffo rt
s fa
ile d
to c
on tr
ol s
w in
e flu
P ro
po si
ng m
or e
pr oa
ct iv
e ap
pr oa
ch es
to p
re ve
nt in
g ou
tb re
ak s
2
M o
d u
le 1
: In
tr o
d u
ct io
n t
o B
D A
2 3
C o
p yr
ig h
t ©
2 0
1 4
E M
C C
o rp
o ra
ti o
n . A
ll R
ig h
ts R
e se
rv ed
.
B ig
D at
a A
n al
yt ic
s: L
ife S
ci en
ce s
U se
o f
B ig
D at
a
K ey
O
u tc
o m
es
S it
u at
io n
B ro
ad In
st itu
te (
M IT
& H
ar va
rd )
m ap
pi ng
th e
H um
an G
en om
e
In 1
3 yr
s, m
ap pe
d 3
bi lli
on g
en et
ic b
as e
pa irs
; 8 p
et ab
yt es
D ev
el op
ed 3
0+ s
of tw
ar e
pa ck
ag es
, n ow
s ha
re d
pu bl
ic ly
, a lo
ng
w ith
th e
ge no
m ic
d at
a
U si
ng g
en et
ic m
ap pi
ng s
to id
en tif
y ce
llu la
r m
ut at
io ns
c au
si ng
ca
nc er
a nd
o th
er s
er io
us d
is ea
se s
In no
va tin
g ho
w g
en om
ic r
es ea
rc h
in fo
rm s
ne w
p ha
rm ac
eu tic
al
dr ug
s
3
M o
d u
le 1
: In
tr o
d u
ct io
n t
o B
D A
2 4
C o
p yr
ig h
t ©
2 0
1 4
E M
C C
o rp
o ra
ti o
n . A
ll R
ig h
ts R
e se
rv ed
.
B ig
D at
a A
n al
yt ic
s: IT
In fr
as tr
uc tu
re
U se
o f
B ig
D at
a
K ey
O
u tc
o m
es
S it
u at
io n
E xp
lo si
on o
f u ns
tr uc
tu re
d da
ta r
eq ui
re d
ne w
te ch
no lo
gy to
an
al yz
e qu
ic kl
y, a
nd e
ffi ci
en tly
D ou
g C
ut tin
g cr
ea te
d H
ad oo
p to
d iv
id e
la rg
e pr
oc es
si ng
ta sk
s in
to s
m al
le r
ta sk
s ac
ro ss
m an
y co
m pu
te rs
A na
ly ze
s so
ci al
m ed
ia d
at a
ge ne
ra te
d by
h un
dr ed
s of
th
ou sa
nd s
of u
se rs
N ew
Y or
k Ti
m es
u se
d H
ad oo
p to
tr an
sf or
m it
s en
tir e
pu bl
ic
ar ch
iv e,
fr om
1 85
1 to
1 92
2, in
to 1
1 m
ill io
n P
D F
fi le
s in
2 4
hr s
A pp
lic at
io ns
r an
ge fr
om s
oc ia
l m ed
ia , s
en tim
en t a
na ly
si s,
w
ar tim
e ch
at te
r, na
tu ra
l l an
gu ag
e pr
oc es
si ng
4
M o
d u
le 1
: In
tr o
d u
ct io
n t
o B
D A
2 5
C o
p yr
ig h
t ©
2 0
1 4
E M
C C
o rp
o ra
ti o
n . A
ll R
ig h
ts R
e se
rv ed
.
B ig
D at
a A
n al
yt ic
s: O
nl in
e Se
rv ic
es
U se
o f
B ig
D at
a
K ey
O
u tc
o m
es
S it
u at
io n
O pp
or tu
ni ty
to c
re at
e so
ci al
m ed
ia s
pa ce
fo r
pr of
es si
on al
s
C ol
le ct
s an
d an
al yz
es d
at a
fr om
o ve
r 10
0 m
ill io
n us
er s
A dd
in g
1 m
ill io
n ne
w u
se rs
p er
w ee
k
Li nk
ed In
S ki
lls , I
nM ap
s, J
ob R
ec om
m en
da tio
ns , R
ec ru
iti ng
E st
ab lis
he d
a di
ve rs
e da
ta s
ci en
tis t g
ro up
, a s
fo un
de r
be lie
ve s
th is
is th
e st
ar t o
f B ig
D at
a re
vo lu
tio n
5
M o
d u
le 1
: In
tr o
d u
ct io
n t
o B
D A
2 6
C o
p yr
ig h
t ©
2 0
1 4
E M
C C
o rp
o ra
ti o
n . A
ll R
ig h
ts R
e se
rv ed
.
C h
e ck
Y o
u r
K n
o w
le d
ge
1 .
W h
at a
re t
h e
3 c
h ar
ac te
ri st
ic s
o f
B ig
D at
a, a
n d
t h
e
m ai
n c
o n
si d
e ra
ti o
n s
in p
ro ce
ss in
g B
ig D
at a?
2 .
W h
at is
a n
a n
al yt
ic s
an d
b o
x?
3 .
Ex p
la in
t h
e d
if fe
re n
ce b
e tw
e e
n B
u si
n e
ss In
te lli
ge n
ce
an d
D at
a Sc
ie n
ce .
4 .
D e
sc ri
b e
t h
e c
h al
le n
ge s
o f
th e
c u
rr e
n t
an al
yt ic
al
ar ch
it e
ct u
re f
o r
D at
a Sc
ie n
ti st
s.
5 .
W h
at a
re t
h e
k e
y sk
ill s
et s
an d
b e
h av
io ra
l c h
ar ac
te ri
st ic
s o
f a
D at
a Sc
ie n
ti st
?
M o
d u
le 1
: In
tr o
d u
ct io
n t
o B
D A
2 7
Y o
u r
T h
o u
g h
ts ?
C o
p yr
ig h
t ©
2 0
1 4
E M
C C
o rp
o ra
ti o
n . A
ll R
ig h
ts R
e se
rv ed
.
Su m
m ar
y
K ey
p o
in ts
c o
ve re
d in
t h
is le
ss o
n :
B ig
d at
a w
as d
e fi
n e
d
Fo u
r b
u si
n e
ss d
ri ve
rs f
o r
ad va
n ce
d a
n al
yt ic
s w
e re
id e
n ti
fi e
d Th
e t
e ch
n iq
u e
s fo
r B
u si
n e
ss In
te lli
ge n
ce w
e re
d is
ti n
gu is
h e
d f
ro m
th
o se
o f
D at
a Sc
ie n
ce Th
e r
o le
o f
th e
D at
a Sc
ie n
ti st
w it
h in
t h
e n
ew b
ig d
at a
e co
sy st
e m
w
as d
e sc
ri b
e d
M u
lt ip
le il
lu st
ra ti
ve e
xa m
p le
s o
f b
ig d
at a
o p
p o
rt u
n it
ie s
w e
re
ci te
d
M o
d u
le 1
: In
tr o
d u
ct io
n t
o B
D A
2 8