BigData_Week2_Assignment
Co py
ri gh
t © 2
01 2
EM C
Co rp
or at
io n.
A ll
Ri gh
ts R
es er
ve d.
EM C
2 P
R O
V EN
P R
O FE
S S
IO N
A L
M o
d u
le 2
D
a ta
A n
a ly
ti cs
L if
e cy
cl e
1 M
od ul
e 2:
D at
a A
na ly
tic s
Li fe
cy cl
e
Co py
ri gh
t © 2
01 2
EM C
Co rp
or at
io n.
A ll
Ri gh
ts R
es er
ve d.
EM C
2 P
R O
V EN
P R
O FE
S S
IO N
A L
M o
d u
le 2
: D
a ta
A n
a ly
ti cs
L if
e cy
cl e
U po
n co
m pl
et io
n of
th is
m od
ul e,
y ou
s ho
ul d
be a
bl e
to :
• A
pp ly
th e
D at
a A
na ly
tic s
Li fe
cy cl
e to
a c
as e
st ud
y sc
en ar
io
• Fr
am e
a bu
si ne
ss p
ro bl
em a
s an
a na
ly tic
s pr
ob le
m
• Id
en tif
y th
e fo
ur m
ai n
de liv
er ab
le s
in a
n an
al yt
ic s
pr oj
ec t
M od
ul e
2: D
at a
A na
ly tic
s Li
fe cy
cl e
2
Co py
ri gh
t © 2
01 2
EM C
Co rp
or at
io n.
A ll
Ri gh
ts R
es er
ve d.
EM C
2 P
R O
V EN
P R
O FE
S S
IO N
A L
M o
d u
le 2
: D
a ta
A n
a ly
ti cs
L if
e cy
cl e
• D
at a
A na
ly tic
s Li
fe cy
cl e
• Ro
le s
fo r a
S uc
ce ss
fu l A
na ly
tic s
Pr oj
ec t
•
Ca se
S tu
dy to
a pp
ly th
e da
ta a
na ly
tic s
lif ec
yc le
D ur
in g
th is
m od
ul e
th e
fo llo
w in
g to
pi cs
a re
c ov
er ed
: Mo du
le 2
: D at
a A
na ly
tic s
Li fe
cy cl
e 3
Co py
ri gh
t © 2
01 2
EM C
Co rp
or at
io n.
A ll
Ri gh
ts R
es er
ve d.
EM C
2 P
R O
V EN
P R
O FE
S S
IO N
A L
H o
w t
o A
p p
ro a
ch Y
o u
r A
n a
ly ti
cs P
ro b
le m
s
• H
ow d
o yo
u cu
rr en
tly a
pp ro
ac h
yo ur
a na
ly tic
s pr
ob le
m s?
• D
o yo
u fo
llo w
a m
et ho
do lo
gy o
r so
m e
ki nd
o f f
ra m
ew or
k?
•
H ow
d o
yo u
pl an
fo r
an a
na ly
tic
pr oj
ec t?
4 M
od ul
e 2:
D at
a A
na ly
tic s
Li fe
cy cl
e
Y o
u r
T h
o u
g h
ts ?
Co py
ri gh
t © 2
01 2
EM C
Co rp
or at
io n.
A ll
Ri gh
ts R
es er
ve d.
EM C
2 P
R O
V EN
P R
O FE
S S
IO N
A L
• Fo
cu s
yo ur
ti m
e
•
En su
re r
ig or
a nd
c om
pl et
en es
s
• En
ab le
b et
te r
tr an
si tio
n to
m em
be rs
o f t
he c
ro ss
-f un
ct io
na l
an al
yt ic
te am
s �
Re pe
at ab
le
� Sc
al e
to a
dd iti
on al
a na
ly st
s �
Su pp
or t v
al id
ity o
f f in
di ng
s
5
A j
ne
f a
h an
d m
ile b
eg in
i
h a
in gl
e e
L a
T )
M od
ul e
2: D
at a
A na
ly tic
s Li
fe cy
cl e
V a
lu e
o f
U si
n g
th e
D a
ta A
n a
ly ti
cs L
if e
cy cl
e
Co py
ri gh
t © 2
01 2
EM C
Co rp
or at
io n.
A ll
Ri gh
ts R
es er
ve d.
EM C
2 P
R O
V EN
P R
O FE
S S
IO N
A L
6
1. W
el l-d
ef in
ed p
ro ce
ss es
ca
n he
lp g
ui de
a ny
a na
ly tic
pr
oj ec
t
2. Fo
cu s
of D
at a
A na
ly tic
s Li
fe cy
cl e
is o
n D
at a
Sc ie
nc e
pr oj
ec ts
, n ot
b us
in es
s in
te lli
ge nc
e
3. D
at a
Sc ie
nc e
pr oj
ec ts
te nd
to re
qu ire
a m
or e
co ns
ul ta
tiv e
ap pr
oa ch
, a nd
d iff
er in
a fe
w w
ay s
� M
or e
du e
di lig
en ce
in D
is co
ve ry
p ha
se
� M
or e
pr oj
ec ts
w hi
ch la
ck s
ha pe
o r
st ru
ct ur
e �
Le ss
p re
di ct
ab le
d at
a
N e
e d
F o
r a
P ro
ce ss
t o
G u
id e
D a
ta S
ci e
n ce
P ro
je ct
s
6 M
od ul
e 2:
D at
a A
na ly
tic s
Li fe
cy cl
e
Co py
ri gh
t © 2
01 2
EM C
Co rp
or at
io n.
A ll
Ri gh
ts R
es er
ve d.
EM C
2 P
R O
V EN
P R
O FE
S S
IO N
A L
K e
y R
o le
s fo
r a
S u
cc es
sf u
l A n
a ly
ti c
P ro
je ct
M od
ul e
2: D
at a
A na
ly tic
s Li
fe cy
cl e
7
R o
le
D e
sc ri
p ti
o n
B u
si n
es s
U se
r
S o
m e
o n
e w
h o
b e
n e
fi ts
fr o
m t
h e
e n
d r
es u
lt s
a n
d c
a n
c o
n su
lt a
n d
a d
vi se
p ro
je ct
t ea
m o
n
va lu
e o
f e n
d r
es u
lt s
a n
d h
o w
t h
es e
w ill
b e
o p
e ra
ti o
n a
li ze
d
P ro
je ct
S p
o n
so r
P
e rs
o n
r es
p o
n si
b le
fo r
th e
g e
n es
is o
f th
e p
ro je
ct , p
ro vi
d in
g th
e im
p e
tu s
fo r
th e
p ro
je ct
a
n d
c o
re b
u si
n es
s p
ro b
le m
, g e
n e
ra lly
p ro
vi d
es t
h e
f u
n d
in g
a n
d w
ill g
a u
ge t
h e
d eg
re e
o f
va lu
e f
ro m
t h
e f
in a
l o u
tp u
ts o
f th
e w
o rk
in g
te a
m
P ro
je ct
M a
n a
ge r
E
n su
re k
e y
m ile
st o
n es
a n
d o
b je
ct iv
es a
re m
e t
o n
t im
e a
n d
a t
ex p
e ct
e d
q u
a li
ty .
B u
si n
es s
In te
lli ge
n ce
A n
a ly
st
B u
si n
es s
d o
m a
in e
xp e
rt is
e w
it h
d e
e p
u n
d e
rs ta
n d
in g
o f t
h e
d a
ta , K
P Is
, k e
y m
e tr
ic s
a n
d
b u
si n
es s
in te
lli ge
n ce
f ro
m a
r e
p o
rt in
g p
e rs
p e
ct iv
e
D a
ta E
n gi
n e
er
D e
e p
t e
ch n
ic a
l s ki
lls t
o a
ss is
t w
it h
t u
n in
g S
Q L
q u
e ri
es fo
r d
a ta
m a
n a
ge m
en t,
e xt
ra ct
io n
a
n d
s u
p p
o rt
d a
ta in
ge st
t o
a n
a ly
ti c
sa n
d b
o x
D a
ta b
a se
A
d m
in is
tr a
to r
(D B
A )
D a
ta b
a se
A d
m in
is tr
a to
r w
h o
p ro
vi si
o n
s a
n d
c o
n fi
gu re
s d
a ta
b a
se e
n vi
ro n
m en
t t o
su
p p
o rt
t h
e a
n a
ly ti
ca l n
e e
d s
o f
th e
w o
rk in
g te
a m
D a
ta S
ci e
n ti
st
P ro
vi d
e s
u b
je ct
m a
tt e
r ex
p e
rt is
e fo
r a
n a
ly ti
ca l t
e ch
n iq
u es
, d a
ta m
o d
e li
n g,
a p
p ly
in g
v a
li d
a
n a
ly ti
ca l t
e ch
n iq
u es
t o
g iv
e n
b u
si n
es s
p ro
b le
m s
a n
d e
n su
ri n
g o
ve ra
ll a
n a
ly ti
ca l
o b
je ct
iv es
a re
m e
t
Co py
ri gh
t © 2
01 2
EM C
Co rp
or at
io n.
A ll
Ri gh
ts R
es er
ve d.
EM C
2 P
R O
V EN
P R
O FE
S S
IO N
A L
D a
ta A
n a
ly ti
cs L
if e
cy cl
e
M od
ul e
2: D
at a
A na
ly tic
s Li
fe cy
cl e
8
D is
co ve
ry
O pe
ra tio
na liz
e
M od
el
P la
nn in
g
D at
a P
re p
M od
el
B ui
ld in
g
C om
m un
ic at
e
R es
ul ts
D o
I h
a ve
e n
o u
gh
in fo
rm a
ti o
n to
d ra
ft a
n
a n
a ly
ti c
p la
n a
n d
s h
a re
fo r
p e
e r
re vi
e w
?
D o
I h
a ve
e
n o
u gh
g o
o d
q
u a
li ty
d a
ta t
o
st a
rt b
u ild
in g
th e
m o
d e
l?
D o
I h
a ve
a g
o o
d id
ea
a b
o u
t th
e t
yp e
o f m
o d
e l
to t
ry ?
C a
n I
re fi
n e
t h
e
a n
a ly
ti c
p la
n ?
Is t
h e
m o
d e
l r o
b u
st
e n
o u
gh ?
H a
ve w
e
fa ile
d fo
r su
re ?
1
2
3
4
6
5
Co py
ri gh
t © 2
01 2
EM C
Co rp
or at
io n.
A ll
Ri gh
ts R
es er
ve d.
EM C
2 P
R O
V EN
P R
O FE
S S
IO N
A L
D a
ta A
n a
ly ti
cs L
if e
cy cl
e
P h
a se
1 :
D is
co ve
ry
M od
ul e
2: D
at a
A na
ly tic
s Li
fe cy
cl e
11
D is
co ve
ry
O pe
ra tio
na liz
e
M od
el
P la
nn in
g
D at
a P
re p
M od
el
B ui
ld in
g
C om
m un
ic at
e
R es
ul ts
D o
I h
a ve
e n
o u
gh
in fo
rm a
ti o
n to
d ra
ft a
n
a n
a ly
ti c
p la
n a
n d
s h
a re
fo r
p e
e r
re vi
e w
?
D o
I h
a ve
e
n o
u gh
g o
o d
q
u a
li ty
d a
ta t
o
st a
rt b
u ild
in g
th e
m o
d e
l?
D o
I h
a ve
a g
o o
d id
ea
a b
o u
t th
e t
yp e
o f m
o d
e l
to t
ry ?
C a
n I
re fi
n e
t h
e
a n
a ly
ti c
p la
n ?
Is t
h e
m o
d e
l r o
b u
st
e n
o u
gh ?
H a
ve w
e
fa ile
d fo
r su
re ?
• Le
ar n
th e
Bu si
ne ss
D om
ai n
�
D et
er m
in e
am ou
nt o
f d om
ai n
kn ow
le dg
e ne
ed ed
to o
ri en
t y ou
to th
e da
ta a
nd
in te
rp re
t r es
ul ts
d ow
ns tr
ea m
�
D et
er m
in e
th e
ge ne
ra l a
na ly
tic p
ro bl
em ty
pe (s
uc h
as c
lu st
er in
g, c
la ss
ifi ca
tio n)
�
If ou
d on
t kn
o t
he n
co nd
uc t
in iti
al r
es ea
rc h
to le
ar n
ab ou
t t he
d om
ai n
ar ea
ou
ll be
a na
l in
g
• Le
ar n
fr om
t he
p as
t �
H av
e th
er e
be en
p re
vi ou
s at
te m
pt s
in th
e or
ga ni
za tio
n to
s ol
ve th
is p
ro bl
em ?
�
If so
, w hy
d id
th ey
fa il?
W hy
a re
w e
tr yi
ng a
ga in
? H
ow h
av e
th in
gs c
ha ng
ed ?
1
Co py
ri gh
t © 2
01 2
EM C
Co rp
or at
io n.
A ll
Ri gh
ts R
es er
ve d.
EM C
2 P
R O
V EN
P R
O FE
S S
IO N
A L
D a
ta A
n a
ly ti
cs L
if e
cy cl
e
P h
a se
1 :
D is
co ve
ry
M od
ul e
2: D
at a
A na
ly tic
s Li
fe cy
cl e
12
D is
co ve
ry
O pe
ra tio
na liz
e
M od
el
P la
nn in
g
D at
a P
re p
M od
el
B ui
ld in
g
C om
m un
ic at
e
R es
ul ts
D o
I h
a ve
e n
o u
gh
in fo
rm a
ti o
n to
d ra
ft a
n
a n
a ly
ti c
p la
n a
n d
s h
a re
fo r
p e
e r
re vi
e w
?
D o
I h
a ve
e
n o
u gh
g o
o d
q
u a
li ty
d a
ta t
o
st a
rt b
u ild
in g
th e
m o
d e
l?
D o
I h
a ve
a g
o o
d id
ea
a b
o u
t th
e t
yp e
o f m
o d
e l
to t
ry ?
C a
n I
re fi
n e
t h
e
a n
a ly
ti c
p la
n ?
Is t
h e
m o
d e
l r o
b u
st
e n
o u
gh ?
H a
ve w
e
fa ile
d fo
r su
re ?
• Re
so ur
ce s
�
A ss
es s
av ai
la bl
e te
ch no
lo gy
�
Av ai
la bl
e da
ta
s uf
fic ie
nt to
m ee
t y ou
r n ee
ds
� Pe
op le
fo r t
he w
or ki
ng te
am
� A
ss es
s sc
op e
of ti
m e
fo r t
he p
ro je
ct in
c al
en da
r tim
e an
d pe
rs on
-h ou
rs
� D
o yo
u ha
ve s
uf fic
ie nt
re so
ur ce
s to
a tt
em pt
th e
pr oj
ec t?
If n
ot , c
an y
ou g
et
m or
e?
1
Co py
ri gh
t © 2
01 2
EM C
Co rp
or at
io n.
A ll
Ri gh
ts R
es er
ve d.
EM C
2 P
R O
V EN
P R
O FE
S S
IO N
A L
D a
ta A
n a
ly ti
cs L
if e
cy cl
e
P h
a se
1 :
D is
co ve
ry
M od
ul e
2: D
at a
A na
ly tic
s Li
fe cy
cl e
13
D is
co ve
ry
O pe
ra tio
na liz
e
M od
el
P la
nn in
g
D at
a P
re p
M od
el
B ui
ld in
g
C om
m un
ic at
e
R es
ul ts
D o
I h
a ve
e n
o u
gh
in fo
rm a
ti o
n to
d ra
ft a
n
a n
a ly
ti c
p la
n a
n d
s h
a re
fo r
p e
e r
re vi
e w
?
D o
I h
a ve
e
n o
u gh
g o
o d
q
u a
li ty
d a
ta t
o
st a
rt b
u ild
in g
th e
m o
d e
l?
D o
I h
a ve
a g
o o
d id
ea
a b
o u
t th
e t
yp e
o f m
o d
e l
to t
ry ?
C a
n I
re fi
n e
t h
e
a n
a ly
ti c
p la
n ?
Is t
h e
m o
d e
l r o
b u
st
e n
o u
gh ?
H a
ve w
e
fa ile
d fo
r su
re ?
• F
am e
he
bl em
Fr am
in g
is th
e pr
oc es
s of
s ta
tin g
th e
an al
yt ic
s pr
ob le
m
to b
e so
lv ed
�
St at
e th
e an
al yt
ic s
pr ob
le m
, w hy
it is
im po
rt an
t, a
nd to
w ho
m
� Id
en tif
y ke
y st
ak eh
ol de
rs a
nd th
ei r
in te
re st
s in
th e
pr oj
ec t
� Cl
ea rl
y ar
tic ul
at e
th e
cu rr
en t s
itu at
io n
an d
pa in
p oi
nt s
� O
bj ec
tiv es
id
en tif
y w
ha t n
ee ds
to b
e ac
hi ev
ed in
b us
in es
s te
rm s
an d
w ha
t n ee
ds
to b
e do
ne to
m ee
t t he
n ee
ds
� W
ha t i
s th
e go
al W
ha t a
re th
e cr
ite ri
a fo
r su
cc es
s W
ha ts
go
od e
no ug
h
� W
ha t i
s th
e fa
ilu re
c ri
te ri
on (w
he n
do w
e ju
st s
to p
tr yi
ng o
r se
tt le
fo r
w ha
t w e
ha ve
)?
� Id
en tif
y th
e su
cc es
s cr
ite ri
a, k
ey r
is ks
, a nd
s ta
ke ho
ld er
s (s
uc h
as R
AC I)
1
Co py
ri gh
t © 2
01 2
EM C
Co rp
or at
io n.
A ll
Ri gh
ts R
es er
ve d.
EM C
2 P
R O
V EN
P R
O FE
S S
IO N
A L
Ti p
s fo
r In
te rv
ie w
in g
th e
A n
a ly
ti cs
S p
o n
so r
• Ev
en if
ou
a re
gi
ve n
a n
an al
tic p
ro bl
em
ou s
ho ul
d or
k ith
c lie
nt s
to
cl ar
ify a
nd fr
am e
th e
pr ob
le m
�
Yo u
re t
pi ca
ll h
an de
d so
lu tio
ns
ou n
ee d
to
id
en tif
y th
e pr
ob le
m a
nd th
ei r
de si
re d
ou tc
om e
Sp on
so r I
nt er
vi ew
T ip
s
• Pr
ep ar
e fo
r th
e in
te rv
ie w
d
ra ft
y ou
r qu
es tio
ns , r
ev ie
w w
ith c
ol le
ag ue
, t ea
m
• U
se o
pe n-
en de
d qu
es ti
on s
d on
t as
k le
ad in
g qu
es ti
on s
• Pr
ob e
fo r
de ta
ils , f
ol lo
w -u
p •
D on
t fil
l e ve
r s
ile nc
e g
iv e
th em
ti m
e to
th in
k •
Le t
th em
e pr
es s
th ei
r id
ea s
d on
t pu
t or
ds in
th ei
r m
ou th
le t t
he m
s ha
re th
ei r
fe el
in gs
•
A sk
c la
ri fy
in g
qu es
tio ns
, a sk
w hy
is
th at
c or
re ct
? A
m I
on t
ar ge
t? Is
th er
e an
yt hi
ng e
ls e?
•
U se
a ct
iv e
lis te
ni ng
re
pe at
it b
ac k
to m
ak e
su re
y ou
h ea
rd it
c or
re ct
ly
• D
on t
e pr
es s
ou r
op in
io ns
•
Be m
in df
ul o
f y ou
r bo
dy la
ng ua
ge a
nd th
ei rs
u
se e
ye c
on ta
ct , b
e at
te nt
iv e
•
M in
im iz
e di
st ra
ct io
ns
• D
oc um
en t
w ha
t y ou
h ea
rd a
nd re
vi ew
it b
ac k
w ith
th e
sp on
so r
14
14
M od
ul e
2: D
at a
A na
ly tic
s Li
fe cy
cl e
Co py
ri gh
t © 2
01 2
EM C
Co rp
or at
io n.
A ll
Ri gh
ts R
es er
ve d.
EM C
2 P
R O
V EN
P R
O FE
S S
IO N
A L
Ti p
s fo
r In
te rv
ie w
in g
th e
A n
a ly
ti cs
S p
o n
so r
In
te rv
ie w
Q u
es ti
o n
s
• W
ha t i
s th
e bu
si ne
ss p
ro bl
em
ou re
tr in
g to
s ol
ve
• W
ha t i
s yo
ur d
es ire
d ou
tc om
e?
• W
ill th
e fo
cu s
an d
sc op
e of
th e
pr ob
le m
c ha
ng e
if th
e fo
llo w
in g
di m
en si
on s
ch an
ge :
• Ti
m e
a na
ly zi
ng 1
y ea
r or
1 0
ye ar
s w
or th
o f d
at a?
•
Pe op
le
h ow
w ou
ld th
is p
ro je
ct c
ha ng
e th
is ?
• Ri
sk
c on
se rv
at iv
e to
a gg
re ss
iv e
• Re
so ur
ce s
n on
e to
u nl
im ite
d to
ol s
t ec
h
•
Si ze
a nd
a tt
ri bu
te s
of D
at a
• W
ha t d
at a
so ur
ce s
do y
ou h
av e?
•
W ha
t i nd
us tr
y is
su es
m ay
im pa
ct th
e an
al ys
is ?
• W
ha t t
im el
in es
a re
y ou
u p
ag ai
ns t?
•
W ho
c ou
ld p
ro vi
de in
si gh
t i nt
o th
e pr
oj ec
t? C
on su
lte d?
•
W ho
h as
fi na
l s ay
o n
th e
pr oj
ec t?
15
15
M od
ul e
2: D
at a
A na
ly tic
s Li
fe cy
cl e
Co py
ri gh
t © 2
01 2
EM C
Co rp
or at
io n.
A ll
Ri gh
ts R
es er
ve d.
EM C
2 P
R O
V EN
P R
O FE
S S
IO N
A L
D a
ta A
n a
ly ti
cs L
if e
cy cl
e
P h
a se
1 :
D is
co ve
ry
M od
ul e
2: D
at a
A na
ly tic
s Li
fe cy
cl e
16
D is
co ve
ry
O pe
ra tio
na liz
e
M od
el
P la
nn in
g
D at
a P
re p
M od
el
B ui
ld in
g
C om
m un
ic at
e
R es
ul ts
D o
I h
a ve
e n
o u
gh
in fo
rm a
ti o
n to
d ra
ft a
n
a n
a ly
ti c
p la
n a
n d
s h
a re
fo r
p e
e r
re vi
e w
?
D o
I h
a ve
e
n o
u gh
g o
o d
q
u a
li ty
d a
ta t
o
st a
rt b
u ild
in g
th e
m o
d e
l?
D o
I h
a ve
a g
o o
d id
ea
a b
o u
t th
e t
yp e
o f m
o d
e l
to t
ry ?
C a
n I
re fi
n e
t h
e
a n
a ly
ti c
p la
n ?
Is t
h e
m o
d e
l r o
b u
st
e n
o u
gh ?
H a
ve w
e
fa ile
d fo
r su
re ?
• Fo
rm ul
at e
In it
ia l H
yp ot
he se
s
� IH
, H 1 ,
H 2,
H 3
H
n
� G
at he
r an
d as
se ss
h yp
ot he
se s
fr om
s ta
ke ho
ld er
s an
d do
m ai
n ex
pe rt
s
� Pr
el im
in ar
y da
ta e
xp lo
ra tio
n to
in fo
rm d
is cu
ss io
ns w
ith
st ak
eh ol
de rs
d ur
in g
th e
hy po
th es
is fo
rm in
g st
ag e
• Id
en ti
fy D
at a
So ur
ce s
B eg
in L
ea rn
in g
th e
D at
a �
A gg
re ga
te s
ou rc
es fo
r p re
vi ew
in g
th e
da ta
a nd
p ro
vi de
hi
gh -le
ve l u
nd er
st an
di ng
�
Re vi
ew th
e ra
w d
at a
� D
et er
m in
e th
e st
ru ct
ur es
a nd
to ol
s ne
ed ed
�
Sc op
e th
e ki
nd o
f d at
a ne
ed ed
fo r t
hi s
ki nd
o f p
ro bl
em
1
Co py
ri gh
t © 2
01 2
EM C
Co rp
or at
io n.
A ll
Ri gh
ts R
es er
ve d.
EM C
2 P
R O
V EN
P R
O FE
S S
IO N
A L
U si
n g
a S
a m
p le
C a
se S
tu d
y to
T ra
ck t
h e
P h
a se
s in
t h
e
D a
ta A
n a
ly ti
cs L
if e
cy cl
e
Si tu
at io
n Sy
no ps
is
• Re
ta il
Ba nk
, Y oy
od yn
e Ba
nk w
an ts
to im
pr ov
e th
e N
et P
re se
nt V
al ue
(N
PV ) a
nd re
te nt
io n
ra te
o f c
us to
m er
s
• Th
ey w
an t t
o es
ta bl
is h
an e
ff ec
tiv e
m ar
ke tin
g ca
m pa
ig n
ta rg
et in
g cu
st om
er s
to re
du ce
th e
ch ur
n ra
te b
y at
le as
t f iv
e pe
rc en
t
• Th
e ba
nk w
an ts
to d
et er
m in
e w
he th
er th
os e
cu st
om er
s ar
e w
or th
re
ta in
in g.
In a
dd iti
on , t
he b
an k
al so
w an
ts to
a na
ly ze
re as
on s
fo r
cu st
om er
a tt
ri tio
n an
d w
ha t t
he y
ca n
do to
k ee
p th
em
• Th
e ba
nk w
an ts
to b
ui ld
a d
at a
w ar
eh ou
se to
s up
po rt
M ar
ke tin
g an
d ot
he r
re la
te d
cu st
om er
c ar
e gr
ou ps
18
M in
i C as
e S
tu d
y: C
h u
rn P
re d
ic ti
o n
f o
r Y
o yo
d yn
e B
an k
18
M od
ul e
2: D
at a
A na
ly tic
s Li
fe cy
cl e
Co py
ri gh
t © 2
01 2
EM C
Co rp
or at
io n.
A ll
Ri gh
ts R
es er
ve d.
EM C
2 P
R O
V EN
P R
O FE
S S
IO N
A L
H o
w t
o F
ra m
e a
n A
n a
ly ti
cs P
ro b
le m
S a
m p
le B
u si
n es
s P
ro b
le m
s Q
u a
li fi
e rs
A
n a
ly ti
ca l
A p
p ro
a ch
• H
o w
c a
n w
e im
p ro
ve o
n x
? •
W h
a ’
h a
e i
g re
a l-
ti m
e ?
Tr e
n d
s?
• H
o w
c a
n w
e u
se a
n a
ly ti
cs
d if
fe re
n ti
a te
o u
rs e
lv es
•
H o
w c
a n
w e
u se
a n
a ly
ti cs
t o
in
n o
va te
? •
H o
w c
a n
w e
s ta
y a
h ea
d o
f o
u r
b ig
ge st
c o
m p
e ti
to r?
W ill
th e
fo cu
s an
d sc
op e
of th
e pr
ob le
m c
ha ng
e if
th e
fo llo
w in
g di
m en
si on
s ch
an ge
: •
Ti m
e
• P
e o
p le
h
o w
w o
u ld
x c
h a
n ge
t h
is ?
• R
is k
c o
n se
rv a
ti ve
/a gg
re ss
iv e
• R
es o
u rc
es
n o
n e
/u n
li m
it e
d
• S
iz e
o f D
a ta
?
D ef
in e
an a
na ly
tic al
ap
pr oa
ch , i
nc lu
di ng
ke
y te
rm s,
m et
ri cs
, a nd
da
ta n
ee de
d.
Yo yo
d yn
e B
a n
k
H o
w c
a n
w e
im p
ro ve
N
et P
re se
nt V
al ue
( N
PV ) a
nd
re te
nt io
n ra
te o
f t he
c us
to m
er s?
• Ti
m e:
T ra
il in
g 5
m o
n th
s
• P
e o
p le
: W
o rk
in g
te a
m a
n d
b u
si n
es s
u se
rs
fr o
m t
h e
B a
n k
• R
is k:
t h
e p
ro je
ct w
ill fa
il if
w e
c a
n n
o t
d e
te rm
in e
v a
li d
p re
d ic
to rs
o f
ch u
rn
• R
e so
u rc
es :
E D
W , a
n a
ly ti
c sa
n d
b o
x, O
LT P
sy
st e
m
• D
a ta
: U se
2 4
m o
n th
s fo
r th
e t
ra in
in g
se t,
th
e n
a n
a ly
ze 5
m o
n th
s o
f h
is to
ri ca
l d a
ta fo
r th
o se
c u
st o
m e
rs w
h o
c h
u rn
ed
H o
w d
o w
e id
e n
ti fy
ch
u rn
/n o
c h
u rn
fo r
a
cu st
o m
e r?
P
il o
t st
u d
y fo
llo w
e d
fu
ll sc
a le
a n
a ly
ti ca
l m
o d
e l
19
19
M od
ul e
2: D
at a
A na
ly tic
s Li
fe cy
cl e
M in
i C as
e S
tu d
y:
C
h u
rn P
re d
ic ti
o n
f o
r Y
o yo
d yn
e B
an k
M in
i C as
e
S tu
d y
Co py
ri gh
t © 2
01 2
EM C
Co rp
or at
io n.
A ll
Ri gh
ts R
es er
ve d.
EM C
2 P
R O
V EN
P R
O FE
S S
IO N
A L
D a
ta A
n a
ly ti
cs L
if e
cy cl
e
P h
a se
2 :
D a
ta P
re p
a ra
ti o
n
M od
ul e
2: D
at a
A na
ly tic
s Li
fe cy
cl e
20
D is
co ve
ry
O pe
ra tio
na liz
e
M od
el
P la
nn in
g
D at
a P
re p
M od
el
B ui
ld in
g
C om
m un
ic at
e
R es
ul ts
D o
I h
a ve
e n
o u
gh
in fo
rm a
ti o
n to
d ra
ft a
n
a n
a ly
ti c
p la
n a
n d
s h
a re
fo r
p e
e r
re vi
e w
?
D o
I h
a ve
e
n o
u gh
g o
o d
q
u a
li ty
d a
ta t
o
st a
rt b
u ild
in g
th e
m o
d e
l?
D o
I h
a ve
a g
o o
d id
ea
a b
o u
t th
e t
yp e
o f m
o d
e l
to t
ry ?
C a
n I
re fi
n e
t h
e
a n
a ly
ti c
p la
n ?
Is t
h e
m o
d e
l r o
b u
st
e n
o u
gh ?
H a
ve w
e
fa ile
d fo
r su
re ?
• Pr
ep ar
e A
na ly
ti c
Sa nd
bo x
� W
or k
sp ac
e fo
r t he
a na
ly tic
te am
�
10 x+
v s.
E D
W
• Pe
rf or
m E
LT
� D
et er
m in
e ne
ed ed
tr an
sf or
m at
io ns
�
A ss
es s
da ta
q ua
lit y
an d
st ru
ct ur
in g
� D
er iv
e st
at is
tic al
ly u
se fu
l m ea
su re
s
� Ex
tr ac
t d at
a an
d de
te rm
in e
da ta
co
nn ec
tio ns
fo r r
aw d
at a,
O LT
P tr
an sa
ct io
ns , O
LA P
cu be
s or
d at
a fe
ed s
� Bi
g EL
T an
d Bi
g ET
L
• U
se fu
l To
o ls
f o
r th
is p
h as
e:
•
F o
r D
at a
T ra
n sf
o rm
at io
n &
C le
an si
n g
: S
Q L,
H ad
oo p,
M ap
R ed
uc e,
A lp
in e
M in
er
2
Co py
ri gh
t © 2
01 2
EM C
Co rp
or at
io n.
A ll
Ri gh
ts R
es er
ve d.
EM C
2 P
R O
V EN
P R
O FE
S S
IO N
A L
D a
ta A
n a
ly ti
cs L
if e
cy cl
e
P h
a se
2 :
D a
ta P
re p
a ra
ti o
n
M od
ul e
2: D
at a
A na
ly tic
s Li
fe cy
cl e
22
D is
co ve
ry
O pe
ra tio
na liz
e
M od
el
P la
nn in
g
D at
a P
re p
M od
el
B ui
ld in
g
C om
m un
ic at
e
R es
ul ts
D o
I h
a ve
e n
o u
gh
in fo
rm a
ti o
n to
d ra
ft a
n
a n
a ly
ti c
p la
n a
n d
s h
a re
fo r
p e
e r
re vi
e w
?
D o
I h
a ve
e
n o
u gh
g o
o d
q
u a
li ty
d a
ta t
o
st a
rt b
u ild
in g
th e
m o
d e
l?
D o
I h
a ve
a g
o o
d id
ea
a b
o u
t th
e t
yp e
o f m
o d
e l
to t
ry ?
C a
n I
re fi
n e
t h
e
a n
a ly
ti c
p la
n ?
Is t
h e
m o
d e
l r o
b u
st
e n
o u
gh ?
H a
ve w
e
fa ile
d fo
r su
re ?
• Fa
m ili
ar iz
e yo
ur se
lf w
it h
th e
da ta
th or
ou gh
ly
� Li
st y
ou r d
at a
so ur
ce s
� W
ha ts
n ee
de d
vs
ha ts
a va
ila bl
e •
D at
a Co
nd it
io ni
ng
� Cl
ea n
an d
no rm
al iz
e da
ta
� D
is ce
rn w
ha t y
ou k
ee p
vs . w
ha t y
ou d
is ca
rd
• Su
rv ey
& V
is ua
liz e
�
O ve
rv ie
w , z
oo m
& fi
lte r,
de ta
ils -o
n- de
m an
d �
D es
cr ip
tiv e
St at
is tic
s �
D at
a Q
ua lit
y
• U
se fu
l T o
o ls
f o
r th
is p
h as
e:
•
D es
cr ip
tiv e
S ta
tis tic
s on
c an
di da
te v
ar ia
bl es
fo r d
ia gn
os tic
s &
q ua
lit y
• V
is u
al iz
at io
n :
R (
ba se
p ac
ka ge
, g gp
lo t a
nd la
tti ce
), G
nu P
lo t,
G go
bi /R
gg ob
i, S
po tfi
re ,
Ta bl
ea u
2
Co py
ri gh
t © 2
01 2
EM C
Co rp
or at
io n.
A ll
Ri gh
ts R
es er
ve d.
EM C
2 P
R O
V EN
P R
O FE
S S
IO N
A L
D a
ta A
n a
ly ti
cs L
if e
cy cl
e
P h
a se
3 :
M o
d e
l P la
n n
in g
M od
ul e
2: D
at a
A na
ly tic
s Li
fe cy
cl e
24
D is
co ve
ry
O pe
ra tio
na liz
e
M od
el
P la
nn in
g
D at
a P
re p
M od
el
B ui
ld in
g
C om
m un
ic at
e
R es
ul ts
D o
I h
a ve
e n
o u
gh
in fo
rm a
ti o
n to
d ra
ft a
n
a n
a ly
ti c
p la
n a
n d
s h
a re
fo r
p e
e r
re vi
e w
?
D o
I h
a ve
e
n o
u gh
g o
o d
q
u a
li ty
d a
ta t
o
st a
rt b
u ild
in g
th e
m o
d e
l?
D o
I h
a ve
a g
o o
d id
ea
a b
o u
t th
e t
yp e
o f m
o d
e l
to t
ry ?
C a
n I
re fi
n e
t h
e
a n
a ly
ti c
p la
n ?
Is t
h e
m o
d e
l r o
b u
st
e n
o u
gh ?
H a
ve w
e
fa ile
d fo
r su
re ?
• D
et er
m in
e M
et ho
ds
� Se
le ct
m et
ho ds
b as
ed o
n hy
po th
es es
, d at
a st
ru ct
ur e
an d
vo lu
m e
� En
su re
te ch
ni qu
es a
nd a
pp ro
ac h
w ill
m ee
t bu
si ne
ss o
bj ec
tiv es
• Te
ch ni
qu es
& W
or kf
lo w
�
Ca nd
id at
e te
st s
an d
se qu
en ce
�
Id en
tif y
an d
do cu
m en
t m od
el in
g as
su m
pt io
ns
• U
se fu
l To
o ls
f o
r th
is p
h as
e:
R
/P os
tg re
sS Q
L, S
Q L
A na
ly tic
s, A
lp in
e M
in er
, S A
S /A
C C
E S
S , S
P S
S /O
B D
C
3
Co py
ri gh
t © 2
01 2
EM C
Co rp
or at
io n.
A ll
Ri gh
ts R
es er
ve d.
EM C
2 P
R O
V EN
P R
O FE
S S
IO N
A L
D a
ta A
n a
ly ti
cs L
if e
cy cl
e
P h
a se
3 :
M o
d e
l P la
n n
in g
M od
ul e
2: D
at a
A na
ly tic
s Li
fe cy
cl e
26
D is
co ve
ry
O pe
ra tio
na liz
e
M od
el
P la
nn in
g
D at
a P
re p
M od
el
B ui
ld in
g
C om
m un
ic at
e
R es
ul ts
D o
I h
a ve
e n
o u
gh
in fo
rm a
ti o
n to
d ra
ft a
n
a n
a ly
ti c
p la
n a
n d
s h
a re
fo r
p e
e r
re vi
e w
?
D o
I h
a ve
e
n o
u gh
g o
o d
q
u a
li ty
d a
ta t
o
st a
rt b
u ild
in g
th e
m o
d e
l?
D o
I h
a ve
a g
o o
d id
ea
a b
o u
t th
e t
yp e
o f m
o d
e l
to t
ry ?
C a
n I
re fi
n e
t h
e
a n
a ly
ti c
p la
n ?
Is t
h e
m o
d e
l r o
b u
st
e n
o u
gh ?
H a
ve w
e
fa ile
d fo
r su
re ?
• D
at a
Ex pl
or at
io n
•
Va ri
ab le
S el
ec ti
on
� In
pu ts
fr om
s ta
ke ho
ld er
s an
d do
m ai
n ex
pe rt
s
� Ca
pt ur
e es
se nc
e of
th e
pr ed
ic to
rs , l
ev er
ag e
a te
ch ni
qu e
fo r d
im en
si on
al ity
re du
ct io
n
� It
er at
iv e
te st
in g
to c
on fir
m th
e m
os t
si gn
ifi ca
nt v
ar ia
bl es
• M
od el
S el
ec ti
on
� Co
nv er
si on
to S
Q L
or d
at ab
as e
la ng
ua ge
fo r
be st
p er
fo rm
an ce
�
Ch oo
se te
ch ni
qu e
ba se
d on
th e
en d
go al
3
Co py
ri gh
t © 2
01 2
EM C
Co rp
or at
io n.
A ll
Ri gh
ts R
es er
ve d.
EM C
2 P
R O
V EN
P R
O FE
S S
IO N
A L
S a
m p
le R
es ea
rc h
: C
h u
rn P
re d
ic ti
o n
in O
th er
V e
rt ic
a ls
M a
rk e
t S e
ct o
r A
n a
ly ti
c Te
ch n
iq u
e s/
M e
th o
d s
U se
d
W ir
e le
ss T
e le
co m
D
M E
L m
e th
o d
( d
a ta
m in
in g
b y
e vo
lu ti
o n
a ry
le a
rn in
g)
R e
ta il
B u
si n
es s
Lo g
is ti
c re
g re
ss io
n , A
R D
( a
u to
m a
ti c
re le
va n
ce d
e te
rm in
a ti
o n
), d
e ci
si o
n t
re e
D a
il y
G ro
ce ry
M
LR (
m u
lt ip
le li
n e
a r
re g
re ss
io n
), A
R D
, a
n d
d e
ci si
o n
t re
e
W ir
e le
ss T
e le
co m
N
e u
ra l n
e tw
o rk
, d
e ci
si o
n t
re e
, h ie
ra rc
h ic
a l n
e u
ro fu
zz y
sy st
e m
s, r
u le
e vo
lv e
r
R e
ta il
B a
n ki
n g
M u
lt ip
le r
e g
re ss
io n
W ir
e le
ss T
e le
co m
Lo
g is
ti c
re g
re ss
io n
, n e
u ra
l n e
tw o
rk ,
d e
ci si
o n
t re
e
28
28
M od
ul e
2: D
at a
A na
ly tic
s Li
fe cy
cl e
M in
i C as
e S
tu d
y:
C
h u
rn P
re d
ic ti
o n
f o
r Y
o yo
d yn
e B
an k
• A
ft er
c on
du ct
in g
re se
ar ch
o n
ch ur
n pr
ed ic
tio n,
y ou
h av
e id
en tif
ie d
m an
y m
et ho
ds fo
r a na
ly zi
ng c
us to
m er
c hu
rn a
cr os
s m
ul tip
le v
er tic
al s
(t ho
se in
bo
ld a
re ta
ug ht
in th
is c
ou rs
e)
• At
th is
p oi
nt , a
D at
a Sc
ie nt
is t
w ou
ld a
ss es
s th
e m
et ho
ds a
nd s
el ec
t th
e be
st
m od
el fo
r t he
s itu
at io
n
Co py
ri gh
t © 2
01 2
EM C
Co rp
or at
io n.
A ll
Ri gh
ts R
es er
ve d.
EM C
2 P
R O
V EN
P R
O FE
S S
IO N
A L
D a
ta A
n a
ly ti
cs L
if e
cy cl
e
P h
a se
4 :
M o
d e
l B u
il d
in g
M od
ul e
2: D
at a
A na
ly tic
s Li
fe cy
cl e
29
D is
co ve
ry
O pe
ra tio
na liz
e
M od
el
P la
nn in
g
D at
a P
re p
M od
el
B ui
ld in
g
C om
m un
ic at
e
R es
ul ts
D o
I h
a ve
e n
o u
gh
in fo
rm a
ti o
n to
d ra
ft a
n
a n
a ly
ti c
p la
n a
n d
s h
a re
fo r
p e
e r
re vi
e w
?
D o
I h
a ve
e
n o
u gh
g o
o d
q
u a
li ty
d a
ta t
o
st a
rt b
u ild
in g
th e
m o
d e
l?
D o
I h
a ve
a g
o o
d id
ea
a b
o u
t th
e t
yp e
o f m
o d
e l
to t
ry ?
C a
n I
re fi
n e
t h
e
a n
a ly
ti c
p la
n ?
Is t
h e
m o
d e
l r o
b u
st
e n
o u
gh ?
H a
ve w
e
fa ile
d fo
r su
re ?
• D
ev el
op d
at a
se ts
fo r
te st
in g,
tr ai
ni ng
, a nd
p ro
du ct
io n
pu rp
os es
�
N ee
d to
e ns
ur e
th at
th e
m od
el d
at a
is s
uf fic
ie nt
ly ro
bu st
fo r t
he m
od el
an
d an
al yt
ic al
te ch
ni qu
es
� Sm
al le
r, te
st s
et s
fo r v
al id
at in
g ap
pr oa
ch , t
ra in
in g
se t f
or in
iti al
ex
pe ri
m en
ts
• G
et t
he b
es t
en vi
ro nm
en t y
ou c
an fo
r bu
ild in
g m
od el
s an
d w
or kf
lo w
s fa
st h
ar d
ar e
p ar
al le
l p ro
ce ss
in g
• U
se fu
l To
o ls
f o
r th
is p
h as
e :
R , P
L/ R
, S
Q L,
A lp
in e
M in
er , S
A S
E nt
er pr
is e
M in
er
4
Co py
ri gh
t © 2
01 2
EM C
Co rp
or at
io n.
A ll
Ri gh
ts R
es er
ve d.
EM C
2 P
R O
V EN
P R
O FE
S S
IO N
A L
D a
ta A
n a
ly ti
cs L
if e
cy cl
e
P h
a se
5 :
C o
m m
u n
ic a
te R
es u
lt s
D is
co ve
ry
O pe
ra tio
na liz
e
M od
el
P la
nn in
g
D at
a P
re p
M od
el
B ui
ld in
g
C om
m un
ic at
e
R es
ul ts
D o
I h
a ve
e n
o u
gh
in fo
rm a
ti o
n to
d ra
ft a
n
a n
a ly
ti c
p la
n a
n d
s h
a re
fo r
p e
e r
re vi
e w
?
D o
I h
a ve
e
n o
u gh
g o
o d
q
u a
li ty
d a
ta t
o
st a
rt b
u ild
in g
th e
m o
d e
l?
D o
I h
a ve
a g
o o
d id
ea
a b
o u
t th
e t
yp e
o f m
o d
e l
to t
ry ?
C a
n I
re fi
n e
t h
e
a n
a ly
ti c
p la
n ?
Is t
h e
m o
d e
l r o
b u
st
e n
o u
gh ?
H a
ve w
e
fa ile
d fo
r su
re ?
D id
w e
su cc
ee d?
D id
w e
fa il?
• In
te rp
re t t
he re
su lts
•
Co m
pa re
to IH
s fr
om P
ha se
• Id
en tif
y ke
y fin
di ng
s •
Q ua
nt ify
b us
in es
s va
lu e
• Su
m m
ar iz
in g
fin di
ng s,
d ep
en di
ng o
n au
di en
ce
5
F or
th e
Yo yo
D yn
e C
as e
S tu
dy ,
w ha
t w ou
ld b
e so
m e
po ss
ib le
r es
ul ts
a nd
k ey
fi nd
in gs
? M
in i C
as e
S tu
d y:
C h
u rn
P re
d ic
ti o
n f
o r
Y o
yo d
yn e
B an
k
M od
ul e
2: D
at a
A na
ly tic
s Li
fe cy
cl e
31
Co py
ri gh
t © 2
01 2
EM C
Co rp
or at
io n.
A ll
Ri gh
ts R
es er
ve d.
EM C
2 P
R O
V EN
P R
O FE
S S
IO N
A L
D a
ta A
n a
ly ti
cs L
if e
cy cl
e
P h
a se
6 :
O p
er a
ti o
n a
li ze
M od
ul e
2: D
at a
A na
ly tic
s Li
fe cy
cl e
33
D is
co ve
ry
O pe
ra tio
na liz
e
M od
el
P la
nn in
g
D at
a P
re p
M od
el
B ui
ld in
g
C om
m un
ic at
e
R es
ul ts
D o
I h
a ve
e n
o u
gh
in fo
rm a
ti o
n to
d ra
ft a
n
a n
a ly
ti c
p la
n a
n d
s h
a re
fo r
p e
e r
re vi
e w
?
D o
I h
a ve
e
n o
u gh
g o
o d
q
u a
li ty
d a
ta t
o
st a
rt b
u ild
in g
th e
m o
d e
l?
D o
I h
a ve
a g
o o
d id
ea
a b
o u
t th
e t
yp e
o f m
o d
e l
to t
ry ?
C a
n I
re fi
n e
t h
e
a n
a ly
ti c
p la
n ?
Is t
h e
m o
d e
l r o
b u
st
e n
o u
gh ?
H a
ve w
e
fa ile
d fo
r su
re ?
• Ru
n a
pi lo
t •
A ss
es s
th e
be ne
fit s
•
D el
iv er
fi na
l d el
iv er
ab le
s •
M od
el E
xe cu
tio n
in P
ro du
ct io
n En
vi ro
nm en
t •
D ef
in e
pr oc
es s
to u
pd at
e an
d re
tr ai
n th
e m
od el
, a s
ne ed
ed
6
Co py
ri gh
t © 2
01 2
EM C
Co rp
or at
io n.
A ll
Ri gh
ts R
es er
ve d.
EM C
2 P
R O
V EN
P R
O FE
S S
IO N
A L
A n
a ly
ti c
P la
n
35
C o
m p
o n
e n
ts o
f A
n a
ly ti
c P
la n
R
e ta
il B
a n
ki n
g: Y
o yo
d yn
e B
a n
k
P h
a se
1 :
D is
co ve
ry
B u
si n
es s
P ro
b le
m
Fr a
m e
d
H o
w d
o w
e id
e n
ti fy
c h
u rn
/n o
c h
u rn
f o
r a
c u
st o
m e
r?
In it
ia l H
yp o
th es
es
Tr a
n sa
ct io
n v
o lu
m e
a n
d t
yp e
a re
k e
y p
re d
ic to
rs o
f ch
u rn
r a
te s.
D a
ta
5 m
o n
th s
o f
cu st
o m
e r
a cc
o u
n t
h is
to ry
.
P h
a se
3 :
M o
d e
l P
la n
n in
g -
A n
a ly
ti c
Te ch
n iq
u e
Lo gi
st ic
r eg
re ss
io n
t o
id e
n ti
fy m
o st
in fl
u e
n ti
a l f
a ct
o rs
p re
d ic
ti n
g ch
u rn
.
P h
a se
5 :
R
es u
lt &
K e
y Fi
n d
in gs
O n
ce c
u st
o m
e rs
s to
p u
si n
g th
e ir
a cc
o u
n ts
f o
r ga
s a
n d
g ro
ce ri
es ,
th e
y w
ill s
o o
n e
ro d
e t
h e
ir a
cc o
u n
ts a
n d
c h
u rn
. If
c u
st o
m e
rs u
se t
h e
ir d
eb it
c a
rd f
e w
e r
th a
n 5
t im
es p
e r
m o
n th
, t h
e y
w ill
le a
ve t
h e
b a
n k
w it
h in
6 0
d a
ys .
B u
si n
es s
Im p
a ct
If
w e
c a
n t
a rg
e t
cu st
o m
e rs
w h
o a
re h
ig h
-r is
k fo
r ch
u rn
, w e
c a
n r
e d
u ce
cu
st o
m e
r a
tt ri
ti o
n b
y 2
5 %
. T
h is
w o
u ld
s a
ve $
3 m
ill io
n in
lo st
o f
cu st
o m
e r
re ve
n u
e a
n d
a vo
id $
1 .5
m ill
io n
in n
e w
c u
st o
m e
r a
cq u
is it
io n
co
st s
ea ch
y ea
r.
35
M od
ul e
2: D
at a
A na
ly tic
s Li
fe cy
cl e
M in
i C as
e S
tu d
y:
C h
u rn
P re
d ic
ti o
n f
o r
R et
ai l B
an ki
n g
Co py
ri gh
t © 2
01 2
EM C
Co rp
or at
io n.
A ll
Ri gh
ts R
es er
ve d.
EM C
2 P
R O
V EN
P R
O FE
S S
IO N
A L
K e
y O
u tp
u ts
f ro
m a
S u
cc es
sf u
l A n
a ly
ti c
P ro
je ct
, b y
R o
le
M od
ul e
2: D
at a
A na
ly tic
s Li
fe cy
cl e
36
R o
le
D e
sc ri
p ti
o n
W
h a
t th
e R
o le
N e
e d
s in
t h
e F
in a
l D e
li ve
ra b
le s
B u
si n
e ss
U
se r
S o
m e
o n
e w
h o
b en
e fi
ts f
ro m
t h
e e
n d
r e
su lt
s a
n d
c a
n
co n
su lt
a n
d a
d vi
se p
ro je
ct t
ea m
o n
v a
lu e
o f
e n
d r
e su
lt s
a n
d
h o
w t
h e
se w
il l b
e o
p e
ra ti
o n
a li
ze d
• S
p o
n so
r P
re se
n ta
ti o
n a
d d
re ss
in g:
•
A re
t h
e r
e su
lt s
go o
d f
o r
m e
? •
W h
a t
a re
t h
e b
e n
e fi
ts o
f th
e fi
n d
in gs
? •
W h
a t
a re
t h
e im
p li
ca ti
o n
s o
f th
is f
o r
m e
?
P ro
je ct
S
p o
n so
r
P e
rs o
n r
e sp
o n
si b
le fo
r th
e g
e n
e si
s o
f th
e p
ro je
ct , p
ro vi
d in
g th
e im
p e
tu s
fo r
th e
p ro
je ct
a n
d c
o re
b u
si n
e ss
p ro
b le
m ,
ge n
e ra
ll y
p ro
vi d
es t
h e
f u
n d
in g
a n
d w
il l g
a u
ge t
h e
d e
gr e
e o
f va
lu e
f ro
m t
h e
f in
a l o
u tp
u ts
o f
th e
w o
rk in
g te
a m
• S
p o
n so
r P
re se
n ta
ti o
n a
d d
re ss
in g:
•
W h
a ’
h
e b
i e
i a
c
f d
i g
h i
?
• W
h a
t a
re t
h e
r is
ks ?
R O
I?
• H
o w
c a
n t
h is
b e
e va
n ge
li ze
d w
it h
in t
h e
o
rg a
n iz
a ti
o n
( a
n d
b ey
o n
d )?
P ro
je ct
M
a n
a ge
r
E n
su re
k e
y m
il es
to n
e s
a n
d o
b je
ct iv
e s
a re
m et
o n
t im
e a
n d
a
t e
xp e
ct e
d q
u a
li ty
.
B u
si n
e ss
In
te lli
ge n
ce
A n
a ly
st
B u
si n
e ss
d o
m a
in e
xp e
rt is
e w
it h
d e
ep u
n d
e rs
ta n
d in
g o
f th
e
d a
ta ,
K P
Is , k
e y
m e
tr ic
s a
n d
b u
si n
e ss
in te
ll ig
e n
ce fr
o m
a
re p
o rt
in g
p e
rs p
e ct
iv e
• S
h o
w t
h e
a n
a ly
st p
re se
n ta
ti o
n
• D
e te
rm in
e if
t h
e r
e p
o rt
s w
il l c
h a
n ge
D a
ta
E n
gi n
e e
r
D e
e p
t e
ch n
ic a
l s ki
lls t
o a
ss is
t w
it h
t u
n in
g S
Q L
q u
e ri
e s
fo r
d a
ta m
a n
a ge
m en
t, e
xt ra
ct io
n a
n d
s u
p p
o rt
d a
ta in
ge st
t o
a
n a
ly ti
c sa
n d
b o
x
• S
h a
re t
h e
c o
d e
fr o
m t
h e
a n
a ly
ti ca
l p ro
je ct
•
C re
a te
t e
ch n
ic a
l d o
cu m
e n
t o n
h o
w t
o
im p
le m
e n
t it
.
D a
ta b
as e
A d
m in
is tr
a to
r (D
B A
)
D a
ta b
as e
A d
m in
is tr
a to
r w
h o
p ro
vi si
o n
s a
n d
c o
n fi
gu re
s d
a ta
b as
e e
n vi
ro n
m en
t t o
s u
p p
o rt
t h
e a
n a
ly ti
ca l n
e e
d s
o f
th e
w o
rk in
g te
a m
• S
h a
re t
h e
c o
d e
fr o
m t
h e
a n
a ly
ti ca
l p ro
je ct
•
C re
a te
t e
ch n
ic a
l d o
cu m
e n
t o n
h o
w t
o
im p
le m
e n
t it
.
D a
ta
S ci
e n
ti st
P ro
vi d
e su
b je
ct m
a tt
e r
e xp
e rt
is e
f o
r a
n a
ly ti
ca l t
e ch
n iq
u e
s,
d a
ta m
o d
e li
n g,
a p
p ly
in g
va li
d a
n a
ly ti
ca l t
e ch
n iq
u e
s to
g iv
en
b u
si n
e ss
p ro
b le
m s
a n
d e
n su
ri n
g o
ve ra
ll a
n a
ly ti
ca l
o b
je ct
iv e
s a
re m
et
• S
h o
w t
h e
a n
a ly
st p
re se
n ta
ti o
n
• S
h a
re t
h e
c o
d e
Co py
ri gh
t © 2
01 2
EM C
Co rp
or at
io n.
A ll
Ri gh
ts R
es er
ve d.
EM C
2 P
R O
V EN
P R
O FE
S S
IO N
A L
4 C
o re
D e
li ve
ra b
le s
to M
e e
t M
o st
S ta
ke h
o ld
e r
N e
e d
s
1. P
re se
nt at
io n
fo r
Pr oj
ec t S
po ns
or s
• Bi
g pi
ct ur
e" ta
ke aw
ay s
fo r e
xe cu
tiv e
le ve
l s ta
ke ho
ld er
s
• D
et er
m in
e ke
y m
es sa
ge s
to a
id th
ei r
de ci
si on
-m ak
in g
pr oc
es s
•
Fo cu
s on
c le
an , e
as y
vi su
al s
fo r t
he p
re se
nt er
to e
xp la
in a
nd fo
r t he
vi
ew er
to g
ra sp
2. P
re se
nt at
io n
fo r
A na
ly st
s
• Bu
si ne
ss p
ro ce
ss c
ha ng
es
• Re
po rt
in g
ch an
ge s
•
Fe llo
w D
at a
Sc ie
nt is
ts w
ill w
an t t
he d
et ai
ls a
nd a
re c
om fo
rt ab
le w
ith
te ch
ni ca
l g ra
ph s
(s uc
h as
R O
C cu
rv es
, d en
si ty
p lo
ts , h
is to
gr am
s)
3. C
od e
fo r t
ec hn
ic al
p eo
pl e
4. T
ec hn
ic al
s pe
cs o
f i m
pl em
en tin
g th
e co
de
37
M od
ul e
2: D
at a
A na
ly tic
s Li
fe cy
cl e
Co py
ri gh
t © 2
01 2
EM C
Co rp
or at
io n.
A ll
Ri gh
ts R
es er
ve d.
EM C
2 P
R O
V EN
P R
O FE
S S
IO N
A L
A n
a ly
st W
is h
L is
t fo
r a
S u
cc es
sf u
l A n
a ly
ti cs
P ro
je ct
D at
a &
W or
ks pa
ce s
• A
cc es
s to
a ll
th e
da ta
, i nc
lu di
ng a
gg re
ga te
d O
LA P
da ta
, B I t
oo ls
, r aw
d at
a, s
tr uc
tu re
d an
d va
ri ou
s st
at es
o f u
ns tr
uc tu
re d
da ta
a s
ne ed
ed
• U
p- to
-d at
e da
ta d
ic tio
na ry
to d
es cr
ib e
th e
da ta
•
A re
a fo
r st
ag in
g an
d pr
od uc
tio n
da ta
s et
s
• A
bi lit
y to
m ov
e da
ta b
ac k
an d
fo rt
h be
tw ee
n w
or ks
pa ce
s an
d st
ag in
g ar
ea s
•
A na
ly tic
s an
db ox
w ith
s tr
on g
co m
pu te
p ow
er to
e xp
er im
en t a
nd p
la y
w ith
t he
d at
a
To ol
s
• St
at is
tic al
/m at
he m
at ic
al /v
is ua
l s of
tw ar
e of
c ho
ic e
fo r
a gi
ve n
si tu
at io
n an
d pr
ob le
m s
et ,
su ch
a s
SA S,
M at
la b,
R , j
av a
to ol
s, T
ab le
au , S
po tf
ire
• Co
lla bo
ra tio
n: a
n on
lin e
pl at
fo rm
o r
en vi
ro nm
en t f
or c
ol la
bo ra
tio n
an d
co m
m un
ic at
in g
w ith
te am
m em
be rs
•
To ol
o r
pl ac
e to
lo g
er ro
rs w
ith s
ys te
m s,
e nv
iro nm
en ts
o r
da ta
s et
s
39
39
M od
ul e
2: D
at a
A na
ly tic
s Li
fe cy
cl e
Co py
ri gh
t © 2
01 2
EM C
Co rp
or at
io n.
A ll
Ri gh
ts R
es er
ve d.
EM C
2 P
R O
V EN
P R
O FE
S S
IO N
A L
C o
n ce
p ts
in P
ra ct
ic e
G
e e
l ’
A a
ch t
o A
n a
ly ti
cs
M od
ul e
2: D
at a
A na
ly tic
s Li
fe cy
cl e
40
E D
C P
LA TF
O R
M
D at
a
A n
al yt
ic s
A na
ly ze
a nd
M
od el
in th
e cl
ou d
P us
h re
su lts
ba
ck in
to
th e
cl ou
d G
et d
at a
in to
th e
cl ou
d
Past Future
F a
ct s
In
te rp
re ta
ti o
n
W h
a t
w il
l h
a p
p e
n ?
H o
w c
a n
w
e d
o
b e
tt e
r?
W h
a t
h a
p p
e n
e d
w
h e
re a
n d
w
h e
n ?
H o
w a
n d
w
h y
d id
it
h a
p p
e n
?
M ag
ne tic
At tr
ac t a
ll ki
nd s
of d
at a
A gi
le
Fl
ex ib
le a
nd e
la st
ic d
at a
st ru
ct ur
es
D ee
p R
ic h
da ta
re po
si to
ry a
nd
al go
rit hm
ic e
ng in
e
S ou
rc e:
M A
D S
ki lls
: N ew
A na
ly si
s P
ra ct
ic es
fo r
B ig
D at
a, M
ar ch
2 00
9
Co py
ri gh
t © 2
01 2
EM C
Co rp
or at
io n.
A ll
Ri gh
ts R
es er
ve d.
EM C
2 P
R O
V EN
P R
O FE
S S
IO N
A L
Th e
pe ss
im is
t
co m
pl ai
ns a
bo ut
th e
w in
d
Th e
op tim
is t
ex
pe ct
s it
to c
ha ng
e Th
e le
ad er
–
ad ju
st s
th e
sa ils
Jo hn
M ax
w el
l (L
ea de
rs hi
p Au
th or
)
41
M od
ul e
2: D
at a
A na
ly tic
s Li
fe cy
cl e
Co py
ri gh
t © 2
01 2
EM C
Co rp
or at
io n.
A ll
Ri gh
ts R
es er
ve d.
EM C
2 P
R O
V EN
P R
O FE
S S
IO N
A L
C h
e ck
Y o
u r
K n
o w
le d
ge
• In
w hi
ch p
ha se
w ou
ld y
ou e
xp ec
t t o
in ve
st m
os t o
f y ou
r p ro
je ct
ti m
e an
d w
hy ?
W he
re w
ou ld
e xp
ec t t
o sp
en d
th e
le as
t tim
e?
•
W ha
t a re
th e
be ne
fit s
of d
oi ng
a p
ilo t p
ro gr
am b
ef or
e a
fu ll
sc al
e ro
llo ut
o f a
ne
w a
na ly
tic al
m et
ho do
lo gy
? D
is cu
ss th
is in
th e
co nt
ex t o
f t he
m in
i c as
e st
ud y.
• W
ha t k
in ds
o f t
oo ls
w ou
ld b
e us
ed in
th e
fo llo
w in
g ph
as es
, a nd
fo r w
hi ch
ki
nd s
of u
se s
ce na
ri os
? �
Ph as
e 2:
D at
a Pr
ep ar
at io
n �
Ph as
e 4:
M od
el E
xe cu
tio n
• N
ow th
at y
ou h
av e
co m
pl et
ed th
e an
al yt
ic al
p ro
je ct
a t Y
oy od
yn e,
y ou
h av
e an
op
po rt
un ity
to re
pu rp
os e
th is
a pp
ro ac
h fo
r a n
on lin
e eC
om m
er ce
c om
pa ny
. W
ha t p
ha se
s of
th e
lif ec
yc le
d o
yo u
ne ed
to fo
cu s
on to
id en
tif y
w ay
s to
d o
th is
?
42
M od
ul e
2: D
at a
A na
ly tic
s Li
fe cy
cl e
Y o
u r
T h
o u
g h
ts ?
Co py
ri gh
t © 2
01 2
EM C
Co rp
or at
io n.
A ll
Ri gh
ts R
es er
ve d.
EM C
2 P
R O
V EN
P R
O FE
S S
IO N
A L
M od
ul e
2: S
um m
ar y
Ke y
po in
ts c
ov er
ed in
th is
m od
ul e:
•
Th e
D at
a A
na ly
tic s
Li fe
cy cl
e w
as a
pp lie
d to
a c
as e
st ud
y sc
en ar
io
• A
b us
in es
s pr
ob le
m w
as fr
am ed
a s
an a
na ly
tic s
pr ob
le m
•
Th e
fo ur
m ai
n de
liv er
ab le
s in
a n
an al
yt ic
s pr
oj ec
t w er
e id
en tif
ie d
M od
ul e
2: D
at a
A na
ly tic
s Li
fe cy
cl e
43
Co py
ri gh
t © 2
01 2
EM C
Co rp
or at
io n.
A ll
Ri gh
ts R
es er
ve d.
EM C
2 P
R O
V EN
P R
O FE
S S
IO N
A L
La b
E xe
rc is
e 1
: In
tr o
d u
ct io
n t
o D
a ta
E n
vi ro
n m
e n
t
44
M od
ul e
2: D
at a
A na
ly tic
s Li
fe cy
cl e
Th is
fi rs
t la
b in
tr od
uc es
th e
A na
ly tic
s La
b En
vi ro
nm en
t y ou
w
ill b
e w
or ki
ng o
n th
ro ug
ho ut
th e
co ur
se .
A ft
er c
om pl
et in
g th
e ta
sk s
in th
is la
b yo
u sh
ou ld
b e
ab le
to :
• A
ut he
nt ic
at e
an d
ac ce
ss th
e Vi
rt ua
l M ac
hi ne
(V M
) as
si gn
ed to
y ou
fo r a
ll of
y ou
r l ab
e xe
rc is
es
• Lo
ca te
d at
a se
ts y
ou w
ill b
e w
or ki
ng w
ith fo
r t he
co
ur se
s la
bs
• U
se m
et a
co m
m an
ds a
nd P
SQ L
to n
av ig
at e
th ro
ug h
th e
da ta
s et
s •
Cr ea
te s
ub -s
et s
of th
e bi
g da
ta , u
si ng
ta bl
e jo
in s
an d
fil te
rs to
a na
ly ze
s ub
se qu
en t l
ab e
xe rc
is es