BigData_Week2_Assignment

tejasri1607
Week2.pdf

Co py

ri gh

t © 2

01 2

EM C

Co rp

or at

io n.

A ll

Ri gh

ts R

es er

ve d.

EM C

2 P

R O

V EN

P R

O FE

S S

IO N

A L

M o

d u

le 2

D

a ta

A n

a ly

ti cs

L if

e cy

cl e

1 M

od ul

e 2:

D at

a A

na ly

tic s

Li fe

cy cl

e

Co py

ri gh

t © 2

01 2

EM C

Co rp

or at

io n.

A ll

Ri gh

ts R

es er

ve d.

EM C

2 P

R O

V EN

P R

O FE

S S

IO N

A L

M o

d u

le 2

: D

a ta

A n

a ly

ti cs

L if

e cy

cl e

U po

n co

m pl

et io

n of

th is

m od

ul e,

y ou

s ho

ul d

be a

bl e

to :

• A

pp ly

th e

D at

a A

na ly

tic s

Li fe

cy cl

e to

a c

as e

st ud

y sc

en ar

io

• Fr

am e

a bu

si ne

ss p

ro bl

em a

s an

a na

ly tic

s pr

ob le

m

• Id

en tif

y th

e fo

ur m

ai n

de liv

er ab

le s

in a

n an

al yt

ic s

pr oj

ec t

M od

ul e

2: D

at a

A na

ly tic

s Li

fe cy

cl e

2

Co py

ri gh

t © 2

01 2

EM C

Co rp

or at

io n.

A ll

Ri gh

ts R

es er

ve d.

EM C

2 P

R O

V EN

P R

O FE

S S

IO N

A L

M o

d u

le 2

: D

a ta

A n

a ly

ti cs

L if

e cy

cl e

• D

at a

A na

ly tic

s Li

fe cy

cl e

• Ro

le s

fo r a

S uc

ce ss

fu l A

na ly

tic s

Pr oj

ec t

Ca se

S tu

dy to

a pp

ly th

e da

ta a

na ly

tic s

lif ec

yc le

D ur

in g

th is

m od

ul e

th e

fo llo

w in

g to

pi cs

a re

c ov

er ed

: Mo du

le 2

: D at

a A

na ly

tic s

Li fe

cy cl

e 3

Co py

ri gh

t © 2

01 2

EM C

Co rp

or at

io n.

A ll

Ri gh

ts R

es er

ve d.

EM C

2 P

R O

V EN

P R

O FE

S S

IO N

A L

H o

w t

o A

p p

ro a

ch Y

o u

r A

n a

ly ti

cs P

ro b

le m

s

• H

ow d

o yo

u cu

rr en

tly a

pp ro

ac h

yo ur

a na

ly tic

s pr

ob le

m s?

• D

o yo

u fo

llo w

a m

et ho

do lo

gy o

r so

m e

ki nd

o f f

ra m

ew or

k?

H ow

d o

yo u

pl an

fo r

an a

na ly

tic

pr oj

ec t?

4 M

od ul

e 2:

D at

a A

na ly

tic s

Li fe

cy cl

e

Y o

u r

T h

o u

g h

ts ?

Co py

ri gh

t © 2

01 2

EM C

Co rp

or at

io n.

A ll

Ri gh

ts R

es er

ve d.

EM C

2 P

R O

V EN

P R

O FE

S S

IO N

A L

• Fo

cu s

yo ur

ti m

e

En su

re r

ig or

a nd

c om

pl et

en es

s

• En

ab le

b et

te r

tr an

si tio

n to

m em

be rs

o f t

he c

ro ss

-f un

ct io

na l

an al

yt ic

te am

s �

Re pe

at ab

le

� Sc

al e

to a

dd iti

on al

a na

ly st

s �

Su pp

or t v

al id

ity o

f f in

di ng

s

5

A j

ne

f a

h an

d m

ile b

eg in

i

h a

in gl

e e

L a

T )

M od

ul e

2: D

at a

A na

ly tic

s Li

fe cy

cl e

V a

lu e

o f

U si

n g

th e

D a

ta A

n a

ly ti

cs L

if e

cy cl

e

Co py

ri gh

t © 2

01 2

EM C

Co rp

or at

io n.

A ll

Ri gh

ts R

es er

ve d.

EM C

2 P

R O

V EN

P R

O FE

S S

IO N

A L

6

1. W

el l-d

ef in

ed p

ro ce

ss es

ca

n he

lp g

ui de

a ny

a na

ly tic

pr

oj ec

t

2. Fo

cu s

of D

at a

A na

ly tic

s Li

fe cy

cl e

is o

n D

at a

Sc ie

nc e

pr oj

ec ts

, n ot

b us

in es

s in

te lli

ge nc

e

3. D

at a

Sc ie

nc e

pr oj

ec ts

te nd

to re

qu ire

a m

or e

co ns

ul ta

tiv e

ap pr

oa ch

, a nd

d iff

er in

a fe

w w

ay s

� M

or e

du e

di lig

en ce

in D

is co

ve ry

p ha

se

� M

or e

pr oj

ec ts

w hi

ch la

ck s

ha pe

o r

st ru

ct ur

e �

Le ss

p re

di ct

ab le

d at

a

N e

e d

F o

r a

P ro

ce ss

t o

G u

id e

D a

ta S

ci e

n ce

P ro

je ct

s

6 M

od ul

e 2:

D at

a A

na ly

tic s

Li fe

cy cl

e

Co py

ri gh

t © 2

01 2

EM C

Co rp

or at

io n.

A ll

Ri gh

ts R

es er

ve d.

EM C

2 P

R O

V EN

P R

O FE

S S

IO N

A L

K e

y R

o le

s fo

r a

S u

cc es

sf u

l A n

a ly

ti c

P ro

je ct

M od

ul e

2: D

at a

A na

ly tic

s Li

fe cy

cl e

7

R o

le

D e

sc ri

p ti

o n

B u

si n

es s

U se

r

S o

m e

o n

e w

h o

b e

n e

fi ts

fr o

m t

h e

e n

d r

es u

lt s

a n

d c

a n

c o

n su

lt a

n d

a d

vi se

p ro

je ct

t ea

m o

n

va lu

e o

f e n

d r

es u

lt s

a n

d h

o w

t h

es e

w ill

b e

o p

e ra

ti o

n a

li ze

d

P ro

je ct

S p

o n

so r

P

e rs

o n

r es

p o

n si

b le

fo r

th e

g e

n es

is o

f th

e p

ro je

ct , p

ro vi

d in

g th

e im

p e

tu s

fo r

th e

p ro

je ct

a

n d

c o

re b

u si

n es

s p

ro b

le m

, g e

n e

ra lly

p ro

vi d

es t

h e

f u

n d

in g

a n

d w

ill g

a u

ge t

h e

d eg

re e

o f

va lu

e f

ro m

t h

e f

in a

l o u

tp u

ts o

f th

e w

o rk

in g

te a

m

P ro

je ct

M a

n a

ge r

E

n su

re k

e y

m ile

st o

n es

a n

d o

b je

ct iv

es a

re m

e t

o n

t im

e a

n d

a t

ex p

e ct

e d

q u

a li

ty .

B u

si n

es s

In te

lli ge

n ce

A n

a ly

st

B u

si n

es s

d o

m a

in e

xp e

rt is

e w

it h

d e

e p

u n

d e

rs ta

n d

in g

o f t

h e

d a

ta , K

P Is

, k e

y m

e tr

ic s

a n

d

b u

si n

es s

in te

lli ge

n ce

f ro

m a

r e

p o

rt in

g p

e rs

p e

ct iv

e

D a

ta E

n gi

n e

er

D e

e p

t e

ch n

ic a

l s ki

lls t

o a

ss is

t w

it h

t u

n in

g S

Q L

q u

e ri

es fo

r d

a ta

m a

n a

ge m

en t,

e xt

ra ct

io n

a

n d

s u

p p

o rt

d a

ta in

ge st

t o

a n

a ly

ti c

sa n

d b

o x

D a

ta b

a se

A

d m

in is

tr a

to r

(D B

A )

D a

ta b

a se

A d

m in

is tr

a to

r w

h o

p ro

vi si

o n

s a

n d

c o

n fi

gu re

s d

a ta

b a

se e

n vi

ro n

m en

t t o

su

p p

o rt

t h

e a

n a

ly ti

ca l n

e e

d s

o f

th e

w o

rk in

g te

a m

D a

ta S

ci e

n ti

st

P ro

vi d

e s

u b

je ct

m a

tt e

r ex

p e

rt is

e fo

r a

n a

ly ti

ca l t

e ch

n iq

u es

, d a

ta m

o d

e li

n g,

a p

p ly

in g

v a

li d

a

n a

ly ti

ca l t

e ch

n iq

u es

t o

g iv

e n

b u

si n

es s

p ro

b le

m s

a n

d e

n su

ri n

g o

ve ra

ll a

n a

ly ti

ca l

o b

je ct

iv es

a re

m e

t

Co py

ri gh

t © 2

01 2

EM C

Co rp

or at

io n.

A ll

Ri gh

ts R

es er

ve d.

EM C

2 P

R O

V EN

P R

O FE

S S

IO N

A L

D a

ta A

n a

ly ti

cs L

if e

cy cl

e

M od

ul e

2: D

at a

A na

ly tic

s Li

fe cy

cl e

8

D is

co ve

ry

O pe

ra tio

na liz

e

M od

el

P la

nn in

g

D at

a P

re p

M od

el

B ui

ld in

g

C om

m un

ic at

e

R es

ul ts

D o

I h

a ve

e n

o u

gh

in fo

rm a

ti o

n to

d ra

ft a

n

a n

a ly

ti c

p la

n a

n d

s h

a re

fo r

p e

e r

re vi

e w

?

D o

I h

a ve

e

n o

u gh

g o

o d

q

u a

li ty

d a

ta t

o

st a

rt b

u ild

in g

th e

m o

d e

l?

D o

I h

a ve

a g

o o

d id

ea

a b

o u

t th

e t

yp e

o f m

o d

e l

to t

ry ?

C a

n I

re fi

n e

t h

e

a n

a ly

ti c

p la

n ?

Is t

h e

m o

d e

l r o

b u

st

e n

o u

gh ?

H a

ve w

e

fa ile

d fo

r su

re ?

1

2

3

4

6

5

Co py

ri gh

t © 2

01 2

EM C

Co rp

or at

io n.

A ll

Ri gh

ts R

es er

ve d.

EM C

2 P

R O

V EN

P R

O FE

S S

IO N

A L

D a

ta A

n a

ly ti

cs L

if e

cy cl

e

P h

a se

1 :

D is

co ve

ry

M od

ul e

2: D

at a

A na

ly tic

s Li

fe cy

cl e

11

D is

co ve

ry

O pe

ra tio

na liz

e

M od

el

P la

nn in

g

D at

a P

re p

M od

el

B ui

ld in

g

C om

m un

ic at

e

R es

ul ts

D o

I h

a ve

e n

o u

gh

in fo

rm a

ti o

n to

d ra

ft a

n

a n

a ly

ti c

p la

n a

n d

s h

a re

fo r

p e

e r

re vi

e w

?

D o

I h

a ve

e

n o

u gh

g o

o d

q

u a

li ty

d a

ta t

o

st a

rt b

u ild

in g

th e

m o

d e

l?

D o

I h

a ve

a g

o o

d id

ea

a b

o u

t th

e t

yp e

o f m

o d

e l

to t

ry ?

C a

n I

re fi

n e

t h

e

a n

a ly

ti c

p la

n ?

Is t

h e

m o

d e

l r o

b u

st

e n

o u

gh ?

H a

ve w

e

fa ile

d fo

r su

re ?

• Le

ar n

th e

Bu si

ne ss

D om

ai n

D et

er m

in e

am ou

nt o

f d om

ai n

kn ow

le dg

e ne

ed ed

to o

ri en

t y ou

to th

e da

ta a

nd

in te

rp re

t r es

ul ts

d ow

ns tr

ea m

D et

er m

in e

th e

ge ne

ra l a

na ly

tic p

ro bl

em ty

pe (s

uc h

as c

lu st

er in

g, c

la ss

ifi ca

tio n)

If ou

d on

t kn

o t

he n

co nd

uc t

in iti

al r

es ea

rc h

to le

ar n

ab ou

t t he

d om

ai n

ar ea

ou

ll be

a na

l in

g

• Le

ar n

fr om

t he

p as

t �

H av

e th

er e

be en

p re

vi ou

s at

te m

pt s

in th

e or

ga ni

za tio

n to

s ol

ve th

is p

ro bl

em ?

If so

, w hy

d id

th ey

fa il?

W hy

a re

w e

tr yi

ng a

ga in

? H

ow h

av e

th in

gs c

ha ng

ed ?

1

Co py

ri gh

t © 2

01 2

EM C

Co rp

or at

io n.

A ll

Ri gh

ts R

es er

ve d.

EM C

2 P

R O

V EN

P R

O FE

S S

IO N

A L

D a

ta A

n a

ly ti

cs L

if e

cy cl

e

P h

a se

1 :

D is

co ve

ry

M od

ul e

2: D

at a

A na

ly tic

s Li

fe cy

cl e

12

D is

co ve

ry

O pe

ra tio

na liz

e

M od

el

P la

nn in

g

D at

a P

re p

M od

el

B ui

ld in

g

C om

m un

ic at

e

R es

ul ts

D o

I h

a ve

e n

o u

gh

in fo

rm a

ti o

n to

d ra

ft a

n

a n

a ly

ti c

p la

n a

n d

s h

a re

fo r

p e

e r

re vi

e w

?

D o

I h

a ve

e

n o

u gh

g o

o d

q

u a

li ty

d a

ta t

o

st a

rt b

u ild

in g

th e

m o

d e

l?

D o

I h

a ve

a g

o o

d id

ea

a b

o u

t th

e t

yp e

o f m

o d

e l

to t

ry ?

C a

n I

re fi

n e

t h

e

a n

a ly

ti c

p la

n ?

Is t

h e

m o

d e

l r o

b u

st

e n

o u

gh ?

H a

ve w

e

fa ile

d fo

r su

re ?

• Re

so ur

ce s

A ss

es s

av ai

la bl

e te

ch no

lo gy

Av ai

la bl

e da

ta

s uf

fic ie

nt to

m ee

t y ou

r n ee

ds

� Pe

op le

fo r t

he w

or ki

ng te

am

� A

ss es

s sc

op e

of ti

m e

fo r t

he p

ro je

ct in

c al

en da

r tim

e an

d pe

rs on

-h ou

rs

� D

o yo

u ha

ve s

uf fic

ie nt

re so

ur ce

s to

a tt

em pt

th e

pr oj

ec t?

If n

ot , c

an y

ou g

et

m or

e?

1

Co py

ri gh

t © 2

01 2

EM C

Co rp

or at

io n.

A ll

Ri gh

ts R

es er

ve d.

EM C

2 P

R O

V EN

P R

O FE

S S

IO N

A L

D a

ta A

n a

ly ti

cs L

if e

cy cl

e

P h

a se

1 :

D is

co ve

ry

M od

ul e

2: D

at a

A na

ly tic

s Li

fe cy

cl e

13

D is

co ve

ry

O pe

ra tio

na liz

e

M od

el

P la

nn in

g

D at

a P

re p

M od

el

B ui

ld in

g

C om

m un

ic at

e

R es

ul ts

D o

I h

a ve

e n

o u

gh

in fo

rm a

ti o

n to

d ra

ft a

n

a n

a ly

ti c

p la

n a

n d

s h

a re

fo r

p e

e r

re vi

e w

?

D o

I h

a ve

e

n o

u gh

g o

o d

q

u a

li ty

d a

ta t

o

st a

rt b

u ild

in g

th e

m o

d e

l?

D o

I h

a ve

a g

o o

d id

ea

a b

o u

t th

e t

yp e

o f m

o d

e l

to t

ry ?

C a

n I

re fi

n e

t h

e

a n

a ly

ti c

p la

n ?

Is t

h e

m o

d e

l r o

b u

st

e n

o u

gh ?

H a

ve w

e

fa ile

d fo

r su

re ?

• F

am e

he

bl em

Fr am

in g

is th

e pr

oc es

s of

s ta

tin g

th e

an al

yt ic

s pr

ob le

m

to b

e so

lv ed

St at

e th

e an

al yt

ic s

pr ob

le m

, w hy

it is

im po

rt an

t, a

nd to

w ho

m

� Id

en tif

y ke

y st

ak eh

ol de

rs a

nd th

ei r

in te

re st

s in

th e

pr oj

ec t

� Cl

ea rl

y ar

tic ul

at e

th e

cu rr

en t s

itu at

io n

an d

pa in

p oi

nt s

� O

bj ec

tiv es

id

en tif

y w

ha t n

ee ds

to b

e ac

hi ev

ed in

b us

in es

s te

rm s

an d

w ha

t n ee

ds

to b

e do

ne to

m ee

t t he

n ee

ds

� W

ha t i

s th

e go

al W

ha t a

re th

e cr

ite ri

a fo

r su

cc es

s W

ha ts

go

od e

no ug

h

� W

ha t i

s th

e fa

ilu re

c ri

te ri

on (w

he n

do w

e ju

st s

to p

tr yi

ng o

r se

tt le

fo r

w ha

t w e

ha ve

)?

� Id

en tif

y th

e su

cc es

s cr

ite ri

a, k

ey r

is ks

, a nd

s ta

ke ho

ld er

s (s

uc h

as R

AC I)

1

Co py

ri gh

t © 2

01 2

EM C

Co rp

or at

io n.

A ll

Ri gh

ts R

es er

ve d.

EM C

2 P

R O

V EN

P R

O FE

S S

IO N

A L

Ti p

s fo

r In

te rv

ie w

in g

th e

A n

a ly

ti cs

S p

o n

so r

• Ev

en if

ou

a re

gi

ve n

a n

an al

tic p

ro bl

em

ou s

ho ul

d or

k ith

c lie

nt s

to

cl ar

ify a

nd fr

am e

th e

pr ob

le m

Yo u

re t

pi ca

ll h

an de

d so

lu tio

ns

ou n

ee d

to

id

en tif

y th

e pr

ob le

m a

nd th

ei r

de si

re d

ou tc

om e

Sp on

so r I

nt er

vi ew

T ip

s

• Pr

ep ar

e fo

r th

e in

te rv

ie w

d

ra ft

y ou

r qu

es tio

ns , r

ev ie

w w

ith c

ol le

ag ue

, t ea

m

• U

se o

pe n-

en de

d qu

es ti

on s

d on

t as

k le

ad in

g qu

es ti

on s

• Pr

ob e

fo r

de ta

ils , f

ol lo

w -u

p •

D on

t fil

l e ve

r s

ile nc

e g

iv e

th em

ti m

e to

th in

k •

Le t

th em

e pr

es s

th ei

r id

ea s

d on

t pu

t or

ds in

th ei

r m

ou th

le t t

he m

s ha

re th

ei r

fe el

in gs

A sk

c la

ri fy

in g

qu es

tio ns

, a sk

w hy

is

th at

c or

re ct

? A

m I

on t

ar ge

t? Is

th er

e an

yt hi

ng e

ls e?

U se

a ct

iv e

lis te

ni ng

re

pe at

it b

ac k

to m

ak e

su re

y ou

h ea

rd it

c or

re ct

ly

• D

on t

e pr

es s

ou r

op in

io ns

Be m

in df

ul o

f y ou

r bo

dy la

ng ua

ge a

nd th

ei rs

u

se e

ye c

on ta

ct , b

e at

te nt

iv e

M in

im iz

e di

st ra

ct io

ns

• D

oc um

en t

w ha

t y ou

h ea

rd a

nd re

vi ew

it b

ac k

w ith

th e

sp on

so r

14

14

M od

ul e

2: D

at a

A na

ly tic

s Li

fe cy

cl e

Co py

ri gh

t © 2

01 2

EM C

Co rp

or at

io n.

A ll

Ri gh

ts R

es er

ve d.

EM C

2 P

R O

V EN

P R

O FE

S S

IO N

A L

Ti p

s fo

r In

te rv

ie w

in g

th e

A n

a ly

ti cs

S p

o n

so r

In

te rv

ie w

Q u

es ti

o n

s

• W

ha t i

s th

e bu

si ne

ss p

ro bl

em

ou re

tr in

g to

s ol

ve

• W

ha t i

s yo

ur d

es ire

d ou

tc om

e?

• W

ill th

e fo

cu s

an d

sc op

e of

th e

pr ob

le m

c ha

ng e

if th

e fo

llo w

in g

di m

en si

on s

ch an

ge :

• Ti

m e

a na

ly zi

ng 1

y ea

r or

1 0

ye ar

s w

or th

o f d

at a?

Pe op

le

h ow

w ou

ld th

is p

ro je

ct c

ha ng

e th

is ?

• Ri

sk

c on

se rv

at iv

e to

a gg

re ss

iv e

• Re

so ur

ce s

n on

e to

u nl

im ite

d to

ol s

t ec

h

Si ze

a nd

a tt

ri bu

te s

of D

at a

• W

ha t d

at a

so ur

ce s

do y

ou h

av e?

W ha

t i nd

us tr

y is

su es

m ay

im pa

ct th

e an

al ys

is ?

• W

ha t t

im el

in es

a re

y ou

u p

ag ai

ns t?

W ho

c ou

ld p

ro vi

de in

si gh

t i nt

o th

e pr

oj ec

t? C

on su

lte d?

W ho

h as

fi na

l s ay

o n

th e

pr oj

ec t?

15

15

M od

ul e

2: D

at a

A na

ly tic

s Li

fe cy

cl e

Co py

ri gh

t © 2

01 2

EM C

Co rp

or at

io n.

A ll

Ri gh

ts R

es er

ve d.

EM C

2 P

R O

V EN

P R

O FE

S S

IO N

A L

D a

ta A

n a

ly ti

cs L

if e

cy cl

e

P h

a se

1 :

D is

co ve

ry

M od

ul e

2: D

at a

A na

ly tic

s Li

fe cy

cl e

16

D is

co ve

ry

O pe

ra tio

na liz

e

M od

el

P la

nn in

g

D at

a P

re p

M od

el

B ui

ld in

g

C om

m un

ic at

e

R es

ul ts

D o

I h

a ve

e n

o u

gh

in fo

rm a

ti o

n to

d ra

ft a

n

a n

a ly

ti c

p la

n a

n d

s h

a re

fo r

p e

e r

re vi

e w

?

D o

I h

a ve

e

n o

u gh

g o

o d

q

u a

li ty

d a

ta t

o

st a

rt b

u ild

in g

th e

m o

d e

l?

D o

I h

a ve

a g

o o

d id

ea

a b

o u

t th

e t

yp e

o f m

o d

e l

to t

ry ?

C a

n I

re fi

n e

t h

e

a n

a ly

ti c

p la

n ?

Is t

h e

m o

d e

l r o

b u

st

e n

o u

gh ?

H a

ve w

e

fa ile

d fo

r su

re ?

• Fo

rm ul

at e

In it

ia l H

yp ot

he se

s

� IH

, H 1 ,

H 2,

H 3

H

n

� G

at he

r an

d as

se ss

h yp

ot he

se s

fr om

s ta

ke ho

ld er

s an

d do

m ai

n ex

pe rt

s

� Pr

el im

in ar

y da

ta e

xp lo

ra tio

n to

in fo

rm d

is cu

ss io

ns w

ith

st ak

eh ol

de rs

d ur

in g

th e

hy po

th es

is fo

rm in

g st

ag e

• Id

en ti

fy D

at a

So ur

ce s

B eg

in L

ea rn

in g

th e

D at

a �

A gg

re ga

te s

ou rc

es fo

r p re

vi ew

in g

th e

da ta

a nd

p ro

vi de

hi

gh -le

ve l u

nd er

st an

di ng

Re vi

ew th

e ra

w d

at a

� D

et er

m in

e th

e st

ru ct

ur es

a nd

to ol

s ne

ed ed

Sc op

e th

e ki

nd o

f d at

a ne

ed ed

fo r t

hi s

ki nd

o f p

ro bl

em

1

Co py

ri gh

t © 2

01 2

EM C

Co rp

or at

io n.

A ll

Ri gh

ts R

es er

ve d.

EM C

2 P

R O

V EN

P R

O FE

S S

IO N

A L

U si

n g

a S

a m

p le

C a

se S

tu d

y to

T ra

ck t

h e

P h

a se

s in

t h

e

D a

ta A

n a

ly ti

cs L

if e

cy cl

e

Si tu

at io

n Sy

no ps

is

• Re

ta il

Ba nk

, Y oy

od yn

e Ba

nk w

an ts

to im

pr ov

e th

e N

et P

re se

nt V

al ue

(N

PV ) a

nd re

te nt

io n

ra te

o f c

us to

m er

s

• Th

ey w

an t t

o es

ta bl

is h

an e

ff ec

tiv e

m ar

ke tin

g ca

m pa

ig n

ta rg

et in

g cu

st om

er s

to re

du ce

th e

ch ur

n ra

te b

y at

le as

t f iv

e pe

rc en

t

• Th

e ba

nk w

an ts

to d

et er

m in

e w

he th

er th

os e

cu st

om er

s ar

e w

or th

re

ta in

in g.

In a

dd iti

on , t

he b

an k

al so

w an

ts to

a na

ly ze

re as

on s

fo r

cu st

om er

a tt

ri tio

n an

d w

ha t t

he y

ca n

do to

k ee

p th

em

• Th

e ba

nk w

an ts

to b

ui ld

a d

at a

w ar

eh ou

se to

s up

po rt

M ar

ke tin

g an

d ot

he r

re la

te d

cu st

om er

c ar

e gr

ou ps

18

M in

i C as

e S

tu d

y: C

h u

rn P

re d

ic ti

o n

f o

r Y

o yo

d yn

e B

an k

18

M od

ul e

2: D

at a

A na

ly tic

s Li

fe cy

cl e

Co py

ri gh

t © 2

01 2

EM C

Co rp

or at

io n.

A ll

Ri gh

ts R

es er

ve d.

EM C

2 P

R O

V EN

P R

O FE

S S

IO N

A L

H o

w t

o F

ra m

e a

n A

n a

ly ti

cs P

ro b

le m

S a

m p

le B

u si

n es

s P

ro b

le m

s Q

u a

li fi

e rs

A

n a

ly ti

ca l

A p

p ro

a ch

• H

o w

c a

n w

e im

p ro

ve o

n x

? •

W h

a ’

h a

e i

g re

a l-

ti m

e ?

Tr e

n d

s?

• H

o w

c a

n w

e u

se a

n a

ly ti

cs

d if

fe re

n ti

a te

o u

rs e

lv es

H o

w c

a n

w e

u se

a n

a ly

ti cs

t o

in

n o

va te

? •

H o

w c

a n

w e

s ta

y a

h ea

d o

f o

u r

b ig

ge st

c o

m p

e ti

to r?

W ill

th e

fo cu

s an

d sc

op e

of th

e pr

ob le

m c

ha ng

e if

th e

fo llo

w in

g di

m en

si on

s ch

an ge

: •

Ti m

e

• P

e o

p le

h

o w

w o

u ld

x c

h a

n ge

t h

is ?

• R

is k

c o

n se

rv a

ti ve

/a gg

re ss

iv e

• R

es o

u rc

es

n o

n e

/u n

li m

it e

d

• S

iz e

o f D

a ta

?

D ef

in e

an a

na ly

tic al

ap

pr oa

ch , i

nc lu

di ng

ke

y te

rm s,

m et

ri cs

, a nd

da

ta n

ee de

d.

Yo yo

d yn

e B

a n

k

H o

w c

a n

w e

im p

ro ve

N

et P

re se

nt V

al ue

( N

PV ) a

nd

re te

nt io

n ra

te o

f t he

c us

to m

er s?

• Ti

m e:

T ra

il in

g 5

m o

n th

s

• P

e o

p le

: W

o rk

in g

te a

m a

n d

b u

si n

es s

u se

rs

fr o

m t

h e

B a

n k

• R

is k:

t h

e p

ro je

ct w

ill fa

il if

w e

c a

n n

o t

d e

te rm

in e

v a

li d

p re

d ic

to rs

o f

ch u

rn

• R

e so

u rc

es :

E D

W , a

n a

ly ti

c sa

n d

b o

x, O

LT P

sy

st e

m

• D

a ta

: U se

2 4

m o

n th

s fo

r th

e t

ra in

in g

se t,

th

e n

a n

a ly

ze 5

m o

n th

s o

f h

is to

ri ca

l d a

ta fo

r th

o se

c u

st o

m e

rs w

h o

c h

u rn

ed

H o

w d

o w

e id

e n

ti fy

ch

u rn

/n o

c h

u rn

fo r

a

cu st

o m

e r?

P

il o

t st

u d

y fo

llo w

e d

fu

ll sc

a le

a n

a ly

ti ca

l m

o d

e l

19

19

M od

ul e

2: D

at a

A na

ly tic

s Li

fe cy

cl e

M in

i C as

e S

tu d

y:

C

h u

rn P

re d

ic ti

o n

f o

r Y

o yo

d yn

e B

an k

M in

i C as

e

S tu

d y

Co py

ri gh

t © 2

01 2

EM C

Co rp

or at

io n.

A ll

Ri gh

ts R

es er

ve d.

EM C

2 P

R O

V EN

P R

O FE

S S

IO N

A L

D a

ta A

n a

ly ti

cs L

if e

cy cl

e

P h

a se

2 :

D a

ta P

re p

a ra

ti o

n

M od

ul e

2: D

at a

A na

ly tic

s Li

fe cy

cl e

20

D is

co ve

ry

O pe

ra tio

na liz

e

M od

el

P la

nn in

g

D at

a P

re p

M od

el

B ui

ld in

g

C om

m un

ic at

e

R es

ul ts

D o

I h

a ve

e n

o u

gh

in fo

rm a

ti o

n to

d ra

ft a

n

a n

a ly

ti c

p la

n a

n d

s h

a re

fo r

p e

e r

re vi

e w

?

D o

I h

a ve

e

n o

u gh

g o

o d

q

u a

li ty

d a

ta t

o

st a

rt b

u ild

in g

th e

m o

d e

l?

D o

I h

a ve

a g

o o

d id

ea

a b

o u

t th

e t

yp e

o f m

o d

e l

to t

ry ?

C a

n I

re fi

n e

t h

e

a n

a ly

ti c

p la

n ?

Is t

h e

m o

d e

l r o

b u

st

e n

o u

gh ?

H a

ve w

e

fa ile

d fo

r su

re ?

• Pr

ep ar

e A

na ly

ti c

Sa nd

bo x

� W

or k

sp ac

e fo

r t he

a na

ly tic

te am

10 x+

v s.

E D

W

• Pe

rf or

m E

LT

� D

et er

m in

e ne

ed ed

tr an

sf or

m at

io ns

A ss

es s

da ta

q ua

lit y

an d

st ru

ct ur

in g

� D

er iv

e st

at is

tic al

ly u

se fu

l m ea

su re

s

� Ex

tr ac

t d at

a an

d de

te rm

in e

da ta

co

nn ec

tio ns

fo r r

aw d

at a,

O LT

P tr

an sa

ct io

ns , O

LA P

cu be

s or

d at

a fe

ed s

� Bi

g EL

T an

d Bi

g ET

L

• U

se fu

l To

o ls

f o

r th

is p

h as

e:

F o

r D

at a

T ra

n sf

o rm

at io

n &

C le

an si

n g

: S

Q L,

H ad

oo p,

M ap

R ed

uc e,

A lp

in e

M in

er

2

Co py

ri gh

t © 2

01 2

EM C

Co rp

or at

io n.

A ll

Ri gh

ts R

es er

ve d.

EM C

2 P

R O

V EN

P R

O FE

S S

IO N

A L

D a

ta A

n a

ly ti

cs L

if e

cy cl

e

P h

a se

2 :

D a

ta P

re p

a ra

ti o

n

M od

ul e

2: D

at a

A na

ly tic

s Li

fe cy

cl e

22

D is

co ve

ry

O pe

ra tio

na liz

e

M od

el

P la

nn in

g

D at

a P

re p

M od

el

B ui

ld in

g

C om

m un

ic at

e

R es

ul ts

D o

I h

a ve

e n

o u

gh

in fo

rm a

ti o

n to

d ra

ft a

n

a n

a ly

ti c

p la

n a

n d

s h

a re

fo r

p e

e r

re vi

e w

?

D o

I h

a ve

e

n o

u gh

g o

o d

q

u a

li ty

d a

ta t

o

st a

rt b

u ild

in g

th e

m o

d e

l?

D o

I h

a ve

a g

o o

d id

ea

a b

o u

t th

e t

yp e

o f m

o d

e l

to t

ry ?

C a

n I

re fi

n e

t h

e

a n

a ly

ti c

p la

n ?

Is t

h e

m o

d e

l r o

b u

st

e n

o u

gh ?

H a

ve w

e

fa ile

d fo

r su

re ?

• Fa

m ili

ar iz

e yo

ur se

lf w

it h

th e

da ta

th or

ou gh

ly

� Li

st y

ou r d

at a

so ur

ce s

� W

ha ts

n ee

de d

vs

ha ts

a va

ila bl

e •

D at

a Co

nd it

io ni

ng

� Cl

ea n

an d

no rm

al iz

e da

ta

� D

is ce

rn w

ha t y

ou k

ee p

vs . w

ha t y

ou d

is ca

rd

• Su

rv ey

& V

is ua

liz e

O ve

rv ie

w , z

oo m

& fi

lte r,

de ta

ils -o

n- de

m an

d �

D es

cr ip

tiv e

St at

is tic

s �

D at

a Q

ua lit

y

• U

se fu

l T o

o ls

f o

r th

is p

h as

e:

D es

cr ip

tiv e

S ta

tis tic

s on

c an

di da

te v

ar ia

bl es

fo r d

ia gn

os tic

s &

q ua

lit y

• V

is u

al iz

at io

n :

R (

ba se

p ac

ka ge

, g gp

lo t a

nd la

tti ce

), G

nu P

lo t,

G go

bi /R

gg ob

i, S

po tfi

re ,

Ta bl

ea u

2

Co py

ri gh

t © 2

01 2

EM C

Co rp

or at

io n.

A ll

Ri gh

ts R

es er

ve d.

EM C

2 P

R O

V EN

P R

O FE

S S

IO N

A L

D a

ta A

n a

ly ti

cs L

if e

cy cl

e

P h

a se

3 :

M o

d e

l P la

n n

in g

M od

ul e

2: D

at a

A na

ly tic

s Li

fe cy

cl e

24

D is

co ve

ry

O pe

ra tio

na liz

e

M od

el

P la

nn in

g

D at

a P

re p

M od

el

B ui

ld in

g

C om

m un

ic at

e

R es

ul ts

D o

I h

a ve

e n

o u

gh

in fo

rm a

ti o

n to

d ra

ft a

n

a n

a ly

ti c

p la

n a

n d

s h

a re

fo r

p e

e r

re vi

e w

?

D o

I h

a ve

e

n o

u gh

g o

o d

q

u a

li ty

d a

ta t

o

st a

rt b

u ild

in g

th e

m o

d e

l?

D o

I h

a ve

a g

o o

d id

ea

a b

o u

t th

e t

yp e

o f m

o d

e l

to t

ry ?

C a

n I

re fi

n e

t h

e

a n

a ly

ti c

p la

n ?

Is t

h e

m o

d e

l r o

b u

st

e n

o u

gh ?

H a

ve w

e

fa ile

d fo

r su

re ?

• D

et er

m in

e M

et ho

ds

� Se

le ct

m et

ho ds

b as

ed o

n hy

po th

es es

, d at

a st

ru ct

ur e

an d

vo lu

m e

� En

su re

te ch

ni qu

es a

nd a

pp ro

ac h

w ill

m ee

t bu

si ne

ss o

bj ec

tiv es

• Te

ch ni

qu es

& W

or kf

lo w

Ca nd

id at

e te

st s

an d

se qu

en ce

Id en

tif y

an d

do cu

m en

t m od

el in

g as

su m

pt io

ns

• U

se fu

l To

o ls

f o

r th

is p

h as

e:

R

/P os

tg re

sS Q

L, S

Q L

A na

ly tic

s, A

lp in

e M

in er

, S A

S /A

C C

E S

S , S

P S

S /O

B D

C

3

Co py

ri gh

t © 2

01 2

EM C

Co rp

or at

io n.

A ll

Ri gh

ts R

es er

ve d.

EM C

2 P

R O

V EN

P R

O FE

S S

IO N

A L

D a

ta A

n a

ly ti

cs L

if e

cy cl

e

P h

a se

3 :

M o

d e

l P la

n n

in g

M od

ul e

2: D

at a

A na

ly tic

s Li

fe cy

cl e

26

D is

co ve

ry

O pe

ra tio

na liz

e

M od

el

P la

nn in

g

D at

a P

re p

M od

el

B ui

ld in

g

C om

m un

ic at

e

R es

ul ts

D o

I h

a ve

e n

o u

gh

in fo

rm a

ti o

n to

d ra

ft a

n

a n

a ly

ti c

p la

n a

n d

s h

a re

fo r

p e

e r

re vi

e w

?

D o

I h

a ve

e

n o

u gh

g o

o d

q

u a

li ty

d a

ta t

o

st a

rt b

u ild

in g

th e

m o

d e

l?

D o

I h

a ve

a g

o o

d id

ea

a b

o u

t th

e t

yp e

o f m

o d

e l

to t

ry ?

C a

n I

re fi

n e

t h

e

a n

a ly

ti c

p la

n ?

Is t

h e

m o

d e

l r o

b u

st

e n

o u

gh ?

H a

ve w

e

fa ile

d fo

r su

re ?

• D

at a

Ex pl

or at

io n

Va ri

ab le

S el

ec ti

on

� In

pu ts

fr om

s ta

ke ho

ld er

s an

d do

m ai

n ex

pe rt

s

� Ca

pt ur

e es

se nc

e of

th e

pr ed

ic to

rs , l

ev er

ag e

a te

ch ni

qu e

fo r d

im en

si on

al ity

re du

ct io

n

� It

er at

iv e

te st

in g

to c

on fir

m th

e m

os t

si gn

ifi ca

nt v

ar ia

bl es

• M

od el

S el

ec ti

on

� Co

nv er

si on

to S

Q L

or d

at ab

as e

la ng

ua ge

fo r

be st

p er

fo rm

an ce

Ch oo

se te

ch ni

qu e

ba se

d on

th e

en d

go al

3

Co py

ri gh

t © 2

01 2

EM C

Co rp

or at

io n.

A ll

Ri gh

ts R

es er

ve d.

EM C

2 P

R O

V EN

P R

O FE

S S

IO N

A L

S a

m p

le R

es ea

rc h

: C

h u

rn P

re d

ic ti

o n

in O

th er

V e

rt ic

a ls

M a

rk e

t S e

ct o

r A

n a

ly ti

c Te

ch n

iq u

e s/

M e

th o

d s

U se

d

W ir

e le

ss T

e le

co m

D

M E

L m

e th

o d

( d

a ta

m in

in g

b y

e vo

lu ti

o n

a ry

le a

rn in

g)

R e

ta il

B u

si n

es s

Lo g

is ti

c re

g re

ss io

n , A

R D

( a

u to

m a

ti c

re le

va n

ce d

e te

rm in

a ti

o n

), d

e ci

si o

n t

re e

D a

il y

G ro

ce ry

M

LR (

m u

lt ip

le li

n e

a r

re g

re ss

io n

), A

R D

, a

n d

d e

ci si

o n

t re

e

W ir

e le

ss T

e le

co m

N

e u

ra l n

e tw

o rk

, d

e ci

si o

n t

re e

, h ie

ra rc

h ic

a l n

e u

ro fu

zz y

sy st

e m

s, r

u le

e vo

lv e

r

R e

ta il

B a

n ki

n g

M u

lt ip

le r

e g

re ss

io n

W ir

e le

ss T

e le

co m

Lo

g is

ti c

re g

re ss

io n

, n e

u ra

l n e

tw o

rk ,

d e

ci si

o n

t re

e

28

28

M od

ul e

2: D

at a

A na

ly tic

s Li

fe cy

cl e

M in

i C as

e S

tu d

y:

C

h u

rn P

re d

ic ti

o n

f o

r Y

o yo

d yn

e B

an k

• A

ft er

c on

du ct

in g

re se

ar ch

o n

ch ur

n pr

ed ic

tio n,

y ou

h av

e id

en tif

ie d

m an

y m

et ho

ds fo

r a na

ly zi

ng c

us to

m er

c hu

rn a

cr os

s m

ul tip

le v

er tic

al s

(t ho

se in

bo

ld a

re ta

ug ht

in th

is c

ou rs

e)

• At

th is

p oi

nt , a

D at

a Sc

ie nt

is t

w ou

ld a

ss es

s th

e m

et ho

ds a

nd s

el ec

t th

e be

st

m od

el fo

r t he

s itu

at io

n

Co py

ri gh

t © 2

01 2

EM C

Co rp

or at

io n.

A ll

Ri gh

ts R

es er

ve d.

EM C

2 P

R O

V EN

P R

O FE

S S

IO N

A L

D a

ta A

n a

ly ti

cs L

if e

cy cl

e

P h

a se

4 :

M o

d e

l B u

il d

in g

M od

ul e

2: D

at a

A na

ly tic

s Li

fe cy

cl e

29

D is

co ve

ry

O pe

ra tio

na liz

e

M od

el

P la

nn in

g

D at

a P

re p

M od

el

B ui

ld in

g

C om

m un

ic at

e

R es

ul ts

D o

I h

a ve

e n

o u

gh

in fo

rm a

ti o

n to

d ra

ft a

n

a n

a ly

ti c

p la

n a

n d

s h

a re

fo r

p e

e r

re vi

e w

?

D o

I h

a ve

e

n o

u gh

g o

o d

q

u a

li ty

d a

ta t

o

st a

rt b

u ild

in g

th e

m o

d e

l?

D o

I h

a ve

a g

o o

d id

ea

a b

o u

t th

e t

yp e

o f m

o d

e l

to t

ry ?

C a

n I

re fi

n e

t h

e

a n

a ly

ti c

p la

n ?

Is t

h e

m o

d e

l r o

b u

st

e n

o u

gh ?

H a

ve w

e

fa ile

d fo

r su

re ?

• D

ev el

op d

at a

se ts

fo r

te st

in g,

tr ai

ni ng

, a nd

p ro

du ct

io n

pu rp

os es

N ee

d to

e ns

ur e

th at

th e

m od

el d

at a

is s

uf fic

ie nt

ly ro

bu st

fo r t

he m

od el

an

d an

al yt

ic al

te ch

ni qu

es

� Sm

al le

r, te

st s

et s

fo r v

al id

at in

g ap

pr oa

ch , t

ra in

in g

se t f

or in

iti al

ex

pe ri

m en

ts

• G

et t

he b

es t

en vi

ro nm

en t y

ou c

an fo

r bu

ild in

g m

od el

s an

d w

or kf

lo w

s fa

st h

ar d

ar e

p ar

al le

l p ro

ce ss

in g

• U

se fu

l To

o ls

f o

r th

is p

h as

e :

R , P

L/ R

, S

Q L,

A lp

in e

M in

er , S

A S

E nt

er pr

is e

M in

er

4

Co py

ri gh

t © 2

01 2

EM C

Co rp

or at

io n.

A ll

Ri gh

ts R

es er

ve d.

EM C

2 P

R O

V EN

P R

O FE

S S

IO N

A L

D a

ta A

n a

ly ti

cs L

if e

cy cl

e

P h

a se

5 :

C o

m m

u n

ic a

te R

es u

lt s

D is

co ve

ry

O pe

ra tio

na liz

e

M od

el

P la

nn in

g

D at

a P

re p

M od

el

B ui

ld in

g

C om

m un

ic at

e

R es

ul ts

D o

I h

a ve

e n

o u

gh

in fo

rm a

ti o

n to

d ra

ft a

n

a n

a ly

ti c

p la

n a

n d

s h

a re

fo r

p e

e r

re vi

e w

?

D o

I h

a ve

e

n o

u gh

g o

o d

q

u a

li ty

d a

ta t

o

st a

rt b

u ild

in g

th e

m o

d e

l?

D o

I h

a ve

a g

o o

d id

ea

a b

o u

t th

e t

yp e

o f m

o d

e l

to t

ry ?

C a

n I

re fi

n e

t h

e

a n

a ly

ti c

p la

n ?

Is t

h e

m o

d e

l r o

b u

st

e n

o u

gh ?

H a

ve w

e

fa ile

d fo

r su

re ?

D id

w e

su cc

ee d?

D id

w e

fa il?

• In

te rp

re t t

he re

su lts

Co m

pa re

to IH

s fr

om P

ha se

• Id

en tif

y ke

y fin

di ng

s •

Q ua

nt ify

b us

in es

s va

lu e

• Su

m m

ar iz

in g

fin di

ng s,

d ep

en di

ng o

n au

di en

ce

5

F or

th e

Yo yo

D yn

e C

as e

S tu

dy ,

w ha

t w ou

ld b

e so

m e

po ss

ib le

r es

ul ts

a nd

k ey

fi nd

in gs

? M

in i C

as e

S tu

d y:

C h

u rn

P re

d ic

ti o

n f

o r

Y o

yo d

yn e

B an

k

M od

ul e

2: D

at a

A na

ly tic

s Li

fe cy

cl e

31

Co py

ri gh

t © 2

01 2

EM C

Co rp

or at

io n.

A ll

Ri gh

ts R

es er

ve d.

EM C

2 P

R O

V EN

P R

O FE

S S

IO N

A L

D a

ta A

n a

ly ti

cs L

if e

cy cl

e

P h

a se

6 :

O p

er a

ti o

n a

li ze

M od

ul e

2: D

at a

A na

ly tic

s Li

fe cy

cl e

33

D is

co ve

ry

O pe

ra tio

na liz

e

M od

el

P la

nn in

g

D at

a P

re p

M od

el

B ui

ld in

g

C om

m un

ic at

e

R es

ul ts

D o

I h

a ve

e n

o u

gh

in fo

rm a

ti o

n to

d ra

ft a

n

a n

a ly

ti c

p la

n a

n d

s h

a re

fo r

p e

e r

re vi

e w

?

D o

I h

a ve

e

n o

u gh

g o

o d

q

u a

li ty

d a

ta t

o

st a

rt b

u ild

in g

th e

m o

d e

l?

D o

I h

a ve

a g

o o

d id

ea

a b

o u

t th

e t

yp e

o f m

o d

e l

to t

ry ?

C a

n I

re fi

n e

t h

e

a n

a ly

ti c

p la

n ?

Is t

h e

m o

d e

l r o

b u

st

e n

o u

gh ?

H a

ve w

e

fa ile

d fo

r su

re ?

• Ru

n a

pi lo

t •

A ss

es s

th e

be ne

fit s

D el

iv er

fi na

l d el

iv er

ab le

s •

M od

el E

xe cu

tio n

in P

ro du

ct io

n En

vi ro

nm en

t •

D ef

in e

pr oc

es s

to u

pd at

e an

d re

tr ai

n th

e m

od el

, a s

ne ed

ed

6

Co py

ri gh

t © 2

01 2

EM C

Co rp

or at

io n.

A ll

Ri gh

ts R

es er

ve d.

EM C

2 P

R O

V EN

P R

O FE

S S

IO N

A L

A n

a ly

ti c

P la

n

35

C o

m p

o n

e n

ts o

f A

n a

ly ti

c P

la n

R

e ta

il B

a n

ki n

g: Y

o yo

d yn

e B

a n

k

P h

a se

1 :

D is

co ve

ry

B u

si n

es s

P ro

b le

m

Fr a

m e

d

H o

w d

o w

e id

e n

ti fy

c h

u rn

/n o

c h

u rn

f o

r a

c u

st o

m e

r?

In it

ia l H

yp o

th es

es

Tr a

n sa

ct io

n v

o lu

m e

a n

d t

yp e

a re

k e

y p

re d

ic to

rs o

f ch

u rn

r a

te s.

D a

ta

5 m

o n

th s

o f

cu st

o m

e r

a cc

o u

n t

h is

to ry

.

P h

a se

3 :

M o

d e

l P

la n

n in

g -

A n

a ly

ti c

Te ch

n iq

u e

Lo gi

st ic

r eg

re ss

io n

t o

id e

n ti

fy m

o st

in fl

u e

n ti

a l f

a ct

o rs

p re

d ic

ti n

g ch

u rn

.

P h

a se

5 :

R

es u

lt &

K e

y Fi

n d

in gs

O n

ce c

u st

o m

e rs

s to

p u

si n

g th

e ir

a cc

o u

n ts

f o

r ga

s a

n d

g ro

ce ri

es ,

th e

y w

ill s

o o

n e

ro d

e t

h e

ir a

cc o

u n

ts a

n d

c h

u rn

. If

c u

st o

m e

rs u

se t

h e

ir d

eb it

c a

rd f

e w

e r

th a

n 5

t im

es p

e r

m o

n th

, t h

e y

w ill

le a

ve t

h e

b a

n k

w it

h in

6 0

d a

ys .

B u

si n

es s

Im p

a ct

If

w e

c a

n t

a rg

e t

cu st

o m

e rs

w h

o a

re h

ig h

-r is

k fo

r ch

u rn

, w e

c a

n r

e d

u ce

cu

st o

m e

r a

tt ri

ti o

n b

y 2

5 %

. T

h is

w o

u ld

s a

ve $

3 m

ill io

n in

lo st

o f

cu st

o m

e r

re ve

n u

e a

n d

a vo

id $

1 .5

m ill

io n

in n

e w

c u

st o

m e

r a

cq u

is it

io n

co

st s

ea ch

y ea

r.

35

M od

ul e

2: D

at a

A na

ly tic

s Li

fe cy

cl e

M in

i C as

e S

tu d

y:

C h

u rn

P re

d ic

ti o

n f

o r

R et

ai l B

an ki

n g

Co py

ri gh

t © 2

01 2

EM C

Co rp

or at

io n.

A ll

Ri gh

ts R

es er

ve d.

EM C

2 P

R O

V EN

P R

O FE

S S

IO N

A L

K e

y O

u tp

u ts

f ro

m a

S u

cc es

sf u

l A n

a ly

ti c

P ro

je ct

, b y

R o

le

M od

ul e

2: D

at a

A na

ly tic

s Li

fe cy

cl e

36

R o

le

D e

sc ri

p ti

o n

W

h a

t th

e R

o le

N e

e d

s in

t h

e F

in a

l D e

li ve

ra b

le s

B u

si n

e ss

U

se r

S o

m e

o n

e w

h o

b en

e fi

ts f

ro m

t h

e e

n d

r e

su lt

s a

n d

c a

n

co n

su lt

a n

d a

d vi

se p

ro je

ct t

ea m

o n

v a

lu e

o f

e n

d r

e su

lt s

a n

d

h o

w t

h e

se w

il l b

e o

p e

ra ti

o n

a li

ze d

• S

p o

n so

r P

re se

n ta

ti o

n a

d d

re ss

in g:

A re

t h

e r

e su

lt s

go o

d f

o r

m e

? •

W h

a t

a re

t h

e b

e n

e fi

ts o

f th

e fi

n d

in gs

? •

W h

a t

a re

t h

e im

p li

ca ti

o n

s o

f th

is f

o r

m e

?

P ro

je ct

S

p o

n so

r

P e

rs o

n r

e sp

o n

si b

le fo

r th

e g

e n

e si

s o

f th

e p

ro je

ct , p

ro vi

d in

g th

e im

p e

tu s

fo r

th e

p ro

je ct

a n

d c

o re

b u

si n

e ss

p ro

b le

m ,

ge n

e ra

ll y

p ro

vi d

es t

h e

f u

n d

in g

a n

d w

il l g

a u

ge t

h e

d e

gr e

e o

f va

lu e

f ro

m t

h e

f in

a l o

u tp

u ts

o f

th e

w o

rk in

g te

a m

• S

p o

n so

r P

re se

n ta

ti o

n a

d d

re ss

in g:

W h

a ’

h

e b

i e

i a

c

f d

i g

h i

?

• W

h a

t a

re t

h e

r is

ks ?

R O

I?

• H

o w

c a

n t

h is

b e

e va

n ge

li ze

d w

it h

in t

h e

o

rg a

n iz

a ti

o n

( a

n d

b ey

o n

d )?

P ro

je ct

M

a n

a ge

r

E n

su re

k e

y m

il es

to n

e s

a n

d o

b je

ct iv

e s

a re

m et

o n

t im

e a

n d

a

t e

xp e

ct e

d q

u a

li ty

.

B u

si n

e ss

In

te lli

ge n

ce

A n

a ly

st

B u

si n

e ss

d o

m a

in e

xp e

rt is

e w

it h

d e

ep u

n d

e rs

ta n

d in

g o

f th

e

d a

ta ,

K P

Is , k

e y

m e

tr ic

s a

n d

b u

si n

e ss

in te

ll ig

e n

ce fr

o m

a

re p

o rt

in g

p e

rs p

e ct

iv e

• S

h o

w t

h e

a n

a ly

st p

re se

n ta

ti o

n

• D

e te

rm in

e if

t h

e r

e p

o rt

s w

il l c

h a

n ge

D a

ta

E n

gi n

e e

r

D e

e p

t e

ch n

ic a

l s ki

lls t

o a

ss is

t w

it h

t u

n in

g S

Q L

q u

e ri

e s

fo r

d a

ta m

a n

a ge

m en

t, e

xt ra

ct io

n a

n d

s u

p p

o rt

d a

ta in

ge st

t o

a

n a

ly ti

c sa

n d

b o

x

• S

h a

re t

h e

c o

d e

fr o

m t

h e

a n

a ly

ti ca

l p ro

je ct

C re

a te

t e

ch n

ic a

l d o

cu m

e n

t o n

h o

w t

o

im p

le m

e n

t it

.

D a

ta b

as e

A d

m in

is tr

a to

r (D

B A

)

D a

ta b

as e

A d

m in

is tr

a to

r w

h o

p ro

vi si

o n

s a

n d

c o

n fi

gu re

s d

a ta

b as

e e

n vi

ro n

m en

t t o

s u

p p

o rt

t h

e a

n a

ly ti

ca l n

e e

d s

o f

th e

w o

rk in

g te

a m

• S

h a

re t

h e

c o

d e

fr o

m t

h e

a n

a ly

ti ca

l p ro

je ct

C re

a te

t e

ch n

ic a

l d o

cu m

e n

t o n

h o

w t

o

im p

le m

e n

t it

.

D a

ta

S ci

e n

ti st

P ro

vi d

e su

b je

ct m

a tt

e r

e xp

e rt

is e

f o

r a

n a

ly ti

ca l t

e ch

n iq

u e

s,

d a

ta m

o d

e li

n g,

a p

p ly

in g

va li

d a

n a

ly ti

ca l t

e ch

n iq

u e

s to

g iv

en

b u

si n

e ss

p ro

b le

m s

a n

d e

n su

ri n

g o

ve ra

ll a

n a

ly ti

ca l

o b

je ct

iv e

s a

re m

et

• S

h o

w t

h e

a n

a ly

st p

re se

n ta

ti o

n

• S

h a

re t

h e

c o

d e

Co py

ri gh

t © 2

01 2

EM C

Co rp

or at

io n.

A ll

Ri gh

ts R

es er

ve d.

EM C

2 P

R O

V EN

P R

O FE

S S

IO N

A L

4 C

o re

D e

li ve

ra b

le s

to M

e e

t M

o st

S ta

ke h

o ld

e r

N e

e d

s

1. P

re se

nt at

io n

fo r

Pr oj

ec t S

po ns

or s

• Bi

g pi

ct ur

e" ta

ke aw

ay s

fo r e

xe cu

tiv e

le ve

l s ta

ke ho

ld er

s

• D

et er

m in

e ke

y m

es sa

ge s

to a

id th

ei r

de ci

si on

-m ak

in g

pr oc

es s

Fo cu

s on

c le

an , e

as y

vi su

al s

fo r t

he p

re se

nt er

to e

xp la

in a

nd fo

r t he

vi

ew er

to g

ra sp

2. P

re se

nt at

io n

fo r

A na

ly st

s

• Bu

si ne

ss p

ro ce

ss c

ha ng

es

• Re

po rt

in g

ch an

ge s

Fe llo

w D

at a

Sc ie

nt is

ts w

ill w

an t t

he d

et ai

ls a

nd a

re c

om fo

rt ab

le w

ith

te ch

ni ca

l g ra

ph s

(s uc

h as

R O

C cu

rv es

, d en

si ty

p lo

ts , h

is to

gr am

s)

3. C

od e

fo r t

ec hn

ic al

p eo

pl e

4. T

ec hn

ic al

s pe

cs o

f i m

pl em

en tin

g th

e co

de

37

M od

ul e

2: D

at a

A na

ly tic

s Li

fe cy

cl e

Co py

ri gh

t © 2

01 2

EM C

Co rp

or at

io n.

A ll

Ri gh

ts R

es er

ve d.

EM C

2 P

R O

V EN

P R

O FE

S S

IO N

A L

A n

a ly

st W

is h

L is

t fo

r a

S u

cc es

sf u

l A n

a ly

ti cs

P ro

je ct

D at

a &

W or

ks pa

ce s

• A

cc es

s to

a ll

th e

da ta

, i nc

lu di

ng a

gg re

ga te

d O

LA P

da ta

, B I t

oo ls

, r aw

d at

a, s

tr uc

tu re

d an

d va

ri ou

s st

at es

o f u

ns tr

uc tu

re d

da ta

a s

ne ed

ed

• U

p- to

-d at

e da

ta d

ic tio

na ry

to d

es cr

ib e

th e

da ta

A re

a fo

r st

ag in

g an

d pr

od uc

tio n

da ta

s et

s

• A

bi lit

y to

m ov

e da

ta b

ac k

an d

fo rt

h be

tw ee

n w

or ks

pa ce

s an

d st

ag in

g ar

ea s

A na

ly tic

s an

db ox

w ith

s tr

on g

co m

pu te

p ow

er to

e xp

er im

en t a

nd p

la y

w ith

t he

d at

a

To ol

s

• St

at is

tic al

/m at

he m

at ic

al /v

is ua

l s of

tw ar

e of

c ho

ic e

fo r

a gi

ve n

si tu

at io

n an

d pr

ob le

m s

et ,

su ch

a s

SA S,

M at

la b,

R , j

av a

to ol

s, T

ab le

au , S

po tf

ire

• Co

lla bo

ra tio

n: a

n on

lin e

pl at

fo rm

o r

en vi

ro nm

en t f

or c

ol la

bo ra

tio n

an d

co m

m un

ic at

in g

w ith

te am

m em

be rs

To ol

o r

pl ac

e to

lo g

er ro

rs w

ith s

ys te

m s,

e nv

iro nm

en ts

o r

da ta

s et

s

39

39

M od

ul e

2: D

at a

A na

ly tic

s Li

fe cy

cl e

Co py

ri gh

t © 2

01 2

EM C

Co rp

or at

io n.

A ll

Ri gh

ts R

es er

ve d.

EM C

2 P

R O

V EN

P R

O FE

S S

IO N

A L

C o

n ce

p ts

in P

ra ct

ic e

G

e e

l ’

A a

ch t

o A

n a

ly ti

cs

M od

ul e

2: D

at a

A na

ly tic

s Li

fe cy

cl e

40

E D

C P

LA TF

O R

M

D at

a

A n

al yt

ic s

A na

ly ze

a nd

M

od el

in th

e cl

ou d

P us

h re

su lts

ba

ck in

to

th e

cl ou

d G

et d

at a

in to

th e

cl ou

d

Past Future

F a

ct s

In

te rp

re ta

ti o

n

W h

a t

w il

l h

a p

p e

n ?

H o

w c

a n

w

e d

o

b e

tt e

r?

W h

a t

h a

p p

e n

e d

w

h e

re a

n d

w

h e

n ?

H o

w a

n d

w

h y

d id

it

h a

p p

e n

?

M ag

ne tic

At tr

ac t a

ll ki

nd s

of d

at a

A gi

le

Fl

ex ib

le a

nd e

la st

ic d

at a

st ru

ct ur

es

D ee

p R

ic h

da ta

re po

si to

ry a

nd

al go

rit hm

ic e

ng in

e

S ou

rc e:

M A

D S

ki lls

: N ew

A na

ly si

s P

ra ct

ic es

fo r

B ig

D at

a, M

ar ch

2 00

9

Co py

ri gh

t © 2

01 2

EM C

Co rp

or at

io n.

A ll

Ri gh

ts R

es er

ve d.

EM C

2 P

R O

V EN

P R

O FE

S S

IO N

A L

Th e

pe ss

im is

t

co m

pl ai

ns a

bo ut

th e

w in

d

Th e

op tim

is t

ex

pe ct

s it

to c

ha ng

e Th

e le

ad er

ad ju

st s

th e

sa ils

Jo hn

M ax

w el

l (L

ea de

rs hi

p Au

th or

)

41

M od

ul e

2: D

at a

A na

ly tic

s Li

fe cy

cl e

Co py

ri gh

t © 2

01 2

EM C

Co rp

or at

io n.

A ll

Ri gh

ts R

es er

ve d.

EM C

2 P

R O

V EN

P R

O FE

S S

IO N

A L

C h

e ck

Y o

u r

K n

o w

le d

ge

• In

w hi

ch p

ha se

w ou

ld y

ou e

xp ec

t t o

in ve

st m

os t o

f y ou

r p ro

je ct

ti m

e an

d w

hy ?

W he

re w

ou ld

e xp

ec t t

o sp

en d

th e

le as

t tim

e?

W ha

t a re

th e

be ne

fit s

of d

oi ng

a p

ilo t p

ro gr

am b

ef or

e a

fu ll

sc al

e ro

llo ut

o f a

ne

w a

na ly

tic al

m et

ho do

lo gy

? D

is cu

ss th

is in

th e

co nt

ex t o

f t he

m in

i c as

e st

ud y.

• W

ha t k

in ds

o f t

oo ls

w ou

ld b

e us

ed in

th e

fo llo

w in

g ph

as es

, a nd

fo r w

hi ch

ki

nd s

of u

se s

ce na

ri os

? �

Ph as

e 2:

D at

a Pr

ep ar

at io

n �

Ph as

e 4:

M od

el E

xe cu

tio n

• N

ow th

at y

ou h

av e

co m

pl et

ed th

e an

al yt

ic al

p ro

je ct

a t Y

oy od

yn e,

y ou

h av

e an

op

po rt

un ity

to re

pu rp

os e

th is

a pp

ro ac

h fo

r a n

on lin

e eC

om m

er ce

c om

pa ny

. W

ha t p

ha se

s of

th e

lif ec

yc le

d o

yo u

ne ed

to fo

cu s

on to

id en

tif y

w ay

s to

d o

th is

?

42

M od

ul e

2: D

at a

A na

ly tic

s Li

fe cy

cl e

Y o

u r

T h

o u

g h

ts ?

Co py

ri gh

t © 2

01 2

EM C

Co rp

or at

io n.

A ll

Ri gh

ts R

es er

ve d.

EM C

2 P

R O

V EN

P R

O FE

S S

IO N

A L

M od

ul e

2: S

um m

ar y

Ke y

po in

ts c

ov er

ed in

th is

m od

ul e:

Th e

D at

a A

na ly

tic s

Li fe

cy cl

e w

as a

pp lie

d to

a c

as e

st ud

y sc

en ar

io

• A

b us

in es

s pr

ob le

m w

as fr

am ed

a s

an a

na ly

tic s

pr ob

le m

Th e

fo ur

m ai

n de

liv er

ab le

s in

a n

an al

yt ic

s pr

oj ec

t w er

e id

en tif

ie d

M od

ul e

2: D

at a

A na

ly tic

s Li

fe cy

cl e

43

Co py

ri gh

t © 2

01 2

EM C

Co rp

or at

io n.

A ll

Ri gh

ts R

es er

ve d.

EM C

2 P

R O

V EN

P R

O FE

S S

IO N

A L

La b

E xe

rc is

e 1

: In

tr o

d u

ct io

n t

o D

a ta

E n

vi ro

n m

e n

t

44

M od

ul e

2: D

at a

A na

ly tic

s Li

fe cy

cl e

Th is

fi rs

t la

b in

tr od

uc es

th e

A na

ly tic

s La

b En

vi ro

nm en

t y ou

w

ill b

e w

or ki

ng o

n th

ro ug

ho ut

th e

co ur

se .

A ft

er c

om pl

et in

g th

e ta

sk s

in th

is la

b yo

u sh

ou ld

b e

ab le

to :

• A

ut he

nt ic

at e

an d

ac ce

ss th

e Vi

rt ua

l M ac

hi ne

(V M

) as

si gn

ed to

y ou

fo r a

ll of

y ou

r l ab

e xe

rc is

es

• Lo

ca te

d at

a se

ts y

ou w

ill b

e w

or ki

ng w

ith fo

r t he

co

ur se

s la

bs

• U

se m

et a

co m

m an

ds a

nd P

SQ L

to n

av ig

at e

th ro

ug h

th e

da ta

s et

s •

Cr ea

te s

ub -s

et s

of th

e bi

g da

ta , u

si ng

ta bl

e jo

in s

an d

fil te

rs to

a na

ly ze

s ub

se qu

en t l

ab e

xe rc

is es