BigData_Week1_Assignmrnt

profiletejasri1607
Assignment_Bigdata.pdf

C o

p yr

ig h

t ©

2 0

1 4

E M

C C

o rp

o ra

ti o

n . A

ll R

ig h

ts R

e se

rv ed

.

In tr

o d

u ct

io n

t o

B ig

D at

a A

n al

yt ic

s

1 M

o d

u le

1 :

In tr

o d

u ct

io n

t o

B D

A

C o

p yr

ig h

t ©

2 0

1 4

E M

C C

o rp

o ra

ti o

n . A

ll R

ig h

ts R

e se

rv ed

.

In tr

o d

u ct

io n

t o

B ig

D at

a A

n al

yt ic

s

U p

o n

c o

m p

le ti

o n

o f

th is

le ss

o n

, y o

u s

h o

u ld

b e

a b

le t

o :

D ef

in e

b ig

d at

a Id

e n

ti fy

f o

u r

b u

si n

e ss

d ri

ve rs

f o

r ad

va n

ce d

a n

al yt

ic s

D is

ti n

gu is

h t

h e

t e

ch n

iq u

e s

fo r

B u

si n

e ss

In te

lli ge

n ce

f ro

m D

at a

Sc ie

n ce

D e

sc ri

b e

t h

e r

o le

o f

th e

D at

a Sc

ie n

ti st

w it

h in

t h

e n

ew b

ig d

at a

e co

sy st

e m

C it

e a

t le

as t

th re

e il

lu st

ra ti

ve e

xa m

p le

s o

f b

ig d

at a

o p

p o

rt u

n it

ie s

M o

d u

le 1

: In

tr o

d u

ct io

n t

o B

D A

2

C o

p yr

ig h

t ©

2 0

1 4

E M

C C

o rp

o ra

ti o

n . A

ll R

ig h

ts R

e se

rv ed

. 3

Bi g

D a

a is

d a

a ho

se s

ca le

d is

ri b

io n

d i

er si

an

d/ or

ti m

el in

es s

re qu

ire th

e us

e of

n ew

te ch

ni ca

l ar

ch ite

ct ur

es a

nd a

na ly

tic s

to e

na bl

e in

si gh

ts th

at u

nl oc

k ne

w s

ou rc

es o

f b us

in es

s va

lu e.

� R

e q

u ir

e s

n ew

d at

a ar

ch it

e ct

u re

s, a

n al

yt ic

s an

d b

o xe

s

� N

ew t

o o

ls

� N

ew a

n al

yt ic

al m

et h

o d

s

� In

te gr

at in

g m

u lt

ip le

s ki

lls in

to n

ew r

o le

o f

d at

a sc

ie n

ti st

O rg

an iz

at io

n s

ar e

d e

ri vi

n g

b u

si n

e ss

b e

n ef

it f

ro m

a n

al yz

in g

e ve

r la

rg e

r an

d m

o re

c o

m p

le x

d at

a se

ts t

h at

in cr

e as

in gl

y re

q u

ir e

r e

al -t

im e

o r

n e

ar -r

e al

t im

e c

ap ab

ili ti

e s

B ig

D at

a D

ef in

e d

S ou

rc e:

M cK

in se

y M

ay 2

01 1

ar tic

le B

ig D

at a:

T he

n ex

t f ro

nt ie

r fo

r in

no va

tio n,

c om

pe tit

io n,

a nd

p ro

du ct

iv ity

M o

d u

le 1

: In

tr o

d u

ct io

n t

o B

D A

C o

p yr

ig h

t ©

2 0

1 4

E M

C C

o rp

o ra

ti o

n . A

ll R

ig h

ts R

e se

rv ed

. 4

1. D

at a

V o

lu m

e �

4 4

x in

cr e

as e

fr o

m 2

0 0

9 t

o 2

0 2

0

(0 .8

z et

ta b

yt e

s to

3 5

.2 zb

)

2. P

ro ce

ss in

g C

o m

p le

xi ty

( ve

lo ci

ty )

� C

h an

gi n

g d

at a

st ru

ct u

re s

� U

se c

as e

s w

ar ra

n ti

n g

ad d

it io

n al

t ra

n sf

o rm

at io

n s

an d

an

al yt

ic al

t e

ch n

iq u

e s

3. D

at a

St ru

ct u

re (

va ri

et y)

� G

re at

e r

va ri

et y

o f

d at

a st

ru ct

u re

s to

m in

e a

n d

a n

al yz

e

K ey

C h

ar ac

te ri

st ic

s o

f B

ig D

at a

M o

d u

le 1

: In

tr o

d u

ct io

n t

o B

D A

C o

p yr

ig h

t ©

2 0

1 4

E M

C C

o rp

o ra

ti o

n . A

ll R

ig h

ts R

e se

rv ed

.

B ig

D at

a C

h ar

ac te

ri st

ic s:

D at

a St

ru ct

u re

s D

at a

G ro

w th

is In

cr e

as in

gl y

U n

st ru

ct u

re d

M o

d u

le 1

: In

tr o

d u

ct io

n t

o B

D A

5

St ru

ct u

re d

Se m

i- St

ru ct

u re

d

Q a

i S

c ed

U n

st ru

ct u

re d

D at

a co

nt ai

ni ng

a d

ef in

ed d

at a

ty pe

, f or

m at

, s tr

uc tu

re

E xa

m p

le :

T ra

ns ac

tio n

da ta

a nd

O LA

P

D at

a th

at h

as n

o in

he re

nt

st ru

ct ur

e an

d is

u su

al ly

s to

re d

as d

iff er

en t t

yp es

o f f

ile s.

E xa

m p

le :

T ex

t d oc

um en

ts ,

P D

F s,

im ag

es a

nd v

id eo

Te xt

ua l d

at a

w ith

e rr

at ic

d at

a fo

rm at

s, c

an

be fo

rm at

te d

w ith

e ffo

rt , t

oo ls

, a nd

ti m

e

E xa

m p

le :

W

eb c

lic ks

tr ea

m d

at a

th at

m

ay c

on ta

in s

om e

in co

ns is

te nc

ie s

in d

at a

va lu

es a

nd fo

rm at

s

Te xt

ua l d

at a

fil es

w ith

a d

is ce

rn ab

le p

at te

rn ,

en ab

lin g

pa rs

in g

E xa

m p

le :

X M

L da

ta fi

le s

th at

a re

s el

f de

sc rib

in g

an d

de fin

ed b

y an

x m

l s ch

em a

More Structured

C o

p yr

ig h

t ©

2 0

1 4

E M

C C

o rp

o ra

ti o

n . A

ll R

ig h

ts R

e se

rv ed

.

Fo u

r M

ai n

T yp

e s

o f

D at

a St

ru ct

u re

s

M o

d u

le 1

: In

tr o

d u

ct io

n t

o B

D A

6

ht tp

:/ /w

w w

.g oo

g le

.c om

/# h

l= en

& su

ge xp

=k jr

m c&

cp =8

& g

s_ id

=2 m

& xh

r= t&

q =d

at a+

sc ie

n ti

st &

pq =b

ig +d

at a&

p f=

p& sc

lie n

t= p

sy b&

so ur

ce =h

p& pb

x= 1&

o q=

da ta

+s ci

& aq

=0 &

aq i=

g4 &

aq l=

f& gs

_s m

=& gs

_u pl

=& ba

v= on

.2 ,o

r. r_

gc .r

_p w

.,c f.

os b&

fp =d

56 6e

0f bd

09 c8

60 4&

b iw

=1 38

2& b

ih =6

51

T he

R ed

W he

el ba

rr ow

, b y

W ill

ia m

C ar

lo s

W ill

ia m

s

V ie

w Æ

S ou

rc e

St ru

ct u

re d

D at

a

Se m

i- St

ru ct

u re

d D

at a

Q u

as i-

St ru

ct u

re d

D at

a

U n

st ru

ct u

re d

D at

a

C o

p yr

ig h

t ©

2 0

1 4

E M

C C

o rp

o ra

ti o

n . A

ll R

ig h

ts R

e se

rv ed

.

D at

a R

e p

o si

to ri

e s,

A n

A n

al ys

t Pe

rs p

ec ti

ve

Sp re

ad sh

e et

s an

d lo

w -

l m

e D

B f

re

co rd

ke ep

in g

A n

al ys

t d

e p

en d

e n

t o

n

d at

a ex

tr ac

ts

M o

d u

le 1

: In

tr o

d u

ct io

n t

o B

D A

7

D at

a Is

la n

d s

S pr ea dm

ar

Is ol

at ed

d at

a m

ar ts

D at

a W

ar eh

o u

se s

C en

tr al

iz ed

d at

a co

nt ai

ne rs

in

a p

ur po

se -b

ui lt

sp ac

e

A n

al yt

ic S

an d

bo x

D at

a as

se ts

g at

he re

d fr

om m

ul tip

le

so ur

ce s

an d

te ch

no lo

gi es

fo r

an al

ys is

Su p

p o

rt s

B I a

n d

r e

p o

rt in

g, b

u t

re st

ri ct

s ro

b u

st a

n al

ys e

s

A n

al ys

t d

e p

e n

d e

n t

o n

IT &

D

B A

s fo

r d

at a

ac ce

ss a

n d

sc

h e

m a

ch an

ge s

A n

al ys

ts m

u st

s p

e n

d s

ig n

if ic

an t

ti m

e to

g et

e xt

ra ct

s fr

o m

m

u lt

ip le

s o

u rc

es

En ab

le s

h ig

h p

e rf

o rm

an ce

a n

al yt

ic s

u si

n g

in -d

b p

ro ce

ss in

g

R e

d u

ce s

co st

s as

so ci

at e

d w

it h

d at

a re

p lic

at io

n in

to "

sh ad

o w

" fi

le

sy st

e m

s

A na

ly st

-o w

ne d

r at

he r

th an

D

BA

ow ne

d

C o

p yr

ig h

t ©

2 0

1 4

E M

C C

o rp

o ra

ti o

n . A

ll R

ig h

ts R

e se

rv ed

.

In tr

o d

u ct

io n

t o

B ig

D at

a A

n al

yt ic

s: M

in i-

C as

e S

tu d

y

Yo yo

d yn

e B

an k

Sc en

ar io

Ev

o lv

in g

fr o

m s

m al

l c o

m m

u n

it y

b an

k to

a g

lo b

al b

an k

N e

ed s

to m

o ve

a w

ay f

ro m

it s

le ga

cy m

ai n

fr am

e s

to a

n e

n vi

ro n

m en

t th

at

su p

p o

rt s

m o

re r

o b

u st

a n

al yt

ic s

G ro

w in

g th

ro u

gh m

er ge

rs a

n d

a cq

u is

it io

n s

Su b

je ct

t o

m an

y n

ew r

e gu

la to

ry r

e q

u ir

e m

e n

ts

In cr

e as

in g

cu st

o m

e r

b as

e an

d in

cr e

as e

d p

ro d

u ct

o ff

e ri

n gs

D is

cu ss

io n

Q u

es ti

o n

s 1

. D

i c

h h

e ba

k d

a a

ld c

ha ge

de

h e

e ci

c m

a ce

2

. H

o w

a re

t h

e ir

n e

e d

s ch

an gi

n g

w it

h t

h e

se b

u si

n e

ss c

h an

ge s?

3 .

W h

at d

o y

o u

n e

e d

t o

c o

n si

d e

r fr

o m

a n

a n

al ys

t p

o in

t o

f vi

ew ?

W h

at a

re

so m

e t

h in

gs t

o c

o n

si d

e r

im p

le m

e n

ti n

g as

t h

e b

an k

gr o

w s?

M o

d u

le 1

: In

tr o

d u

ct io

n t

o B

D A

8

Y o

u r

T h

o u

g h

ts ?

C o

p yr

ig h

t ©

2 0

1 4

E M

C C

o rp

o ra

ti o

n . A

ll R

ig h

ts R

e se

rv ed

.

D ri

ve r

Ex am

p le

s

D e

si re

t o

o p

ti m

iz e

b u

si n

e ss

o

p e

ra ti

o n

s Sa

le s,

p ri

ci n

g, p

ro fi

ta b

ili ty

, e ff

ic ie

n cy

D e

si re

t o

id e

n ti

fy b

u si

n e

ss r

is k

C u

st o

m e

r ch

u rn

, f ra

u d

, d ef

au lt

P re

d ic

t n

ew b

u si

n e

ss o

p p

o rt

u n

it ie

s U

p se

ll, c

ro ss

-s e

ll, b

e st

n ew

c u

st o

m e

r p

ro sp

e ct

s

C o

m p

ly w

it h

la w

s o

r re

gu la

to ry

re

q u

ir e

m e

n ts

A

n ti

-M o

n ey

L au

n d

e ri

n g,

F ai

r Le

n d

in g,

B as

e l I

I

B u

si n

e ss

D ri

ve rs

f o

r A

n al

yt ic

s

1 2 3 4

Cu rr

en t B

us in

es s

Pr ob

le m

s Pr

ov id

e O

pp or

tu ni

tie s f

or O

rg an

iz at

io ns

to

Be co

m e

M or

e A

na ly

tic al

& D

at a

D riv

en

M o

d u

le 1

: In

tr o

d u

ct io

n t

o B

D A

9

C o

p yr

ig h

t ©

2 0

1 4

E M

C C

o rp

o ra

ti o

n . A

ll R

ig h

ts R

e se

rv ed

.

H ig

h

Fu tu

re P

as t

T IM

E

B U

SI N

ES S

VA LU

E Bu

sin es

s In

te lli

ge nc

e

P re

d ic

ti ve

A n

al yt

ic s

& D

at a

M in

in g

(D

at a

Sc ie

n ce

)

Ty p

ic al

Te

ch n

iq u

es &

D

at a

Ty p

es

O p

ti m

iz at

io n

, p re

d ic

ti ve

m o

d e

lin g,

fo

re ca

st in

g, s

ta ti

st ic

al a

n al

ys is

St ru

ct u

re d

/u n

st ru

ct u

re d

d at

a, m

an y

ty p

e s

o f

so u

rc e

s, v

e ry

la rg

e d

at a

se ts

C o

m m

o n

Q

u es

ti o

n s

W h

at if

W ha

h e

im al

ce

a i

f

b

u si

n e

ss ?

W

h at

w ill

h ap

p e

n n

e xt

? W

h at

if t

h e

se

tr e

n d

s co

n ti

n u

e ?

W h

y is

t h

is h

ap p

e n

in g?

B u

si n

es s

In te

lli ge

n ce

Ty p

ic al

Te

ch n

iq u

es &

D

at a

Ty p

es

St an

d ar

d an

d a

d h

o c

re p

o rt

in g,

d

as h

b o

ar d

s, a

le rt

s, q

u e

ri e

s, d

e ta

ils o

n

d e

m an

d

St ru

ct u

re d

d at

a, t

ra d

it io

n al

s o

u rc

e s,

m

an ag

e ab

le d

at a

se ts

C o

m m

o n

Q

u es

ti o

n s

W h

at h

ap p

e n

e d

la st

q u

ar te

r? H

o w

m an

y d

id w

e s

e ll?

W h

e re

is t

h e

p ro

b le

m ?

In w

h ic

h

si tu

at io

n s?

Da ta

Sc

ie nc

e

Lo w

A n

al yt

ic al

A p

p ro

ac h

e s

fo r

M e

et in

g B

u si

n e

ss D

ri ve

rs B

u si

n e

ss In

te lli

ge n

ce v

s. D

at a

Sc ie

n ce

1 0

M o

d u

le 1

: In

tr o

d u

ct io

n t

o B

D A

C o

p yr

ig h

t ©

2 0

1 4

E M

C C

o rp

o ra

ti o

n . A

ll R

ig h

ts R

e se

rv ed

.

A T

yp ic

al A

n al

yt ic

al A

rc h

it e

ct u

re

D e

p ar

tm en

ta l

W ar

e h

o u

se

En te

rp ri

se A

p p

lic at

io n

s

R e

p o

rt in

g

N o

n -P

ri o

ri ti

ze d

D at

a P

ro vi

si o

n in

g

N o

n -A

gi le

M o

d e

ls

S pr ea d

M ar

D at

a S

o u

rc es

S ilo

ed A

n al

yt ic

s

S ta

tic s

ch em

as ac

cr et

e ov

er ti

m e

P ri

o ri

ti ze

d O

p er

at io

n al

P

ro ce

ss es

E rr

an t d

at a

& m

ar ts

D e

p ar

tm en

ta l

W ar

e h

o u

se

1

2

3

1 1

M o

d u

le 1

: In

tr o

d u

ct io

n t

o B

D A

4

C o

p yr

ig h

t ©

2 0

1 4

E M

C C

o rp

o ra

ti o

n . A

ll R

ig h

ts R

e se

rv ed

.

Im p

lic at

io n

s o

f Ty

p ic

al A

rc h

it e

ct u

re f

o r

D at

a Sc

ie n

ce

1 2

H ig

h -v

al u

e d

at a

is h

ar d

t o

r e

ac h

a n

d le

ve ra

ge

P re

d ic

ti ve

a n

al yt

ic s

& d

at a

m in

in g

ac ti

vi ti

e s

ar e

la st

in

li n

e f

o r

d at

a �

Q u

e u

e d

a ft

e r

p ri

o ri

ti ze

d o

p e

ra ti

o n

al p

ro ce

ss es

D at

a is

m o

vi n

g in

b at

ch e

s fr

o m

E D

W t

o lo

ca l

an al

yt ic

al t

o o

ls �

In -m

em o

ry a

n al

yt ic

s (s

u ch

a s

R , S

A S,

S P

SS , E

xc e

l)

� Sa

m p

lin g

ca n

s ke

w m

o d

e l a

cc u

ra cy

Is o

la te

d , a

d ho

c an

al yt

ic p

ro je

ct s,

r at

h e

r th

an

ce n

tr al

ly -m

an ag

e d

h ar

n e

ss in

g o

f an

al yt

ic s

� N

o n

-s ta

n d

ar d

iz e

d in

it ia

ti ve

s

� Fr

e q

u e

n tl

y, n

o t

al ig

n e

d w

it h

c o

rp o

ra te

b u

si n

e ss

g o

al s

S lo

w

tim e-

to -in

si gh

t &

re

du ce

d bu

si ne

ss im

pa ct

M o

d u

le 1

: In

tr o

d u

ct io

n t

o B

D A

C o

p yr

ig h

t ©

2 0

1 4

E M

C C

o rp

o ra

ti o

n . A

ll R

ig h

ts R

e se

rv ed

.

O p

p o

rt u

n it

ie s

fo r

a N

ew A

p p

ro ac

h t

o A

n al

yt ic

s N

ew A

p p

lic at

io n

s D

ri vi

n g

D at

a V

o lu

m e

M o

d u

le 1

: In

tr o

d u

ct io

n t

o B

D A

1 3

2 0

0 0 ’

s (C

O N

TE N

T &

D IG

IT A

L A

SS ET

M

A N

A G

EM EN

T)

1 9

9 0 ’

s (R

D B

M S

& D

A TA

W

A R

EH O

U SE

)

2 0

1 0 ’

s (N

O -S

Q L

& K

EY /V

A LU

E)

VOLUME OF INFORMATION

LA R

G E

SM A

LL

M EA

SU R

ED IN

TE R

A B

YT ES

1 TB

= 1

,0 0

0 G

B

M EA

SU R

ED IN

P ET

A B

YT ES

1 P

B =

1 ,0

0 0

TB

W IL

L B

E M

EA SU

R ED

IN

EX A

B YT

ES 1

EB =

1 ,0

0 0

P B

C o

p yr

ig h

t ©

2 0

1 4

E M

C C

o rp

o ra

ti o

n . A

ll R

ig h

ts R

e se

rv ed

.

O p

p o

rt u

n it

ie s

fo r

a N

ew A

p p

ro ac

h t

o A

n al

yt ic

s B

ig D

at a

Ec o

sy st

e m

1 4

1 4

M o

d u

le 1

: In

tr o

d u

ct io

n t

o B

D A

A n

al yt

ic Se

rv ic

es A

d ve

rt is

in g

La w

En fo

rc em

en t

M ed

ia

B an

ks G

o ve

rn m

en t

D el

iv er

y Se

rv ic

e

P ri

va te

In ve

st ig

at o

rs /L

aw ye

rs

M ar

ke te

rs Em

p lo

ye rs

In d

iv id

u al

D a

ta U

s e

rs /

B u

y e

rs

W eb

si te

s

In fo

rm at

io n

B

ro ke

rs

M ed

ia A

rc h

iv es

C re

d it

B

u re

au s

Li st

B ro

ke rs

C at

al o

g C

o -O

p s

R e

ta il

P h

o n

e /T

V

G o

ve rn

m en

t In

te rn

e t

M e

d ic

al

Fi n

an ci

al

D a

ta C

o ll

e c

to rs

D a

ta D

e v

ic e

s

D a

ta A

g g

re g

a to

rs

1

2 3

4

C o

p yr

ig h

t ©

2 0

1 4

E M

C C

o rp

o ra

ti o

n . A

ll R

ig h

ts R

e se

rv ed

.

C o

n si

d e

ra ti

o n

s fo

r B

ig D

at a

A n

al yt

ic s

1 .

Sp e

e d

o f

d e

ci si

o n

m ak

in g

2 .

Th ro

u gh

p u

t

3 .

A n

al ys

is f

le xi

b ili

ty

A n

al yt

ic S

an db

ox D

at a

as se

ts g

at he

re d

fr om

m ul

tip le

s ou

rc es

an

d te

ch no

lo gi

es fo

r an

al ys

is

E na

bl es

h ig

h pe

rf or

m an

ce a

na ly

tic s

us in

g in

-d b

pr oc

es si

ng

R ed

uc es

c os

ts a

ss oc

ia te

d w

ith d

at a

re pl

ic at

io n

in to

" sh

ad ow

" fil

e sy

st em

s

A na

l st

-o ne

d r

at he

r th

an

D B

A

o ne

d

C ri

te ri

a fo

r B

ig D

at a

P ro

je ct

s N

ew A

n al

yt ic

A rc

h it

ec tu

re

1 .

Sp e

e d

o f

d e

ci si

o n

m ak

in g

2 .

Th ro

u gh

p u

t

3 .

A n

al ys

is f

le xi

b ili

ty

1 5

M o

d u

le 1

: In

tr o

d u

ct io

n t

o B

D A

C o

p yr

ig h

t ©

2 0

1 4

E M

C C

o rp

o ra

ti o

n . A

ll R

ig h

ts R

e se

rv ed

.

St at

e o

f th

e P

ra ct

ic e

in A

n al

yt ic

s: M

in i-

C as

e S

tu d

y B

ig D

at a

En ab

le d

L o

an P

ro ce

ss in

g at

Y o

yo d

yn e

Underwriting Risk Tr

ad iti

on al

U nd

er w

rit in

g R

is k

Le ve

l

T R

A D

IT IO

N A

L D

AT A

L E

V E

R A

G E

D B

IG D

AT A

L E

V E

R A

G E

D

B ig

D at

a E

na bl

ed

U nd

er w

rit in

g R

is k

Le ve

l

1 6

M o

d u

le 1

: In

tr o

d u

ct io

n t

o B

D A

Y o

u r

T h

o u

g h

ts ?

C o

p yr

ig h

t ©

2 0

1 4

E M

C C

o rp

o ra

ti o

n . A

ll R

ig h

ts R

e se

rv ed

.

Sk ill

s N

ee d

e d

In t

h e

N ew

D at

a Ec

o sy

st e

m

W h

at n

ew s

ki ll

se ts

d o

y o

u n

e e

d t

o t

ak e

a d

va n

ta ge

o f

th e

b ig

d at

a se

ts in

t h

e lo

an p

ro ce

ss in

g im

p ro

ve m

e n

t ca

se s

tu d

y?

D o

m o

st la

rg e

o rg

an iz

at io

n s

h av

e p

e o

p le

w it

h t

h e

se

sk ill

s et

s?

If s

o , w

h o

a re

t h

ey ?

M o

d u

le 1

: In

tr o

d u

ct io

n t

o B

D A

1 7

Y o

u r

T h

o u

g h

ts ?

C o

p yr

ig h

t ©

2 0

1 4

E M

C C

o rp

o ra

ti o

n . A

ll R

ig h

ts R

e se

rv ed

.

T hr

ee K

ey R

ol es

o f t

he N

ew D

at a

E co

sy st

em

R o

le R

o le

D es

cr ip

ti o

n

D ee

p A

n al

yt ic

al T

al en

t

Pe o

p le

w it

h a

d va

n ce

d t

ra in

in g

in

q u

an ti

ta ti

ve d

is ci

p lin

e s,

s u

ch a

s m

at h

e m

at ic

s, s

ta ti

st ic

s, a

n d

m ac

h in

e

le ar

n in

g.

D at

a Sa

vv y

P ro

fe ss

io n

al s

Pe o

p le

w it

h a

b as

ic k

n o

w le

d ge

o f

st at

is ti

cs an

d /o

r m

ac h

in e

le ar

n in

g, w

h o

c an

d ef

in e

ke

y q

u e

st io

n s

th at

c an

b e

a n

sw e

re d

u si

n g

ad va

n ce

d a

n al

yt ic

s

Te ch

n o

lo gy

& D

at a

En ab

le rs

Pe o

p le

p ro

vi d

in g

te ch

n ic

al e

xp e

rt is

e t

o

su p

p o

rt a

n al

yt ic

al p

ro je

ct s.

S ki

lls s

e ts

in

cl u

d in

g co

m p

u te

r p

ro gr

am m

in g

an d

d

at ab

as e

a d

m in

is tr

at io

n

N ot

e: F

ig ur

es a

bo ve

r ef

le ct

a p

ro je

ct ed

ta le

nt g

ap in

U S

in 2

01 8,

a s

sh ow

n in

M cK

in se

y M

ay 2

01 1

ar tic

le B

ig D

at a:

T he

n ex

t f ro

nt ie

r fo

r in

no va

tio n,

co

m pe

tit io

n, a

nd p

ro du

ct iv

ity

D at

a Sc

ie nt

is ts

Pr oj

ec te

d U

.S .

ta le

nt g

ap :

14 0,

00 0

to

19 0,

00 0

An al

ys ts

& D

at a

Sa vv

y M

an ag

er s

Pr oj

ec te

d U

.S .

ta le

nt g

ap : 1

.5

m ill

io n

1 8

M o

d u

le 1

: In

tr o

d u

ct io

n t

o B

D A

C o

p yr

ig h

t ©

2 0

1 4

E M

C C

o rp

o ra

ti o

n . A

ll R

ig h

ts R

e se

rv ed

.

In fr

as tr

u ct

u re

D at

a Sc

ie n

ti st

K ey

A ct

iv it

ie s

R ef

ra m

e b

u si

n e

ss

ch al

le n

ge s

as a

n al

yt ic

s ch

al le

n ge

s

D e

si gn

, i m

p le

m e

n t

an d

d

e p

lo y

st at

is ti

ca l m

o d

e ls

an

d d

at a

m in

in g

te ch

n iq

u e

s o

n b

ig d

at a

C re

at e

in si

gh ts

t h

at le

ad

to a

ct io

n ab

le

re co

m m

e n

d at

io n

s

D at

a P

la tf

o rm

A

d m

in

To o

ls &

S e

rv ic

e s

A n

al yt

ic P

ro d

u ct

iv it

y P

la tf

o rm

D at

a En

gi n

e er

s D

at a

A n

al ys

t B

l A

n al

ys t

LO B

U

se r

M o

d u

le 1

: In

tr o

d u

ct io

n t

o B

D A

1 9

D at

a Sc

ie n

ti st

s

C o

p yr

ig h

t ©

2 0

1 4

E M

C C

o rp

o ra

ti o

n . A

ll R

ig h

ts R

e se

rv ed

.

P ro

fi le

o f

a D

at a

Sc ie

n ti

st

M o

d u

le 1

: In

tr o

d u

ct io

n t

o B

D A

2 0

Te ch

n ic

al

Q u

an ti

ta ti

ve

C u

ri o

u s

&

C re

at iv

e

C o

m m

un ic

at iv

e &

C o

lla bo

ra ti

ve S

ke p

ti ca

l

C o

p yr

ig h

t ©

2 0

1 4

E M

C C

o rp

o ra

ti o

n . A

ll R

ig h

ts R

e se

rv ed

.

B ig

D at

a A

n al

yt ic

s: In

d u

st ry

E xa

m p

le s

M o

d u

le 1

: In

tr o

d u

ct io

n t

o B

D A

2 1

H e

al th

C ar

e

R e

d u

ci n

g C

o st

o f

C ar

e

P u

b lic

S e

rv ic

e s

P re

ve n

ti n

g P

an d

e m

ic s

Li fe

S ci

e n

ce s

G en

o m

ic M

ap p

in g

IT In

fr as

tr u

ct u

re U

n st

ru ct

u re

d D

at a

A n

al ys

is

O n

lin e

S e

rv ic

e s

So ci

al M

ed ia

f o

r P

ro fe

ss io

n al

s

R e

ta il

P h

o n

e /T

V

G o

ve rn

m en

t In

te rn

e t

M e

d ic

al

Fi n

an ci

al

D a

ta C

o ll

e c

to rs

1 2 3 4 5

C o

p yr

ig h

t ©

2 0

1 4

E M

C C

o rp

o ra

ti o

n . A

ll R

ig h

ts R

e se

rv ed

.

B ig

D at

a A

n al

yt ic

s: H

ea lth

ca re

U se

o f

B ig

D at

a

K ey

O

u tc

o m

es

S it

u at

io n

P oo

r po

lic e

re sp

on se

a nd

p ro

bl em

s w

ith m

ed ic

al c

ar e,

tr ig

ge re

d by

s ho

ot in

g of

a R

ut ge

rs s

tu de

nt T

he e

ve nt

d ro

ve lo

ca l d

oc to

r to

m ap

c rim

e da

ta a

nd e

xa m

in e

lo ca

l h ea

lth c

ar e

D r.

Je ffr

ey B

re nn

er g

en er

at ed

h is

o w

n cr

im e

m ap

s fr

om m

ed ic

al

bi lli

ng r

ec or

ds o

f 3 h

os pi

ta ls

C it

h os

pi ta

ls &

E R

s pr

o id

ed e

pe ns

i e

ca re

, l o

q al

it c

ar e

R ed

ce d

ho sp

ita l c

os ts

b 5

6% b

r ea

li in

g th

at 8

0% o

f c it

s m

ed ic

al c

os ts

c am

e fr

om 1

3% o

f i ts

r es

id en

ts , m

ai nl

y lo

w -

in co

m e

or e

ld er

ly

N ow

o ffe

rs p

re ve

nt at

iv e

ca re

o ve

r th

e ph

on e

or th

ro ug

h ho

m e

vi si

ts

1

2 2

M o

d u

le 1

: In

tr o

d u

ct io

n t

o B

D A

C o

p yr

ig h

t ©

2 0

1 4

E M

C C

o rp

o ra

ti o

n . A

ll R

ig h

ts R

e se

rv ed

.

B ig

D at

a A

n al

yt ic

s: P

ub lic

S er

vi ce

s

U se

o f

B ig

D at

a

K ey

O

u tc

o m

es

S it

u at

io n

T hr

ea t o

f g lo

ba l p

an de

m ic

s ha

s in

cr ea

se d

ex po

ne nt

ia lly

P an

de m

ic s

sp re

ad s

at fa

st er

r at

es , m

or e

re si

st an

t t o

an tib

io tic

s

C re

at ed

a n

et w

or k

of v

ira l l

is te

ni ng

p os

ts

C om

bi ne

s da

ta fr

om v

ira l d

is co

ve ry

in th

e fie

ld , r

es ea

rc h

in

di se

as e

ho ts

po ts

, a nd

s oc

ia l m

ed ia

tr en

ds U

si ng

B ig

D at

a to

m ak

e ac

cu ra

te p

re di

ca tio

ns o

n sp

re ad

o f n

ew

pa nd

em ic

s

Id en

tif ie

d a

fif th

fo rm

o f h

um an

m al

ar ia

, i nc

lu di

ng it

s or

ig in

Id en

tif ie

d w

hy e

ffo rt

s fa

ile d

to c

on tr

ol s

w in

e flu

P ro

po si

ng m

or e

pr oa

ct iv

e ap

pr oa

ch es

to p

re ve

nt in

g ou

tb re

ak s

2

M o

d u

le 1

: In

tr o

d u

ct io

n t

o B

D A

2 3

C o

p yr

ig h

t ©

2 0

1 4

E M

C C

o rp

o ra

ti o

n . A

ll R

ig h

ts R

e se

rv ed

.

B ig

D at

a A

n al

yt ic

s: L

ife S

ci en

ce s

U se

o f

B ig

D at

a

K ey

O

u tc

o m

es

S it

u at

io n

B ro

ad In

st itu

te (

M IT

& H

ar va

rd )

m ap

pi ng

th e

H um

an G

en om

e

In 1

3 yr

s, m

ap pe

d 3

bi lli

on g

en et

ic b

as e

pa irs

; 8 p

et ab

yt es

D ev

el op

ed 3

0+ s

of tw

ar e

pa ck

ag es

, n ow

s ha

re d

pu bl

ic ly

, a lo

ng

w ith

th e

ge no

m ic

d at

a

U si

ng g

en et

ic m

ap pi

ng s

to id

en tif

y ce

llu la

r m

ut at

io ns

c au

si ng

ca

nc er

a nd

o th

er s

er io

us d

is ea

se s

In no

va tin

g ho

w g

en om

ic r

es ea

rc h

in fo

rm s

ne w

p ha

rm ac

eu tic

al

dr ug

s

3

M o

d u

le 1

: In

tr o

d u

ct io

n t

o B

D A

2 4

C o

p yr

ig h

t ©

2 0

1 4

E M

C C

o rp

o ra

ti o

n . A

ll R

ig h

ts R

e se

rv ed

.

B ig

D at

a A

n al

yt ic

s: IT

In fr

as tr

uc tu

re

U se

o f

B ig

D at

a

K ey

O

u tc

o m

es

S it

u at

io n

E xp

lo si

on o

f u ns

tr uc

tu re

d da

ta r

eq ui

re d

ne w

te ch

no lo

gy to

an

al yz

e qu

ic kl

y, a

nd e

ffi ci

en tly

D ou

g C

ut tin

g cr

ea te

d H

ad oo

p to

d iv

id e

la rg

e pr

oc es

si ng

ta sk

s in

to s

m al

le r

ta sk

s ac

ro ss

m an

y co

m pu

te rs

A na

ly ze

s so

ci al

m ed

ia d

at a

ge ne

ra te

d by

h un

dr ed

s of

th

ou sa

nd s

of u

se rs

N ew

Y or

k Ti

m es

u se

d H

ad oo

p to

tr an

sf or

m it

s en

tir e

pu bl

ic

ar ch

iv e,

fr om

1 85

1 to

1 92

2, in

to 1

1 m

ill io

n P

D F

fi le

s in

2 4

hr s

A pp

lic at

io ns

r an

ge fr

om s

oc ia

l m ed

ia , s

en tim

en t a

na ly

si s,

w

ar tim

e ch

at te

r, na

tu ra

l l an

gu ag

e pr

oc es

si ng

4

M o

d u

le 1

: In

tr o

d u

ct io

n t

o B

D A

2 5

C o

p yr

ig h

t ©

2 0

1 4

E M

C C

o rp

o ra

ti o

n . A

ll R

ig h

ts R

e se

rv ed

.

B ig

D at

a A

n al

yt ic

s: O

nl in

e Se

rv ic

es

U se

o f

B ig

D at

a

K ey

O

u tc

o m

es

S it

u at

io n

O pp

or tu

ni ty

to c

re at

e so

ci al

m ed

ia s

pa ce

fo r

pr of

es si

on al

s

C ol

le ct

s an

d an

al yz

es d

at a

fr om

o ve

r 10

0 m

ill io

n us

er s

A dd

in g

1 m

ill io

n ne

w u

se rs

p er

w ee

k

Li nk

ed In

S ki

lls , I

nM ap

s, J

ob R

ec om

m en

da tio

ns , R

ec ru

iti ng

E st

ab lis

he d

a di

ve rs

e da

ta s

ci en

tis t g

ro up

, a s

fo un

de r

be lie

ve s

th is

is th

e st

ar t o

f B ig

D at

a re

vo lu

tio n

5

M o

d u

le 1

: In

tr o

d u

ct io

n t

o B

D A

2 6

C o

p yr

ig h

t ©

2 0

1 4

E M

C C

o rp

o ra

ti o

n . A

ll R

ig h

ts R

e se

rv ed

.

C h

e ck

Y o

u r

K n

o w

le d

ge

1 .

W h

at a

re t

h e

3 c

h ar

ac te

ri st

ic s

o f

B ig

D at

a, a

n d

t h

e

m ai

n c

o n

si d

e ra

ti o

n s

in p

ro ce

ss in

g B

ig D

at a?

2 .

W h

at is

a n

a n

al yt

ic s

an d

b o

x?

3 .

Ex p

la in

t h

e d

if fe

re n

ce b

e tw

e e

n B

u si

n e

ss In

te lli

ge n

ce

an d

D at

a Sc

ie n

ce .

4 .

D e

sc ri

b e

t h

e c

h al

le n

ge s

o f

th e

c u

rr e

n t

an al

yt ic

al

ar ch

it e

ct u

re f

o r

D at

a Sc

ie n

ti st

s.

5 .

W h

at a

re t

h e

k e

y sk

ill s

et s

an d

b e

h av

io ra

l c h

ar ac

te ri

st ic

s o

f a

D at

a Sc

ie n

ti st

?

M o

d u

le 1

: In

tr o

d u

ct io

n t

o B

D A

2 7

Y o

u r

T h

o u

g h

ts ?

C o

p yr

ig h

t ©

2 0

1 4

E M

C C

o rp

o ra

ti o

n . A

ll R

ig h

ts R

e se

rv ed

.

Su m

m ar

y

K ey

p o

in ts

c o

ve re

d in

t h

is le

ss o

n :

B ig

d at

a w

as d

e fi

n e

d

Fo u

r b

u si

n e

ss d

ri ve

rs f

o r

ad va

n ce

d a

n al

yt ic

s w

e re

id e

n ti

fi e

d Th

e t

e ch

n iq

u e

s fo

r B

u si

n e

ss In

te lli

ge n

ce w

e re

d is

ti n

gu is

h e

d f

ro m

th

o se

o f

D at

a Sc

ie n

ce Th

e r

o le

o f

th e

D at

a Sc

ie n

ti st

w it

h in

t h

e n

ew b

ig d

at a

e co

sy st

e m

w

as d

e sc

ri b

e d

M u

lt ip

le il

lu st

ra ti

ve e

xa m

p le

s o

f b

ig d

at a

o p

p o

rt u

n it

ie s

w e

re

ci te

d

M o

d u

le 1

: In

tr o

d u

ct io

n t

o B

D A

2 8