helpfn

profilebcs
Automaticdetectionofdepressionfromtextdata.pdf

Automatic detection of depression from text data A systematic literacture review

Felipe Magami [email protected]

Escola de Artes, Ciências e Humanidades, USP São Paulo, Brazil

Luciano Antonio Digiampietri [email protected]

Escola de Artes, Ciências e Humanidades, USP São Paulo, Brazil

ABSTRACT Depression is a mental disorder that affects hundreds of millions of people worldwide, with potentially serious consequences if left without treatment. Despite that, many people still suffer from de- pression without a diagnosis. Recently, the amount of studies re- lated to the automatic detection of depression has improved. The objective of this paper is to identify the methods and techniques used by studies about depression detection through text data, by conducting a systematic review.

CCS CONCEPTS • Information systems → Social networks; • General and ref- erence → Surveys and overviews.

KEYWORDS Detection of depression, Social networks, Sentiment analysis ACM Reference Format: Felipe Magami and Luciano Antonio Digiampietri. 2020. Automatic de- tection of depression from text data: A systematic literacture review. In XVI Brazilian Symposium on Information Systems (SBSI’20), November 3–6, 2020, São Bernardo do Campo, Brazil. ACM, New York, NY, USA, 8 pages. https://doi.org/10.1145/3411564.3411603

1 INTRODUÇÃO A depressão é um transtorno caracterizado pela falta de interesse e prazer, tristeza, sentimento de culpa, falta de autoconfiança, cansaço persistente, falta de concentração e distúrbios do sono, entre outros sintomas [51]. Se não tratada, a depressão pode, em casos extremos, levar ao suicídio. Segundo a Organização Mundial de Saúde [55], em 2017, o número de pessoas com depressão no mundo inteiro foi de mais de 300 milhões, número que tende a crescer. No Brasil, os depressivos representam 11,5 milhões, uma das maiores taxas de de- pressão no mundo e a maior da América Latina. Provisões e serviços para suporte e identificação de transtornos mentais em geral ainda são considerados insuficientes [20], e muitas vezes os próprios de- pressivos podem não procurar ajuda, não só pelo preconceito que eles possam vir a sofrer, mas também pela vergonha e estigma que eles sentem por si [90]. Os transtornos mentais podem acarretar

Permission to make digital or hard copies of all or part of this work for personal or classroom use is granted without fee provided that copies are not made or distributed for profit or commercial advantage and that copies bear this notice and the full citation on the first page. Copyrights for components of this work owned by others than ACM must be honored. Abstracting with credit is permitted. To copy otherwise, or republish, to post on servers or to redistribute to lists, requires prior specific permission and/or a fee. Request permissions from [email protected]. SBSI’20, November 3–6, 2020, São Bernardo do Campo, Brazil © 2020 Association for Computing Machinery. ACM ISBN 978-1-4503-8873-3/20/11.. .$15.00 https://doi.org/10.1145/3411564.3411603

em grandes custos, grande parte devido a causas indiretas, como perdas com morte precoce, absenteísmo e presenteísmo [70]. Mais de 700 mil pessoas morrem por ano por suicídio, uma das principais causas de morte para a faixa etária entre os 15 e 29 anos [55].

Existem várias pesquisas com interesse em detectar automatica- mente pessoas potencialmente depressivas com o intuito de facilitar esse diagnóstico e promover maior busca por tratamento. Por exem- plo, Alghowinem [4] descreve uma abordagem multimodal para de- tecção de depressão utilizando atributos vocais, movimento dos ol- hos e balanço da cabeça. Similarmente, outros trabalhos [32, 36, 103] também utilizaram características acústicas de gravações de falas de depressivos para identificação.

Vários trabalhos estudam a relação entre linguagem e transtornos mentais [63]. Rude, Gortner e Pennebaker [74] identificaram que universitários americanos depressivos utilizavam a palavra “eu” e palavras relacionadas a emoções negativas com maior frequência. Já Al-Mosaiwi e Johnstone [2] encontraram palavras “absolutistas”, isto é, palavras com maior grau de polarização, como “absoluta- mente”, “tudo” e “nunca”, em maior frequência em fóruns de internet relacionados a depressão, ansiedade e ideação suicida do que em outros fóruns.

O presente trabalho apresenta uma revisão sistemática da liter- atura com o objetivo de identificar os métodos e técnicas utilizados para a tarefa de detecção de depressão a partir de dados textuais.

2 METODOLOGIA E CONDUÇÃO A revisão sistemática da literatura é uma metodologia empregada com o propósito de identificar, avaliar e interpretar pesquisas per- tinentes a um tópico, pergunta ou fenômeno de interesse em es- pecífico [37]. Em geral, uma revisão sistemática é dividida em três etapas: o planejamento, em que são definidos os propósitos da re- visão, seus objetivos e as perguntas a serem respondidas, bem como detalhes acerca das bibliotecas científicas a serem adotadas e os critérios de seleção de trabalhos; a condução, em que, de acordo com as decisões tomadas no passo anterior, os trabalhos são identifica- dos, selecionados e os dados relevantes são extraídos e sintetizados; e, por último, a divulgação, em que os resultados da revisão são documentados e publicados. Devido à limitação de espaço, ape- nas os pontos julgados mais importantes do processo da revisão sistemática realizada neste trabalho serão apresentados.

Como mencionado, esta revisão teve como objetivo identificar os métodos e técnicas empregados para detecção de depressão a partir de dados de texto. Ela procurou responder às seguintes perguntas:

(1) Quais são os métodos e técnicas utilizados para a criação (ou cálculo ou extração) de atributos a partir de dados textuais (incluindo características sobre uso de palavras, gramática e representação vetorial)?

SBSI’20, November 3–6, 2020, São Bernardo do Campo, Brazil Felipe Magami and Luciano Antonio Digiampietri

(2) Quais são os modelos de classificação1 utilizados para de- tecção de depressão a partir de dados textuais?

(3) Quais foram os conjuntos de dados textuais utilizados? (4) Como a classificação real foi encontrada (isto é, de que forma

os depressivos foram identificados)?

Para a etapa de seleção dos trabalhos relevantes, apenas critérios de inclusão foram definidos e o artigo deve obedecer a todos estes critérios para ser selecionado. Os critérios são:

I1. Serão incluídos trabalhos publicados e disponíveis integral- mente em bases de dados científicas e acessíveis pelos au- tores;

I2. Serão incluídos trabalhos que já possuam aprovação pela co- munidade científica (isto é, foram submetidos a um processo de revisão por pares);

I3. Serão incluídos trabalhos que abordam métodos e técnicas para detecção de depressão a partir de dados textuais;

As bibliotecas digitais utilizadas para a condução desta revisão foram a IEEE Xplore Digital Library, ACM Digital Library e Scopus. Consideramos que essas bibliotecas sejam abrangentes o suficiente para alcançarmos pelo menos a maioria dos trabalhos disponíveis pertinentes para a nossa revisão. A expressão de busca utilizada foi a expressão ““depress*” AND (“language” OR “text”)”. Para as duas primeiras bibliotecas, o filtro “Metadata Only” foi utilizado. Para a biblioteca Scopus a expressão de busca foi aplicada apenas para o título, resumo e palavras-chave, restringindo-se para as áreas de computação, matemática e engenharia. Não foi utilizado refina- mento por ano ou critérios de qualidade. As buscas nas bibliotecas digitais foram realizadas entre o período de 27/04/2019 e 17/09/2019. Não foi realizado nenhum filtro em relação à data de publicação dos artigos. Os trabalhos encontrados foram examinados a partir de seus títulos, palavras-chave e resumos e selecionados a partir dos critérios mencionados anteriormente. A Tabela 1 apresenta a quantidade de trabalhos encontrados com a busca descrita e a quantidade de trabalhos incluídos.

Tabela 1: Resultados das buscas nas bibliotecas científicas

Base Encontrados Incluídos IEEE 128 17 ACM 65 12 Scopus 524 47

3 RESULTADOS E DISCUSSÃO Todos os 76 trabalhos incluídos na etapa de condução foram lidos na íntegra e as informações referentes ao objetivo e às perguntas definidas no planejamento foram extraídas. As Tabelas 2 e 3 contêm a lista dos trabalhos incluídos e os dados extraídos.

1Para esta revisão também foram considerados modelos para regressão. Trabalhos que tiveram como resultado predições de pontuação para depressão poderiam ser transformados em classes estabelecendo intervalos para diferentes níveis de depressão, estratégia equivalente aos questionários de diagnóstico de depressão utilizado por profissionais.

3.1 Conjuntos de dados Percebe-se que grande parte dos trabalhos se referem a participações em desafios, especificamente nos desafios eRisk para detecção pre- coce de risco na internet dos anos 2017 [44], 2018 [45] e 2019 [46]; e Audio/Visual Emotion Challenge and Workshop (AVEC) de 2014 [93], 2016 [92] e 2017 [72]. Para o desafios eRisk dos anos 2017 e 2018, o conjunto de dados primeiramente proposto em [43] foi adotado, em que postagens do Reddit foram coletadas e os usuários depressivos foram localizados a partir de expressões específicas, como “Fui diagnosticado com depressão”, e verificados manual- mente. Como o desafio aborda a detecção precoce, a tarefa é di- vidida em etapas, em que para cada semana um subconjunto das postagens é disponibilizado e os participantes decidem se devem realizar a classificação de um usuário ou se devem esperar até que novas postagens sejam disponibilizadas, de forma que classificações corretas com menos postagens recebem uma pontuação maior. Para o eRisk 2019, foram propostas algumas mudanças: postagens de redes sociais de usuários foram disponibilizadas de forma completa e os participantes tiveram como objetivo prever a pontuação para cada uma das perguntas encontradas no Inventário de Depressão de Beck (BDI) [9].

Os conjuntos de dados utilizados pelo desafio AVEC são de gravações de interações humano-computador. Em particular, o con- junto Distress Analysis Interview Corpus (DAIC) [28], adotado nas tarefas de 2016 e 2017, também foi utilizado pelos estudos em [5, 15, 40]. Por causa da natureza dos dados, alguns trabalhos do AVEC e de conjuntos de áudio e vídeo tendem a focar menos nos atributos textuais. Trabalhos como em [102] e [81] utilizam informações sobre o conteúdo próprio do DAIC, por exemplo, se o participante já foi diagnosticado previamente com depressão ou estresse pós-traumático e se ele sofre de problemas de sono, com- binadas com outras características como gestos, movimentação da cabeça e segmentação de voz.

Analisando os artigos não-relacionados a estes desafios, observa- se que a maior parte dos conjuntos são oriundos de dados online, em particular de redes sociais, como Twitter [10, 18, 20, 22, 33, 58, 104], Facebook [19, 35, 99] e LiveJournal [52–54, 105]. Um conjunto interessante é o in-the-Wild Speech Corpus (WSM), coletado em [85] e utilizado também por [15] e [16], de vídeos do YouTube sobre um determinado tema. Embora o foco do estudo não seja só em depressão, vídeos sobre depressão foram coletados pela expressão “vlog de depressão” e verificados manualmente.

3.2 Classificação real A identificação das classes reais, isto é, se o indivíduo ou postagem apresenta ou não conteúdo depressivo, ocorreu de acordo com duas abordagens: uma que inclui o contato direto (pessoalmente, por questionários, etc) com a pessoa que produziu os dados e outra sem nenhum contato.

No caso das anotações sem contato/envolvimento, os usuários ou postagens são identificados com base em um tipo de estratégia, como procurar por sintomas depressivos específicos [23] ou por expressões específicas [43].

Automatic detection of depression from text data SBSI’20, November 3–6, 2020, São Bernardo do Campo, Brazil T ab

el a 2:

Sí n te se

do s ar ti go

s se le ci on

ad os

- p ar te

1

Re f.

C on

ju nt o de

da do

s C la ss ifi ca çã o re al

C ri aç ão

de at ri bu

to s te xt ua is

M od

el os

de cl as si fic aç ão

[5 8]

Tw itt er

A no

ta çã o po

r es pe ci al is ta s

Po S ta gg in g e di ci on

ár io s

Fó rm

ul a de

po nt ua çã o [3 4]

[2 2]

Tw itt er

N ão

es pe ci fic ad o

Po S ta gg in g e Bo

W SV

M e N B

[4 9]

C on

ju nt o em

AV EC

20 14

[9 3]

BD I- II

LI W C ,n

-g ra m as

de pa la vr as ,c ar ac te re s e Po

S e m ét ri ca s de

co nt ag em

SV M

[1 00 ]

AV EC

20 16

[9 2]

PH Q -8

M ét od

os de

em be dd in g

SV M

[3 5]

Fa ce bo

ok Q ue st io ná ri o de

sa úd

e m en ta lt ai la nd

ês M ét ri ca s de

co nt ag em

,a ná lis e de

se nt im

en to s e Po

S ta gg in g

SV M ,fl

or es ta s ra nd

ôm ic as

(R F)

e re de s ne ur ai s

pr of un

da s

[7 9]

AV EC

20 17

(D A IC

[2 8] )

PH Q -8

Bo W

e m ét od

os de

em be dd in g

SV M

[7 ]

G ra va çõ es

de in te ra çõ es

en tr e ad o-

le sc en te s e se us

pa is

D ia gn

ós tic

o cl ín ic o

D ic io ná ri o de

va lê nc ia e ex ci ta çã o ([ 97 ])

SV M

[2 3]

D ia ry .c om

A no

ta çã o m an ua l

Si nt om

as do

qu es tio

ná ri o de

de pr es sã o fo rn ec id o na

pl at af or m a Ps yc h C en tr al e no

U ni fie

d M ed ic al

La ng

ua ge

Sy st em

(U M LS

) M od

el os

Ba ye si an os

[9 0]

eR is k 20 17

(R ed di t[ 43 ])

Ex pr es sõ es

es pe cí fic as

Pr es en ça

do pr on

om e “E u” ,P

oS ta gg in g,

po nt ua çõ es

de le gi bi lid

ad e,

m ét ri ca s de

co nt ag em

,e x-

pr es sõ es

se le ci on

ad as ,n

om es

de an tid

ep re ss iv os ,L IW

C e m ét od

os de

em be dd in g

C N N (p ar a em

be dd in g) ,L R (p ar a ou

tr os

at ri bu

to s)

e en se m bl e

[3 3]

Tw itt er

Ex pr es sõ es

es pe cí fic as

D ic io ná ri os

de se nt im

en to s (V SO

,S en tiS

tr en gt h,

W or dN

et )e

de em

ot ic on s e Po

S ta gg in g

SV M

[8 2]

Re dd

it [6 5]

D e ac or do

co m

gr up

o de

or ig em

da s po

st ag en s

LI W C ,n

-g ra m as

e LD

A LR

, SV

M , RF

, A da Bo

os t e Pe rc ep tr on

m ul tic

a- m ad as

(M LP

) [1 5]

W SM

[8 5]

e D A IC

[2 8]

A no

ta çã o m an ua l( W SM

)e PH

Q -8

(D A IC )

Bo W

SV M

[5 2]

Li ve Jo ur na l

D e ac or do

co m

gr up

o de

or ig em

da s po

st ag en s

A N EW

,L IW

C ,L D A e et iq ue ta s de

hu m or

do Li ve Jo ur na l

La ss o (L R)

[1 4]

C om

un id ad es

on lin

e Ex

tr aç ão

au to m át ic a co m ve ri fic aç ão

m an ua ld e si n-

to m as

do qu

es tio

ná ri o IC M -1 0

N -g ra m as

SV M ,N

B e ár vo re s de

de ci sã o (D T)

[4 0]

D A IC

[2 8]

PH Q -8

Bo W ,m

od el ag em

de tó pi co s m an ua le

da ta

au gm

en ta ti on

M od

el os

de re de s de

tr an sf or m aç ão

[8 4]

M en sa ge ns

de te xt os

e po

st ag en s

em re de s so ci ai s

PH Q -9

A ná lis e de

se nt im

en to s co m

fe rr am

en ta

Te xt Bl ob ,a va lia çã o de

su bj et iv id ad e do

te xt o, Po

S ta gg in g

e m ét ri ca s de

co nt ag em

A lg or itm

o k- vi zi nh

os m ai s

pr óx im

os (K N N ),

SV M ,R

F, A da Bo

os t, X G Bo

os t, LR

e N B.

[3 ]

M en sa ge ns

de te xt os

en tr e

pa -

ci en te s e ps ic ól og

os A no

ta çã o m an ua l

N -g ra m as

K N N , SV

M , gr ad ie nt e de sc en de nt e es to cá st ic o

(S G D ), N B,

D T,

RF e A da Bo

os t

[1 02 ]

AV EC

20 17

(D A IC

[2 8] )

PH Q -8

M ét ri ca sd

e co nt ag em

et er m os

es pe cí fic os

e at ri bu

to ss em

ân tic

os re la ci on

ad os

a tr ec ho

se sp ec ífi co s

do co nj un

to SV

M

[8 1]

AV EC

20 17

(D A IC

[2 8] )

PH Q -8

A tr ib ut os

se m ân tic

os re la ci on

ad os

a tr ec ho

s es pe cí fic os

do co nj un

to RF

[9 9]

Fa ce bo

ok A no

ta çã o m an ua l

D ic io ná ri os

ch in es es

de em

oç ão

e em

ot ic on s e m ét od

os de

em be dd in g

Po nt ua çã o at ra vé s do

s di ci on

ár io s e C N N

[7 6]

eR is k 20 17

(R ed di t[ 43 ])

Ex pr es sõ es

es pe cí fic as

Bo W ,m

ét od

os de

em be dd in g tr ei na do

s em

n- gr am

as re la ci on

ad os

à de pr es sã o e co nc ei to s m éd ic os

SV M

e re de s ne ur ai s re co rr en te s (R N N )

[5 9]

AV EC

20 16

(D A IC

[2 8] )

PH Q -8

M ét ri ca s de

co nt ag em

e pa la vr as

de pr es si va s, A N EW

e LI W C

D T e en se m bl es

[1 01 ]

AV EC

20 17

(D A IC

[2 8]

PH Q -8

A tr ib ut os

se m ân tic

os re la ci on

ad os

a tr ec ho

s es pe cí fic os

do co nj un

to e m ét od

os de

em be dd in g

C N N

[9 8]

AV EC

20 16

(D A IC

[2 8]

PH Q -8

M ét od

os de

em be dd in g e at ri bu

to s se m ân tic

os re la ci on

ad os

a tr ec ho

s es pe cí fic os

do co nj un

to C N N

[1 9]

Fa ce bo

ok A ut od

ec la ra çã o e PH

Q -9

LI W C e pa la vr as

re la ci on

ad as

a pe rg un

ta s (e .g .“ co m o” ,“ po

r qu

ê” )

SV M

[1 8]

Tw itt er

A ut od

ec la ra çã o e C ES

-D LI W C ,A

N EW

e n- gr am

as SV

M [1 04 ]

Tw itt er

Ex pr es sõ es

es pe cí fic as

co m

an ot aç ão

m an ua l po

r si nt om

as do

PH Q -9

LD A co m

te rm

os se m en te s a pa rt ir de

si nt om

as do

PH Q -9

e pa la vr as

re la ci on

ad as

a de pr es sã o

C la ss ifi ca çã o a pa rt ir do

m od

el o de

tó pi co s ge r-

ad o, SV

M e N B

[2 9]

AV EC

20 14

[9 3]

BD I- II

D ic io ná ri os

pr óp

ri os

de ex ci ta çã o e va lê nc ia ,m

od el os

de di st ri bu

iç ão

se m ân tic

a, n- gr am

as e Po

S ta gg in g

SV M

[1 7]

AV EC

20 17

(D A IC

[2 8] )

PH Q -8

Bo W ,P

oS e n- gr am

as in de xa do

s e di ci on

ár io s A N EW

,E m oL

ex ,S en tic

N et

e La sw

el l

Re gr es so re s G au ss ia no

s e m áq ui na s de

ve to re s

re le va nt es

[3 1]

W es te rn

C ol la bo

ra tiv

e G ro up

St ud

y [7 3]

C ES

-D Po

S ta gg in g, LI W C ,a va lia do

rd e de ns id ad e de

id ei as

(C PI D R)

e fr eq uê nc ia de

pa la vr as

em pr im

ei ra

pe ss oa

LR ,M

LP

[9 5]

eR is k 20 17

(R ed di t[ 43 ])

Ex pr es sõ es

es pe cí fic as

M od

el ag em

de gr af os

de gr am

as de

pa la vr as

e le tr as

C ál cu lo

de m ed id as

de si m ila ri da de

en tr e o do

cu -

m en to

de in te re ss e e os

gr af os

da sc

la ss es

ge ra do

s [6 7]

eR is k 20 18

(R ed di t[ 43 ])

Ex pr es sõ es

es pe cí fic as

Bo W ,P oS

ta gg in g, te rm

os de

ne ga çã o, ca pi ta liz aç õe s, po

nt ua çõ es ,e m ot ic on s, m ét ri ca sd

e co nt ag em

, pa la vr as

em pr im

ei ra

pe ss oa ,p al av ra s “a bs ol ut is ta s” ,t er m os

no pr et ér ito

e re la ci on

ad os ,s in to m as

e m ed ic am

en to sr el ac io na do

sa de pr es sã o, fr eq uê nc ia da

ex pr es sã o "d ep re ss *" ,n -g ra m as ,a ná lis e de

se nt im

en to s, te rm

os re la ci on

ad os

a so no

,p on

tu aç ão

de le gi bi lid

ad e e m ét od

os de

em be dd in g

RF e LR

[5 6]

C on

ju nt o de

áu di o em

tu rc o

D ia gn

ós tic

o cl ín ic o

Ra di ca is ,a fix

os ,P

oS ,a ná lis e de

se nt im

en to s, di ci on

ár io

de ps ic ol og

ia H ar ar d- III

e Bo

W N B,

LR Ba

ye si an o e SV

M [7 1]

Re da çã o

de un

iv er si tá ri os

so br e

se us

se nt im

en to s [7 4]

BD I

LD A e LI W C

Re gr es sã o lin

ea r

[2 7]

AV EC

20 17

(D A IC

[2 8] )

PH Q -8

LI W C e at ri bu

to s se m ân tic

os re la ci on

ad os

a tr ec ho

s es pe cí fic os

do co nj un

to RF

,S G D e SV

M [1 3]

eR is k 20 19

[4 6]

BD I

Fr am

ew or k SS 3 [1 2]

Fr am

ew or k SS 3 [1 2]

[6 9]

Re da çõ es

em al em

ão so br e re tr o-

sp ec tiv

a do

an o an te ri or

e ex pe ct a-

tiv as

pa ra

o an o se gu

in te

BD I- II

LI W C

LR

[6 ]

eR is k 20 17

(R ed di t[ 43 ])

Ex pr es sõ es

es pe cí fic as

N -g ra m as ,P

oS ta gg in g,

di ci on

ár io s (S en tic

N et ,m

ed ic am

en to s, do

en ça s re la ci on

ad as

e dr og

as ) e

m ét ri ca s de

co nt ag em

Re cu pe ra çã o

de in fo rm

aç ão

co m

al go

ri tm

o ba se ad o em

K N N ,e

ns em

bl e de

SV M ,e

ns em

bl e

de RF

,e ns em

bl e do

s m ét od

os de

cl as si fic aç ão

e de

re cu pe ra çã o de

in fo rm

aç ão .

[6 2]

Si na

W ei bo

Ex pr es sõ es

es pe cí fic as

D ic io ná ri o de

em oç õe s, di ci on

ár io de

em oç õe sp

ar a lin

gu ag em

de in te rn et e di ci on

ár io de

em ot ic on s

SV M ,N

B, K N N ,D

T, en se m bl e

SBSI’20, November 3–6, 2020, São Bernardo do Campo, Brazil Felipe Magami and Luciano Antonio Digiampietri T ab

el a 3:

Sí n te se

do s ar ti go

s se le ci on

ad os

- p ar te

2

Re f.

C on

ju nt o de

da do

s C la ss ifi ca çã o re al

C ri aç ão

de at ri bu

to s te xt ua is

M od

el os

de cl as si fic aç ão

[1 07 ]

Re da çõ es

de pe ss oa s

co m

do re s

cr ôn

ic as

C ES

-D LI W C

LR

[3 4]

Ps yc ho

-B ab bl e

A no

ta çã o de

es pe ci al is ta s

D ic io ná ri os

de si nt om

as e si nô

ni m os

e de

pa la vr as

fr eq ue nt es ,p ro no

m es

e pa la vr as

de ne ga çã o

Po nt ua çã o da da

po r fó rm

ul a pr óp

ri a

[1 06 ]

Bl og

ch in ês

"T re e H ol e"

N ão

es pe ci fic ad o

M ét ri ca s de

co nt ag em

,e m ot ic on s, pa la vr as

em pr im

ei ra

pe ss oa ,p

ad rõ es

ch in es es

na s se nt en ça s e

m ét od

os de

em be dd in g

SV M

e C N N

[9 6]

eR is k 20 18

(R ed di t[ 43 ])

Ex pr es sõ es

es pe cí fic as

Bo W

C N N

[5 7]

eR is k 20 18

(R ed di t[ 43 ])

Ex pr es sõ es

es pe cí fic as

Bo W

SV M

[1 2]

eR is k 20 17

(R ed di t[ 43 ])

Ex pr es sõ es

es pe cí fic as

Fr am

ew or k SS 3

Fr am

ew or k SS 3

[6 1]

eR is k 20 17

(R ed di t[ 43 ]

Ex pr es sõ es

es pe cí fic as

Bo W ,a ná lis e se m ân tic

a co nc is a, n- gr am

as e LI W C

N B,

RF e D T

[8 8]

eR is k 20 17

(R ed di t[ 43 ])

Ex pr es sõ es

es pe cí fic as

Bo W ,m

ét od

os de

em be dd in g,

pr on

om es

pe ss oa is e po

ss es si vo s, ve rb os

no pr et ér ito

,m ét ri ca s de

co nt ag em

e ín di ce s de

le gi bi lid

ad e

LR e RN

N

[2 6]

eR is k 20 18

(R ed di t[ 43 ])

Ex pr es sõ es

es pe cí fic as

A ná lis e se m ân tic

a co nc is a e ab or da ge m

si m ila r ao

Fr am

ew or k SS 3 [1 2]

LR , SV

M e ab or da ge m

si m ila r ao

Fr am

ew or k

SS 3 [1 2]

[1 ]

eR is k 20 19

[4 6]

e co nj un

to pr óp

ri o

de un

iv er si tá ri os

de ps ic ol og

ia pa ra

tr ei na m en to

(a pr en di za do

po r

tr an sf er ên ci a)

BD I

M od

el os

de pr é- tr ei na m en to

ge ne ra tiv

o (G PT

)e LI W C

SV M

[4 3]

Re dd

it Ex

pr es sõ es

es pe cí fic as

Bo W

LR [7 7]

AV EC

20 17

(D A IC

[2 8] )

PH Q -8

M ét ri ca s de

co nt ag em

,d ic io ná ri o de

pa la vr as

re la ci on

ad as

à de pr es sã o e di ci on

ár io

A FI N N

RF [6 6]

eR is k 20 18

(R ed di t[ 43 ])

Ex pr es sõ es

es pe cí fic as

M ét od

os de

em be dd in g, se nt en ça s po

si tiv

as e ne ga tiv

as ,i nv

er sã o Ba

ye si an a

M LP

,S V M

e m éd ia m óv el

[7 8]

eR is k 20 17

(R ed di t[ 43 ])

Ex pr es sõ es

es pe cí fic as

Bo W ,m

ét od

os de

em be dd in g, Po

S ta gg in g e m ét ri ca s de

co nt ag em

SV M

e RF

[8 9]

eR is k 20 18

(R ed di t[ 43 ])

Ex pr es sõ es

es pe cí fic as

Bo W ,m

ét od

os de

em be dd in g,

pr on

om es

pe ss oa is e po

ss es si vo s, ve rb os

no pr et ér ito

,m ét ri ca s de

co nt ag em

,í nd

ic es

de le gi bi lid

ad e, di ci on

ár io

de m ed ic am

en to s, fr as es

es pe cí fic as

e LI W C

LR e RN

N

[8 0]

Tr an sc ri çã o do

áu di o de

ca so s no

M en ta lH el p. ne t

Q ue st io ná ri os

BD I- II e D SM

-5 D ic io ná ri os

ba se ad os

no Se nt iW

or dN

et ,P

oS ,s in to m as ,p

al av ra s de

in te ns id ad e e de

fa to re s re le -

va nt es

co m o fa m íli a e hi st ór ic o m éd ic o

Po nt ua çã o da da

po rc on

st ru çã o de

re de

se m ân tic

a

[9 4]

eR is k 20 19

[4 6]

BD I

D ic io ná ri os

M ul ti Pe rs pe ct iv e Q ue st io n A ns w er in g,

W or dN

et ,d

e de se jo s se xu

ai s e de

di st úr bi os

al im

en ta re s, to ke ns

se le ci on

ad os

po ri nf or m aç ão

m út ua

e m ed id as

de si m ila ri da de

se m ân tic

a da da s

po r ve to re s de

em be dd in gs

LR ,l im

ia r de

po nt ua çõ es

e en se m bl e

[1 05 ]

Li ve Jo ur na l

Po st ag en s co m

a ex pr es sã o re gu

la r“ de pr es s* ”n

o tí-

tu lo

D ic io ná ri os

A N EW

,M PQ

A e Se nt iW

or dN

et N B e SV

M

[5 ]

D A IC

([ 28 ])

PH Q -8

M ét od

os de

em be dd in g

LR e RN

N [3 0]

Bl og

s ja po

ne se s

Ex pr es sõ es

es pe cí fic as

N -g ra m as

N B,

SV M

e LR

[7 5]

eR is k 20 17

(R ed di t[ 43 ])

Ex pr es sõ es

es pe cí fic as

D ic io ná ri o de

pa la vr as

re la ci on

ad as

à ex pr es sã o re gu

la r“ de pr es s* ”d

o Ya ho

o! Re

sp os ta se

co nc ei to s

do U M LS

SV M ,R

N N e en se m bl e

[2 4]

eR is k 20 17

Ex pr es sõ es

es pe cí fic as

N -g ra m as

N B

[5 0]

Bl og

s ja po

ne se s

C at eg or ia da sp

os ta ge ns

an ot ad as

pe lo sa

ut or es

do s

bl og

s Pa la vr as -c ha ve

do Se lf- Ra

tin g D ep re ss io n Sc al e e m od

al id ad e gr am

at ic al

e se m ân tic

a do

s te rm

os em

ja po

nê s

SV M

[4 2]

AV EC

20 16

(D A IC

[2 8] )

PH Q -8

M ét od

os de

em be dd in g

SV M

e LR

[8 6]

eR is k 20 19

[4 6]

BD I

A ná lis e de

se nt im

en to s co m

Te xt Bl ob ,p

ro no

m es

pe ss oa is ,p

al av ra s ab so lu tis ta s, di ci on

ár io

de an -

tid ep re ss iv os

e di st úr bi os

m en ta is e pa la vr as -c ha ve

es pe cí fic as

Po nt ua çã o pr óp

ri a

[6 0]

eR is k 20 18

(R ed di t[ 43 ])

Ex pr es sõ es

es pe cí fic as

Bo W ,c on

ce ito

s do

U M LS

e m ét od

os de

em be dd in g

SV M ,R

F, A da Bo

os t, LR

e RN

N [9 1]

Fó ru m

PP T

A no

ta çã o po

r es pe ci al is ta s

D ic io ná ri os

de ev en to s ne ga tiv

os ,e

m oç õe s ne ga tiv

as ,s in to m as

e pe ns am

en to s ne ga tiv

os e Po

S ta gg in g

Fó rm

ul a de

po nt ua çã o pr óp

ri a

[2 1]

Re dd

it [4 3]

Ex pr es sõ es

es pe cí fic as

D ic io ná ri os

LI W C ,W

ar ri ne r, N RC

e Se nt ic N et

5, ín di ce s de

le gi bi lid

ad e, fr eq uê nc ia

do pr on

om e

“e u”

e m ét od

os de

em be dd in g

RF

[6 8]

eR is k 20 18

(R ed di t[ 43 ])

Ex pr es sõ es

es pe cí fic as

D ic io ná ri o LI W C e de

an tid

ep re ss iv os ,p al av ra s ab so lu tis ta s e n- gr am

as LR

e RF

[2 5]

Re dd

it G ru po

de or ig em

e ex pr es sõ es

es pe cí fic as

D ic io ná ri o LI W C ,p al av ra s ab so lu tis ta s e m ét ri ca s de

co nt ag em

SV M ,M

LP e LR

[1 6]

W SM

[8 5]

A no

ta çã o m an ua l

Bo W

e re de s ne ur ai s re co rr en te s de

te ns or es

pa ra

ca ra ct er ís tic

as de

se nt im

en to

LR e SV

M [8 5]

W SM

e D A IC

[2 8]

A no

ta çã o m an ua l( W SM

)e PH

Q -8

(D A IC )

Bo W

e re de s ne ur ai s re co rr en te s de

te ns or es

pa ra

ca ra ct er ís tic

as de

se nt im

en to

LR e SV

M [5 4]

Li ve Jo ur na l

D e ac or do

co m

gr up

o de

or ig em

da s po

st ag en s

LD A e LI W C

LR ,S V M

e N B

[4 8]

AV EC

20 14

[9 3]

BD I- II

Bo W

e Po

S ta gg in g

SV M

[1 0]

Tw itt er

A no

ta çã o m an ua l

Si m ila ri da de

de gr af os

de se nt im

en to s, au xi lia do

po r W or dN

et SV

M ,K

N N e D T

[5 3]

Li ve Jo ur na l

D e ac or do

co m

gr up

o de

or ig em

da s po

st ag en s

LD A e LI W C

LR [2 0]

Tw itt er

C ES

-D e BD

I D ic io ná ri os

LI W C ,A

N EW

,d e te rm

os de pr es si vo s re tir ad os

do Ya ho

o! Re

sp os ta s e de

an tid

ep re s-

si vo s

SV M

Automatic detection of depression from text data SBSI’20, November 3–6, 2020, São Bernardo do Campo, Brazil

Alguns trabalhos separam grupos depressivos de não depressivos de acordo com sua origem, como em [52], em que as postagens são categorizadas de acordo com o grupo do LiveJournal de origem (depressão, bipolaridade, separação, suicídio e auto-mutilação para o grupo clínico e animais de estimação, moda, comida, parentalidade e tecnologia para o grupo de controle), ou em [50], em que postagens em blogs já estavam categorizadas de acordo com tags colocadas pelos próprios autores.

Para os conjuntos anotados com envolvimento dos autores dos textos a estratégia mais utilizada é a aplicação de questionários au- toavaliativos, frequentemente aplicados por psicólogos para auxílio ao diagnóstico. Os mais frequentes foram o Patient Health Ques- tionnaire com oito [39] e nove [38] itens (PHQ-8 e PHQ-9), o mesmo utilizado no DAIC; o Beck Depression Inventory (BDI [9] e BDI- II [8]); e o Center for Epidemiologic Studies - Depression (CES-D).

Segundo [43], o motivo de se utilizar anotações automáticas ou manuais, sem envolvimento com os autores dos textos depres- sivos, é que justamente esse contato pode ser laborioso. Porém, isso pode limitar a qualidade e volume dos dados, ainda que isso possa degradar a qualidade das classificações corretas (não se pode garantir, por exemplo, que uma postagem sem conteúdo depressivo aparente não tenha sido escrita por uma pessoa com depressão). Para os conjuntos de dados de vídeo, com exceção do WSM, por ser de vídeos do Youtube, a aplicação de questionários é frequente, pos- sivelmente por este contato direto com os participantes dos vídeos ser normalmente inevitável. Trabalhos como [19, 20, 84] utilizaram uma abordagem de crowdsourcing em que, ao mesmo tempo em que são recrutados participantes dispostos a disponibilizar suas publicações em redes sociais para comporem o corpus do estudo, os crowdworkers devem responder aos questionários de depressão. Ainda assim, no trabalho em [19] para detecção de mulheres com depressão pós-parto no Facebook, participantes que foram diagnos- ticadas como tendo depressão pelo questionário PHQ-9 mas que declararam não ter diagnóstico prévio de depressão foram descar- tadas para evitar essa discrepância. É importante notar que apenas os participantes dos trabalhos de transcrições de áudio de pes- soas de uma clínica psiquiátrica [56] e de gravações de interações entre adolescentes e seus pais [7] foram avaliados clinicamente para serem diagnosticados como depressivos ou não. Isso se deve, provavelmente, pelas dificuldades mencionadas anteriormente.

3.3 Criação de atributos Diversos métodos de criação/extração de características textuais foram observados. Técnicas habitualmente utilizadas em outras tarefas de processamento de língua natural e mineração de texto, como Bag-of-Words (BoW), n-gramas e Part-of-Speech tagging (PoS tagging) foram frequentes. O uso de PoS tagging para depressão é particularmente interessante, já que alguns estudos já verificaram singularidades no uso da língua por depressivos, como maior uso de pronomes em primeira pessoa [74] e verbos no pretérito [87]. [34] realiza classificação a partir da pontuação dada por uma fór- mula baseada em palavras de frequência (como “sempre”, “nunca” e “geralmente”), sintomas depressivos, pronomes e negações. Tal abordagem também foi utilizada por [58]. Dicionários voltados para a aplicação em computação, como o Linguistic Inquiry and Word Count (LIWC) [83], com categorias relacionadas a PoS, análise de

sentimentos e interesses pessoais, e o Affective Norms for English Words (ANEW) [11], para valência e excitação afetiva das palavras também foram empregados. Realizar uma análise de emoções nos textos pode ser útil levando em conta o impacto emocional que a depressão provoca. Alguns trabalhos também utilizaram dicionários de criação própria, como os dicionários de [34] para termos de fre- quência e sintomas. O uso de modelagem de tópicos a partir da técnica Latent Dirichlet Allocation [52–54, 71, 82, 104] não foi tão comum quanto o das outras técnicas.

Métodos de word embedding, que ganharam popularidade após a introdução do word2vec [47], também são bastante frequentes em trabalhos mais recentes. Os modelos de embedding adotados são variados; [79] faz uso de modelos do word2vec treinados em dados do Google News, já [100] utiliza embedding de parágrafo, enquanto [42] emprega vetores pré treinados do GloVe [64].

O trabalho em [67] utiliza a maioria das abordagens de extração de atributos textuais encontradas. Vários modelos foram criados para a participação no eRisk 2018, a partir de duas abordagens: uma baseada em características, que inclui BoW, frequência de PoS, ter- mos de negação, capitalizações, pontuação, emoticons, métricas de contagem, como quantidade de postagens e comentários, palavras em primeira pessoa, palavras “absolutistas”, como mencionado an- teriormente, expressões temporais remetendo ao passado, sintomas e medicamentos relacionados à depressão, frequência da expressão “depress*”, n-gramas selecionados por relevância, análise de sen- timentos, termos relacionados ao sono, análise de legibilidade do texto e métodos de embedding doc2vec [41], treinados utilizando modelos de floresta randômica (RF) e regressores logísticos (LR).

3.4 Classificadores Embora tenha sido observada uma grande variedade de modelos de classificação e regressão, os mais utilizados foram máquina de vetores de suporte (SVM) e LR. Métodos de árvores e modelos baseados em algoritmos Bayesianos como Naive Bayes (NB) tam- bém foram bastante utilizados. Redes neurais convolutivas (CNN) também foram frequentes quando vetores de embedding foram uti- lizados. Alguns trabalhos não utilizaram modelos de aprendizado clássicos, utilizando, por exemplo, uma função de pontuação [34] ou a abordagem SS3 descrita em [12] e também utilizada por [13, 26].

Na abordagem SS3, o texto é divido em subníveis compostos de partes de subníveis inferiores e, para cada parte de um subcon- junto, é calculado um valor de confiança de “pertencimento” daquela parte em cada classe, como um valor indicando que a palavra “apple” (“maçã”) tem certo pertencimento às classes “comida” e “tecnolo- gia”, mas pouco pertencimento à classe “viagem”. Este valor leva em consideração a frequência da palavra na classe, a partir de tex- tos coletados anteriormente, e ponderada por termos que tentam diminuir este valor de acordo com o valor de confiança para outras classes, de forma que as palavras não tenham valores altos para muitas classes e stop words tenham valor próximo de zero. As partes são então combinadas em seus níveis até que um valor para cada classe seja dado para o documento a ser classificado.

4 CONSIDERAÇÕES FINAIS Neste trabalho foi realizada uma revisão sistemática da literatura para identificar trabalhos relacionados à detecção de depressão a

SBSI’20, November 3–6, 2020, São Bernardo do Campo, Brazil Felipe Magami and Luciano Antonio Digiampietri

partir de dados textuais. Mais especificamente, objetivou-se identi- ficar os métodos e técnicas computacionais empregados, bem como os conjuntos de dados utilizados. Espera-se que este trabalho possa incentivar o desenvolvimento de mais ferramentas que automa- tizem parte do processo de diagnóstico de depressivos, auxiliando e complementado assim o processo realizado hoje em dia.

Observou-se que competições de detecção de depressão incen- tivaram o desenvolvimento desta área. Uma grande parcela dos trabalhos encontrados está relacionada aos desafios propostos pelo eRisk e pelo AVEC. Fora do escopo dessas competições, os dados utilizados são predominantemente originários de fóruns e redes sociais online, com quase nenhuma disponibilização pública dos dados. A língua predominante dos conjuntos utilizados é a inglesa, embora outras línguas, como a chinesa, japonesa e alemã, tenham sido observadas. Não foi encontrado nenhum trabalho utilizando textos em português.

Os métodos de classificação real são variados. A utilização de anotação manual e automática a partir de estratégias como busca por expressões específicas é popular, mas é mais vulnerável a er- ros. Uma estratégia mais rigorosa, como uma avaliação clínica dos autores dos textos, é muitas vezes laboriosa e dificulta a coleta de uma amostra com dados de um grande número de indivíduos. Ques- tionários de depressão podem ser um bom meio-termo, mas mesmo assim podem ser falíveis. Levando isso em conta, uma solução se- ria a criação e disponibilização de um grande conjunto de dados com um método de classificação real dos dados confiável. Não só isso encorajaria mais trabalhos relacionados à área, como também estabeleceria uma forma de comparação de desempenho para os diferentes métodos de processamento de texto e classificação en- contrados fora do escopo dos desafios mencionados.

Para conjuntos de transcrição de áudio, é comum a aplicação de questionários para a identificação do nível de depressão de cada participante, mas, para conjuntos de redes sociais e fóruns, outros métodos são frequentes, como a anotação manual por especialistas, expressões específicas e o uso do próprio tópico do fórum de origem.

As técnicas para transformação dos textos em atributos para aplicação em métodos de classificação ou regressão também são di- versas, mas observa-se o grande uso de estratégias convencionais da área de processamento de língua natural, como BoW, análise de sen- timentos, uso de dicionários e word embeddings. Nota-se, contudo, que é frequente o uso de características textuais mais específicas para depressão, como o uso de dicionários de antidepressivos e con- ceitos médicos. O uso de características relacionadas a pronomes pessoais e palavras “absolutistas” também são comuns, justificado por observações empíricas de estudos relacionando depressão e linguística, como mencionado anteriormente.

Os métodos de classificação e regressão mais utilizados foram SVM, LR, modelos Bayesianos e métodos de árvores. Além disso, para trabalhos que utilizaram vetorização por embeddings, CNNs foram bastante adotadas.

ACKNOWLEDGMENTS O presente trabalho foi parcialmente financiado pela Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES).

REFERÊNCIAS [1] P. Abed-Esfahani, D. Howard, M. Maslej, S. Patel, V. Mann, S. Goegan, and L.

French. 2019. Transfer learning for depression: Early detection and severity prediction from social media postings. CEUR Workshop Proceedings 2380.

[2] Mohammed Al-Mosaiwi and Tom Johnstone. 2018. In an Absolute State: elevated Use of Absolutist Words Is a Marker Specific to Anxiety, Depression, and Suicidal Ideation. Clinical Psychological Science 6, 4 (2018), 529–542.

[3] N. S. Alghamdi. 2019. Monitoring Mental Health Using Smart Devices with Text Analytical Tool. In 2019 6th International Conference on Control, Decision and Information Technologies (CoDIT). IEEE, Paris, França, 2046–2051.

[4] S. Alghowinem. 2013. From joyous to clinically depressed: Mood detection using multimodal analysis of a person’s appearance and speech. In Proceedings - 2013 Humaine Association Conference on Affective Computing and Intelligent Interaction, ACII 2013. Geneva, 648–653.

[5] T. Alhanai, M. Ghassemi, and J. Glass. 2018. Detecting depression with audio/text sequence modeling of interviews. In Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH, Vol. 2018- September. International Speech Communication Association, 1716–1720.

[6] H. Almeida, A. Briand, and M.-J. Meurs. 2017. Detecting early risk of depres- sion from social media user-generated content. In CEUR Workshop Proceedings, Vol. 1866. CEUR-WS.

[7] M. Asgari, I. Shafran, and L. B. Sheeber. 2014. Inferring clinical depression from speech and spoken utterances. In 2014 IEEE International Workshop on Machine Learning for Signal Processing (MLSP). IEEE, Reims, France, 1–5.

[8] A.T. Beck, R.A. Steer, and G.K. Brown. 1996. Manual for the Beck Depression Inventory-II. Psychological Corporation, San Antonio, EUA.

[9] Aaron T Beck, Calvin H Ward, Mock Mendelson, Jeremiah Mock, and John Erbaugh. 1961. An inventory for measuring depression. Archives of general psychiatry 4, 6 (1961), 561–571.

[10] M. Birjali, A. Beni-Hssane, and M. Erritali. 2017. A method proposed for esti- mating depressed feeling tendencies of social media users utilizing their data. Advances in Intelligent Systems and Computing 552 (2017), 413–420.

[11] Margaret M Bradley and Peter J Lang. 1999. Affective norms for English words (ANEW): Instruction manual and affective ratings. Technical Report. Citeseer.

[12] S.G. Burdisso, M. Errecalde, and M. Montes-y Gómez. 2019. A text classification framework for simple and effective early depression detection over social media streams. Expert Systems with Applications 133 (2019), 182–197.

[13] S.G. Burdisso, M. Errecalde, and M. Montes-Y-Gómez. 2019. UNSL at Erisk 2019: A Unified Approach for Anorexia, Self-harm and Depression Detection in Social Media. In CEUR Workshop Proceedings, Vol. 2380. CEUR-WS.

[14] T. Chomutare, E. Årsand, and G. Hartvigsen. 2015. Mining Symptoms of Severe Mood Disorders in Large Internet Communities. In 2015 IEEE 28th Int. Sympo- sium on Computer-Based Medical Systems. IEEE, Sao Carlos, Brazil, 214–219.

[15] J. Correia, B. Raj, and I. Trancoso. 2018. Querying Depression Vlogs. In 2018 IEEE Spoken Language Technology Workshop (SLT). IEEE, Athens, Greece, 987–993.

[16] J. Correia, B. Raj, I. Trancoso, and F. Teixeira. 2018. Mining multimodal reposi- tories for speech affecting diseases. In Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH, Vol. 2018- September. International Speech Communication Association, 2963–2967.

[17] Ting Dang, Brian Stasak, Zhaocheng Huang, Sadari Jayawardena, Mia Atcheson, Munawar Hayat, Phu Le, Vidhyasaharan Sethu, Roland Goecke, and Julien Epps. 2017. Investigating Word Affect Features and Fusion of Probabilistic Predictions Incorporating Uncertainty in AVEC 2017. In Proceedings of the 7th Annual Workshop on Audio/Visual Emotion Challenge (Mountain View, California, USA) (AVEC ’17). ACM, New York, NY, USA, 27–35.

[18] Munmun De Choudhury, Scott Counts, and Eric Horvitz. 2013. Social Media As a Measurement Tool of Depression in Populations. In Proceedings of the 5th Annual ACM Web Science Conference (Paris, France) (WebSci ’13). ACM, New York, NY, USA, 47–56.

[19] Munmun De Choudhury, Scott Counts, Eric J. Horvitz, and Aaron Hoff. 2014. Characterizing and Predicting Postpartum Depression from Shared Facebook Data. In Proceedings of the 17th ACM Conference on Computer Supported Coop- erative Work & Social Computing (Baltimore, Maryland, USA) (CSCW ’14). ACM, New York, NY, USA, 626–638.

[20] M. De Choudhury, M. Gamon, S. Counts, and E. Horvitz. 2013. Predicting depression via social media. In Proceedings of the 7th International Conference on Weblogs and Social Media, ICWSM 2013. AAAI press, Cambridge, MA, 128–137.

[21] F. Delahunty, I.D. Wood, and M. Arcan. 2018. First insights on a passive major depressive disorder prediction system with incorporated conversational chatbot. In CEUR Workshop Proceedings, Vol. 2259. CEUR-WS, 327–338.

[22] M. Deshpande and V. Rao. 2017. Depression detection using emotion artificial intelligence. In 2017 International Conference on Intelligent Sustainable Systems (ICISS). IEEE, Palladam, India, 858–862.

[23] Y. Fang et al. 2014. A mental disorder early warning approach by observing depression symptom in social diary. In 2014 IEEE International Conference on Systems, Man, and Cybernetics (SMC). IEEE, San Diego, CA, USA, 2060–2065.

Automatic detection of depression from text data SBSI’20, November 3–6, 2020, São Bernardo do Campo, Brazil

[24] A.A. Farías-Anzalduá, M. Montes-Y-Gómez, A. Pastor López-Monroy, and L.C. González-Gurrola. 2017. UACH-INAOE participation at eRisk2017. In CEUR Workshop Proceedings, Vol. 1866. CEUR-WS.

[25] I. Fatima, B.U.D. Abbasi, S. Khan, M. Al-Saeed, H.F. Ahmad, and R. Mumtaz. 2019. Prediction of postpartum depression using machine learning techniques from social media text. Expert Systems 36, 4 (2019).

[26] D.G. Funez, M.J. Garciarena Ucelay, M.P. Villegas, S.G. Burdisso, L.C. Cagnina, M. Montes-Y-Gómez, and M.L. Errecalde. 2018. UNSL’s participation at eRisk 2018 Lab. CEUR Workshop Proceedings 2125.

[27] Yuan Gong and Christian Poellabauer. 2017. Topic Modeling Based Multi-modal Depression Detection. In Proceedings of the 7th Annual Workshop on Audio/Visual Emotion Challenge (Mountain View, California, USA) (AVEC ’17). ACM, New York, NY, USA, 69–76.

[28] Jonathan Gratch, Ron Artstein, Gale Lucas, Giota Stratou, Stefan Scherer, An- gela Nazarian, Rachel Wood, Jill Boberg, David DeVault, Stacy Marsella, David Traum, Skip Rizzo, and Louis-Philippe Morency. 2014. The Distress Analysis Interview Corpus of human and computer interviews. In Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC- 2014). European Languages Resources Association (ELRA), Reykjavik, Iceland, 3123–3128.

[29] Rahul Gupta, Nikolaos Malandrakis, Bo Xiao, Tanaya Guha, Maarten Van Seg- broeck, Matthew Black, Alexandros Potamianos, and Shrikanth Narayanan. 2014. Multimodal Prediction of Affective Dimensions and Depression in Human- Computer Interactions. In Proceedings of the 4th International Workshop on Audio/Visual Emotion Challenge (Orlando, Florida, USA) (AVEC ’14). ACM, New York, NY, USA, 33–40.

[30] M. Hiraga. 2017. Predicting depression for Japanese blog text. In ACL 2017 - 55th Annual Meeting of the Association for Computational Linguistics, Proceedings of the Student Research Workshop. Association for Computational Linguistics (ACL), 107–113.

[31] W.L. Jarrold, B. Peintner, E. Yeh, R. Krasnow, H.S. Javitz, and G.E. Swan. 2010. Language analytics for assessing brain health: Cognitive impairment, depression and pre-symptomatic Alzheimer’s disease. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics) 6334 LNAI (2010), 299–307.

[32] H. Jiang, B. Hu, Z. Liu, G. Wang, L. Zhang, X. Li, and H. Kang. 2018. Detecting Depression Using an Ensemble Logistic Regression Model Based on Multiple Speech Features. Computational and mathematical methods in medicine 2018 (2018), 6508319.

[33] K. Kang, C. Yoon, and E. Y. Kim. 2016. Identifying depressive users in Twitter using multimodal analysis. In 2016 International Conference on Big Data and Smart Computing (BigComp). IEEE, Hong Kong, China, 231–238.

[34] C. Karmen, R.C. Hsiung, and T. Wetter. 2015. Screening internet forum partic- ipants for depression symptoms by assembling and enhancing multiple NLP methods. Computer Methods and Programs in Biomedicine 120, 1 (2015), 27–36.

[35] K. Katchapakirin et al. 2018. Facebook Social Media for Depression Detection in the Thai Community. In 2018 15th International Joint Conference on Computer Science and Software Engineering (JCSSE). IEEE, Nakhonpathom, Thailand, 1–6.

[36] G. Kiss, M.G. Tulics, D. Sztahó, A. Esposito, and K. Vicsi. 2016. Language independent detection possibilities of depression by speech. Smart Innovation, Systems and Technologies 48 (2016), 103–114.

[37] Barbara Kitchenham. 2004. Procedures for performing systematic reviews. Keele, UK, Keele University 33, 2004 (2004), 1–26.

[38] Kurt Kroenke and Robert L Spitzer. 2002. The PHQ-9: a new depression diag- nostic and severity measure. Psychiatric annals 32, 9 (2002), 509–515.

[39] Kurt Kroenke, Tara W Strine, Robert L Spitzer, Janet BW Williams, Joyce T Berry, and Ali H Mokdad. 2009. The PHQ-8 as a measure of current depression in the general population. Journal of affective disorders 114, 1-3 (2009), 163–173.

[40] G. Lam, H. Dongyan, and W. Lin. 2019. Context-aware Deep Learning for Multi-modal Depression Detection. In ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, Brighton, UK, 3946–3950.

[41] Quoc Le and Tomas Mikolov. 2014. Distributed Representations of Sentences and Documents. In Proceedings of the 31st International Conference on Interna- tional Conference on Machine Learning - Volume 32 (Beijing, China) (ICML’14). JMLR.org, II–1188–II–1196.

[42] P. Lopez-Otero, L. Docio-Fernandez, A. Abad, and C. Garcia-Mateo. 2017. De- pression detection using automatic transcriptions of de-identified speech. In Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH, Vol. 2017-August. International Speech Communi- cation Association, 3157–3161.

[43] D.E. Losada and F. Crestani. 2016. A test collection for research on depression and language use. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics) 9822 LNCS (2016), 28–39.

[44] David E Losada, Fabio Crestani, and Javier Parapar. 2017. CLEF 2017 eRisk Overview: Early Risk Prediction on the Internet: Experimental Foundations.. In CLEF (Working Notes).

[45] David E Losada, Fabio Crestani, and Javier Parapar. 2018. Overview of eRisk: early risk prediction on the internet. In International Conference of the Cross- Language Evaluation Forum for European Languages. Springer, 343–361.

[46] David E Losada, Fabio Crestani, and Javier Parapar. 2019. Overview of eRisk 2019: Early Risk Prediction on the Internet. In International Conference of the Cross-Language Evaluation Forum for European Languages. Springer, 340–357.

[47] T. Mikolov et al. 2013. Efficient Estimation of Word Representations in Vec- tor Space. In 1st International Conference on Learning Representations. Grimm Brothers Co., Scottsdale, EUA.

[48] M.R. Morales, S. Scherer, and R. Levitan. 2017. OpenMM: An open-source multimodal feature extraction tool. In Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH, Vol. 2017- August. International Speech Communication Association, 3354–3358.

[49] M. R. Morales and R. Levitan. 2016. Speech vs. text: A comparative analysis of features for depression detection systems. In 2016 IEEE Spoken Language Technology Workshop (SLT). IEEE, San Diego, USA, 136–143.

[50] T. Nakamura, K. Kubo, Y. Usuda, and E. Aramaki. 2014. Defining patients with depressive disorder by using textual information. In AAAI Spring Symposium - Technical Report, Vol. SS-14-01. AI Access Foundation, Palo Alto, CA, 39–44.

[51] NATIONAL INSTITUTE OF MENTAL HEALTH. 2015. Depression. Government Printing Office (2015).

[52] T. Nguyen et al. 2014. Affective and Content Analysis of Online Depression Communities. IEEE Transactions on Affective Computing 5, 3 (July 2014), 217– 226.

[53] T. Nguyen, B. O’Dea, M. Larsen, D. Phung, S. Venkatesh, and H. Christensen. 2015. Differentiating sub-groups of online depression-related communities using textual cues. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics) 9419 (2015), 216–224.

[54] T. Nguyen, B. O’Dea, M. Larsen, D. Phung, S. Venkatesh, and H. Christensen. 2017. Using linguistic and topic analysis to classify sub-groups of online depres- sion communities. Multimedia Tools and Applications 76, 8 (2017), 10653–10676.

[55] ORGANIZAÇÃO MUNDIAL DE SAÚDE. 2017. Depression and other common mental disorders: global health estimates.

[56] Z. Orhan, M. Mercan, and M.K. Gökgöl. 2020. A new digital mental health system infrastructure for diagnosis of psychiatric disorders and patient follow- up by text analysis in turkish. In IFMBE Proceedings, Vol. 73. Springer Verlag, 395–402.

[57] R.M. Ortega-Mendoza, A.P. López-Monroy, A. Franco-Arcega, and M. Montes- Y-Gómez. 2018. PEIMEX at eRisk2018: Emphasizing personal information for depression and anorexia detection. In CEUR Workshop Proceedings, Vol. 2125. CEUR-WS.

[58] I. Oyong, E. Utami, and E. T. Luthfi. 2018. Natural Language Processing and Lex- ical Approach for Depression Symptoms Screening of Indonesian Twitter User. In 2018 10th International Conference on Information Technology and Electrical Engineering (ICITEE). IEEE, Kuta, Indonesia, 359–364.

[59] Anastasia Pampouchidou, Olympia Simantiraki, Amir Fazlollahi, Matthew Pedi- aditis, Dimitris Manousos, Alexandros Roniotis, Georgios Giannakakis, Fabrice Meriaudeau, Panagiotis Simos, Kostas Marias, Fan Yang, and Manolis Tsiknakis. 2016. Depression Assessment by Fusing High and Low Level Features from Audio, Video, and Text. In Proceedings of the 6th International Workshop on Au- dio/Visual Emotion Challenge (Amsterdam, The Netherlands) (AVEC ’16). ACM, New York, NY, USA, 27–34.

[60] S. Paul, J.S. Kalyani, and T. Basu. 2018. Early detection of signs of anorexia and depression over social media using effective machine learning frameworks. In CEUR Workshop Proceedings, Vol. 2125. CEUR-WS.

[61] Ma. Paula Villegas, D.G. Funez, Ma. José Garciarena Ucelay, L.C. Cagnina, and M.L. Errecalde. 2017. LIDIC - UNSL’s participation at eRisk 2017: Pilot task on early detection of depression: Notebook for eRisk at CLEF 2017. In CEUR Workshop Proceedings, Vol. 1866. CEUR-WS.

[62] Z. Peng, Q. Hu, and J. Dang. 2019. Multi-kernel SVM based depression recog- nition using social media data. International Journal of Machine Learning and Cybernetics 10, 1 (2019), 43–57.

[63] James W Pennebaker, Matthias R Mehl, and Kate G Niederhoffer. 2003. Psycho- logical aspects of natural language use: our words, our selves. Annual review of psychology 54, 1 (2003), 547–577.

[64] Jeffrey Pennington, Richard Socher, and Christopher D. Manning. 2014. GloVe: Global Vectors for Word Representation. In Empirical Methods in Natural Lan- guage Processing (EMNLP). ACL, Doha, Catar, 1532–1543.

[65] Inna Pirina and Çağrı Çöltekin. 2018. Identifying Depression on Reddit: The Effect of Training Data. 9–12.

[66] W. Ragheb, B. Moulahi, J. Azé, S. Bringay, and M. Servajean. 2018. Temporal mood variation: At the CLEF eRisk-2018 tasks for early risk detection on the internet. CEUR Workshop Proceedings 2125.

[67] F. Ramiandrisoa, J. Mothe, F. Benamara, and V. Moriceau. 2018. IRIT at e-Risk 2018. In CEUR Workshop Proceedings, Vol. 2125. CEUR-WS.

SBSI’20, November 3–6, 2020, São Bernardo do Campo, Brazil Felipe Magami and Luciano Antonio Digiampietri

[68] D. Ramírez-Cifuentes and A. Freire. 2018. UPF’s participation at the CLEF eRisk 2018: Early risk prediction on the internet. In CEUR Workshop Proceedings, Vol. 2125. CEUR-WS.

[69] E.-M. Rathner, J. Djamali, Y. Terhorst, B. Schuller, N. Cummins, G. Salamon, C. Hunger-Schoppe, and H. Baumeister. 2018. How did you like 2017? Detec- tion of language markers of depression and narcissism in personal narratives. In Proceedings of the Annual Conference of the International Speech Communi- cation Association, INTERSPEECH, Vol. 2018-September. International Speech Communication Association, 3388–3392.

[70] Denise Razzouk. 2016. Capital mental, custos indiretos e saúde mental. In Saúde mental e trabalho, Quirino C. Razzouk D, Lima M (Ed.). Conselho Regional de Medicina do Estado de São Paulo, São Paulo, Brasil, Chapter 3, 63–71.

[71] P. Resnik, A. Garron, and R. Resnik. 2013. Using topic modeling to improve pre- diction of neuroticism and depression in college students. In EMNLP 2013 - 2013 Conference on Empirical Methods in Natural Language Processing, Proceedings of the Conference. Association for Computational Linguistics (ACL), 1348–1353.

[72] Fabien Ringeval, Björn Schuller, Michel Valstar, Jonathan Gratch, Roddy Cowie, Stefan Scherer, Sharon Mozgai, Nicholas Cummins, Maximilian Schmitt, and Maja Pantic. 2017. AVEC 2017: Real-life Depression, and Affect Recognition Workshop and Challenge. In Proceedings of the 7th Annual Workshop on Au- dio/Visual Emotion Challenge (Mountain View, California, USA) (AVEC ’17). ACM, New York, NY, USA, 3–9.

[73] Ray H. Rosenman, Meyer Friedman, Reuben Straus, Moses Wurm, Robert Kositchek, Wilfrid Hahn, and Nicholas T. Werthessen. 1964. A Predictive Study of Coronary Heart Disease: The Western Collaborative Group Study. JAMA 189, 1 (07 1964), 15–22. https://doi.org/10.1001/jama.1964.03070010021004

[74] Stephanie Rude, Eva-Maria Gortner, and James Pennebaker. 2004. Language Use of Depressed and Depression-Vulnerable College Students. Cognition & Emotion 18 (2004), 1121–1133.

[75] F. Sadeque, D. Xu, and S. Bethard. 2017. Uarizona at the CLEF eRisk 2017 pilot task: Linear and recurrent models for early depression detection. In CEUR Workshop Proceedings, Vol. 1866. CEUR-WS.

[76] Farig Sadeque, Dongfang Xu, and Steven Bethard. 2018. Measuring the Latency of Depression Detection in Social Media. In Proceedings of the Eleventh ACM International Conference on Web Search and Data Mining (Marina Del Rey, CA, USA) (WSDM ’18). ACM, New York, NY, USA, 495–503.

[77] A. Samareh, Y. Jin, Z. Wang, X. Chang, and S. Huang. 2018. Detect depression from communication: how computer vision, signal processing, and sentiment analysis join forces. IISE Transactions on Healthcare Systems Engineering 8, 3 (2018), 196–208.

[78] M. Stankevich, V. Isakov, D. Devyatkin, and I. Smirnov. 2018. Feature engineering for depression detection in social media. In ICPRAM 2018 - Proceedings of the 7th International Conference on Pattern Recognition Applications and Methods, Vol. 2018-January. SciTePress, 426–431.

[79] E. A. Stepanov et al. 2018. Depression Severity Estimation from Multiple Modal- ities. In 2018 IEEE 20th International Conference on e-Health Networking, Appli- cations and Services (Healthcom). IEEE, Ostrava, Czech Republic, 1–6.

[80] R. Sugandhi and A. Mahajan. 2017. A semantic network approach to affect analysis: A case study on depression. In Proceedings - 1st International Conference on Intelligent Systems and Information Management, ICISIM 2017, Vol. 2017- January. Institute of Electrical and Electronics Engineers Inc., 255–266.

[81] Bo Sun, Yinghui Zhang, Jun He, Lejun Yu, Qihua Xu, Dongliang Li, and Zhaoying Wang. 2017. A Random Forest Regression Method With Selected-Text Feature For Depression Assessment. In Proceedings of the 7th Annual Workshop on Audio/Visual Emotion Challenge (Mountain View, California, USA) (AVEC ’17). ACM, New York, NY, USA, 61–68.

[82] M. M. Tadesse et al. 2019. Detection of Depression-Related Posts in Reddit Social Media Forum. IEEE Access 7 (2019), 44883–44893.

[83] Yla R. Tausczik and James W. Pennebaker. 2010. The psychological meaning of words: LIWC and computerized text analysis methods. Journal of Language and Social Psychology 29, 1 (2010), 24–54.

[84] M. Tlachac, E. Toto, and E. Rundensteiner. 2019. You’re Making Me Depressed: Leveraging Texts from Contact Subsets to Predict Depression. In 2019 IEEE EMBS International Conference on Biomedical Health Informatics (BHI). IEEE, Chicago, EUA, 1–4.

[85] I. Trancoso, J. Correia, F. Teixeira, B. Raj, and A. Abad. 2018. Speech analytics for medical applications. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics) 11107 LNAI (2018), 26–37.

[86] A. Trifan and J.L. Oliveira. 2019. Bioinfo@uAVR at ERiSk 2019: Delving into social media texts for the early detection of mental and food disorders. In CEUR Workshop Proceedings, Vol. 2380. CEUR-WS.

[87] Raluca Trifu, Bogdan Nemes, Carolina Bodea-Hat,egan, and Doina Cozman. 2017. Linguistic indicators of language in major depressive disorder (MDD). An evidence based research. Journal of Evidence-Based Psychotherapies 17 (03 2017), 105–128. https://doi.org/10.24193/jebp.2017.1.7

[88] M. Trotzek, S. Koitka, and C.M. Friedrich. 2017. Linguistic metadata augmented classifiers at the CLEF 2017 task for early detection of depression: FHDO Biomed- ical Computer Science Group (BCSG). In CEUR Workshop Proceedings, Vol. 1866. CEUR-WS.

[89] M. Trotzek, S. Koitka, and C.M. Friedrich. 2018. Word embeddings and linguistic metadata at the CLEF 2018 tasks for early detection of depression and anorexia. In CEUR Workshop Proceedings, Vol. 2125. CEUR-WS.

[90] M. Trotzek, S. Koitka, and C. M. Friedrich. 2019. Utilizing Neural Networks and Linguistic Metadata for Early Detection of Depression Indications in Text Sequences. IEEE Transactions on Knowledge and Data Engineering (2019), 1–1.

[91] C. Tung and W. Lu. 2016. Analyzing depression tendency of web posts using an event-driven depression tendency warning model. Artificial Intelligence in Medicine 66 (2016), 53–62.

[92] Michel Valstar, Jonathan Gratch, Björn Schuller, Fabien Ringeval, Denis Lalanne, Mercedes Torres Torres, Stefan Scherer, Giota Stratou, Roddy Cowie, and Maja Pantic. 2016. Avec 2016: Depression, mood, and emotion recognition workshop and challenge. In Proceedings of the 6th international workshop on audio/visual emotion challenge. ACM, 3–10.

[93] Michel Valstar, Björn Schuller, Kirsty Smith, Timur Almaev, Florian Eyben, Jarek Krajewski, Roddy Cowie, and Maja Pantic. 2014. AVEC 2014: 3D Dimensional Affect and Depression Recognition Challenge. In Proceedings of the 4th Inter- national Workshop on Audio/Visual Emotion Challenge (Orlando, Florida, USA) (AVEC ’14). ACM, New York, NY, USA, 3–10.

[94] P. Van Rijen, D. Teodoro, N. Naderi, L. Mottin, J. Knafou, M. Jeffryes, and P. Ruch. 2019. A data-driven approach for measuring the severity of the signs of depression using reddit posts. In CEUR Workshop Proceedings, Vol. 2380. CEUR-WS.

[95] E. Villatoro-Tello, G. Ramírez-De-la rosa, and H. Jiménez-Salazar. 2017. UAM’s participation at CLEF eRisk 2017 task: Towards modelling depressed bloggers. In CEUR Workshop Proceedings, Vol. 1866. CEUR-WS.

[96] Y.-T. Wang, H.-H. Huang, and H.-H. Chen. 2018. A neural network approach to early risk detection of depression and anorexia on social media text. In CEUR Workshop Proceedings, Vol. 2125. CEUR-WS.

[97] Amy Beth Warriner, Victor Kuperman, and Marc Brysbaert. 2013. Norms of valence, arousal, and dominance for 13,915 English lemmas. Behavior Research Methods 45, 4 (01 Dec 2013), 1191–1207.

[98] James R. Williamson, Elizabeth Godoy, Miriam Cha, Adrianne Schwarzentruber, Pooya Khorrami, Youngjune Gwon, Hsiang-Tsung Kung, Charlie Dagli, and Thomas F. Quatieri. 2016. Detecting Depression Using Vocal, Facial and Se- mantic Communication Cues. In Proceedings of the 6th International Workshop on Audio/Visual Emotion Challenge (Amsterdam, The Netherlands) (AVEC ’16). ACM, New York, NY, USA, 11–18.

[99] PinHua Wu, JiaLing Koh, and Arbee L. P. Chen. 2019. Event Detection for Exploring Emotional Upheavals of Depressive People. In Proceedings of the 34th ACM/SIGAPP Symposium on Applied Computing (Limassol, Cyprus) (SAC ’19). ACM, New York, NY, USA, 2086–2095.

[100] L. Yang, D. Jiang, and H. Sahli. 2018. Integrating Deep and Shallow Models for Multi-Modal Depression Analysis — Hybrid Architectures. IEEE Transactions on Affective Computing (2018), 1–1.

[101] Le Yang, Dongmei Jiang, Xiaohan Xia, Ercheng Pei, Meshia Cédric Oveneke, and Hichem Sahli. 2017. Multimodal Measurement of Depression Using Deep Learning Models. In Proceedings of the 7th Annual Workshop on Audio/Visual Emotion Challenge (Mountain View, California, USA) (AVEC ’17). ACM, New York, NY, USA, 53–59.

[102] Le Yang, Hichem Sahli, Xiaohan Xia, Ercheng Pei, Meshia Cédric Oveneke, and Dongmei Jiang. 2017. Hybrid Depression Classification and Estimation from Audio Video and Text Information. In Proceedings of the 7th Annual Workshop on Audio/Visual Emotion Challenge (Mountain View, California, USA) (AVEC ’17). ACM, New York, NY, USA, 45–51.

[103] T. Yang et al. 2016. Detection of mood disorder using speech emotion profiles and LSTM. In 2016 10th International Symposium on Chinese Spoken Language Processing (ISCSLP). IEEE, Tianjin, China, 1–5.

[104] Amir Hossein Yazdavar, Hussein S. Al-Olimat, Monireh Ebrahimi, Goonmeet Bajaj, Tanvi Banerjee, Krishnaprasad Thirunarayan, Jyotishman Pathak, and Amit Sheth. 2017. Semi-Supervised Approach to Monitoring Clinical Depressive Symptoms in Social Media. In Proceedings of the 2017 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining 2017 (Sydney, Australia) (ASONAM ’17). ACM, New York, NY, USA, 1191–1198.

[105] N.F.A. Yusof, C. Lin, and F. Guerin. 2018. Assessing the effectiveness of affec- tive lexicons for depression classification. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics) 10859 LNCS (2018), 65–69.

[106] X. Zhao, S. Lin, and Z. Huang. 2018. Text classification of micro-blog’s “tree hole” based on convolutional neural network. In ACM International Conference Proceeding Series. Association for Computing Machinery.

[107] K.S. Ziemer and G. Korkmaz. 2017. Using text to predict psychological and physical health: A comparison of human raters and computerized text analysis. Computers in Human Behavior 76 (2017), 122–127.

  • Abstract
  • 1 Introdução
  • 2 Metodologia e condução
  • 3 Resultados e discussão
    • 3.1 Conjuntos de dados
    • 3.2 Classificação real
    • 3.3 Criação de atributos
    • 3.4 Classificadores
  • 4 Considerações Finais
  • Acknowledgments
  • Referências