quinta-feira, 20 de junho de 2019

Utilização de Algoritmos de Inteligência Artificial para Inferência do Risco de Uso da Droga Anfetamina

 Adriana Aparecida Crispim Teles
 telles19@gmail.com

Resumo. Este trabalho propõe a utilização de algoritmos de Inteligência Artificial para avaliação da droga Anfetamina, que podem ser consumidas de forma licita ou ilícita. Os dados são baseados em personalidades de cada dependente químico, junto com informações demográficas através de pesquisas online. Anfetamina são drogas estimulantes que foram criadas para controlar o apetite em casos de pessoas com obesidade mórbida, altera o funcionamento cerebral e as funções do sistema nervoso central. Para avaliar o risco sobre a droga Anfetamina, vamos abordar dois métodos de aprendizado supervisionados: AD (Arvore de Decisão) e SVM (Support Vector Machine). Que serão utilizados para classificar os dependentes químicos em: User ou No User.

1. Introdução
A Anfetamina foi sintetizada pela primeira na Alemanha, pelo químico Lazar Edeleanu em 1887. Após 40 anos depois a droga começou a ser utilizada por médicos para aliviar as passagens nasais, bronquiais, etc. (Cebrid). Segundo o (World Drug Report 2016), a droga Anfetamina continua sendo a segunda droga mais usada, com uma média de 33 milhões de usuários. O uso de drogas refere-se ao uso de substâncias psicoativas, ou seja, substâncias que afetam o humor e a mentalidade (Adrian, M. 2003). O intuito deste trabalho é avaliar fatores de risco associados ao consumo da droga anfetamina, que possui substancias simpatomimética, que estimula o sistema nervoso central, provocando o aumento das capacidades físicas e psíquicas. A droga Anfetamina possui grupos de drogas sintéticas, que são fabricadas por laboratórios e comercializadas como remédio. Conforme mostra a tabela abaixo.

Tabela 1- Departamento de Psicobiologia - Unifesp/EPM

Droga do tipo Anfetamina
Produtos (remédios comerciais) vendidos nas farmácias
Dietilpropiona ou Anfepramona
Dualid S; Hipofagin S; Inibex S; Moderine
Fenproporex
Desobesi-M; Lipomax AP; Inobesin
Mazindol
Dasten; Fagolipo; Absten-Plus; Diazinil; Dobesix
Metanfetamina
Pervitin*
Metilfenidato
Ritalina


             A forma de consumir essas drogas, por exemplo, como fumar, engolir, inalar ou injetar esta relacionada a vários problemas de saúdes, a pior forma de se consumir é injetar. A droga quando é injetada o risco é maior de sobre dosagem, abscessos e infecções, que podem contaminar o sangue com o vírus HIV e Hepatite C. Estima-se que cerca de 11,7 milhões de pessoas em todo o mundo injetem drogas, das quais cerca de 1,6 milhão vivem com o HIV (World Drug Report 2016).
Estudar as técnicas de Aprendizado de Máquina para avaliar o risco de ser consumidor de droga Anfetamina. A definição de aprendizado de máquina como o “campo de estudo que dá aos computadores habilidades de aprender sem serem explicitamente programados”, foi dada por Arthur Samuel (1959). Nas últimas duas décadas, tornou uma ferramenta comum em quase qualquer tarefa que requer extração de informações a partir de grandes conjuntos de dados (Shai Shalev-Shwartz and Shai Ben-David (2014), UNDERSTANDING MACHINE LEARNING – From Theory to Algorithms).

            Dentre as diversas tecnologias vamos utilizar a técnica baseada em aprendizado por Árvore de Decisão, que construí modelos de classificação em forma de estruturas. Uma estrutura semelhante a uma árvore, de onde podem ser extraído conjunto de regras, e são facilmente interpretáveis, e rapidamente que condições levaram á árvore tomar determinada decisão (Elaine Fehrman, Evgeny M. Mirkes, Awaz K. Muhammad, Vincent Egan, Alexander N. Gorban. The Five Factor Model of personality and evaluation of drug consumption risk). E o algoritmo SVM (do inglês Support Vector Machines). “As Máquinas de Vetores Suporte (SVM) constituem uma técnica de aprendizado que vem recebendo grande atenção nos últimos anos”. (Hearst, M. A. et al. (1998). Trends and controversies - support vector machines. IEEE Intelligent Systems, 13(4): 18–28). Que foram originalmente propostas por Boser, Guyone Vapnikem 1992, e ganhando popularidade no final dos anos 90. O suporte de Vector Machine (SVM) está entre as melhores máquinas de aprendizado para problemas de classificação.

2. Justificativa
Há um crescente número de pessoas em todo o mundo que faz uso de drogas psicoativas, pois o consumo dessas drogas pode ser feito de forma (lícita e ilícita). O principal fator desta pesquisa é mostrar os riscos que todas as substâncias consumidas de forma regular podem causa para cada individuo, indicando a sua negatividade. A ideia é conscientizar o individuo que ao consumir drogas de forma lícita ou ilícita, pode haver consequências drásticas a sua saúde, como alteração de personalidade e ate a morte por uso excessivo dessas drogas. É importante ressaltar que temos grandes problemas relacionados às drogas, por exemplo, o trafico de drogas, a violência, doenças e a dependência química.

3. Descrição do Trabalho
 O desenvolvimento deste trabalho foi elaborado conforme as seguintes etapas:
  •  Pesquisa sobre o consumo de drogas com substancias psicoativas lícitas e ilícitas, seus efeitos no sistema nervoso central e suas classificações.
  •  Estudo sobre o Aprendizado de Máquina que é uma área de Inteligência Artificial (IA), com as técnicas: Aprendizado por Árvore de Decisão e Suporte de Vector Machine (SVM).
  •  Coleta de dados
  •  Analise de dados empíricos
  •  Analise dos Resultados

        Na pesquisa do trabalho, foi feito um estudo bibliográfico sobre o consumo de drogas com substancias psicoativas (lícitas e ilícitas), e seus efeitos referentes ao sistema nervoso central, identificando as drogas psicoativas através de suas classificações existentes. A Classificação Chaloult (1971) foi adaptada e atualizada segundo a Portaria nº 344/98-Anvisa e indica três tipos de grupos existentes como: Drogas Estimulantes, Drogas Depressoras e Drogas Perturbadoras da atividade do sistema nervoso central.
        Um estudo sobre Aprendizado de Máquina com as técnicas de aprendizado de Árvore de Decisão e Suporte de Vector Machine (SVM), cujo objetivo é o desenvolvimento de modelos computacionais que toma decisão baseado nas experiências e adquiri conhecimento de forma automática.  
         A base de dados foi extraída do UCI Machine Learning Repository. A pesquisa dessa coleta de dados empíricos foi feito através de pesquisa online com pessoas anônimas, com informações demográficas apenas de países da língua inglesa, a personalidade de cada entrevistado e o tempo de consumo para cada tipo de droga.  
        A ciência empírica tem como objetivo estudar os fenômenos que ocorrem no mundo real, que podem ser dividas em dois grupos: ciências naturais que estudam a natureza e ciências sociais que estudam o ser humano e suas interações (Hempel, 1965). Com base na descrição do objetivo do trabalho, que ele se classifica como ciência empírica social.
        Na analise dos resultados faremos teste que mostrara uma avaliação de riscos em consumir drogas com substancias psicoativas, indicando o efeito colateral no sistema nervoso central e caracterizando as suas classificações para os grupos existentes.

4. Metodologia
Nesta pesquisa abordaremos uma metodologia, que propõe um modelo de Aprendizado de Máquina baseado no algoritmo AD (Árvore de Decisão) e no SVM (Support de Vector Machine). O objetivo deste estudo é avaliar o risco em se consumir a droga Anfetamina de forma lícita e ilícita, com substancias psicoativas que agem no sistema nervoso central (SNC).

4.1. Métodos e Técnicas

Aprendizado de Máquina

O aprendizado de máquina é um campo da ciência da computação, que faz parte da área da Inteligência Artificial (IA), que possui uma habilidade de construir modelos automatizados do comportamento inteligente, a fim de complementar a inteligência humana, através de tarefas que detectam experiências ou padrões que estão além da percepção humana. Segundo Russell, Stuart; Norvig, Peter (2003), as tarefas de aprendizado de máquina são tipicamente classificadas em três categorias amplas, tais como: Aprendizado supervisionado, Aprendizagem não supervisionada, Aprendizagem por reforço. O aprendizado abordado neste trabalho é o supervisionado. O aprendizado supervisionado é apresentado por exemplos de entradas e as saídas desejadas, como por um “professor”, o objetivo é aprender uma regra geral que seja capaz de mapear as saídas corretas para futuras novas entradas não previamente mostrada. Conforme mostram na figura 1 as representações de forma simplificada.

Figura 1 - Indução de classificador em aprendizado supervisionado

O modelo de Aprendizado de máquina além de apresentar resultados bastante consistentes, também pode apresentar em seu conjunto de dados de treinamento, os dois maiores problemas que são:
  • Overfitting: Segundo Mitchell (1997) fornece uma definição formal sobre o problema: “dada um modelo H, é dito que H causa overfitting no conjunto de dados de treinamento se existe uma segunda hipótese H’, em que a taxa de erros de H < H’, em relação aos dados de treinamento, mas a taxa de erros de H’ < H em relação ao conjunto total de dados”.
  • Underfitting: Pode ser considerado um complemento ao problema de overfitting, ele não consegue identificar os padrões no próprio conjunto de dados de treinamento.

Árvore de Decisão

Uma Árvore de Decisão é uma árvore onde cada nó interno (não terminal) representa um teste ou decisão sobre o item de dado considerado (Goebel & Gruenwald, 1999). O nó representa uma regra de divisão para cada atributo específico, o atributo é fundamental para construir uma árvore de decisão, pois é referido como classificador. O algoritmo é simples, e utiliza método de classificação supervisionada com regra de indução e apresenta resultados com priori. Neste estudo vamos utilizar o padrão árvore de decisão, abaixo segue o gráfico:

Figura 2 - Arvore Decisão - Drug Anfetamina
O critério é gain ratio (razão de ganho) “normaliza” o ganho de informação (Quinlan, 1993). Como mostra o exemplo abaixo da Figura 3:

Figura 3 - Critério Gain Ratio
O gain ratio (razão de ganho) possui duas etapas: a primeira o ganho de informação é calculado para todos os atributos, levando apenas os atributos com um desempenho menos tão bom ao ganho médio de informação, o atributo que tiver melhor gain ratio (razão de ganho) é selecionado. Outra técnica utilizada é a validação Cruzada que validação de modelo para avaliar como os resultados de uma análise estatística serão generalizados para um conjunto de dados independente (P. Dönmez, 2012). Esta técnica é utilizada para calcular o modelo com uma precisão satisfatória, assim evitando que o conjunto de dados sofra com os problemas de overfitting e underfitting. Existem duas formas de se aplicar validação cruzada: o método de holdout e o método de K-partições. Neste trabalho vamos utilizar o método de K-partições. Segundo Witten e Frank (2000), testes extensivos em diversas bases de dados, utilizando diversos algoritmos, identificaram o valor de k para identificar a melhor margem de erro como sendo 10, também de forma randômica. Para avaliar a técnica de Validação Cruzada será utilizada a Matriz de Confusão que avalia a precisão do algoritmo. A Matriz Confusão mostra uma estimativa mais detalhada à classificação. Conforme mostra na tabela 2 abaixo:
Tabela 2 - Conjunto de Classificação com Duas Classes-Alvos
Confusion Matrix
True user 
True no user
False user
False no user

Support Vector Machine
São modelos de aprendizado supervisionado que analisam dados e padrões de reconhecimento, seus métodos são usados para classificação e regressão. Neste trabalho iremos abordar o método de classificação, que é uma tarefa comum no aprendizado de máquina, com o objetivo de classificar os dados e informar a classe pertencente. No caso desta base de dados seria classificar o tipo de droga para cada entrevistado como “user” e “no user”. O SVM possui vários tipos de kernel, o que vamos utilizar para analisar o ExampleSet é o kernel radial. O kernel radial tem funções muito eficientes para interpolação e suavização de dados, nos problemas de classificação possui um desempenho superior a outros kernel como: Linear e Polynominal, e a sua vantagem é que não ficam presos aos mínimos locais. Conforme a Figura 4, a Figura 5 e a tabela 3 abaixo mostram:

Figura 4 - Base de dados droga Anfetamina - Kernel Radial

Figura 5 - Atributos da Droga Anfetamina - Peso e modelo do Kernel.

Tabela 3 - Atributos e Pesos
Atributos
Weight
Sensation Seeking
-4568316867499070
País (Real) = UK
2054073191658820
País (Real) = República da Irlanda
7211856500281960
País (Real) = Republica da Irlanda
-959651113310513
País (Real) = Outros
-4366900835930700
País (Real) = Nova Zelândia
21043781323782900
País (Real) = EUA
-2720732299295240
País (Real) = Canadá
-46243312536515300
País (Real) = Austrália
-15043734131469300
Openness to Experience
-31463741807601400
Neuroticismo
-14675346121588100
Impulsivity
-35489641640684600
Idade (Real) = mais 65 anos
1759437621720870
Idade (Real) = 55-64 anos
7173368074204830
Idade (Real) = 45-54 anos
5634185075409920
Idade (Real) = 35- 44 anos
6091382593587090
Idade (Real) = 25-34 anos
-9322960048188620
Idade (Real) = 18-24 anos
-4539274319535900
Gênero (Real) = Masculino
-1671687382241050
Gênero (Real) = Feminino
16734619972964900
Extraversion
60813797897962900
Etnia (Real) = Preto
19253366070204500
Etnia (Real) = Outros
-37221781659789800
Etnia (Real) = Misturado Branco / Preto
-4033382528629880
Etnia (Real) = Misto- Branco / Asiático
-6060440031751660
Etnia (Real) = Misto Preto / Asiático
7213812458598760
Etnia (Real) = Branco
-789519226441587
Etnia (Real) = Asiático
8899834398444780
Educação (Real) = faculdade ou universidade sem diploma
-1196123896750860
Educação (Real) = Mestrado
1359108208818040
Educação (Real) = Grau universitário
3036530373392950
Educação (Real) = Escola aos 18 anos
-26643306872452700
Educação (Real) = Escola aos 17 anos
-812737953666565
Educação (Real) = Escola aos 16 anos
6655340850884240
Educação (Real) = Escola antes dos 16 anos
-59940090435951300
Educação (Real) = Doutorado
18205261353042900
Educação (Real) = Certificado / diploma profissional
4796763127958710
Conscientiousness
26535957001464700
Agreeableness
2277117058541790

4.2. Modelagem Proposta

Na modelagem com Árvore de Decisão, foi utilizada a validação cruzada (Cross Validation) com o parâmetro “shuffled sampling” que embaralha e constrói subconjuntos aleatórios do conjunto de dados, e são criados aleatoriamente subconjuntos.  

Validação Cruzada (Cross Validation) é um operador e um subprocesso, dentro desse subprocesso é dividido em duas (2) partes como: treinamento (training) e teste (testing). Na parte treinamento vamos gerar uma árvore de decisão (Decision Tree) e o nosso modelo de classificação para cada uma das 10 combinações do conjunto de treinamento. No teste vamos avaliar o modelo gerado, e definir a avaliação desses modelos.
O operador cria uma árvore de decisão, que cada nó representa uma regra de divisão para um determinado atributo. Este método será usado para classificar os valores pertencentes a suas classes, como critério do parâmetro vamos selecionar gain ratio (razão de ganho) para testes com poucos valores, que utiliza o ganho de informação relativo.
O operador Apply Model está sendo utilizado para obter dados e aplicar o pré-processamento. O operador Performance (Classification) avalia o desempenho do vetor de classificação, pois o mesmo mostra uma lista de critérios de desempenho. Vamos utilizar para avaliar esse desempenho os seguintes critérios: accuracy, kappa.

Support Vector Machine (SVM)

Na modelagem do Support Vector Machine (SVM) foram analisados os tipos de drogas para cada base de dados individual, sendo que cada base de dados foi dividido em treinamento 60% e teste 40%, onde serão calculadas para avaliação de desempenho do algoritmo Matriz de Confusão, accuracy e kappa.


O operador Nominal to Numerical foi adicionado para alterar o tipo de atributos não numérico para um tipo numérico. Outro operador adicionado é o Split Data que utiliza a partição conforme é especificado, neste operador vamos embaralhar as partições resultantes, com o critério Shuffled sampling que são escolhidos amostragem aleatoriamente para gerar subconjuntos.

O operador Polynominal by Binominal classification gera um modelo de classificação binominal para classes diferentes, pois o operador SVM permite classificação apenas em label binominal. O operador Support Vector Machine (SVM) para as tarefas de aprendizado fornece um bom resultado, o parâmetro de critério utilizado Kernel radial.





5. Resultados

Árvore de Decisão
Conforme o resultado da Figura 6 mostra o traço de personalidade Concientiousness (Conscienciosidade) é o menos propenso a serem usuários da droga Anfetamina, e o traço de personalidade Openness to Experience (Abertura à Experiência) é o mais propenso a serem usuários da droga.

Figura 6 - Resultado Droga Anfetamina


No resultado abaixo mostra a Figura 7 com o valor de Confidence (Confiança) do Gênero, e podemos observar que o Gênero “Masculino” é mais propenso a ser usuário da droga Anfetamina.

Figura 7 - Resultado Confiança Gênero - (User/ No User)

Como mostra a Figura 8, o valor de Confidence (Confiança) referente à idade dos usuários é mais propenso a pessoas com idade entre 18 a 24 anos para serem usuários da droga Anfetamina, e menos propenso para pessoas de idade mais de 65 anos.

Figura 8 - Resultado Confiança Idade - (User/ No User)

 Conforme mostra o resultado na Figura 9, o país “Nova Zelândia” é mais propenso a ter usuários de droga Anfetamina e o país “Republica da Irlanda” é o menos propenso ater usuários do tipo da droga Anfetamina.

Figura 9 - Resultado Confiança País - (User/ No User)


Resultado da acurácia e kappa

No resultado final da validação do modelo de classificação mostra o percentual do classificador e a matriz de confusão.
Accuracy: 62.34%
Kappa: 0.240

Matriz de Confusão:
True:       User       No User
User:         506          307

No User:   403         669

Support Vector Machine (SVM)

Figura 10 - Resultado de Usuários Droga Anfetamina

Resultado do Desempenho do Vetor – Teste
No resultado final da validação do classificador teste, obtivemos o percentual da acurácia, kappa e a matriz de confusão.
Accuracy: 52.65%
Kappa: 0.046

Matriz de Confusão:
True:       User        No User
User:          69              53
No User:    304          328

Resultado do Desempenho do Vetor – Treino
No resultado final da validação do classificador treino, obtivemos o percentual da acurácia, kappa e matriz de confusão.
Accuracy: 99.20%  
Kappa: 0.984
Matriz de Confusão:
True:       User      No User
User:           532             5
No User:     4                590

Tipos de Kernels utilizados no conjunto de dados
Na tabela 4 mostra os tipos de kernels utilizados para validação do classificador e seus respectivos resultados. Como podemos observar o kernel do tipo “Radial” obteve uma melhor acurácia e kappa entre os kernels “Dot” e “Polynomial”.

Tabela 4 – SVM - Tipos de Kernels
SVM
Kernels
Accuracy
Kappa
Radial
99.20%
0.984
Dot
70.91%
0.414
Polynomial
72.86%
0.453







Resultados das comparações com os algoritmos: Naive Bayes, Decision Tree e SVM (Supporte Vector Machine).

No resultado final de comparação com os algoritmos de classificação, utilizamos para validar o conjunto de dados os modelos “Naive Bayes”, “Decision Tree” e “SVM”, o melhor validador do classificador é “Naive Bayes”, pois o mesmo teve uma acurácia de 69% e um tempo menor, enquanto o classificador “Decision Tree” e “SVM” percorreram mais tempo e com um percentual menor de acurácia.

6. Conclusão

Para concluirmos este estudo definimos o método de Aprendizado de Máquina, utilizando os algoritmos Arvore de Decisão e SVM (Support Vector Machine). O primeiro método a ser utilizado foi a Árvore de Decisão e o segundo o (SVM). O método arvore de Decisão obteve – se uma accuracy 63.24%, e podemos concluir que este método não é muito viável, mesmo definindo os critérios como “Gain Ratio”, tipo de amostragem “Shuffled Sampling” e números de dobras (vezes) = 10, sendo utilizados para validação da classificação. O método SVM (Support Vector Machine) obteve – se uma accuracy 99.20%, apresentando uma técnica viável para o modelo de dados, definindo as funções de kernels Radial, Dot e Polynomial utilizando para validação de classificação. O SVM possui técnicas e ferramenta flexível para implementar em dados empíricos e não linear.

7. Referencias Bibliográficas

A base de dados sobre o consumo de drogas foi coletada através de cópia do arquivo “drug_consumption.txt”-do-site https://archive.ics.uci.edu/ml/datasets/Drug+consumption+%28quantified%29

UNODC-(United-Nations-Office-on-Drugs-and-Crime).Disponível-em: http://www.unodc.org/lpo-brazil/pt/drogas/relatorio-mundial-sobre-drogas.html Acessado em 27 de Janeiro de 2018.
E. Fehrman, AK Muhammad, EM Mirkes, V. Egan e AN Gorban, "O modelo de cinco fator de personalidade e avaliação do risco de consumo de drogas", arXiv [Web Link], 2015.

Adrian, M. (2003). How can sociological theory help our understanding of addictions. Substance Use and Misuse, 38(10), 1385–1423.

Hearst, M. A. et al. (1998). Trends and controversies - support vector machines. (IEEE Intelligent Systems, 13(4): 18–28.).

Kearns M, Mansour Y. On the boosting ability of top-down decision tree learning algorithms. Journal of Computer and System Sciences. 1999; 58(1):109–128. Simon, Phil (2013). Too Big to Ignore: The Business Case for Big Data

Shai Shalev-Shwartz and Shai Ben-David (2014). MACHINE LEARNING, From Theory to Algorithms.

Russell, Stuart; Norvig, Peter (2003) [1995]. Artificial Intelligence: A Modern Approach (2nd ed.). Prentice Hall. ISBN 978-0137903955

Lorena, Ana C. de Carvalho, A.C.P.L.F. Uma Introdução às Support Vector Machines - Revista de Informática Teórica e Aplicada. 2007; 14(2); 43–67.

Goebel, M. Gruenwald, L. (1999). A Survey of Data Mining and Knowledge Discovery
Software Tools. ACM SIGKDD Explorations, New York, v. 1, no. 1, p. 20-33.

MITCHELL, T. Machine Learning. New York, NY: McGraw-Hill, 1997. ISBN
0-07-042807-7.

Quinlan, J. R., (1986). Induction of Decision Trees. Machine Learning 1: 81-106, Kluwer Academic Publishers

Quinlan JR (1993) C4.5: programs for machine learning Morgan Kaufmann San Mateo

WITTEN, I. H.; FRANK, E. Data Mining: Practical Machine Learning Tools and 38
Techniques with Java Implementations. 2nd. ed. San Francisco, CA: Morgan Kaufmann, 2000. ISBN 0-12-088407-0.

Faculdade de Medicina do Porto. Disponível em https://users.med.up.pt/~joakim/intromed/estatisticakappa.htm
Acessado em 27 De Maio de 2018.

Filip De Fruyt, Robert R. McCrae, Zsófia Szirmák, János Nagy. The Five-Factor Personality Inventory as a Measure of the Five-Factor Model. Belgian, American, and Hungarian Comparisons with the NEO-PI-R, 2004.

Índice de desenvolvimento humano das Nações Unidas Programa de Desenvolvimento (PNUD); dados sobre o ônus da doença (deficiência-anos de vida ajustados) são do Instituto de Métricas de Saúde e Avaliação, Universidade de-Washington,-GBD-Compare,-2015.-Disponível-em- https://nacoesunidas.org/agencia/pnud/, http://vizhub.healthdata.org/gbd-compare

Rokach L., Maimon O. (2005) Decision Trees. In: Maimon O., Rokach L. (eds) Data Mining and Knowledge Discovery Handbook. Springer, Boston, MA . Disponível em: https://doi.org/10.1007/0-387-25465-X_9

Revista de Informática Teórica e Aplicada (Lorena, Ana C. de Carvalho, A.C.P.L.F., 2007).

Retirado do mercado brasileiro, mas encontrado no Brasil graças à importação ilegal de outros países sul-americanos. Nos USA cada vez mais usado sob o nome de ICE. Tabela – Nomes comerciais de alguns medicamentos à base de drogas do tipo anfetamina, vendidos no Brasil. Dados obtidos do Dicionário de Especialidades Farmacêuticas – DEF – ano 1996/1997. Disponível em: https://www.ice.gov/