/Clustering-Breast-Cancer

Clusterização dos dados presentes no dataset de câncer de mama, implementando os algoritmos K-means, algoritmo do cotovelo (elbow method) e da silhueta média (Silhouette).

Primary LanguageR

Clustering Breast Cancer

O câncer de mama é o tipo de câncer mais prevalente encontrado em mulheres em todo o mundo, bem como uma das principais causas de morte entre elas. Pesquisas recentes mostram que este tipo de câncer é um dos que mais avançam mundialmente em termos de novos casos, trazendo grande preocupação às autoridades de saúde quanto à formulação de políticas públicas, conscientização sobre os fatores de risco e detecção precoce e regular. Esforços da comunidade científica na detecção preditiva, classificação de malignidade e tratamento eficaz desta doença também tem sido exaustivamente realizados, tanto no campo da medicina ou farmacologia clássica quanto na área da bioinformática e biologia computacional, empenhados no objetivo de reduzir a mortalidade por câncer de mama.

No que diz respeito à biologia computacional, a utilização de algoritmos de aprendizado de máquina que sejam capazes de classificar e, ainda, predizer a malignidade de um tumor frente a características celulares específicas, podem ser de grande utilidade na determinação clínica e grau de seriedade de um dado paciente, auxiliando a equipe médica quanto à tomada de decisões e escolha de tratamento.

Neste sentido, o presente projeto traz para análise e discussão o conjuntos de dados (ou datasets) experimentais de câncer de mama - Wisconsin Diagnostic Breast Cancer (WDBC) - com dados coletados nos hospitais da Universidade de Wisconsin durante o período de janeiro 1989 a julho de 1992, e acessados por meio do repositório de aprendizado de máquina da Universidade da California (Irvine). O dataset WDBC possui 569 instâncias e 32 atributos, sendo ID e diagnóstico (B para benigno e M para maligno) os dois primeiros e mais 30 características divididas entre média, erro padrão e "pior" ou maior (média dos três maiores valores) computadas para cada imagem de núcleo celular, sendo os trinta atributos: raio (média das distâncias do centro aos pontos do perímetro), textura, perímetro, área, suavidade (variação local nos comprimentos dos raios), compactação (perímetro² / área - 1,0), concavidade (severidade das porções côncavas do contorno), pontos côncavos (número de porções côncavas do contorno), simetria e dimensão fractal. Em relação ao número de instâncias, o dataset WDBC apresenta 357 exemplares benignos e 212 malignos.

Com o objetivo de realizar a clusterização dos dados presentes no dataset WDBC, implementamos os algoritmos K-means e o algoritmo do cotovelo (elbow method) analisando-se de que modo os dados se organizam ou podem ser agrupados com base em seus atributos, avaliando também se exemplos pertencentes a um mesmo cluster são similares entre si.