Introdução ao Processamento de Linguagem Natural

Info

Monitoria: Quinta-feira 14:00 até 16:00 na 306 (@wellington36).
Forum https://github.com/orgs/emap-nlp-2022/discussions
https://github.com/emap-nlp-2022/syllabus

aula 1 <2022-08-02 Tue>

aula-01.pdf

aula 2 <2021-08-04 Wed>

https://www.cl.cam.ac.uk/teaching/1920/NLP/slides/slides2.pdf
tutorial FOMA and FST http://clt.gu.se/sites/clt.gu.se/files/mkp/clttutorial.pdf

Outras referências:

aula 3 <2021-08-09 Mon>

https://www.cl.cam.ac.uk/teaching/1920/NLP/slides/slides2.pdf
tutorial FOMA and FST http://clt.gu.se/sites/clt.gu.se/files/mkp/clttutorial.pdf

aula 4 <2021-08-11 Wed>

https://www.cl.cam.ac.uk/teaching/1920/NLP/slides/slides2.pdf
tutorial FOMA and FST http://clt.gu.se/sites/clt.gu.se/files/mkp/clttutorial.pdf
hands-on

aula 5 <2021-08-16 Mon>

modelos de linguagem n-grams
uso de modelos de linguagem para POS tagging
slides https://www.cl.cam.ac.uk/teaching/1920/NLP/slides/slides3.pdf e caps 2 e 8 de https://web.stanford.edu/~jurafsky/slp3/.

aula 6 <2021-08-18 Wed>

modelos de linguagem n-grams
uso de modelos de linguagem para POS tagging
slides https://www.cl.cam.ac.uk/teaching/1920/NLP/slides/slides3.pdf e caps 2 e 8 de https://web.stanford.edu/~jurafsky/slp3/.
exemplos no NLTK notebooks

aula 7 <2021-08-23 Mon>

revisão pos tagging
- n-grams e HMM
- tagsets
- errors: diferentes erros com diferentes impactos, distribuição por sentença? propagação de erros.
- datasets: custo para criar, importância, formatos etc.
notas finais sobre os notebooks

aula 8 <2021-08-25 Wed>

anotação de entidades nomeadas (sec 8.3 https://web.stanford.edu/~jurafsky/slp3/8.pdf)_
ferramenta https://www.ibm.com/br-pt/cloud/watson-knowledge-studio
demo http://dhbb.mybluemix.net/dhbb/document?id=2927
exemplo de possíveis fontes de dados para dicionários (usados em pré-anotação): https://pt.wikipedia.org/wiki/Lista_de_munic%C3%ADpios_do_Brasil_por_popula%C3%A7%C3%A3o_(2020)
problema relacionado, entity linking: http://www.wikifier.org/
outra biblioteca de NLP com bom suporte Português - afinal eu contribui com isso! ;-) - https://freeling-user-manual.readthedocs.io/en/latest/

Nossa Senhora do Carmo vs Igreja do Carmo… https://pt.wikipedia.org/wiki/Nossa_Senhora_do_Carmo

aula 9 <2021-08-30 Mon>

grammáticas (slides Thiago UFMG)
https://ai.googleblog.com/2016/05/announcing-syntaxnet-worlds-most.html

aula 10 <2021-09-01 Wed>

parsing (slides Thiago UFMG)
sobre parsing https://youtu.be/bxpc9Pp5pZM antecipando discussão sobre algoritmos
https://youtu.be/pF0RgB1dZTU sobre constituintes

aula 11 <2021-09-08 Wed>

gramaticas para analise de textos, http://delph-in.github.io/delphin-viz/demo/
dataset / treebank, http://lindat.mff.cuni.cz/services/udpipe/
dataset/treebank para inferir uma gramática, +/- https://yoavartzi.com/tutorial/

aula 12 <2021-09-22 Wed>

revisão das últimas aulas sobre análises sintáticas (capítulos 12, 13 e 14)
constituintes vs dependencias
Dependencias Universais: motivações, guidelines, treebanks (corpora) e ferramentas

aula 13 <2021-09-27 Mon>

revisão dependencias universais
manutenção de datasets
algorítmo de parsing para dependencias
capítulo 14 e slides 5

aula 14 <2021-09-29 Wed>

introdução à semântica
https://www.youtube.com/watch?v=-e4GaKSCrhM
https://brenocon.com/watson_special_issue/03%20Deep%20parsing.pdf

aula 15 <2021-10-04 Mon>

continuação sobre semântica

aula 16 <2021-10-06 Wed>

continuação sobre semântica
inferência textual

aula 17 <2021-10-13 Wed>

continuação sobre semântica
inferência textual

aula 18 <2021-10-18 Mon>

apresentação do assigment 03

aula 19 <2021-10-20 Wed>

revisão semântica composicional (sentenças) e inferência textual
semântica lexical

aula 20 <2021-10-25 Mon>

semântica lexical
http://rtw.ml.cmu.edu/rtw/

aula 21 <2021-10-27 Wed>

semântica lexical

aula 22 <2021-11-03 Wed>

discussão sobre último assignment

aula 23 <2021-11-08 Mon>

interfaces de busca em documentos:
- google (web search)
- http://openwordnet-pt.org (interface de busca sobre a Wordnet)
- buscas em dados estruturados http://wikidata.org
- buscas em artigos e autores https://aclanthology.org e https://dblp.org
- http://dhbb.mybluemix.net/dhbb/home demo DHBB. Falamos sobre quais outras funcionalidades seriam possíveis para busca não apenas usando o texto e metadados, mas também camadas de anotação extraídas do processamento dos textos (relações familiares do último projeto, wordnet, relações sintáticas, eventos, datas etc)
- http://aclasb.dfki.de - interfaces especializadas
- sistemas de busca/indexação normalmente usados como backend https://solr.apache.org e https://www.elastic.co/guide/index.html

aula 24 <2021-11-10 Wed>

Referencias

Courses

Libraries

Como usar notebooks

Usando o `venv` criei um venv de Python3 e instalei tudo no mesmo environment:

git clone git@github.com:emap-nlp/syllabus.git
cd syllabus
python3 -m venv venv
source venv/bin/activate
pip install --upgrade pip
pip install nltk
python -m pip install -U matplotlib
pip install jupyterlab

Carregar com:

jupyter-lab

Você poderá precisar fazer instalações de pacotes do NLTK, para os corpora. Pode fazer isso dentro do notebook ou em outro terminal com o mesmo virtual environment carregado.

wellington36/syllabus