- Monitoria: Quinta-feira 14:00 até 16:00 na 306 (@wellington36).
- Forum https://github.com/orgs/emap-nlp-2022/discussions
- https://github.com/emap-nlp-2022/syllabus
- https://www.cl.cam.ac.uk/teaching/1920/NLP/slides/slides2.pdf
- tutorial FOMA and FST http://clt.gu.se/sites/clt.gu.se/files/mkp/clttutorial.pdf
Outras referências:
- https://fomafst.github.io/morphtut.html
- https://ling.sprachwiss.uni-konstanz.de/pages/home/boegel/Dateien/CLT09_tutorial.pdf
- https://github.com/LR-POR/MorphoBr/
- http://openwordnet-pt.org
- https://www.cl.cam.ac.uk/teaching/1920/NLP/slides/slides2.pdf
- tutorial FOMA and FST http://clt.gu.se/sites/clt.gu.se/files/mkp/clttutorial.pdf
- https://www.cl.cam.ac.uk/teaching/1920/NLP/slides/slides2.pdf
- tutorial FOMA and FST http://clt.gu.se/sites/clt.gu.se/files/mkp/clttutorial.pdf
- hands-on
- modelos de linguagem n-grams
- uso de modelos de linguagem para POS tagging
- slides https://www.cl.cam.ac.uk/teaching/1920/NLP/slides/slides3.pdf e caps 2 e 8 de https://web.stanford.edu/~jurafsky/slp3/.
- modelos de linguagem n-grams
- uso de modelos de linguagem para POS tagging
- slides https://www.cl.cam.ac.uk/teaching/1920/NLP/slides/slides3.pdf e caps 2 e 8 de https://web.stanford.edu/~jurafsky/slp3/.
- exemplos no NLTK notebooks
- revisão pos tagging
- n-grams e HMM
- tagsets
- errors: diferentes erros com diferentes impactos, distribuição por sentença? propagação de erros.
- datasets: custo para criar, importância, formatos etc.
- notas finais sobre os notebooks
- anotação de entidades nomeadas (sec 8.3 https://web.stanford.edu/~jurafsky/slp3/8.pdf)_
- ferramenta https://www.ibm.com/br-pt/cloud/watson-knowledge-studio
- demo http://dhbb.mybluemix.net/dhbb/document?id=2927
- exemplo de possíveis fontes de dados para dicionários (usados em pré-anotação): https://pt.wikipedia.org/wiki/Lista_de_munic%C3%ADpios_do_Brasil_por_popula%C3%A7%C3%A3o_(2020)
- problema relacionado, entity linking: http://www.wikifier.org/
- outra biblioteca de NLP com bom suporte Português - afinal eu contribui com isso! ;-) - https://freeling-user-manual.readthedocs.io/en/latest/
Nossa Senhora do Carmo vs Igreja do Carmo… https://pt.wikipedia.org/wiki/Nossa_Senhora_do_Carmo
- grammáticas (slides Thiago UFMG)
- https://ai.googleblog.com/2016/05/announcing-syntaxnet-worlds-most.html
- parsing (slides Thiago UFMG)
- sobre parsing https://youtu.be/bxpc9Pp5pZM antecipando discussão sobre algoritmos
- https://youtu.be/pF0RgB1dZTU sobre constituintes
- gramaticas para analise de textos, http://delph-in.github.io/delphin-viz/demo/
- dataset / treebank, http://lindat.mff.cuni.cz/services/udpipe/
- dataset/treebank para inferir uma gramática, +/- https://yoavartzi.com/tutorial/
- revisão das últimas aulas sobre análises sintáticas (capítulos 12, 13 e 14)
- constituintes vs dependencias
- Dependencias Universais: motivações, guidelines, treebanks (corpora) e ferramentas
- revisão dependencias universais
- manutenção de datasets
- algorítmo de parsing para dependencias
- capítulo 14 e slides 5
- introdução à semântica
- https://www.youtube.com/watch?v=-e4GaKSCrhM
- https://brenocon.com/watson_special_issue/03%20Deep%20parsing.pdf
- continuação sobre semântica
- continuação sobre semântica
- inferência textual
- continuação sobre semântica
- inferência textual
- apresentação do assigment 03
- revisão semântica composicional (sentenças) e inferência textual
- semântica lexical
- semântica lexical
- http://rtw.ml.cmu.edu/rtw/
- semântica lexical
- discussão sobre último assignment
- interfaces de busca em documentos:
- google (web search)
- http://openwordnet-pt.org (interface de busca sobre a Wordnet)
- buscas em dados estruturados http://wikidata.org
- buscas em artigos e autores https://aclanthology.org e https://dblp.org
- http://dhbb.mybluemix.net/dhbb/home demo DHBB. Falamos sobre quais outras funcionalidades seriam possíveis para busca não apenas usando o texto e metadados, mas também camadas de anotação extraídas do processamento dos textos (relações familiares do último projeto, wordnet, relações sintáticas, eventos, datas etc)
- http://aclasb.dfki.de - interfaces especializadas
- sistemas de busca/indexação normalmente usados como backend https://solr.apache.org e https://www.elastic.co/guide/index.html
- https://web.stanford.edu/~jurafsky/slp3/
- https://nlp.stanford.edu/IR-book/
- https://www.morganclaypool.com/doi/abs/10.2200/S00493ED1V01Y201303HLT020
- https://www.morganclaypool.com/doi/abs/10.2200/S00935ED1V02Y201907HLT043
- https://press.uchicago.edu/ucp/books/book/distributed/F/bo3613750.html
- https://staff.fnwi.uva.nl/d.j.n.vaneijck2/cs/
- http://www.portaldalinguaportuguesa.org
- https://olzama.github.io/CL-seminar/annotated_bib.html
- https://www.cl.cam.ac.uk/teaching/1920/NLP/materials.html (curso que vamos seguir)
- https://www.cl.cam.ac.uk/teaching/1415/NLP/materials.html
- https://sites.pitt.edu/~naraehan/ling1330/index.html
- https://bond-lab.github.io/Computational-Lexical-Semantics/
- https://www.youtube.com/c/INF4820
- https://github.com/fccoelho/curso-IRI
Usando o `venv` criei um venv de Python3 e instalei tudo no mesmo environment:
git clone git@github.com:emap-nlp/syllabus.git
cd syllabus
python3 -m venv venv
source venv/bin/activate
pip install --upgrade pip
pip install nltk
python -m pip install -U matplotlib
pip install jupyterlab
Carregar com:
jupyter-lab
Você poderá precisar fazer instalações de pacotes do NLTK, para os corpora. Pode fazer isso dentro do notebook ou em outro terminal com o mesmo virtual environment carregado.