Código implementado para treinar uma IA local usando LLM's e o LM Studio, com dados extraídos da web
pip install openai matplotlib numpy pandas plotly scipy gradio
pip install openai[embeddings]
pip install openai==0.28.1
pip install openai==0.27.7
pip install --upgrade openai
pip install -U scikit-learn
Aproveitar do conteúdo disponível no site da empresa para criar um assistente que possa responder questionamentos dentro do contexto apenas dos dados obtidos.
-
Extração de dados textuais de um site através de web scrapping.
-
Utilizando os textos do site, utilizei de embeddings para extrair o significado das palavras em um texto através da similaridade semântica.
-
O embedding será utilizado como contexto para criar um Conhecimento Customizado ou Custom Knowledge para a LLM escolhida. Assim, o assistente irá responder perguntas com base no conhecimento específico que foi disponibilizado ao assistente.
- Baixar um modelo de LLM
- Baixar um modelo de embeddings
https://github.com/bixtecnologia/semana-dados-assistente
OBS1: Utilizei o projeto mencionado acima, originalmente implementado com o ChatGPT da OpenAI, versão paga, e o adaptei para operar com um modelo local. Foi necessário atualizar e substituir algumas bibliotecas para garantir compatibilidade com a API do LM Studio.
- V1 - Criando um modelo de LLM do zero
- V2 - Fine tune com LLAMA 3 e UNSLOTH