/AiApi

API to whisper & mistral AI & more... for Astroport "AlienWare GPU Stations"

Primary LanguagePythonGNU Affero General Public License v3.0AGPL-3.0

AiApi

AiApi provide whisper video/audio 2 speech transcription and mistral AI interactions

collaborative Pad

https://pad.p2p.legal/gpu_ynov

Usage:

Running the API:

uvicorn api:app --host 0.0.0.0

Api endpoints:

http://<host>/tellme

Request type : GET Params: cid : string Returns: [{“system” : system, "prompt" : prompt , “tellme” : resume_of_cid_content }]

http://<host>/youtube

Request type : GET Params: url : string Returns: [{“speech” : video_speech, “resume” : a_resume_of_the_speech}]

Technical details

  • Le script fait appel à l’outil yt-dlp pour télécharger la vidéo à partir du lien fourni en paramètre de la requête GET
  • La librairie Whisper est utilisée pour récupérer le texte associé à l’audio de la vidéo
  • Le texte est ajouté en prompt à un modèle (voir script) pour obtenir un résumé en anglais de ce texte
  • Le résumé est traduis en français par un deuxième appel à un LLM

Notes importantes

  • la vidéo ne doit pas dépasser 3 minutes. (Dépends de la RAM / GPU)
  • l’API Whisper gére mieux les paroles anglais que français.
  • La traduction du résumé des paroles peut être partiellement incorrect selon le modèle utilisé

https://gist.github.com/mberman84/ea207e7d9e5f8c5f6a3252883ef16df3 https://microsoft.github.io/autogen/