/spark-infoleg

Repositorio con código de PySpark para análisis de tópicos del Infoleg.

Primary LanguagePythonMIT LicenseMIT

Spark para InfoLEG

Repositorio de código para el artículo de Medium: Procesando Datos con Spark (y IV) - Corriendo una aplicación con PySpark

Nota: El archivo infoleg.txt sólo contiene 100 documentos del archivo completo de documentos que se encuentra en: https://cs.famaf.unc.edu.ar/~ccardellino/divulgacion/infoleg.txt.bz2

Uso de la aplicación

$SPARK_HOME/bin/spark-submit --master $SPARK_CLUSTER ./spark-infoleg.py \
    [-h] [--topics TOPICS] [--iterations ITERATIONS] \
        [--min-df MIN_DF] INPUT_FILE OUTPUT_FILE

Argumentos:
  INPUT_FILE            Dirección al archivo de texto del InfoLEG.
  OUTPUT_FILE           Dirección al archivo de texto donde imprimir los
                        resultados.

Argumentos opcionales:
  --topics TOPICS       Cantidad de tópicos para LDA.
  --iterations ITERATIONS
                        Cantidad de iteraciones máxima para LDA.
  --min-df MIN_DF       Mínima cantidad de documentos para considerar una
                        palabra.

Ejemplo de uso

$SPARK_HOME/bin/spark-submit --master local[*] ./spark-infoleg.py ./infoleg.txt ./topics.txt --topics 10