Repositorio de código para el artículo de Medium: Procesando Datos con Spark (y IV) - Corriendo una aplicación con PySpark
Nota: El archivo infoleg.txt
sólo contiene 100 documentos del archivo completo de documentos que se encuentra en:
https://cs.famaf.unc.edu.ar/~ccardellino/divulgacion/infoleg.txt.bz2
$SPARK_HOME/bin/spark-submit --master $SPARK_CLUSTER ./spark-infoleg.py \
[-h] [--topics TOPICS] [--iterations ITERATIONS] \
[--min-df MIN_DF] INPUT_FILE OUTPUT_FILE
Argumentos:
INPUT_FILE Dirección al archivo de texto del InfoLEG.
OUTPUT_FILE Dirección al archivo de texto donde imprimir los
resultados.
Argumentos opcionales:
--topics TOPICS Cantidad de tópicos para LDA.
--iterations ITERATIONS
Cantidad de iteraciones máxima para LDA.
--min-df MIN_DF Mínima cantidad de documentos para considerar una
palabra.
$SPARK_HOME/bin/spark-submit --master local[*] ./spark-infoleg.py ./infoleg.txt ./topics.txt --topics 10