Salve a tutti.
Per un progetto dell'università ho creato un cluster mongodb in cui ho un dataset distribuito su più shard.
Lo scopo finale è quello di ottenere un conteggio globale di determinati attributi che sono presenti in delle collezioni presenti nei vari shard.
Per ottenere questi attributi il dataset necessita di un pre processamento che si basa su librerie per NLP. Per fare ciò ho scritto un programma in python che usa le NLTK.
Il mio approccio è stato quello di pre processare il dataset prima di inserirlo nel cluster per poi usare map_reduce per eseguire il conteggio.
Parlando col docente mi è però stato detto che sarebbe meglio tenere nel cluster il dataset grezzo ed eseguire il processamento di NLP durante la map della map_reduce, andando a chiamare il programma python.
Questa cosa non mi è affatto chiara. La map è una funzione js che vive all'interno di mongodb e non riesco a capire come possa richiamare un programma python.
Quindi vi domando: è possibile eseguire una chiamata a un'altro programma durante la map? Oppure verso un servizio REST (andrebbe bene lo stesso)