Con “OPTIMIZE_FOR_SIZE” solo i pesi vengono convertiti. Quindi alcune operazioni saranno eseguite in FPU altre come interi. TFLite delega solo alcune operazioni sugli acceleratori hardware disponibili.
N.B. Se si assiste ad una riduzione non indifferente dell’accuratezza è meglio fare un passo indietro e ri-addestrare il modello con la precisione ridotta fin dall’inizio. Infatti, con una “quantization aware” si ottiene solitamente un modello con un’accuratezza maggiore poiché la rete è più tollerante ai valori con precisione ridotta.