se devi semplicemente "metterli insieme", li puoi raggruppare. Se però devi animarli, la cosa è un po' più complessa perchè ci sono delle gerarchie e dei sistemi di muscolatura e ossatura da definire. Ora, per l'esempio del "muovere gli occhi" la cosa non è particolarmente complessa, ma tieni presente che se poi devi animare l'intera testa (es, per fonemi o espressioni) se non addirittura l'intero corpo, la cosa non è proprio semplicissima.
Se non sei pratico di modellazione e animazione 3d, puoi valutare anche come alternativa un character studio (poser ne è un esempio)

Cyà