optimización malloc y gcc

He escrito algún código de asignación de memoria en c como un ejercicio. Se traduce casi puramente a macro ahora. Al hacer esto, he podido reducir el tiempo de asignación a algo similar a glibc malloc (no optimizado). Sin embargo, al ejecutar la prueba con gcc -Ox donde x> 0, no puedo acercarme a la velocidad de glibc, glibc me supera en aproximadamente 10 ^ 2

Entiendo que la implementación de glibc malloc se basa en el dlmalloc de Doug Lea y los comentarios sugieren que el código se beneficia de la optimización de los comstackdores. No he investigado por qué esto es así y no estoy al tanto de los trucos de optimización del comstackdor y me preguntaba si alguien sabía o podía dar una pista sobre qué técnicas se usan comúnmente.