Eso depende. Una región de ADN codificante activamente transcrita va a tener secuencias reguladoras (denominadas colectivamente un “promotor”) requeridas para reclutar ARN polimerasa, que va a iniciar la síntesis de ARN en el sitio de inicio de la transcripción y proceder al sitio de terminación de la transcripción.
Si se trata de un gen eucariótico, no todo el ARN naciente transcrito va a pasar al transcrito final del ARNm. Las porciones de ARN que se eliminan durante el procesamiento del ARN se llaman “intrones”, las porciones que se conservan se llaman “exones”. La longitud promedio del exón en eucariotas es de aproximadamente 200 pares de bases (ese número puede variar ampliamente, pero lo usaremos aquí para facilitar el cálculo). La mayoría de los intrones tienen entre 25 y 125 pares de bases (con algunos valores atípicos de más de 1 kb); para facilitar el cálculo aquí, vamos a ir con el promedio de aproximadamente 80 pb.
Entonces, permitamos que este gen de 9 kb se transcriba, asumiendo 500 pb para el promotor (aproximadamente la longitud mediana en eucariotas “inferiores”) y suponiendo que el 3 ‘UTR completo se incluye en la longitud del gen; eso nos da una transcripción naciente de 8.5 kb. Suponiendo que el intrón y los tamaños de exón se aproximen, esto da alrededor de 31 exones de aproximadamente 200 pb y 30 intrones de aproximadamente 80 pb. eliminar los intrones nos deja con un ARN de aproximadamente 6,1 kb.
Agregar la cola polyA a la transcripción, nos deja con un mRNA final de aproximadamente 6,3 kb.
La porción 5 ‘del transcrito no se traduce en proteína, esta “región 5 no traducida” (5’ UTR) puede variar de solo 100 pb a varios kb. Para facilitar este cálculo, vamos con el promedio humano y decimos que el marco de lectura abierto (ORF) para la traducción comienza en la posición 800. La traducción finaliza una vez que se encuentra un codón de parada, por lo que el extremo 3 ‘del ARNm no está traducido tampoco. De nuevo, yendo con el promedio humano, diremos que el 3’UTR para nuestro gen hipotético es de 200 pb.
Esto nos deja con un ORF de aproximadamente 5.3 kb. Bucear ese número por tres y redondearlo (porque esto es solo una estimación) nos da 1767 codones. Y debido a que el stop no codifica nada, esto nos da un tamaño de proteína final de 1766 aminoácidos para nuestro hipotético gen “promedio” de 9 kb.
Esta proteína sería de aproximadamente 260 kD, o aproximadamente el tamaño de la subunidad alfa (principal) de los canales de sodio regulados por voltaje en su cerebro.