¿Hay proteínas que, cuando se secuencian, tienen segmentos que deletrean palabras en inglés o coloquiales?

Una proteína típica tiene alrededor de 350 aminoácidos de largo. No conozco ninguna palabra en inglés o coloquial que tenga 350 letras. Muy pocas, si las hay, las proteínas funcionales tienen menos de 20 aminoácidos de longitud, lo que todavía es muy largo para las palabras en inglés.

Muchas secuencias de proteínas contienen palabras y nombres en inglés. ELVIS se puede encontrar en muchas proteínas, pero ELVISISALIVE aún no ha aparecido. CRICK se puede encontrar en muchos, FRANKLIN aparece una vez en una proteína hipotética de Treponema primitia (WP_010253273) y, por supuesto, WATSON es imposible.

¿Cuál es la palabra en inglés más larga que se puede encontrar en la colección de proteínas de GenBank? A primera vista, no lo sé (y cambiará de manera regular, a la velocidad con que crece la colección). Aunque creo que puedo encontrarlo en algunas líneas de código, y si nadie me pega, lo intentaré mañana; es muy tarde esta noche.

Actualización: La palabra más larga, más o menos en inglés que puedo encontrar en la base de datos de proteína de secuencia de referencia humana es “TARGETEER”, de 9 letras de longitud. Se encuentra en varias isoformas de “C12orf42”, p. Ej., Isoforma 1 de proteína C12orf42 no caracterizada [Homo sapiens].

Solo busqué en la biblioteca de secuencias de referencias humanas, no en la base de datos de proteínas completa para NCBI, que hubiera tardado demasiado tiempo en descargar (demasiado tiempo para la leve curiosidad que tenía, de todos modos). Esta base de datos tiene 72,204 secuencias de proteínas en ella, con una longitud total de 46,315,661 aminoácidos; longitud media de proteína 636,4, longitud mediana 467,0, longitud media geométrica 468,5, distribución que se parece a esto:

Para palabras, utilicé el unix dict integrado (en mi computadora, / usr / share / dict / words), que contiene 235,886 palabras en inglés más o menos de 1 a 24 letras de largo (THYROPARATHYROIDECTOMIZE, TETRAIODOPHENOLPHTHALEIN, SCIENTIFICOPHILOSOFICAL, PATOLOGICOPSYCHOLOGICAL, y FORMALDEHYDESULHOXYLATE , si juegas Scrabble).

“TARGETEER” fue la 119.925º palabra más larga en el diccionario, y como comencé con la más larga y disminuyó, fue más de la mitad del diccionario (50.8%) antes de obtener el primer golpe. En general, se tardó cerca de una hora en ejecutarse en segundo plano, sin ningún esfuerzo en la optimización del guión.

Apuesto a que “Slartibartfast estuvo aquí”. Aunque esto es divertido, la falta de tales palabras / patrones puede decirnos algo importante sobre la probabilidad de un diseño inteligente. Me explico aquí

http://marginalrevolution.com/ma

Acabo de encontrar “IHATEDGAY” en Bifidobacterium longum beta-fructofuranosidasa (PDB id: 3PIJ). También se puede leer como “IHATEDGAYTY”, como “Odié gay, gracias”. Qué proteína homofóbica …

Conozco una: las helicasas DEAD-box tienen esta palabra “DEAD” que contiene una secuencia de aminoácidos a menudo común en ellas.