У меня есть текстовый файл, содержащий строки информации о белковых последовательностях и связанных последовательностях.
>4YDY_1|Цепи A, C[auth B]|DARPIN 44C12V5|синтетическая конструкция (32630)
MRGSHHHHHGSDLGKKLLEAARAGQDDEVRILMANGADVNALDDSGYTPLHLAAEDGHLEIVEVLLKHGADVNAADRLGDTPLHLAAFVGHLEIVEVLLKAGADVNAVDLAGVTPLHVAAFYGHLEIVEVLLKAGADVNAQDKFGKTPADIAADNGHEDIAEVLQKLN
Для этих цепочек существует последовательность.
Я хочу просмотреть каждую строку файла и сохранить только идентификатор и первую цепочку, удалить номер объекта, который находится сразу после идентификатора (_1), поставить запятую между идентификатором и цепочкой и удалить все остальные вещи в линия. Эта операция должна быть выполнена одной строкой да и одной нет. Также есть последовательности (буквы во второй строке), в которых меньше 50 букв. Я хочу удалить каждую последовательность, содержащую менее 50 букв, вместе с ее идентификатором, который является строкой над ней.
Чтобы было ясно, это вывод, который я ищу для каждой последовательности в файле:
>4YDY:А
MRGSHHHHHGSDLGKKLLEAARAGQDDEVRILMANGADVNALDDSGYTPLHLAAEDGHLEIVEVLLKHGADVNAADRLGDTPLHLAAFVGHLEIVEVLLKAGADVNAVDLAGVTPLHVAAFYGHLEIVEVLLKAGADVNAQDKFGKTPADIAADNGHEDIAEVLQKLN
Заранее спасибо.