ИСПОЛЬЗОВАНИЕ АЛГОРИТМОВ МАШИННОГО ОБУЧЕНИЯ ПРИ ОБРАБОТКЕ ДАННЫХ, ПОЛУЧЕННЫХ НА ПРИБОРАХ МАССОВОГО ПАРАЛЛЕЛЬНОГО СЕКВЕНИРОВАНИЯ ILLUMINA

Заказать уникальную курсовую работу
Тип работы: Курсовая работа
Предмет: Обучение нейронных систем
  • 31 31 страница
  • 14 + 14 источников
  • Добавлена 02.01.2022
1 496 руб.
  • Содержание
  • Часть работы
  • Список литературы
  • Вопросы/Ответы
Оглавление
ВВЕДЕНИЕ 3
1.Метод Сэнгера как базовый и давший развитие NGS 6
2. Секвенирование нового поколения 11
2.1. Секвенирование путем гибридизации 13
2.2. Секвенирование путем синтеза (SBS) 14
2.3. Технология Illumina /Solexa или секвенирование на молекулярных кластерах 15
3. Алгоритмы Base calling 18
3.1 Анализ данных 19
3.2. Общая структура данных машинного обучения 21
3.3 Типы машинного обучения 23
3.4 Показатели эффективности бинарных классификаторов 26
3.5 Анализ главных компонентов 27
Заключение 29
Список использованной литературы 30

Фрагмент для ознакомления

Проблемы классификации можно далее разделить на проблемы двоичной классификации, когда категориальные метки являются двузначными; и задачи мультиклассовой классификации, когда категориальные метки многозначны.Атрибуты и метки также имеют разные имена, и в различной литературе атрибуты также могут называться предикторами, характеристиками или независимыми переменными; в то время как ярлыки иногда называют результатами, целями, зависимыми переменными или ответами.3.3 Типы машинного обученияАлгоритмы машинного обучения можно разделить на категории на основе различных критериев, например, какие данные им требуются для изучения и как они учатся.Контролируемое, неконтролируемое, полууправляемое и усиленное обучение Обычно алгоритмы классифицируются в зависимости от того, какие данные и контроль им необходимы во время обучения. В такой системе классификации алгоритмы делятся на следующие четыре основные категории: обучение с учителем, обучение без учителя, обучение с полу-учителем и усиленное обучение.При контролируемом обучении каждый экземпляр данных обучения содержит метки, то есть известные результаты, и можно сказать, что алгоритм учится с учителем. На другом конце спектра у нас есть обучение без учителя, где нет ярлыков, и алгоритм должен пытаться учиться без учителя. Между ними существует полу-контролируемое обучение, когда некоторые экземпляры помечаются, а некоторые нет. Это может быть желательно в тех случаях, когда маркировка данных требует много времени и затрат, но когда обучение без учителя неприменимо. Алгоритмы полууправляемого обучения обычно представляют собой комбинации контролируемых и неконтролируемых алгоритмов обучения, и обычно достаточно пометить только небольшую часть обучающих данных.Наконец, у нас есть усиленное обучение, которое сильно отличается от методов с другим учителем. В этом случае обучающая программа, называемая агентом, обучается, получая положительные или отрицательные отзывы, вознаграждения или штрафы при выполнении действия. Этот методмашинного обучения обычно используется для обучения компьютерных программ определенным компьютерным играм, а также для автоматизации робототехники.Методы регрессии, методы на основе экземпляров, деревья решений и методы ансамбля. Методы также можно отсортировать по математической структуре, на которой они основаны.Вот некоторые из наиболее распространенных классов алгоритмов: методы регрессии, которые, как следует из их названия, основаны на регрессионном анализе; методы, основанные на экземплярах или на основе памяти, которые работают путем сравнения новых экземпляров данных с ранее увиденными экземплярами, запомненными в процессе обучения; и модели деревьев решений, которые используют деревья решений в качестве модели прогнозирования, чтобы делать выводы о наблюдаемых данных. Более того, существуют ансамблевые методы, которые работают, комбинируя несколько алгоритмов обучения, чтобы получить лучшую производительность, чем любой из алгоритмов по отдельности.Методы машинного обученияНиже следует список некоторых часто используемых алгоритмов машинного обучения.Методы регрессииЛинейная регрессияЛогистическая регрессияШтрафная регрессияМетоды на основе экземпляров• K-ближайший сосед (kNN)• метод опорных векторов (SVM)o SVM с линейным ядромo SVM с полиномиальным ядромo SVM с ядром гауссовской радиальной базисной функции (RBF)Деревья решений• Деревья классификации• Деревья регрессииМетоды оптимизацииСледующие ниже алгоритмы сами по себе не являются конкретными алгоритмами машинного обучения, а представляют собой методы оптимизации, которые часто применяются к задачам машинного обучения для оптимизации параметров алгоритма.• Градиентный спуск• Стохастический градиентный спуск (SGD)• Пакетный градиентный спускОбщую модель, которая объединяетподавляющее большинство методов base calling, можно определить как:Zi – B = Yi = M Xi D + Ei . где Zi – интенсивности после коррекции;В – коррекция фона;Yi– наблюдаемые интенсивности;М – матрица взаимовлияния каналов;Xi– истинные интенсивности;D – матрица затухания сигнала;Ei – матрица ошибок.Для решения подобной матричной системы предполагается реализация для оценки Phred Quality Score подхода на основе логистической регрессии.В работе [14] предлагаются и сравниваются три алгоритма оценкиquality core, основанные на логистической регрессии. Для проверки этихалгоритмов используется обучающее множество, для которого авторывзяли информацию о нуклеотидных последовательностей. В качестве обучающей последовательности была использованаинформация от 30000 кластеров, которые были образованы в 101 цикле.Таким образом, для создания обучающего множества былаиспользованапоследовательность примерно из 3 миллионов нуклеотидов. Задача была сведена к L-regularized logistic regression [14].3.4 Показатели эффективности бинарных классификаторовДля оценки производительности двоичного классификатора обычно используются меры, полученные из значений в так называемой матрице неточностей. Для построения матрицы неточностей подсчитывается количество раз, когда прогноз был правильно или неправильно классифицирован. Также проводится различие между положительными и отрицательными прогнозами, в результате чего получается матрица, умноженная на два, всего с четырьмя значениями. Правильные положительные и отрицательные прогнозы называются истинно положительными и отрицательными, в то время как неверные прогнозы известны как ложные положительные и отрицательные.Ряд полезных показателей эффективности может быть получен из матрицы неточностей. Точность определяется как сумма правильно классифицированных экземпляров, как положительных, так и отрицательных, деленная на общую популяцию. Проще говоря, это процент правильных классификаций. Следующие два показателя: точность, то есть точность положительных прогнозов; и отзыв, также известный как чувствительность или истинно положительный показатель, который представляет собой соотношение правильно классифицированных положительных случаев. Последний показатель, F1-рейтинг, представляет собой комбинацию значений точности и отзыва и рассчитывается как среднее гармоническое из двух.Используя среднее гармоническое, классификатор получит высокий балл F1 только в том случае, если и точность, и оценка отзыва высоки, поскольку среднее гармоническое придает больший вес низким значениям. При оценке классификаторов часто выбирается показатель F1, поскольку он суммирует производительность в виде одного значения. Тем не менее, оценка F1 отдает предпочтение классификаторам с аналогичными показателями точности и отзыва, но в зависимости от вашей проблемы высокая точность может иметь большее значение, чем отзыв, и наоборот.Следовательно, наиболее подходящий показатель эффективности зависит от цели классификатора.3.5 Анализ главных компонентовАнализ главных компонентов (PCA) - это широко используемый алгоритм, который выполняет уменьшение размерности. Данные машинного обучения часто содержат множество атрибутов, и сокращение их до двух или трех переменных позволяет визуализировать данные.Поэтому идея состоит в том, чтобы уменьшить количество переменных, но в то же время сохранить как можно больше информации. Главные компоненты строятся путем максимизации дисперсии, так что первый главный компонент отвечает за наибольшую величину дисперсии, второй - за самую большую оставшуюся дисперсию и так далее. Все главные компоненты также построены так, чтобы они были ортогональны друг другу.Еще один важный фактор, который следует учитывать, - это то, требует ли алгоритм машинного обучения масштабирования данных, или результаты могут быть улучшены при использовании соответствующим образом масштабированных данных, даже если это не требуется. Например, если значения атрибутов имеют разные диапазоны, необходимо нормализовать данные до общего масштаба, прежде чем вставлять их в алгоритмы обучения.После того, как данные будут надлежащим образом исследованы и считаны в должным образом организованную структуру данных, набор данных необходимо случайным образом разделить на две части: обучающий и тестовый набор.На ранних этапах проекта машинного обучения используется только обучающий набор, как для обучения алгоритмов, так и для первой оценки. Обычно большая часть данных, обычно около восьмидесяти процентов, выбирается в качестве обучающих данных, а остальные данные составляют набор тестов.Поскольку метки являются категориальными, а числовые метки требуются в алгоритмах, можно просто преобразовать каждую базовую букву в конкретное число, так что, например, аденин представлен цифрой два вместо буквы A.После того, как данные должным образом исследованы, считаны в должным образом организованную структуру данных и разделены на последовательность и набор тестов, выбирается модель для работы и обучения ее. После успешного обучения алгоритма и создания первого набора прогнозов результаты обычно можно несколько улучшить путем точной настройки модели. Это делается путем изменения входных параметров модели, а иногда также путем добавления параметров.ЗаключениеОбщий вывод проведенной работы состоит в том, что можно выполнять точный base-callingс помощью машинного обучения, но что для выполнения точного Base callingв реальных приложениях секвенирования требуется альтернативное решение или более стабильные данные. Поскольку процесс секвенирования постоянно развивается и совершенствуется, в будущем может появиться возможность получать более стабильные данные между прогонами.Другое решение, которое не требует более стабильных данных, состоит в том, чтобы вместо этого всегда упорядочивать известный эталонный сегмент ДНК перед целевой ДНК и использовать эталон в качестве обучающих данных.Список использованной литературыSanger F., Niclein S., Coulson A.R. DNA sequencing with chain-terminating inhibitors // Proc Natl Acad Sci USA. — 1977. — Т. 74. — С. 5463-5467.Sanger F., Coulson A.R. A rapid method for determining sequences in DNA by primed syntesis with DNA polymerase // J Mol Biol. — 1975. — Т. 94. — С. 444-448.Maxam A.M., Gilbert W. A new method for sequencing DNA // Proc Natl Acad Sci USA. 1977. Vol. 74, no. 2. P. 560–564. DOI: 10.1073/pnas.74.2.560Принцип секвенирования ДНК по Максаму-Гилберту. URL: http://enc.sci-lib.com/article0001457.htmlGolan D., Medvedev P. Using state machines to model the Ion Torrent sequencing process and to improve read error rates // Bioinformatics. 2013. Vol. 29, no. 13.РадькоС.П., КурбатовЛ.К., ПтицынК.Г., КиселёваЯ.Ю., ПономаренкоЕ.А., ЛисицаА.В., АрчакА.И. Перспективыиспользованиясеквенаторовтретьегопоколениядляколичественногопрофилирования транскриптома // Biomedical Chemistry: Research and Methods. 2018. Vol. 1, no. 4. e00086.DOI: 10.18097/BMCRM00086Karki G. Sanger’s method of gene sequencing. 2017. URL: https://www.onlinebiologynotes.com/sangersmethod-gene-sequencing/Ari Ş., Arikan M. Next-generation sequencing: advantages, disadvantages, and future // Plant omics: trends and applications. Springer, Berlin, 2016. P. 109–135. URL:https://www.springer.com/gp/book/9783319317014Illumina, 2017, RNA sequencing methods collection: An overview of recent RNASeq publications featuring Illumina technology. https://www.illumina.com/content/dam/illuminamarketing/documents/products/research_reviews/rna-sequencing-methodsreview-web.pdf.Géron, A., 2019, Hands-on machine learning with Scikit-learn, Keras & TensorFlow, 2nd edition, O’Reilly Media Inc.Alpaydin, E., 2014, Introduction to machine learning, 3rd edition, MIT Press.Support vector machines, https://scikitlearn. org/stable/modules/svm.htmlFrank, E., Hall, M. A., Pal, C. J., and Witten, I. H., 2017, Data mining: Practical machine learning tools and techniques, 4th edition, Elsevier Inc.Zhang et al. Estimating Phred scores of Illumina base calls by logistic regression and sparse modeling // BMC Bioinformatics. 2017. vol. 18. no. 1. pp. 335.


1. Sanger F., Niclein S., Coulson A.R. DNA sequencing with chain-terminating inhibitors // Proc Natl Acad Sci USA. — 1977. — Т. 74. — С. 5463-5467.
2. Sanger F., Coulson A.R. A rapid method for determining sequences in DNA by primed syntesis with DNA polymerase // J Mol Biol. — 1975. — Т. 94. — С. 444-448.
3. Maxam A.M., Gilbert W. A new method for sequencing DNA // Proc Natl Acad Sci USA. 1977. Vol. 74, no. 2. P. 560–564. DOI: 10.1073/pnas.74.2.560
4. Принцип секвенирования ДНК по Максаму-Гилберту. URL: http://enc.sci-lib.com/article0001457.html
5. Golan D., Medvedev P. Using state machines to model the Ion Torrent sequencing process and to improve read error rates // Bioinformatics. 2013. Vol. 29, no. 13.
6. Радько С.П., Курбатов Л.К., Птицын К.Г., Киселёва Я.Ю., Пономаренко Е.А., Лисица А.В., Арчак А.И. Перспективы использования секвенаторов третьего поколения для количественного профилирования транскриптома // Biomedical Chemistry: Research and Methods. 2018. Vol. 1, no. 4. e00086. DOI: 10.18097/BMCRM00086
7. Karki G. Sanger’s method of gene sequencing. 2017. URL: https://www.onlinebiologynotes.com/sangersmethod-gene-sequencing/
8. Ari Ş., Arikan M. Next-generation sequencing: advantages, disadvantages, and future // Plant omics: trends and applications. Springer, Berlin, 2016. P. 109–135. URL: https://www.springer.com/gp/book/9783319317014
9. Illumina, 2017, RNA sequencing methods collection: An overview of recent RNASeq publications featuring Illumina technology. https://www.illumina.com/content/dam/illuminamarketing/documents/products/research_reviews/rna-sequencing-methodsreview-web.pdf.
10. Géron, A., 2019, Hands-on machine learning with Scikit-learn, Keras & TensorFlow, 2nd edition, O’Reilly Media Inc.
11. Alpaydin, E., 2014, Introduction to machine learning, 3rd edition, MIT Press.
12. Support vector machines, https://scikitlearn. org/stable/modules/svm.html
13. Frank, E., Hall, M. A., Pal, C. J., and Witten, I. H., 2017, Data mining: Practical machine learning tools and techniques, 4th edition, Elsevier Inc.
14. Zhang et al. Estimating Phred scores of Illumina base calls by logistic regression and sparse modeling // BMC Bioinformatics. 2017. vol. 18. no. 1. pp. 335.

Вопрос-ответ:

Какие методы секвенирования используются в исследованиях на приборах массового параллельного секвенирования Illumina?

В исследованиях на приборах массового параллельного секвенирования Illumina используются методы секвенирования путем гибридизации, синтеза SBS и технология Illumina Solexa или секвенирование на молекулярных кластерах.

Какие алгоритмы используются для base calling при обработке данных полученных на приборах массового параллельного секвенирования Illumina?

Для base calling при обработке данных полученных на приборах массового параллельного секвенирования Illumina используются различные алгоритмы, включая алгоритмы машинного обучения.

Какие методы секвенирования были предшественниками приборов массового параллельного секвенирования Illumina?

Предшественниками приборов массового параллельного секвенирования Illumina были методы секвенирования, такие как метод Сэнгера и метод гибридизации.

Какие технологии лежат в основе секвенирования на приборах массового параллельного секвенирования Illumina?

Секвенирование на приборах массового параллельного секвенирования Illumina основано на технологиях гибридизации, синтеза SBS и технологии Illumina Solexa или секвенирования на молекулярных кластерах.

Какие алгоритмы используются для анализа данных, полученных на приборах массового параллельного секвенирования Illumina?

Для анализа данных, полученных на приборах массового параллельного секвенирования Illumina, используются различные алгоритмы, включая алгоритмы машинного обучения. Анализ данных включает в себя обработку сигналов, сборку последовательностей и определение вариаций.

Какой метод считается базовым при секвенировании методом Сэнгера?

Метод Сэнгера считается базовым и широко используется в секвенировании.

Какие технологии секвенирования нового поколения выделяют?

Среди технологий секвенирования нового поколения выделяют гибридизацию, синтез методом SBS и технологию Illumina Solexa, основанную на секвенировании на молекулярных кластерах.

Какие алгоритмы используются при обработке данных полученных на приборах массового параллельного секвенирования Illumina?

При обработке данных использование алгоритмов машинного обучения является неотъемлемой частью процесса. В основном используются алгоритмы base calling, а также алгоритмы анализа данных.

Что такое технология Illumina Solexa?

Технология Illumina Solexa является одним из методов секвенирования нового поколения и основана на секвенировании на молекулярных кластерах. Она широко используется и позволяет получить высокую точность при низкой стоимости.

Какие алгоритмы используются в обработке данных при секвенировании?

При секвенировании используются алгоритмы base calling, которые позволяют определить последовательность нуклеотидов в прочтениях DNA. Также применяются алгоритмы анализа данных для обработки полученных результатов и извлечения полезной информации.