Анализ моделей распределенного представления слов (word embeddings) для задач семантической близости и аналогий

Заказать уникальную курсовую работу
Тип работы: Курсовая работа
Предмет: Информационные технологии
  • 25 25 страниц
  • 23 + 23 источника
  • Добавлена 09.10.2024
1 496 руб.
  • Содержание
  • Часть работы
  • Список литературы
Введение 3
1. Визуализация UMAP 5
2. Иерархическая кластеризация вложений слов 12
3. Визуализация ассоциаций Word с использованием тепловых карт 17
Заключение 21
Список литературы 23

Фрагмент для ознакомления

Во-первых, крайне важно применять различные наборы инструментов для визуализации встраивания слов для изучения структуры семантической близости и аналогий слов, полученных на основе моделей, разработанных на текстах людьми разного происхождения. На данный момент эта проблема остается практически недостаточно изученной. Очень важно применять не только один конкретный инструмент (на данный момент PCA является наиболее распространенным), но и набор инструментов для получения более объективных результатов. Во-вторых, крайне важно использовать различные модели семантики распределения. Как показал анализ, word2vec и GloVe предоставляют разные взгляды на семантику отдельных слов. GloVe предоставляет более широкий взгляд, позволяющий исследовать понятия и их взаимосвязи, word2vec - более локальный. В-третьих, визуализация распределительного значения часто встречающихся слов является полезной методологией, которая может генерировать новые идеи в области анализа аналогий, моделей категоризации мира людьми разного происхождения и определения их семантической близости.Дистрибутивная семантика является одним из основных направлений НЛП, но, несмотря на технические достижения, она все еще страдает от низкого уровня интерпретируемости моделей. Методы визуализации встраивания слов были предложены для облегчения интерпретации, но они никогда не применялись для изучения различий в встраивании слов между группами авторов, т.е. авторами-женщинами и мужчинами. Этому направлению исследований в области дистрибутивной семантики до настоящего времени не уделялось особого внимания, несмотря на его очевидную теоретическую и практическую значимость. Широко используемые предварительно обученные модели разрабатываются без какого-либо учета характеристик авторов текстов, по которым они проходят обучение, что может привести к недопредставленности определенных групп.Как и любое другое тематическое исследование, данные исследование имеет очевидные ограничения, но оно также указывает направление будущих исследований в области семантической близости и аналогий, связанных, в частности, с изучением других часто встречающихся слов, а также групп слов и расширением списка методов визуализации.СписоклитературыA clustering-based topic model using word networks and word embeddings / Mu W., Lim K.H., Liu J., Karunasekera S., Falzon L., Harwood A. // Journal of Big Data. 2022. Т. 9. № 1.Age of exposure 2.0: estimating word complexity using iterative models of word embeddings / Botarleanu R.-M., Dascalu M., Watanabe M., McNamara D.S., Crossley S.A. // Behavior Research Methods. 2022. Chiu B., Baker S. Word embeddings for biomedical natural language processing: a survey // Linguistics and Language Compass. 2020. Т. 14. № 12. С. e12402.Cross-lingual word embeddings for turkic languages / Kuriyozov E., Gómez-Rodríguez C., Doval Y. // Всборнике: LREC 2020 - 12th International Conference on Language Resources and Evaluation, Conference Proceedings. 12. 2020. С. 4054-4062.Domain adaptation for word sense disambiguation using word embeddings / Komiya K., Suzuki S., Sasaki M., Shinnou H., Okumura M. // Lecture Notes in Computer Science. 2018. Т. 10761 LNCS. С. 195-206. Enikeeva E.V., Mitrofanova O.A. Russian collocation extraction based on word embeddings // Всборнике: Компьютернаялингвистикаиинтеллектуальныетехнологии. По материалам ежегодной Международной конференции "Диалог". Российский государственный гуманитарный университет. 2017. С. 52-64. Evaluating the impact of sub-word information and cross-lingual word embeddings on mi'kmaq language modelling / Boudreau J., Suvarna A., Cook P., Patra A. // Всборнике: LREC 2020 - 12th International Conference on Language Resources and Evaluation, Conference Proceedings. 12. 2020. С. 2736-2745.Grefenstette G., Hanks P. Competing views of word meaning: word embeddings and word senses // International Journal of Lexicography. 2023. Т. 36. № 2. С. 211-219.Hadifar A., Momtazi S. The impact of corpus domain on word representation: a study on persian word embeddings // Language Resources and Evaluation. 2018. Т. 52. № 4. С. 997-1019.Kutuzov A.B. Russian word sense induction by clustering averaged word embeddings // Всборнике: Computational Linguistics and Intellectual Technologies. Поматериаламежегодноймеждународнойконференции "Диалог". 2018. С. 391-402. Moradi B., Ansari E., Zabokrtsky Z. Unsupervised word sense disambiguation using word embeddings // Conference of Open Innovations Association, FRUCT. 2019. № 25. С. 228-233.Orel E. Improvement of neural sequence learning model for multilingual word sense disambiguation using word embeddings // Всборнике: Aspire to Science. материалыВсероссийскойнаучно-практическойконференциистудентов, магистрантовиаспирантовсмеждународнымучастием. Новосибирск, 2020. С. 138-144. Sato R. Word tour: one-dimensional word embeddings via the traveling salesman problem // Journal of Natural Language Processing. 2022. Т. 29. № 4. С. 1297-1301.Simon C.K., Sochenkov I.V. Method for author attribution using word embeddings // Modern Information Technologies and IT-Education. 2019. Т. 15. № 3. С. 572-578.Spanish word embeddings learned on word association norms / Gómez-Adorno H., Reyes-Magaña J., Bel-Enguix G., Sierra G. // Всборнике: CEUR Workshop Proceedings. 13. Сер. "AMW 2019 - Proceedings of the 13th Alberto Mendelzon International Workshop on Foundations of Data Management" 2019.Sun Yu., PlatošJa. A method for constructing word sense embeddings based on word sense induction // Scientific Reports. 2023. Т. 13. № 1. С. 12945.Ustalov D.A. Joining dictionaries and word embeddings for ontology induction // Proceedings of the Institute for System Programming of the RAS. 2016. Т. 28. № 6. С. 197-206.Visualizing embeddings to study gender-related differences in word meaning / Litvinova T.A., Panicheva P.V., Kotlyarova E.S., Zavarzina V.V. // International Journal of Open Information Technologies. 2022. Т. 10. № 11. С. 47-53.Wolert R., Rawski M. Email phishing detection with blstm and word embeddings // International Journal of Electronics and Telecommunications. 2023. С. 485-491. Word relation autoencoder for unseen hypernym extraction using word embeddings / Chen H.-Y., Lee C.-S., Liao K.-T., Lin S.-D. // Всборнике: Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, EMNLP 2018. 2020. С. 4834-4839.Word sense disambiguation for 158 languages using word embeddings only / Logacheva V., Shelmanov A., Panchenko A., Teslenko D., Remus S., Biemann C., Ustalov D., Ponzetto S.P., Kutuzov A., Artemova E. // Всборнике: LREC 2020 - 12th International Conference on Language Resources and Evaluation, Conference Proceedings. 12. 2020. С. 5943-5952.Wove: incorporating word order in glove word embeddings / Ibrahim M.S., Gauch S., Gerth T., Cox B. // International Journal on Engineering, Science and Technology. 2022. С. 124-129.Xu J., Tao Y., Lin H. Semantic word cloud generation based on word embeddings // Всборнике: IEEE Pacific Visualization Symposium. 9. Сер. "2016 IEEE Pacific Visualization Symposium, PacificVis 2016 - Proceedings" 2016. С. 239-243.

1. A clustering-based topic model using word networks and word embeddings / Mu W., Lim K.H., Liu J., Karunasekera S., Falzon L., Harwood A. // Journal of Big Data. 2022. Т. 9. № 1.
2. Age of exposure 2.0: estimating word complexity using iterative models of word embeddings / Botarleanu R.-M., Dascalu M., Watanabe M., McNamara D.S., Crossley S.A. // Behavior Research Methods. 2022.
3. Chiu B., Baker S. Word embeddings for biomedical natural language processing: a survey // Linguistics and Language Compass. 2020. Т. 14. № 12. С. e12402.
4. Cross-lingual word embeddings for turkic languages / Kuriyozov E., Gómez-Rodríguez C., Doval Y. // В сборнике: LREC 2020 - 12th International Conference on Language Resources and Evaluation, Conference Proceedings. 12. 2020. С. 4054-4062.
5. Domain adaptation for word sense disambiguation using word embeddings / Komiya K., Suzuki S., Sasaki M., Shinnou H., Okumura M. // Lecture Notes in Computer Science. 2018. Т. 10761 LNCS. С. 195-206.
6. Enikeeva E.V., Mitrofanova O.A. Russian collocation extraction based on word embeddings // В сборнике: Компьютерная лингвистика и интеллектуальные технологии. По материалам ежегодной Международной конференции "Диалог". Российский государственный гуманитарный университет. 2017. С. 52-64.
7. Evaluating the impact of sub-word information and cross-lingual word embeddings on mi'kmaq language modelling / Boudreau J., Suvarna A., Cook P., Patra A. // В сборнике: LREC 2020 - 12th International Conference on Language Resources and Evaluation, Conference Proceedings. 12. 2020. С. 2736-2745.
8. Grefenstette G., Hanks P. Competing views of word meaning: word embeddings and word senses // International Journal of Lexicography. 2023. Т. 36. № 2. С. 211-219.
9. Hadifar A., Momtazi S. The impact of corpus domain on word representation: a study on persian word embeddings // Language Resources and Evaluation. 2018. Т. 52. № 4. С. 997-1019.
10. Kutuzov A.B. Russian word sense induction by clustering averaged word embeddings // В сборнике: Computational Linguistics and Intellectual Technologies. По материалам ежегодной международной конференции "Диалог". 2018. С. 391-402.
11. Moradi B., Ansari E., Zabokrtsky Z. Unsupervised word sense disambiguation using word embeddings // Conference of Open Innovations Association, FRUCT. 2019. № 25. С. 228-233.
12. Orel E. Improvement of neural sequence learning model for multilingual word sense disambiguation using word embeddings // В сборнике: Aspire to Science. материалы Всероссийской научно-практической конференции студентов, магистрантов и аспирантов с международным участием. Новосибирск, 2020. С. 138-144.
13. Sato R. Word tour: one-dimensional word embeddings via the traveling salesman problem // Journal of Natural Language Processing. 2022. Т. 29. № 4. С. 1297-1301.
14. Simon C.K., Sochenkov I.V. Method for author attribution using word embeddings // Modern Information Technologies and IT-Education. 2019. Т. 15. № 3. С. 572-578.
15. Spanish word embeddings learned on word association norms / Gómez-Adorno H., Reyes-Magaña J., Bel-Enguix G., Sierra G. // В сборнике: CEUR Workshop Proceedings. 13. Сер. "AMW 2019 - Proceedings of the 13th Alberto Mendelzon International Workshop on Foundations of Data Management" 2019.
16. Sun Yu., Platoš Ja. A method for constructing word sense embeddings based on word sense induction // Scientific Reports. 2023. Т. 13. № 1. С. 12945.
17. Ustalov D.A. Joining dictionaries and word embeddings for ontology induction // Proceedings of the Institute for System Programming of the RAS. 2016. Т. 28. № 6. С. 197-206.
18. Visualizing embeddings to study gender-related differences in word meaning / Litvinova T.A., Panicheva P.V., Kotlyarova E.S., Zavarzina V.V. // International Journal of Open Information Technologies. 2022. Т. 10. № 11. С. 47-53.
19. Wolert R., Rawski M. Email phishing detection with blstm and word embeddings // International Journal of Electronics and Telecommunications. 2023. С. 485-491.
20. Word relation autoencoder for unseen hypernym extraction using word embeddings / Chen H.-Y., Lee C.-S., Liao K.-T., Lin S.-D. // В сборнике: Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, EMNLP 2018. 2020. С. 4834-4839.
21. Word sense disambiguation for 158 languages using word embeddings only / Logacheva V., Shelmanov A., Panchenko A., Teslenko D., Remus S., Biemann C., Ustalov D., Ponzetto S.P., Kutuzov A., Artemova E. // В сборнике: LREC 2020 - 12th International Conference on Language Resources and Evaluation, Conference Proceedings. 12. 2020. С. 5943-5952.
22. Wove: incorporating word order in glove word embeddings / Ibrahim M.S., Gauch S., Gerth T., Cox B. // International Journal on Engineering, Science and Technology. 2022. С. 124-129.
23. Xu J., Tao Y., Lin H. Semantic word cloud generation based on word embeddings // В сборнике: IEEE Pacific Visualization Symposium. 9. Сер. "2016 IEEE Pacific Visualization Symposium, PacificVis 2016 - Proceedings" 2016. С. 239-243.