Классификация документов: библиографический указатель

Заказать уникальную курсовую работу
Тип работы: Курсовая работа
Предмет: Документоведение
  • 23 23 страницы
  • 7 + 7 источников
  • Добавлена 20.06.2021
1 496 руб.
  • Содержание
  • Часть работы
  • Список литературы
  • Вопросы/Ответы
Оглавление

Введение 3
1.Типо-видовая классификация документов 9
2.Содержательная классификация документов 17
Список просмотренных источнников 25
Список изученной методической литературы 26

Фрагмент для ознакомления

- 2017. - №9. - С. 44-56.Представлены результаты оценки качества классификации текстовых материалов алгоритмом машинного обучения «случайный лес», реализованным в библиотеке scikit-learn. Приведено описание применяемых функций из данной библиотеки, а также параметров, которые влияют на качества классификации. 32. Глазкова А.В. Оценка результативности применения расстояний Евклида и Махала-нобиса для решения одной из задач классификации текстов // Вестник Дагестанского государственного технического университета. Технические науки. - 2017. - №2. - С. 212-123.Целью работы признаётся проведение сравнения эффективности применения метрик Евклида и Махаланобиса для решения задачи определения категории потенциальных адресатов текста. Актуальность поставленной задачи определена необходимостью развития средств идентификации адресата электронного документа, возросшей в связи с введением возрастных ограничений на контент интернет-страниц и содержимое текстовых ресурсов, а также малой освещенностью данной проблемы в работах российских исследователей. 33. Яцко В.А. Итеративный пороговый уровень и классификация текстовых документов // Наука без границ. - 2020. - №8 (48). - С. 50-54.Предлагается метод определения порогового уровня, позволяющего существенно сокращать размеры текстовых документов в процессе их автоматической классификации. Пороговый уровень предусматривает нахождение уникальных частотностей терминов документа. Описывается методика применения данного порогового уровня, включающая: отбор исходных текстов; выравнивание текстов по размеру; выявление используемых стоп-слов; сокращение списка стоп-слов на основе указанного порогового уровня, нахождение отклонений от распределения Ципфа, вычисление среднего квадратичного отклонения, вычислений расстояний между текстами и степени их смысловой близости. Полученный результат показал адекватность предложенной методики, которая позволяет устанавливать высокую степень смысловой близости между текстами, относящимися к одному классу. Также она имеет высокую дискриминирующую силу, показывая существенный разрыв между текстами, относящимися к разным классам. 34. Киселёв Д.А., Нейросетевой подход в задаче классификации документов // Математика, информатика, компьютерные науки, моделирование, образование сборник научных трудов научно-практической конференции МИКМО-2017 и Таврической научной конференции студентов и молодых специалистов по математике и информатике. Таврическая академия (структурное подразделение) ФГАОУ ВО «КФУ им. В.И. Вернадского» ; Под ред. В.А. Лукьяненко. 2017. - М.: ИП Корниенко А.А., 2017. - С. 126-130.Вводится понятие классификации документов и контролируемого машинного обучения. Работа классификатора рассматривается на примере. Разработано программное обеспечение. Показаны основные этапы подготовки данных35. Козлов П. Ю. Методы автоматизированного анализа коротких неструктурированных текстовых документов // Программные продукты и системы. - 2017. - №Т.30. № 1. - С. 39-44.В работе рассматриваются задачи автоматизированного анализа текстовых документов в органах исполнительной и законодательной власти. Выделяется группа признаков для классификации текстовых документов, приводятся их типы, методы анализа и рубрицирования. Определяется перечень типов документов, которые необходимо классифицировать.36. Леонова Ю.В., Федотов А.М О подходе к классификации авторефератов диссертаций по темам // Вестник Новосибирского государственного университета. Серия: Информационные технологии. - 2017. - №Т.15. № 1. - С. 47-58. Рассматривается метод тематической классификации авторефератов диссертаций. Для этого используется специально построенная мера близости документов, учитывающая специфику предметной области. В качестве шкал для определения меры предлагается брать характеристики структурных атрибутов описания авторефератов (научная новизна, положения, выносимые на защиту и т. п.). Значения весовых коэффициентов в формуле для вычисления меры близости определяются предполагаемой апостериорной достоверностью данных соответствующей шкалы.37. Логунова О.С., Ильина Е.А., Попов С.Н. Онтология понятийного аппарата для обработки библиографической информации // Онтология проектирования. 2017. №Т.6 №4. С. 514-525.В статье рассматривается состояние теории и практики онтологии понятийного аппарата для обработки и классификации библиографической информации. Уточняется сущность онтологии основополагающих понятий аппарата библиографии. Раскрывается структура термина «библиография». Определяются содержательные характеристики библиографии. Поясняется назначение библиографии, библиографической информации, библиографического списка, библиографической записи, библиографического описания и библиографической ссылки. 38. Ляпин А.М. Представления текстовых документов в виде строковых векторов для задач классификации. Модификация методов классификации для работы со строковыми векторами // Труды Международного симпозиума «Надежность и качество». - 2018. - №1..Изучив текущие исследования в области классификации текстовых документов методами интеллектуального анализа данных, основанными на векторном представление входных данных, выявлено, что некоторые методы негативно реагируют на вектора больших размеров с разреженным распределением, и требуют значительное количество системных ресурсов для выполнения расчётов. Предложено изменить стандартное представление документов в виде числовых векторов на представление в виде строковых векторов. Также предложены модифицированные версии двух наиболее используемых методов классификации, которые в качестве входных данных используют строковые векторы.39. Мальков А. А. Методы построения классификатора технической документации // Colloquium-journal. - 2019. - №6 (39). - С. 56-52.Приводится постановка задачи классификации применительно для построения системы автоматической классификации текстовых документов. Рассматриваются методы решения задачи автоматической классификации текстовых документов. Приводится подход к построению системы автоматической типо-видовой классификации. 40.Мазур Л.Н. Архивоведение. Москва: "Юрайт", 2018.В учебнике рассмотрены основные проблемы теории и методики архивоведения. Детально освещаются такие вопросы, как научные основы российского архивоведения; организация хранения, комплектования, учета документов Архивного фонда Российской Федерации и других архивных документов; содержательная классификация источников; создание справочно-поисковых средств к архивным документам (научно-справочный аппарат); использование и маркетинг архивных документов и архивной информации.41. Пудикова Г. Н Классификация документов с позиции лингвистического подхода // xv международные научные чтения (памяти шувалова и.и.) сборник статей Международной научно-практической конференции. 2017. - М.: ООО "Европейский фонд инновационного развития", 2017. - С. 78-81.В данной статье исследованы подходы к проведению содержательной классификации документов с позиции лингвистического подхода. Автором на основе анализа взглядов различных исследователей систематизированы основные критерии и типология документов, основания классификации документов и разработаны собственные подходы к классификации документов по лингвистическому признаку. 42. Федотов А.М., Прозоров О.В. О подходе к тематической классификации документов // Вестник Новосибирского государственного университета. Серия: Информационные технологии. - 2017. - С. 79-88.Работа посвящена анализу подходов и алгоритмов классификации текстовых документов. Рассматривается подход к тематической классификации документов. Для этого используется специально построенная мера близости документов, учитывающая специфику предметной области. Значения весовых коэффициентов в формуле для вычисления меры близости определяются предполагаемой априорной достоверностью данных соответствующей шкалы.43. Федорец О.В. Мера тематической близости для ранжирования и классификации документов в поисковой системе // Материалы Международной конференции, посвященной 65-летию ВИНИТИ РАН. 2017. - М.: Всероссийский институт научной и технической информации РАН (Москва), 2017. - С. 333-338.Разработана мера близости документа научной тематике, основанная на концепции сравнения текста документа с частотным словарём терминов. Вначале вычисляется критерий включения терминов тематического словаря в текст, при этом текст и словарь рассматриваются как нечёткие множества терминов. Затем вычисляется критерий покрытия текста терминами словаря, при этом используются длины терминов и текста. Мера близости получается в результате умножения двух указанных критериев и последующего нормирования. Новая мера фактически измеряет насыщенность текста терминами тематики, потому названа мерой тематической насыщенности. Рассмотрены технологические аспекты создания словарей и внедрения меры близости в поисковую систему. Приведены результаты оценки качества бинарной классификации при различных пороговых значениях меры близости.44. Федотов А. М О подходе к тематической классификации документов // Вестник новосибирского государственного университета. серия: информационные технологии. - 2017. - №Том: 15 Номер: 1 . - С. 79-88 Работа посвящена анализу подходов и алгоритмов классификации текстовых документов. Рассматривается подход к тематической классификации документов. Для этого используется специально построенная мера близости документов, учитывающая специфику предметной области. Значения весовых коэффициентов в формуле для вычисления меры близости определяются предполагаемой априорной достоверностью данных соответствующей шкалы. 45. Яковленко А.Е. Классификации документов в России и США: сравнительная характеристика // Роль и место информационных технологий в современной науке сборник статей по итогам Международной научно-практической конференции. 2017. - Уфа: Общество с ограниченной ответственностью "Агентство международных исследований" (Уфа), 2017. - С. 49-53. В настоящей статье автором рассматриваются классификации документов разных авторов Российской Федерации и США, а также проводится их сравнительная характеристика.Список просмотренных источников1. Электронный каталог: [Электронный ресурс] // Российская государственная библиотека. – Режим доступа: http://seach.rsl/ru /poisk/2. Электронный каталог: [Электронный ресурс] // Каталог специализированной литературы. – Режим доступа: http://rlr.ru/3. Электронный каталог: [Электронный ресурс] // Российская научнаябиблиотека. – Режим доступа: http:// twirpx.com /Список изученной методической литературыГОСТ Р 7.0.99-2018 (ИСО 214:1976) Система стандартов по информации, библиотечному и издательскому делу. Реферат и аннотация. Общие требования – М.:Изд-во стандартов, 2018 – 19сГОСТ Р 7.0.12–2011.Библиографическая запись. Сокращения слов и словосочетаний на русском языке. Общие требования и правила. – М.: Изд-во стандартов, 2012 – 24с. – (Система стандартов по информации, библиотечному и издательскому делу).Моргенштерн И. Г. Общее библиографирование: учеб. пособие для студентов / ЧГАКИ;И. Г. Моргенштерн. – СПб., 2005. – 208 с. – (Серия «Библиотека»).Коготков, Д.Я. Библиографическая деятельность библиотеки: организация, управление, технология [Текст] / Д.Я.Коготков; науч. ред. Г. В. Михеева; под общ. ред. О. П. Коршунова. – СПб: Профессия, 2003 – 304 с.

Список просмотренных источников

1. Электронный каталог: [Электронный ресурс] // Российская государственная библиотека. – Режим доступа: http://seach.rsl/ru /poisk/
2. Электронный каталог: [Электронный ресурс] // Каталог специализированной литературы. – Режим доступа: http://rlr.ru/
3. Электронный каталог: [Электронный ресурс] // Российская научная
библиотека. – Режим доступа: http:// twirpx.com /

Список изученной методической литературы

1. ГОСТ Р 7.0.99-2018 (ИСО 214:1976) Система стандартов по информации, библиотечному и издательскому делу. Реферат и аннотация. Общие требования – М.:Изд-во стандартов, 2018 – 19с
2. ГОСТ Р 7.0.12–2011.Библиографическая запись. Сокращения слов и словосочетаний на русском языке. Общие требования и правила. – М.: Изд-во стандартов, 2012 – 24с. – (Система стандартов по информации, библиотечному и издательскому делу).
3. Моргенштерн И. Г. Общее библиографирование: учеб. пособие для студентов / ЧГАКИ;И. Г. Моргенштерн. – СПб., 2005. – 208 с. – (Серия «Библиотека»).
4. Коготков, Д.Я. Библиографическая деятельность библиотеки: организация, управление, технология [Текст] / Д.Я.Коготков; науч. ред. Г. В. Михеева; под общ. ред. О. П. Коршунова. – СПб: Профессия, 2003 – 304 с.

Вопрос-ответ:

Какой метод классификации использовался в исследовании?

В исследовании использовался метод машинного обучения случайный лес, реализованный в библиотеке scikit-learn.

Какие функции были использованы из библиотеки scikit-learn?

Исследователи использовали описание применяемых функций из библиотеки scikit-learn, чтобы оценить качество классификации текстовых материалов.

Какие результаты были получены при оценке качества классификации текстовых материалов?

Результаты оценки качества классификации текстовых материалов с использованием алгоритма машинного обучения случайный лес были представлены в статье. Однако конкретные результаты не упоминаются в описании.

Какие виды классификации документов рассматривает статья?

Статья рассматривает типовую (видовую) классификацию документов. Но не содержательную классификацию.

Какие источники были использованы авторами статьи?

Авторами статьи было просмотрено несколько источников, но в описании статьи не приводится подробный список просмотренных источников.

Какие результаты представлены в статье?

В статье представлены результаты оценки качества классификации текстовых материалов с помощью алгоритма машинного обучения случайный лес. В качестве реализации алгоритма использовалась библиотека scikit-learn. Также в статье приведено описание применяемых функций из данной библиотеки и описаны используемые параметры.

Какие методы классификации документов использовались в исследовании?

Исследование использовало алгоритм машинного обучения случайный лес для классификации текстовых материалов. Данный алгоритм был реализован в библиотеке scikit-learn.

Каковы основные этапы классификации документов?

Основные этапы классификации документов включают типо-видовую классификацию и содержательную классификацию. В типо-видовой классификации документы разделяются на группы в зависимости от их типа или вида (например, книги, статьи, отчеты и т. д.). В содержательной классификации документы классифицируются на основе содержания и тематики, например, по темам, ключевым словам или другим признакам.

Какая библиотека была использована для реализации алгоритма машинного обучения случайный лес?

Для реализации алгоритма машинного обучения случайный лес была использована библиотека scikit-learn.

Какие результаты были получены при оценке качества классификации текстовых материалов?

Результаты оценки качества классификации текстовых материалов с помощью алгоритма машинного обучения случайный лес показали...

Какие типы классификации используются при разделении документов?

При разделении документов могут использоваться типовая и содержательная классификации. Типовая классификация основана на системе обозначений и разделения документов на группы в зависимости от их типа. Содержательная классификация основана на содержании документа и позволяет разделить документы на группы по тематике или предметной области.

Каким алгоритмом машинного обучения реализована классификация текстовых материалов?

Классификация текстовых материалов в данной статье осуществляется с использованием алгоритма машинного обучения "случайный лес", который реализован в библиотеке scikit-learn. С помощью этого алгоритма происходит оценка качества классификации документов.