Организация здравоохранения
ИСПОЛЬЗОВАНИЕ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ТЕКСТА ДЛЯ КЛАССИФИКАЦИИ СТАТЕЙ В СИСТЕМАТИЧЕСКОМ ОБЗОРЕ ПО МЕДИЦИНЕ
Д.Н. Бегун1, Е.В. Гаврилова1, Н.В. Мирзаева1, О.В. Головко1, Н.В. Заришняк1
1. ФГБОУ ВО "Оренбургский государственный медицинский университет" Министерства здравоохранения Российской Федерации, Оренбург, Российская Федерация
Полнотекстовый файл PDF (622 Kb)
Резюме:
Введение. Систематические обзоры являются относительно новой областью применения технологий анализа текста.
Цель исследования – использование методов интеллектуального анализа текста с помощью программы RapidMiner для предварительной обработки и отбора статей в систематическом обзоре.
Материалы и методы. Был осуществлен поиск публикаций по ключевым словам «nursing education» AND «teaching models» OR «teaching methods» в базах данных Medline через интерфейс системы PubMed NLM (www.pubmed.com) и ScienceDirect (sciencedirect.com). Критерии включения: статьи на английском языке опубликованные по теме обзора с 2014 г. по 2023 г. Парсер WebHarvy (компания SysNucleus) позволил собрать данные и импортировать их в M.Excel с выделением следующих столбцов – «Title», «Author», «Journal», «Year», «Output», «Abstract», всего 8451 публикаций. С помощью программы RapidMiner (компания Altair) была проведена предварительная обработка текста с последующей кластеризацией (метод K-Meams) и классификацией - метод тематического моделирования при помощи скрытого распределения Dirichlet (LDA).
Результаты. Было удалено 305 документа (11 – пропущенные значения, 295 - дубликаты) и набор составил – 8146 документов. Количество публикаций по теме обзора с 2014 по 2023 гг. выросло в 7 раз (с 219 до 1601 статей). Статьи были опубликованы в 1171 журнале, но большая часть из них в 9 журналах, общее количество авторов – 6884. Метод кластеризации позволил выделить 4 кластера публикаций, которые позволяют судить только об основной теме каждого кластера. С помощью метода тематического моделирования было выделено 10 тем статей, которые позволяют судить не только о темах статей, но и о типах статей. Так Topic_6 включает обзорные статьи по обучению сестринскому уходу в образовании.
Обсуждение. Самый важный этап классификации текста — выбор лучшего классификатора. Скрытое распределение Дирихле (LDA) — рассматривает каждый документ как смесь тем, а каждую тему — как смесь слов и выявляет скрытые темы в корпусе данных.
Выводы (заключение). В нашем случаем, применение тематического моделирования с помощью скрытого распределения Dirichlet (LDA) дало очень хорошие результаты, но может оказаться, что при другом наборе данных, эта модель будет неэффективна.
Ключевые слова: обзорная статья, интеллектуальный анализ текста, RapidMiner, кластеризация, тематическое моделирование
Библиографическая ссылка:
Д.Н. Бегун, Е.В. Гаврилова, Н.В. Мирзаева, О.В. Головко, Н.В. Заришняк, ИСПОЛЬЗОВАНИЕ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ТЕКСТА ДЛЯ КЛАССИФИКАЦИИ СТАТЕЙ В СИСТЕМАТИЧЕСКОМ ОБЗОРЕ ПО МЕДИЦИНЕ // НАУЧНО-ПРАКТИЧЕСКИЙ РЕЦЕНЗИРУЕМЫЙ ЖУРНАЛ "СОВРЕМЕННЫЕ ПРОБЛЕМЫ ЗДРАВООХРАНЕНИЯ И МЕДИЦИНСКОЙ СТАТИСТИКИ". - 2024. - №1;
URL: http://healthproblem.ru/magazines?text=1256 (дата обращения: 03.12.2024).
URL: http://healthproblem.ru/magazines?text=1256 (дата обращения: 03.12.2024).
Код для вставки на сайт или в блог:
Просмотры статьи:
Сегодня: 4 | За неделю: 4 | Всего: 211