Научно-практический рецензируемый журнал
"Современные проблемы здравоохранения
и медицинской статистики"
Scientific journal «Current problems of health care and medical statistics»
Новости научно-практического рецензируемого журнала
Больше новостей

Диагностика и профилактика преждевременного старения

Организация здравоохранения

ИСПОЛЬЗОВАНИЕ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ТЕКСТА ДЛЯ КЛАССИФИКАЦИИ СТАТЕЙ В СИСТЕМАТИЧЕСКОМ ОБЗОРЕ ПО МЕДИЦИНЕ

Д.Н. Бегун1, Е.В. Гаврилова1, Н.В. Мирзаева1, О.В. Головко1, Н.В. Заришняк1
1. ФГБОУ ВО "Оренбургский государственный медицинский университет" Министерства здравоохранения Российской Федерации, Оренбург, Российская Федерация
Резюме:
Введение. Систематические обзоры являются относительно новой областью применения технологий анализа текста. Цель исследования – использование методов интеллектуального анализа текста с помощью программы RapidMiner для предварительной обработки и отбора статей в систематическом обзоре. Материалы и методы. Был осуществлен поиск публикаций по ключевым словам «nursing education» AND «teaching models» OR «teaching methods» в базах данных Medline через интерфейс системы PubMed NLM (www.pubmed.com) и ScienceDirect (sciencedirect.com). Критерии включения: статьи на английском языке опубликованные по теме обзора с 2014 г. по 2023 г. Парсер WebHarvy (компания SysNucleus) позволил собрать данные и импортировать их в M.Excel с выделением следующих столбцов – «Title», «Author», «Journal», «Year», «Output», «Abstract», всего 8451 публикаций. С помощью программы RapidMiner (компания Altair) была проведена предварительная обработка текста с последующей кластеризацией (метод K-Meams) и классификацией - метод тематического моделирования при помощи скрытого распределения Dirichlet (LDA). Результаты. Было удалено 305 документа (11 – пропущенные значения, 295 - дубликаты) и набор составил – 8146 документов. Количество публикаций по теме обзора с 2014 по 2023 гг. выросло в 7 раз (с 219 до 1601 статей). Статьи были опубликованы в 1171 журнале, но большая часть из них в 9 журналах, общее количество авторов – 6884. Метод кластеризации позволил выделить 4 кластера публикаций, которые позволяют судить только об основной теме каждого кластера. С помощью метода тематического моделирования было выделено 10 тем статей, которые позволяют судить не только о темах статей, но и о типах статей. Так Topic_6 включает обзорные статьи по обучению сестринскому уходу в образовании. Обсуждение. Самый важный этап классификации текста — выбор лучшего классификатора. Скрытое распределение Дирихле (LDA) — рассматривает каждый документ как смесь тем, а каждую тему — как смесь слов и выявляет скрытые темы в корпусе данных. Выводы (заключение). В нашем случаем, применение тематического моделирования с помощью скрытого распределения Dirichlet (LDA) дало очень хорошие результаты, но может оказаться, что при другом наборе данных, эта модель будет неэффективна.
Ключевые слова: обзорная статья, интеллектуальный анализ текста, RapidMiner, кластеризация, тематическое моделирование

Библиографическая ссылка:
Д.Н. Бегун, Е.В. Гаврилова, Н.В. Мирзаева, О.В. Головко, Н.В. Заришняк, ИСПОЛЬЗОВАНИЕ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ТЕКСТА ДЛЯ КЛАССИФИКАЦИИ СТАТЕЙ В СИСТЕМАТИЧЕСКОМ ОБЗОРЕ ПО МЕДИЦИНЕ // НАУЧНО-ПРАКТИЧЕСКИЙ РЕЦЕНЗИРУЕМЫЙ ЖУРНАЛ "СОВРЕМЕННЫЕ ПРОБЛЕМЫ ЗДРАВООХРАНЕНИЯ И МЕДИЦИНСКОЙ СТАТИСТИКИ". - 2024. - №1;
URL: http://healthproblem.ru/magazines?text=1256 (дата обращения: 16.05.2024).

Код для вставки на сайт или в блог:

Просмотры статьи:
Сегодня: 1 | За неделю: 6 | Всего: 53