EducationQ · multi-agent teaching evaluation framework

EducationQ research group · INT · тип R · стадия poc · контур: greenfield

Канвас 18 секций

00 Онтологический статус ⓘ draft · enriched-from-waves

EducationQ представлен как исследовательская multi-agent evaluation framework, не являющаяся production deployment. Это prototypical исследовательский кейс по оценке учебных способностей LLM посредством многоголосного диалога агентов в условиях controlled experimental setting, что помещает его в статус прототипа с академическим уклоном.

01 Сигнатура и контекст ⓘ draft · imported

EducationQ — multi-agent dialogue framework для оценки педагогических способностей LLM: teaching-agent / learning-agent / evaluation-agent ведут полный цикл. Прикладной слой к [[H2-assistant-to-autonomy]].

02 Проблема и исходная ситуация ⓘ draft · enriched-from-waves

Без AI framework для оценки педагогических способностей LLM существовали лишь общие benchmarking-метрики, не учитывающие сложную педагогическую коммуникацию и multi-role teaching interactions. Ограничения прежних подходов заключались в отсутствии инструментов для системной оценки teaching effectiveness с учётом diverse teaching/learning/evaluation ролей и множественных дисциплин.

03 Гипотеза эффекта ⓘ draft · enriched-from-waves

EducationQ обещает обеспечить multi-agent mediated, role-divided evaluation, адекватно моделирующую педагогический процесс и выявляющую teaching effectiveness LLM. Гипотеза в том, что распределённая multi-agent система даёт более надёжную и комплексную диагностику педагогических навыков моделей, чем традиционные uni-agent benchmarks. Также выявлено, что эффективность преподавания коррелирует не прямо с масштабом модели, а зависит от специфических teaching capabilities, что важно для выбора LLM в образовательных применениях.

04 Архитектура AI ⓘ draft · enriched-from-waves

Архитектура EducationQ основана на multi-agent dialogue framework с тремя группами агентов: teaching agents, learning agents и evaluation agents. Для тестирования используются 14 LLM от ведущих AI организаций, охватывающих 13 предметных областей и 10 уровней сложности вопросов. Агентность находится в диапазоне 2–3/6 — агентов много, они распределяют педагогическую функцию, но система пока не является образовательным deployment. Используется orchestration по NET-фасете с AUTO-педагогикой и MACH-контролем. Подробности про стек и модели неизвестны из представленных фрагментов.

05 Ролевая модель команды ⓘ draft · enriched-from-waves

Роли внутри системы распределены на teaching agents, которые моделируют аспекты преподавания; learning agents, представляющие учеников в диалогах; и evaluation agents, анализирующие поведение LLM как педагогов. Такой разделённый multi-agent состав обеспечивает раздельную оценку и симуляцию различных педагогических функций в диалоге, что формирует репрезентативную экосистему для instructional benchmarking.

06 Роль AI ⓘ draft · enriched-from-waves

AI выступает в роли распределённого эмулятора и оценщика teaching behaviour LLM. Он не заменяет учителя, а генерирует и координирует многоголосные диалоги, моделирующие педагога, ученика и оценщика, что даёт возможность объективно измерять способность LLM к педагогической коммуникации и адаптации. Таким образом AI — evaluation и teaching partner в целевом эксперименте, но не диспетчер образовательного процесса непосредственно.

07 Сценарий взаимодействия ⓘ draft · enriched-from-waves

Сценарии базируются на multi-agent dialogue sessions с участием teaching, learning и evaluation агентов, взаимодействующих через серии вопросов и ответов (1 498 вопросов по 13 дисциплинам). Каждый LLM проходит эти сессии, где агенты моделируют учебное взаимодействие и педагогическую оценку. Сценарий позволяет выявить способности и ограничения модели в teaching context, с учётом разных сложностей и направлений дисциплин.

08 Институциональный контур ⓘ нет данных