Poetry LM Compare
Эксперимент по обучению небольшой языковой модели с нуля только на корпусе русской поэзии. Сначала была собрана и очищена выборка стихов, затем проверены несколько постановок задачи: свободное продолжение, строгие 8 строк с рифмовкой `AABB CCDD`, альтернативная схема `ABAB ABAB` и двухшаговая planner-ветка, где сначала предсказываются окончания строк, а затем генерируется весь текст под этот план. Ниже можно сравнить, как эти ветки продолжают стих по одной первой строке и какая из них лучше удерживает форму и рифму. Базовая архитектура: decoder-only Transformer с 8 слоями, 6 attention heads, скрытой размерностью 384 и контекстом 256 токенов.