C.П. Чистяков.
Случайные леса: обзор
// Труды КарНЦ РАН. No 1. Сер. Математическое моделирование и информационные технологии. Вып. 4. 2013. C. 117-136
Ключевые слова: деревья решений, ансамбли классификаторов, баггинг, случайные леса, классификация, регрессия, кластеризация, пакет R.
В статье представлен обзор современного состояния исследований в области случайных лесов – статистического метода, предназначенного для решения задач классификации и регрессии. Приведен исторический экскурс развития деревьев решений и ансамблей классификаторов и описаны основные понятия (загрязненность, расщепление, баггинг, бустинг и др.), используемые при их построении. Рассматриваются вопросы, касающиеся состоятельности метода и сравнения его с другими методами классификации. Представлены возможности использования случайных лесов для задач нахождения наиболее информативных признаков, кластеризации, выделения аномальных наблюдений и определения прототипов классов. Кратко рассмотрены некоторые неклассические разновидности деревьев решений и случайных лесов, а именно: косоугольные деревья, случайные леса выживаемости, квантильные леса регрессий, логические случайные леса, вероятностные случайные леса и потоковые случайные леса. Также приведен обзор соответствующего программного обеспечения с акцентом на пакет R — свободно распространяемое программное обеспечение для статистических вычислений и графики, доступное на платформах Linux, Windows, Mackintosh.