Ученые научили компьютер определять «пьяные» записи пользователей Твитера

Когда у меня выпадает несколько свободных минут, я часто трачу их на общение с пользователями одного узкопрофильного интернет-форума. Люди там есть разные, живут в разных странах (хотя общение ведется на русском языке) и в зависимости от времени суток общаются в разном состоянии. А некоторые (особенно, если дело происходит в пятницу вечером) и в состоянии легкого подпития.

Ученые научили компьютер определять пьяные записи пользователей Твитера

За многие годы общения с людьми (и в реальной жизни, и в интернете) выработалась привычка различать состояние людей. Ну в оффлайне чаще всего угадываю безошибочно, а в онлайне, полагаю, что тоже не ошибаюсь – иногда очень заметно, как человек, который пишет, находясь в состоянии легкого подпития, не совсем связно формулирует свои мысли.

Такое большое предисловие я сделал к информации о том, что ученые недавно создали систему машинного обучения, которая может находить «пьяные» записи в Твиттере и даже определять место употребления человеком спиртного во время написания им твитов.

Свою систему ученые разработали на базе проанализированных ими твитов, которые они в течение года «выуживали» в популярной социальной сети у пользователей, проживающих в Нью-Йорке и округе Монро. Особое внимание исследователей привлекали твиты, содержащие слова «алкоголь», «пиво», «пьяный», «вечеринка» и другие. В общей сложности исследователями было изучено около 11 тысяч записей пользователей Твиттера.

Затем все изученные данные были загружены в программу опорных векторов (SVM), которая самообучилась безошибочно распознавать «пьяные» твиты по их по содержанию.

Но это была только часть выполненной задачи, которую поставили перед собой исследователи. Далее они решили определить места, где принявшие на грудь пользователи сети Твиттер писали свои посты. Для этого они (исследователи) скомбинировали несколько методов, использующих геолокацию в Твиттер. Само-собой, в дополнение к методам геологации, были использованы «пьяные» выражения, позволяющие установить дома ли, на работе ли, в баре ли, в клубе ли и прочее находился автор твита при его написании. По словам исследователей, точность определения ими мест написания «пьяных» твитов превысила 70 процентов.

Вот так!

Подписаться на обновления блога на email