evfratov (evfratov) wrote,
evfratov
evfratov

Поправка реализации широкоформатного скрининга

Дисклеймер - это только соображения о возможных поправках в технической стороне WSS.

Обязательная и трудозатратная ручная инспекция страниц vk потребляет много времени и отсеивает бОльшую часть кандидаток, но в этом присутствует изрядный субъективизм и применить это допустимо только не более чем к сотне-двум страницам. Изначально WSS предполагался как автоматизация минимизации выборки для ручной инспекции с последующим общением, при этом критерии формирования первичной выборки предполагались не особо строгими и простыми. Обозревательный анализ данных показал что это будет работать с посредственной эффективностью, поскольку многие указывают данные очень неполно, потому выборка получилась большой (3 тыс. чел.) из-за жертвования селективностью ради чувствительности. Формально говоря, задача отбора является задачей классификации (на две категории или несколько, если есть дифференциация по рейтингу) и здесь хорошо подошло-бы machine learning, например SVM, но отсутствовала обучающая выборка (потому что обучающая выборка из положительных примеров и была-бы целевым списком кандидаток, который и ставится цель сформировать).

Ручная инспекция, теоретически, может сработать как обучающая выборка, поскольку там есть как положительные, так и отрицательные (в большинстве) примеры, но это требует значительного расширения способов анализа данных учётной записи - терминологический анализ списков групп (как по участию, так и по отметкам), ключевые слова, число и содержание сообщений от пользователя в группе, обсуждения фотографий пользователя...

Но реализация такого анализа столь неструктурированных данных является очень сложной задачей с длительной экспериментальной отработкой каждого шага, требует существенного улучшения навыков social network data mining и растянется на много месяцев, за которые можно быстрее закончить всё вручную.
Tags: machine learning, wss, идеологически верное, личное
Subscribe
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your IP address will be recorded 

  • 0 comments