?

Log in

No account? Create an account
Previous Entry Share Next Entry
Практическая применимость форсированной выгрузки
evfratov
Общее описание протокола форсированной выгрузки было дано ранее тут, более экспериментов по применению протокола ещё не было. Изначально он планировался как экстренный протокол, "алгоритм отчаяния", действия при необходимости выгрузить из человека как можно больше  сейчас и с помощью сегодняшних технологий - он предполагается для умирающих с высоким риском невозможности крионирования.

Но у протокола всплывает очевидный практический аспект: данные с форсированной выгрузки могут использоваться и для "здорового" (т.е. не умирающего без криоконтракта) человека просто как внешняя память. Отличительная черта данных форсированной выгрузки по сравнению с данными ЦБ архива (что такое - здесь) - их очень высокое содержание сведений высокого уровня, если разбивать по иерархии психологии (деление изложено здесь, под номерами 5 и 6), когда в ЦБ-архиве основной объём данных это захват потоков с органов чувств и всякие артефакты). Высокая плотность и большой объём высокоуровневых сведений получаются за счёт того, что человек в речи напрямую излагает воспоминания, мысли, ассоциации, образы, сложные образы, чувства и практически ничего другого, также при захвате (съемке видео или записи голоса) мал паразитный трафик, при обычном-же разговоре с кем-то, например, многое в потоке является внешними шумами, паузами, собеседниками, ограничена тема, редко нужны высокоуровневые психологические "конструкты". Именно высокая плотность высокоуровневой информации, которая представляет очень большую ценность как для самого субъекта (в смысле, если он ещё жив и хочет использовать эти данные), так и для восстановления субъекта. Но вернёмся к сегодняшним техническим моментам:
Краткая суть протокола для терминальных людей: человеку демонстрируется знакомый ему артефакт (например, фотография) и он рассказывает свои воспоминания, связанные с этим артефактом. В результате порождается массив данных записи речи/видео изложения воспоминаний и последовательность артефактов (изображения и, желательно, что-то machine redable для связи с самими артефактами). Вариация протокола для нетерминальных субъектов: артефакты нужны как затравки к ассоциативным сетям памяти, их применение не обязательно; и без артефактов может быть нормально извлечён значительный блок связанных воспоминаний - например, сесть и написать очень подробный отчёт в свободной форме с добавлением своих мыслей и мнения  о каком-то событии, периоде времени или теме. На выходе формируется текстовая база.
Переходим непосредственно к data processing (как-нибудь на ней, как большей важности внутренней части ЦБ по сравнению со внешней стороной будет сделан специальный пост). Почти единственное, что разумно выполнить с массивом аудиозаписей - это распознать речь, сейчас это активно развивается и для автоматизированного распознавания речи (особенно для качественно записанной) на большом объёме данных статус технологии - "почти работает" и до формирования текстовых raw data с верным распознаванием большей части текста счёт идёт на уже менее чем на года. Грубые распознавания могут быть выполнены уже с имеющимися коммерческими или экспериментальными продуктами, с течением времени качество распознавания будет расти, также может подключиться и извлечение дополнительных данных, в роде эмоций говорящего и интонации. Для обработки текстовых данных (в случае применения при выгрузке текстового "метода" минуется стадия распознавания речи, хотя никто не мешает использовать дублирование) применяется text mining, хорошо развитый на данный момент, переходящий на сложную работу с естественным языками и позволяющий делать впечатляющие вещи. Для применения его в разных случаях разработаны и разрабатываются разные инструменты, как коммерческие, так и OpenSource (в том числе на Python и R ...эй, подождите, я-же... OH, SHI~ ).  В данном случае необходимы выделения ключевых смысловых "участников" текста и построение сети связности (хотя это очень сложный вопрос - что необходимо, он требует и конкретизации задачи, и оценок путей её решения и т.д., потому пока это только необоснованные предположения). Для ЦБ как внешней памяти (основное применение ЦБ для нетерминальных людей) raw text data должна быть переведена в некую ассоциативную базу данных с распознанными "узлами" каких-то ключевых образов и ассоциативынми "связями". Да данный момент с ассоциативными БД всё сложно, с симуляторами человеческой памяти тоже всё сложно, но такие вещи как кластерный анализ, могут приблизиться требуемому к функционалу.