May 20th, 2011

ЦБ - свой архив, инструкции и рекомендации

 СТРУКТУРА

Из-за требований к стандартизации хранения больших массивов данных ЦБ-шный архив ведётся достаточно строго - основное правило (GTD-like), это обязательное опустошение временных хранилищ устройств захвата данных через папку для общих входящих. Без исключений, чтобы рассмотреть все данные вместе для возможной отправки копии в справочные материалы, для редактирования, конвертации и задания имён файлов.
Следующим необходимым "дисциплинарным условием" является строгое разделение на папки по Числам и стандартная нумерация "год.месяц.день краткое название захваченных событий", разделение на папки дат. Т.е. один день - это одна папка и никак по другому. От папок типа "разного", свободных недатированных файлов, папок по событиям, даже старым и неактуальным, с бардаком внутри очень нужно избавляться, не допускать их существования (опять-же GTD-like). Лично у меня такие папки были, например Школа - много устаревших фото, на которых меня лично не было, дата была сбита в EXIF, а сами события не могли быть вспомнены с достаточной точностью, хотя справится с этим всё-же удалось, задавая распределённые папки на длительные интервалы времени. Формат записи имён таких папок задаётся как годю.месяц1.число-месяц2.число, например 2009.10.21-11.04 или 2010.08.19-26 . Стандартные записи дат в именах с краткими названиями папок обеспечивают структуру, timeline хотя-бы в минимальной степени и возможность поиска по ключевым словам (часто использую и оно работает). Нарушение системы именования приведёт к прервыванию последовательности записи событий и "аморфизации" структуры архива, что неприемлемо и черевато потерями (формальными - вроде забыл в какой папке, а автоматический поиск не помогает; а не реальными потерями данных).
ДАННЫЕ

В каждую папку вносится информация, полученная за день со "стандартных" потоков, в первую очередь аудиовизуальных: фотографии, записи с диктофона и видеозаписи. Индексация по ключевым словам в самих файлах практиковалась ранее, но себя практически не оправдала в силу затрат времени, малой эффективности (ассоциаций достаточно для понимания релевантности содержимого файла и по индексу в имени папки) и затруднений файловых операций из-за длинных сложных имён и выполняется редко и только по желанию для особых событий. Для сохранения структуры внутри папок и для вторичного контроля целостности timeline цифро-датовый индекс имён вносимых файлов со средств захвата (фото, аудио, видеозаписи), которые именуются в разных форматах дата-номер, сохраняется, а в случае необходимости ввода слов - слова добавляются в конец через стандартеый разделитель, например "пробел". Нередко, именно за счёт порядковых номеров, EXIF и прочих метаданных удавалось реконструировать папки дат и исправлять ошибки в раскладывании файлов (..для тех событий, где я и не был) даже при ошибочной дате на устройстве захвата и обнулению его счётчиков. При этом может быть получена косвенная информация об утере данных, систематическом неархивировании и т.п.
В папки дат вносятся и разные документы и прочие файлы, в первую (для строгости - в единственную) очередь вносятся созданные самим-же, не входящие данны - а только собственноручно созданные. Безусловно, с разумным лимитом на объём, но реально проблемы такой не возникало. Идут и рабочие документы, и статьи, и посты в Интернет, и рисунки, и скриншоты, и логи иногда и даже записанные музыкальные файлы (у мена такое есть). Возникает вопрос об архивировании переписок: к сожалению, из-за непредназначнности их структуры для адекватного экспорта, разбиения и индексации с поиском - внос и использование в ЦБшные архивы их с текущими программными средствами затрудниетелен. Единственными вариантов является вынужненное использование скопов архивов историй переписок с макисмально простой структурой, но при этом адекватной для доступа. В общем, пока средства переписки не могут быть качественно вносится в папки дат, это проблема ещё не решена. Аналогична ситуация и с кейлоггерами. Но зато нет проблем с внесением записей телефонных разговоров.
Суммарно: в папку даты за день скидываются все диктофонные записи, все фотки (и людей, и документов), все видеозаписи (если таковые были сделаны), все записанные за этот день телефонные разговоры, заметки, статьи, посты, рабочие документы, рисунки, скрины может что-то из логов. В случае особой важности - скидываются фрагменты текстовых переписок в виде текстовых файлов.

ОБОРУДОВАНИЕ

Основным инструментом и источником захваченных данных пока является диктофон (конкретно - как функция смартфона), следующим - фотокамера, как отдельная качественная, так и встроенная в смартфон, обе они являются и источником видеозаписей. Реже фигурирует сканер для документов, чужие устройства захвата данных и полностью виртуальные источники данных, вроле рабочих файлов и переписок. Запись телефонных разговоров осуществляется опять-же функционалом смартфона. Несколько раз тестировались очки с видеокамерой.
Диктофон телефона позволяет записывать много часов, но осложняется недостаточным качеством такого суррогатного решения (сбои телефонных звонков, нестабильная запись, плохое качество, необходимость обработки, невозможность использования смартфона при записи), необходимо полноценное решение в виде самостоятельного диктофона. Оно-же позволит реализовать гораздо более длительную запись, приближая к режиму 24/7. Вторым по объёму и частоте использования является фотоаппарат - от паре снимков за 3 дня, до 200 снимков за сутки, аналогично и соотношение видео - ведь захват видео производится этими-же устройствами, хотя абсолютно видеозаписей на 2 порядка меньше, хоть и именно они занимают значительную часть объёма ЦБ-архива. Сам архив хранится на двух жёстких дисках с периодическими бэкапами на оптические носители. На данный момент система стационарна и неприменима в качестве портативной системы "цифровой памяти" и по аппаратным ограничениям, и по программным. В качестве кейлоггера используется переключатель линуксовский раскладок.
Дальнейшие ближайшие расширения: диктофон в режиме почти 24/7, множественные полуавтоматические фотосистемы, более эффективные и удобные системы видеозахвата, запись логов GPS-трекинга. Далёкая перспектива: замещение диктофона системой видеозахвата, данные биометрии, портативность хранилища архива, средства вывода - "цифровая память" и соединение с Сетью (для трасляции и обмена).
НЕМНОГО ЦИФР

Максимальное время архивирования - минимальная дата 2005.03.22, адекватное по объёму и покрытию время - c 2008.08, время начала практики ЦБ (почти каждодневные записи) - 2011.02.20. Суммарный объём составляет 56,6 Гигабайт, объём за время практикования ЦБ составляет 30.2 Гигабайт. Объём архива всяких чатов - всего порядка 21Мб. Объём особых событый с экстремально полной записью вне практики ЦБ (это Новые Года) составляет 2,3 Гигабайт за 4 раза, где больше половины занимает 2011, когда ЦБ было уже почти начато. Допустимо считать дату начала практики ЦБ и 2011.02.07, тогда время пракики на момент 2011.05.19 составляет 28-7+31+30+19 = 101 день (О! Оказывается, недавно был типа юбилейный день :-) ), за это время было записано 31.8 Гбайт, значит 322 Мбайт в сутки.
РЕКОМЕНДАЦИИ

Что применять на практике в быту на работе и делах - названо в части об оборудовании. Исходя из теории обратной реконструкции и здравоого смысла ценности заначимости информации - важнее всего записывать активные разговоры, события и действия, а всякое молчание, сидение и т.д. не записывать ради экономии и малой осмысленности. Более точно - обратная реконструкция требует для точности как можно больше видов и информации и деятельности, т.е. захватывать и как можно больше потоков (например, протокол переписки в чате + видеозапись поведения субъекта за компом), и в как можно больших ситуациях (запись начиная от заполнения документов, заканчивания свиданиями). Хорошо думать не только о себе, но и о других, потому попадание других лиц в захват тоже полезно и общающемуся с ними и самим третьим лицам для их возможной реконструкции. Срочный "бэкап" для пожилых родственников требудет подробного рассмотрения, оцифровка старых документов и фотографий является нужной и для реконструкции, оцифровка документооборота также важна по множеству причин.