вторник, декабря 25, 2007

Data mining

Этот термин, к моему стыду, впервые попал в поле моего зрения года два назад, когда я прочитал статью в "Компьютерре".

Вообще-то классическое определение data mining'а - это автоматизированный поиск закономерностей в больших объёмах информации, например в научных целях в экспериментальных данных или в коммерческих целях в социальных сетях, чтобы легче было людям что-то впарить. Или к примеру в данных о продажах онлайн магазинов, чтобы предлагать потенциальному покупателю "с этим товаром обычно покупают ..." или "возможно вас заинтересует ...".

Но в той статье говорилось несколько о другом - о неавтоматизированном личном поиске информации в инете, а точнее, о целой технологии, включающей в себя поиск, накопление, систематизацию информации, создание собственной базы знаний, обработку этой базы знаний.

Статью ту, точнее серию статей, я сейчас нашёл:
Автор - Сергей Голубицкий, Возвращение поросячьего восторга. Часть первая, Часть вторая, Финита поросячьего восторга.

Очень познавательное чтиво. В статьях автор рассказывал о программах, которые ему помогали накапливать информацию, нарытую в процессе вебсерфинга, причём в виде, удобном для дальнейшего использования. Просто обычно человеку, активно резвящемуся на интернет просторах, попадается куча информации, которая в данный момент не нужна, но потенциально полезна. Но в последствии найти это снова сложно, поскольку всё в закладки браузера не положишь.

Главной звездой этой серии статей была программа Content Saver, ныне переименованная в Web Research. Программа действительно удобная, я её по мотивам этих статей скачал, и до сих пор использую. Позволяет записать интернет статью в архив с добавлением категорий, а также даёт возможность локально редактировать сохранённое, подчёркивать важные места в статье жёлтым фоном, осуществлять сложный поиск по архиву по словам или по категориям.


Судя по статье на Демоблоге - есть альтернативная программа с похожими функциями - Evernote, которая помимо сохранения страниц позволяет сохранять свои заметки, в том числе рукописные, фотографии, рисунки, присваивать заметкам категории, осуществлять по ним поиск и ещё много чего. Наверное, тоже хорошая штука, правда тоже shareware.

Правда за истекшие 2 года появился другой инструмент для подобных целей - системы социальных закладок, типа memori.ru, BobrDobr, del.icio.us и т.д., в блоге с боку есть кнопка с почти полным списком подобных вещей, который также даёт возможность сохранять на будущее потенциально полезные вещи, присваивая при этом тэги, по которым впоследствии можно найти нужное. В большинстве подобных сервисов правда нет возможности локального сохранения на сервере страниц, что грозит тем, что страницу впоследствии сотрут или изменят. Хотя я думаю, вскоре что-то подобное в этих интернет-закладках появится, а может и уже где-то есть, я не все проверял. Зато есть возможность осуществлять поиск не только по своим тэгам, а по всему, что сохранили несколько тысяч пользователей этой системы, что даёт серьёзное преимущество над локальными архивами.

Я думаю, каждый человек, желающий ориентироваться в текстовой помойке по имени Инет должен для себя разработать какую-то личную систему датамайнинга. Моя только в процессе создания, пожалуй об этапах этого трудного пути я буду сообщать тут :)

Кстати, на закуску - очень интересная статья на эту же тему, которую я нашёл благодаря memori.ru
The Data Mining Skill из журнала Хакер.
Отправить комментарий