Блог

О разборах

20 Сентября 2010, 01:09
Метки: мысли

Я думаю, что многие сталкивались с ситуацией, когда нужно с какого-то сайта получить информацию, но этой информации очень много, хотя она в целом как-то структурирована и унифицирована. Когда-то давно можно было просто использовать разные грабилки типа Teleport (не знаю, существует ли эта программа сегодня, но уверен, что да), но они забирали контент целиком. А что делать, если нужна только часть?

Вот тогда и понимаешь — нужно парсить. Для меня всё это не было проблемой, я заходил на целевой сайт, анализировал страницу, писал целенаправленно под неё каждый раз код, проверял, запускал и через несколько минут имел у себя всю необходимую информацию. Кстати, почти каждый раз при этом я снова убеждался, как же хорошо, что есть регулярные выражения и понимание, с ними работать. Это облегчало жизнь множество раз, но об этом как-нибудь потом.

Ну так вот. Совершенно не обязательно каждый раз писать всё самому, особенно когда не умеешь или нет времени или желания. Как оказалось, это настолько частая задача, что люди написали свой парсер html, так что когда нужно обрабатывать много сайтов (наверное, пригодится в основном тем, кто агригирует контент), проще купить уже готовое решение.

Добавить комментарий