Как да се направи разбор сайтове

Да се ​​научим да работим (Junior)

Е, някои сайтове ", където дръпнете" разполага с пълен API, или друга част от тип XML, за да се върнат никакви данни. Ако такова нещо не е предоставена от средствата за програмисти, хората започват да пишат свои парсъри, които изглеждат за страницата, както и данните от предварително определени HTML тагове. Куп опции. Ако имате нужда от нещо konekretnoe сложен въпрос.






PS: когато парсера веднъж дневно удари в някоя част на сайта, може да се priynyat за обикновения посетител, така че това не винаги е лесно да се блокира анализатора достъп.

@xmoonlight казах, че имам нужда от голям брой заявки, актуализира на всеки 2-5 секунди. Какво подход към (основни) критериите? Така че никой не каза за анализатора, написаното от вас, или можете да използвате готови със свои собствени настройки? Например, ако използвате разпределени алгоритъм, така че да не се зареди сървъра и да се предпазват от забраната и съща RHP SIMPLE DOM + Curl, а след това не знам как, но някак си всички данни от сървъра (разбира се, преработени), показани на сайта + постоянно обновяване трябва да се извършва без действие на потребителя. INFA трябва да се актуализира на сървъра и клиента е вече избрана (т.е. INFA не зависи от честотата на актуализациите на клиента, INFA актуализира само когато тя ще бъде новия сървър) Fuh. Надявам се, че всичко е наред, обясни :)







@hrvasiliy. дори не е приключила!
Вратовръзки не улавят между анализатора, както и честотата на заявките.
Използване на всяка опция - няма значение тук. Основното нещо - че сте разбрали логиката на решението, а не "затрупани" искане ресурс донор.