Пример работы с LWP и HTML::Tree


Прислал: Дмитрий Николаев [ 12.11.2004 @ 20:45 ]
Раздел:: [ Статьи по Perl ]


   В статье речь пойдёт об использовании модулей LWP ( http://webscript.ru///search.cpan.org/%7Egaas/libwww-perl-5.76/ ) и HTML::Tree ( http://webscript.ru///search.cpan.org/%7Esburke/HTML-Tree-3.18/ ), причём сделано это будет на реальном примере, работу которого Вы можете посмотреть здесь: //perl.dp.ua/cgi-bin/book.cgi ( http://webscript.ru///perl.dp.ua/cgi-bin/book.cgi ).

   Сама идея написать скриптик //perl.dp.ua/cgi-bin/book.cgi ( http://webscript.ru///perl.dp.ua/cgi-bin/book.cgi ) - возникла после того, как встал вопрос о том, что раздел "книги" сайта //perl.dp.ua ( http://webscript.ru///perl.dp.ua ) - надоело дополнять/редактировать и т.д. вручную. Захотелось это дело автоматизировать, сделать поиск и т.д. Первая идея, которая возникла, - это было создание мини интернет-магазина, куда вносились бы книги и т.д. Но, это опять таки требовало присутствия человека. И тогда, я подумал, а почему бы не сделать скриптик, который бы скачивал нужную страницу с LWP ( http://webscript.ru///search.cpan.org/%7Egaas/libwww-perl-5.76/ ) и HTML::Tree ( http://webscript.ru///search.cpan.org/%7Esburke/HTML-Tree-3.18/ ).
   В данный момент скрипт выполняет следующее: при запросе - "смотрит в свой кэш" и в случае, если ничего там не находит, то производит скачивание нужной страницы с Озона, парсинг её и складирование в кэш + вывод броузеру... Естественно, при парсинге меняются некоторые ссылки, в частности ссылки перехода на следующую страницу результатов поиска и т.д.
   Итак, давайте приступим к разбору кода:

1    #!/usr/bin/perl

2    use strict;

# далее грузим модули, которые нам понадобятся
3    use LWP;
4    use CGI;
5    use CGI::Carp qw(fatalsToBrowser);
6    use HTML::TreeBuilder;
7    use Lingua::DetectCharset;
8    use Convert::Cyrillic;
9    use URI::Escape;

10   my $flock_allow=1; # рарешать ли блокировку файлов

11   my $mainhost='//perl.dp.ua'; # Ваш хост...
12   my $books_cache_dir = 'dir_for_cache'; # директория, в которой будут хранится кэшированные файлы
13   my $coi = new CGI;

14   print $coi->header(); # выводим заголовки

15   if(!(-d "./$books_cache_dir")){ # проверяем существование директории для кэш-файлов
16    system("/bin/mkdir", "-m", "0777", "$books_cache_dir"); #Unix
17    system("mkdir", "$books_cache_dir"); #Windows
18   }

19   my $phrase= uri_escape($coi->param('text')); # получаем запрос, по которому ведётся поиск, переводим всё в escape последовательности
20   $phrase = 'perl' unless $phrase or $coi->param('path'); # по умолчанию - запрос 'perl', остальное - для совметимости со старой версией скрипта,поисковики о ней ещё помнят :)

21   my $path;
22   my $page_num;

23   if($coi->param('page')){ # определяем номер текущей страницы для отображения( в Озоне, если количество книг > 20, то происходит разбивка книг по 20 на страницу)
24    $page_num = int($coi->param('page'));
25    $page_num = 0 if $page_num<0;
26  }
27  if($page_num){ # вычисляем, какую страницу на нужно качать
28    $path = '//www.ozon.ru/?context=advsearch_book&partner=d392&title='.$phrase.'&page='.$page_num;
29  }
30  else{
31   unless($coi->param('path')){
32     $path = '//www.ozon.ru/?context=advsearch_book&partner=d392&title='.$phrase;
33   }
34   else{
35     my $add_path = uri_unescape($coi->param('path'));
36     $path = '//www.ozon.ru'.$add_path."&partner=d392";
37     if($add_path =~m /title=(.*)&/i){$phrase=$1;}
38   }
39  }

40   open(cache_list,"$books_cache_dir/list.cache"); # "смотрим на текущее состояние кэша"
41   if ($flock_allow){lockfile('cache_list');} # если разрешено блокирование файла, то блокируем
42   my @cache=<cache_list>; #cause the number of searches is small
43   if ($flock_allow){unlockfile('cache_list');} # соответственно - разблокируем
44   close(cache_list);

46   my $cache_time = 604800; # делаем время обновление кэша равным 1-ой неделе
47   my $page = undef;

48   for(my $i=0; $i<=$#cache; $i++){ # перебераем кэш и пытаемся найти нужный файл
49    my $line=$cache[$i];
50    chomp $line;
51    my @temp_cache= split /%unreal_delimiter%/, $line; # разбираем потихоньку информацию

52    if(($temp_cache[1] eq $path)and((int(time())-int($temp_cache[0]))<$cache_time)){ # в случае, если кэш - не старый, то берём его и далее работаем с ним
53     open(cache, '$books_cache_dir/'.$temp_cache[0].'.cache');
54     if ($flock_allow){lockfile('cache');}
55     undef $/;
56     $page=<cache>;
57     $/="\n";
58     if ($flock_allow){unlockfile('cache');}
59     close(cache);
60     last;
61    }
62    elsif($temp_cache[1] eq $path){ # в противном случае обновляем этот кэш
63     my $browser = LWP::UserAgent->new(); # Качаем страницу
64     my $response = $browser->get($path,
65         'User-Agent' => 'Mozilla/4.76 [en] (Win98; U)',
66         'Accept' => 'image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, image/png, */*',
67         'Accept-Charset' => 'iso-8859-1,*,utf-8',
68         'Accept-Language' => 'en-US',
69         ); # Прикидываемся броузером
70     $page = razbor($response->content, $phrase); # razbor - это функция парсинга страницы с Озона, см. ниже
71     while (-e '$books_cache_dir/'.time().'.cache') { sleep(2); } #в случае, если файл существует(два пользовтеля одновременно запросили обновление или добавление), то немного "спим"
72     my $temp_time = time();
73     open(cache, ">$books_cache_dir/".$temp_time.'.cache'); # сохраняем информацию в файл
74     if ($flock_allow){lockfile('cache');}
75     print cache $page;
76     if ($flock_allow){unlockfile('cache');}
77     close(cache);
78     $cache[$i] = join('%unreal_delimiter%',$temp_time,$path, $coi->param('text'))."\n"; unlink($books_cache_dir.'/'.$temp_cache[0].'.cache'); # обновляем информацию, удаляем старый кэш

79     open(cache_list,">$books_cache_dir/list.cache"); # сохраняем список сохранённых страниц
80     if ($flock_allow){lockfile('cache_list');}
81     foreach my $string(@cache){
82      print cache_list $string;
83     }
84     if ($flock_allow){unlockfile('cache_list');}
85     close(cache_list);
86     last;
87    }
88   }

89   unless($page){ # производим новое добавление страницы, которая ранее известна скрипту не была
# Очень всё похоже на вышеописанный процесс обновления кэша, поэтому комментарии здесь излишни
90    my $browser = LWP::UserAgent->new();
91    my $response = $browser->get($path,
92       'User-Agent' => 'Mozilla/4.76 [en] (Win98; U)',
93       'Accept' => 'image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, image/png, */*',
94       'Accept-Charset' => 'iso-8859-1,*,utf-8',
95       'Accept-Language' => 'en-US',
96        );

97    $page = razbor($response->content, $phrase);

98    while (-e '$books_cache_dir/'.time().'.cache') { sleep(2); }

99    my $temp_time = time();

100   open(cache, ">$books_cache_dir/".$temp_time.'.cache');
101   if ($flock_allow){lockfile('cache');}
102   print cache $page;
103   if ($flock_allow){unlockfile('cache');}
104   close(cache);

105   my $new_cache_string = join('%unreal_delimiter%',$temp_time,$path)."\n";

106   open(cache_list,">>$books_cache_dir/list.cache");
107   if ($flock_allow){lockfile('cache_list');}
108   print cache_list $new_cache_string;
109   if ($flock_allow){unlockfile('cache_list');}
110   close(cache_list);
111  }

112  $phrase = uri_unescape($phrase); # преобразуем escape-последовательности к нормальному виду

113  print "<center><form style='margin: 0.1px' action='book.cgi' method=post><font size=\"2\" face=\"Arial, Helvetica, sans-serif\"><strong>Искать по названию:</strong></font>&nbsp;<input type=text name=text value='$phrase' size=30><input type=submit value='Искать'></form><br>";

114  print $page;

115  sub razbor(@_){ # функция разбора информации
116     my @arr = @_;
117     my $page = $arr[0]; # получаем содержимое Озоновской страницы
118     my $charset = Lingua::DetectCharset::Detect ($page); # определяем кодировку документа, у Озона она win-1251, но делается это на всякий случай, а вдруг они перейдут на Кои-8 или данные попадают скрипту через какой-нибудь кэш-сервер, который перекодирует документы
119     $page = Convert::Cyrillic::cstocs ($charset, 'win', $page); # преобразуем в кодировку win-1251

120     my $root = HTML::TreeBuilder->new_from_content($page); # создаём объект HTML::TreeBuilder на основании содержания страницы

121     my $text_string2;

122     foreach my $table ($root->look_down(_tag => 'td')){ # ищем столбцы в таблицах и убираем ненужную информацию

123      my $table_html = $table->as_HTML("<>%");
124      if($table_html =~ m%Результаты поиска%ig){
125       $text_string2 = $table_html;
126      }
127     }

128     undef $root;
129     $root = HTML::TreeBuilder->new_from_content($text_string2); # пересоздаём объект на основании исправленных данных

130     my $basic_html = $root->as_HTML("<>%");

131     $basic_html =~ s/#6699cc/#38549C/g; # изменение цвета верхней полосы
132     $basic_html =~ s/#336699/#38549C/g; # изменение цвета верхней полосы
133     $basic_html =~ s/bgcolor="#ffffff"/bgcolor="#F4f4f4"/g; # изменение цвета фона текущей страницы(в ссылках)
134     $basic_html =~ s/bgcolor="White"/bgcolor="#F4f4f4"/ig; # изменение цвета фона страницы
135     $basic_html =~ s%<small class="micro">Книгопечатная продукция</small><br>%%ig; # убираем лишнюю информацию
136     $basic_html =~ s%<big class="BIG2">Результаты поиска</big><br><b><small>Найдено (\d+)</small></b>%%i;
137     $basic_html =~ s%style="padding-top:12;"%%i;

138     undef $root;
139     $root = HTML::TreeBuilder->new_from_content($basic_html);

140     foreach my $a ($root->look_down(_tag => 'a')){ # измененяем ссылки в документе на те, что нам нужно: в случае ссылки на другую страницу - изменяем эту ссылку на ссылку на скрипт; в случае ссылки на книгу подставляем партнёрский идентификатор
141      if($a->attr('href')=~ m/page=(\d+)/){$a->attr('href','//perl.dp.ua/cgi-bin/book.cgi?text='.$arr[1].'&page='.$1);}
142      else{$a->attr('href','//ozon.ru'.$a->attr('href')."?partner=d392");$a->attr('target','_new_'.int(100000*rand()));}
143     }
144     $root->pos(undef);

145     foreach my $img ($root->look_down(_tag => 'img')){ # правим адреса картинок
146      my $temp = $img->attr('src');
147      $temp =~ s%//%/%ig;
148      $img->attr('src','//ozon.ru'.$temp);
149     }
150     $root->pos(undef);

151     foreach my $td ($root->look_down(_tag => 'td', class => 'salecol')){ # убираем ненужную информацию
152      if($td->as_HTML("<>%") =~ m%buy%){
153       $td->replace_with('&nbsp;');
154      }
155     }
156     $root->pos(undef);

157     foreach my $td($root->look_down(_tag => 'table', cellspacing => '1')){
158      if($td->as_HTML("<>%") =~ m%<small style="color:FFFFFF"><b>(.*)</b>%){
159       $td->replace_with('&nbsp;');
160     }
161    }

162     foreach my $td($root->look_down(_tag => 'table', cellpadding => '3')){
163      if($td->as_HTML("<>%") =~ m%<td class="paddleft"><small style="color:FFFFFF"><b>(.*)</b></small>%){
164       $td->replace_with('&nbsp;');
165      }
166     }

167     $text_string2 = $root->as_HTML("<>%"); # выводим получившуюся изменённую страницу. Если не указать параметров "<>%"- то для русского языка будут проблемы в том, что документ будет непонятно в какой кодировке(по крайне мере в этой версии HTML::Tree), хотя для английского языка будет всё ок, хотя автор модуля рекомендует использовать именно так этот метод для совместимости со старыми версиями модуля.

168     return $text_string2;
169  }

170  sub lockfile # функция блокировки файла
171  {
172     my $handle=shift;
173     my $count = 0;
174     until (flock($handle,2)){
175       sleep . 10;
176       if(++$count > 50){
177        print "<center><h1><font color=red>Sorry, Server is too busy. Please visit later.</font></h1></center>";
178        exit;
179       }
180     }
181  }

182  sub unlockfile # функция разблокировки файла
183  {
184    my $handle=shift;
185    flock($handle,8);
186  }

   Итак, вроде с кодом разобрались и нужно отметить, что этот скрипт, кроме его достоинста в том, что он работает и то, что использован как учебный материал, имеет несколько недостатков,.. например то, что, наверное, стоило бы объединить добавление новой страницы и обновление старой в одну функцию, ведь эти две "процедуры" - очень похожи... не очень хорошие игры с пересозданием объектов в функцие "разбора" информации. Также к недостаткам можно отнестито, что сейчас Озон предоставляет доступ к своей базе при помощи XML, и это должно ускорить и упростить работу с Озоном при помощи подобных(отдалённо) скриптов. Остальные баги и недостатки Вы можете обсудить на форуме сайта //perl.dp.ua ( http://webscript.ru///perl.dp.ua/cgi-bin/forum.pl?do=show&tema=1&page=1 )
Но в целом, скрипт должен быть полезным для начала работы с парсингом html(xml) файлов.
Также, эта статья доступна по адресу: //perl.dp.ua/practice/bookcgi.html ( http://webscript.ru///perl.dp.ua/practice/bookcgi.html )

С уважением,
Дмитрий Николаев
//perl.dp.ua ( http://webscript.ru///perl.dp.ua )