Вытащить информацию из HTML-файлов в CSV

500 руб. за проект • электронные деньги
12 октября 2017, 22:35 • 6 откликов • 55 просмотров
Задача: есть несколько тысяч (~9000) HTML-файлов от старого сайта.
Они аналогичны друг другу по структуре, из них нужно достать данные:
- имя исходного файла,
- дата публикации,
- заголовок страницы (title),
- содержимое <h1> (на странице встречается два H1, нужен тот, что совпадает с Title)
- meta description,
- meta keywords,
- содержимое публикации и т.д.

Файлы аналогичны друг другу по структуре. Примеры - во вложении.
На выходе нужен CSV-файл.

Обновлено:
Все картинки из публикаций у меня есть.
Нужно содержимое внутри тегов "<div class="txt">...</div>". Текст новости чистить от тегов не нужно (по идее там должна быть только но разбивка по абзацам - <p>).

Для файла news_2.html в качестве содержимого новости должно остаться:
<p><img height="225" alt="" hspace="5" width="300" align="left" src="/foto/avtomobili/fotoMax/renault_4.jpg"/>Компания Renault с января по сентябрь 2005 года реализовала на территории России 18 533 автомобиля, что на 71,5% больше, чем за такой же период 2004 года. За 9 месяцев 2005 года было продано 6 102 автомобиля Megane, что в 8 раз больше, чем за тот же период 2004 года.</p>
<p>Продолжается рост продаж Symbol. За 9 месяцев они увеличились на 17% по сравнению с 2004 годом и составили 5790 автомобилей.</p>
<p>Продажи автомобилей Kangoo составили 1769 единиц, что на 68% больше по сравнению с 2004 годом. Кроме того, за 9 месяцев этого года было реализовано 1846 автомобилей Scenic и Grand Scenic, 454 автомобиля Laguna, 270 Clio II, 13 Vel Satis, 26 Trafic и 1 Espase. Также с начала коммерческого запуска Renault Logan на российском рынке 9 июля 2005 года было реализовано 2262 автомобиля.</p>

Файлы
Отзывы
Спасибо за проделанную работу и внимание к деталям.
~ 7 лет назад