Написать парсер XML в pandas data frame и научить пользоваться LXML

5 000 руб. за проект
30 августа 2021, 10:47 • 6 откликов • 69 просмотров
Требуется написать парсер банковской выписки по стандарту ISO 20022 формат сообщения camt.052 в pandas dataframe для последующей выгузки и csv/txt/xlx и обратно. Будет использоватся в тесте решений с выпиской.

Требования:
1. In Scope:
- Написание кода, преобразущего xml сообщение в pandas dataframe и обратно.
- Объяснить как работает
2. Out of Scope:
- GUI не нужен. Планируется запускать парсер из Jupyter notebook, подгоружать xml из папки на локальном диске и формировать pandas dataframe.

3. Язык
Принципиально важно использование Python.

4. Особенности
Требуется не только написать, но и объяснить. Сам я финансист, изучаю Python с июня 2021. Попробовал pandas.read_xml и lxml, почитал про xsd, xsl, основы XML/HTML понимаю. В работе столкнулся с проблемами парсинга многоуровневых XML, не разобрался с xpath, stylesheets. Принципиально важно в целях профессионального развития научиться работать с lxml самому.

5. Материалы
Пример xml сообщения
https://github.com/raliaskarov/XML-parsing
Спецификация под формат сообщения: https://www.iso20022.org/catalogue-messages/iso-20...
Про ISO 20022 CAMT https://www.sepaforcorporates.com/swift-for-corpor...


6. Сроки:
Готовность когда к 21.09.2021, встреча 21-30 сентября.