Закрыть незакрытые теги. fix unclosed html tags python
14 ноября 2016 г. 12:57
Можно сделать так:
def tokenizer_html5lib(string): p = html5lib.HTMLParser(tree=treebuilders.getTreeBuilder("dom")) dom_tree = p.parseFragment(string) walker = treewalkers.getTreeWalker("dom") stream = walker(dom_tree) s = serializer.htmlserializer.HTMLSerializer(omit_optional_tags=False) return ''.join(s.serialize(stream)) tokenizer_html5lib('<div> test <p> p_test <span> some_test </p> quz </span> </div')
Код хорошо закрывает все незакрытые теги, в том числе исправляет теги с забытыми скобками, а также восстанавливает порядок следования тегов и их вложенность.
Похожие статьи:
Представляю вашему вниманию книгу, написанную моим близким другом Максимом Макуриным: Секреты эффективного управления ассортиментом.
Книга предназначается для широкого круга читателей и, по мнению автора, будет полезна специалистам отдела закупок и логистики, категорийным и финансовым менеджерам, менеджерам по продажам, аналитикам, руководителям и директорам, в компетенции которых принятие решений по управлению ассортиментом.
Комментарии: 0