Python how to search and correct html tags and attributes? -


मुझे & lt; img & gt; टैग के सभी समापन टैग को ठीक करना है नीचे पाठ & lt; img & gt; को & gt; के साथ बंद करने के बजाय, यह /> से बंद होना चाहिए।

है इस पाठ में सभी & lt; img & gt; को खोजने के लिए और & gt;

(अगर यह एक / & gt; पहले से ही कोई कार्रवाई आवश्यक नहीं है)।

कोई अन्य प्रश्न, अगर & lt; img & gt; के लिए कोई चौड़ाई या ऊंचाई नहीं है < / कोड> निर्दिष्ट, इस समस्या को हल करने का सबसे अच्छा तरीका क्या है?

सभी छवियों को डाउनलोड करें और चौड़ाई और ऊंचाई के संबंधित विशेषताओं को प्राप्त करें, फिर उन्हें वापस स्ट्रिंग में जोड़ें?

सही & lt; img & gt; टैग वह एक है जो /> और के साथ बंद होता है और मान्य चौड़ाई होती है; । ऊंचाई

  & lt; a href = "http://www.cultofmac.com/daily-deals749-mac-mini-1199-3-0ghz-imac-new-mac-pros/ 52,674 "& gt; & lt; img align =" बाएं "hspace =" 5 "चौड़ाई =" 150 "src =" http://s3.dlnws.com/images/products/images/749000/749208-large "alt =" "शीर्षक =" "& gt; & lt; / a & gt; एप्पल ने आज कई संस् Ñ तिकियों को मुहैया कराया, जिनमें आईमैक और मैक पेशेवरों को नए प्रोसेसर और बढ़े हुए भंडारण विकल्प के साथ अधिक ओम्फ प्रदान करना शामिल है। हमारे पास आज के सौदे हैं, साथ ही मैक प्रेमी के लिए कई और आइटम भी हैं। iMacs और मैक पेशेवरों की ताजा लाइन के साथ, हम भी सॉफ्टवेयर सौदों की एक संख्या पर गौर करेंगे [...] & lt; p & gt; & lt; "a href = http://feedads.g.doubleclick.net/~ एक / DL_-gOGSR1JMzKDbErt1EG3re3I / 0 / दा "& gt; & lt; img src =" http://feedads.g.doubleclick.net/~a/DL_-gOGSR1JMzKDbErt1EG3re3I/0/di "सीमा =" 0 "ismap & gt; & lt; / a & gt; & lt; br & gt; & Lt; a href = "http://feedads.g.doubleclick.net/~a/DL_-gOGSR1JMzKDbErt1EG3re3I/1/da" & gt; & lt; img src = "http://feedads.g.doubleclick.net/~ एक / DL_-gOGSR1JMzKDbErt1EG3re3I / 1 / di "सीमा =" 0 "ismap & gt; & lt; / a & gt; & lt; / p & gt; & lt; img src =" http://feeds.feedburner.com/~r/cultofmac/bFow/ ~ 4 / Mq5iLOaT50k "ऊंचाई =" 1 "चौड़ाई =" 1 "& gt;  

मुझे आउटपुट में width और height की आवश्यकता है, क्योंकि इसे अन्य पार्सर को इनपुट के रूप में उपयोग किया जाएगा और वह पार्सर कहता है कि & lt; img टैग को /> के साथ बंद करना चाहिए । मैं वेब पेज पर देखने के लिए आउटपुट का उपयोग नहीं कर रहा हूं। कृपया इसे प्राप्त करने के लिए एक सरल उपाय सुझाएं! सादगी के लिए मैं संभावित रूप से परेशान होकर आउटसोर्स कर सकता हूं।

यहां एक सरल उदाहरण है:

  import lxml.html पृष्ठ = "" "& lt; html & gt; .. & lt; / html & gt; "" पृष्ठ = lxml.html.document_fromstring (पृष्ठ) lxml.html.tostring (पृष्ठ)  

lxml.html है दुर्भावनापूर्ण कोड को हटाने के लिए डिज़ाइन किया गया एक वास्तव में आसान मॉड्यूल साफ़ करें । यह भी सरल है:

  से lxml.html .clean आयात clean_html clean_html (पेज)  

Comments

Popular posts from this blog

paypal - How to know the URL referrer in PHP? -

oauth - Facebook OAuth2 Logout does not remove fb_ cookie -

wpf - Line breaks and indenting for the XAML of a saved FlowDocument? -