Python how to search and correct html tags and attributes? -


मुझे & lt; img & gt; टैग के सभी समापन टैग को ठीक करना है नीचे पाठ & lt; img & gt; को & gt; के साथ बंद करने के बजाय, यह /> से बंद होना चाहिए।

है इस पाठ में सभी & lt; img & gt; को खोजने के लिए और & gt;

(अगर यह एक / & gt; पहले से ही कोई कार्रवाई आवश्यक नहीं है)।

कोई अन्य प्रश्न, अगर & lt; img & gt; के लिए कोई चौड़ाई या ऊंचाई नहीं है < / कोड> निर्दिष्ट, इस समस्या को हल करने का सबसे अच्छा तरीका क्या है?

सभी छवियों को डाउनलोड करें और चौड़ाई और ऊंचाई के संबंधित विशेषताओं को प्राप्त करें, फिर उन्हें वापस स्ट्रिंग में जोड़ें?

सही & lt; img & gt; टैग वह एक है जो /> और के साथ बंद होता है और मान्य चौड़ाई होती है; । ऊंचाई

  & lt; a href = "http://www.cultofmac.com/daily-deals749-mac-mini-1199-3-0ghz-imac-new-mac-pros/ 52,674 "& gt; & lt; img align =" बाएं "hspace =" 5 "चौड़ाई =" 150 "src =" http://s3.dlnws.com/images/products/images/749000/749208-large "alt =" "शीर्षक =" "& gt; & lt; / a & gt; एप्पल ने आज कई संस् Ñ तिकियों को मुहैया कराया, जिनमें आईमैक और मैक पेशेवरों को नए प्रोसेसर और बढ़े हुए भंडारण विकल्प के साथ अधिक ओम्फ प्रदान करना शामिल है। हमारे पास आज के सौदे हैं, साथ ही मैक प्रेमी के लिए कई और आइटम भी हैं। iMacs और मैक पेशेवरों की ताजा लाइन के साथ, हम भी सॉफ्टवेयर सौदों की एक संख्या पर गौर करेंगे [...] & lt; p & gt; & lt; "a href = http://feedads.g.doubleclick.net/~ एक / DL_-gOGSR1JMzKDbErt1EG3re3I / 0 / दा "& gt; & lt; img src =" http://feedads.g.doubleclick.net/~a/DL_-gOGSR1JMzKDbErt1EG3re3I/0/di "सीमा =" 0 "ismap & gt; & lt; / a & gt; & lt; br & gt; & Lt; a href = "http://feedads.g.doubleclick.net/~a/DL_-gOGSR1JMzKDbErt1EG3re3I/1/da" & gt; & lt; img src = "http://feedads.g.doubleclick.net/~ एक / DL_-gOGSR1JMzKDbErt1EG3re3I / 1 / di "सीमा =" 0 "ismap & gt; & lt; / a & gt; & lt; / p & gt; & lt; img src =" http://feeds.feedburner.com/~r/cultofmac/bFow/ ~ 4 / Mq5iLOaT50k "ऊंचाई =" 1 "चौड़ाई =" 1 "& gt;  

मुझे आउटपुट में width और height की आवश्यकता है, क्योंकि इसे अन्य पार्सर को इनपुट के रूप में उपयोग किया जाएगा और वह पार्सर कहता है कि & lt; img टैग को /> के साथ बंद करना चाहिए । मैं वेब पेज पर देखने के लिए आउटपुट का उपयोग नहीं कर रहा हूं। कृपया इसे प्राप्त करने के लिए एक सरल उपाय सुझाएं! सादगी के लिए मैं संभावित रूप से परेशान होकर आउटसोर्स कर सकता हूं।

यहां एक सरल उदाहरण है:

  import lxml.html पृष्ठ = "" "& lt; html & gt; .. & lt; / html & gt; "" पृष्ठ = lxml.html.document_fromstring (पृष्ठ) lxml.html.tostring (पृष्ठ)  

lxml.html है दुर्भावनापूर्ण कोड को हटाने के लिए डिज़ाइन किया गया एक वास्तव में आसान मॉड्यूल साफ़ करें । यह भी सरल है:

  से lxml.html .clean आयात clean_html clean_html (पेज)  

Comments

Popular posts from this blog

c# - sqlDecimal to decimal clr stored procedure Unable to cast object of type 'System.Data.SqlTypes.SqlDecimal' to type 'System.IConvertible' -

Calling GetGUIThreadInfo from Outlook VBA -

Obfuscating Python code? -