Python how to search and correct html tags and attributes? -

मुझे & lt; img & gt; टैग के सभी समापन टैग को ठीक करना है नीचे पाठ & lt; img & gt; को & gt; के साथ बंद करने के बजाय, यह /> से बंद होना चाहिए।

है इस पाठ में सभी & lt; img & gt; को खोजने के लिए और & gt;

(अगर यह एक / & gt; पहले से ही कोई कार्रवाई आवश्यक नहीं है)।

कोई अन्य प्रश्न, अगर & lt; img & gt; के लिए कोई चौड़ाई या ऊंचाई नहीं है < / कोड> निर्दिष्ट, इस समस्या को हल करने का सबसे अच्छा तरीका क्या है?

सभी छवियों को डाउनलोड करें और चौड़ाई और ऊंचाई के संबंधित विशेषताओं को प्राप्त करें, फिर उन्हें वापस स्ट्रिंग में जोड़ें?

सही & lt; img & gt; टैग वह एक है जो /> और के साथ बंद होता है और मान्य चौड़ाई होती है; । ऊंचाई

   & lt; a href = "http://www.cultofmac.com/daily-deals749-mac-mini-1199-3-0ghz-imac-new-mac-pros/ 52,674 "& gt; & lt; img align =" बाएं "hspace =" 5 "चौड़ाई =" 150 "src =" http://s3.dlnws.com/images/products/images/749000/749208-large "alt =" "शीर्षक =" "& gt; & lt; / a & gt; एप्पल ने आज कई संस् Ñ तिकियों को मुहैया कराया, जिनमें आईमैक और मैक पेशेवरों को नए प्रोसेसर और बढ़े हुए भंडारण विकल्प के साथ अधिक ओम्फ प्रदान करना शामिल है। हमारे पास आज के सौदे हैं, साथ ही मैक प्रेमी के लिए कई और आइटम भी हैं। iMacs और मैक पेशेवरों की ताजा लाइन के साथ, हम भी सॉफ्टवेयर सौदों की एक संख्या पर गौर करेंगे [...] & lt; p & gt; & lt; "a href = http://feedads.g.doubleclick.net/~ एक / DL_-gOGSR1JMzKDbErt1EG3re3I / 0 / दा "& gt; & lt; img src =" http://feedads.g.doubleclick.net/~a/DL_-gOGSR1JMzKDbErt1EG3re3I/0/di "सीमा =" 0 "ismap & gt; & lt; / a & gt; & lt; br & gt; & Lt; a href = "http://feedads.g.doubleclick.net/~a/DL_-gOGSR1JMzKDbErt1EG3re3I/1/da" & gt; & lt; img src = "http://feedads.g.doubleclick.net/~ एक / DL_-gOGSR1JMzKDbErt1EG3re3I / 1 / di "सीमा =" 0 "ismap & gt; & lt; / a & gt; & lt; / p & gt; & lt; img src =" http://feeds.feedburner.com/~r/cultofmac/bFow/ ~ 4 / Mq5iLOaT50k "ऊंचाई =" 1 "चौड़ाई =" 1 "& gt;  
  मुझे आउटपुट में  width  और  height  की आवश्यकता है, क्योंकि इसे अन्य पार्सर को इनपुट के रूप में उपयोग किया जाएगा और वह पार्सर कहता है कि  & lt; img  टैग को  /> के साथ बंद करना चाहिए । मैं वेब पेज पर देखने के लिए आउटपुट का उपयोग नहीं कर रहा हूं। कृपया इसे प्राप्त करने के लिए एक सरल उपाय सुझाएं! सादगी के लिए मैं संभावित रूप से परेशान होकर आउटसोर्स कर सकता हूं।

  
  यहां एक सरल उदाहरण है: 
   import lxml.html पृष्ठ = "" "& lt; html & gt; .. & lt; / html & gt; "" पृष्ठ = lxml.html.document_fromstring (पृष्ठ) lxml.html.tostring (पृष्ठ)  
   lxml.html  है दुर्भावनापूर्ण कोड को हटाने के लिए डिज़ाइन किया गया एक वास्तव में आसान मॉड्यूल  साफ़ करें । यह भी सरल है: 
   से lxml.html .clean आयात clean_html clean_html (पेज)

Search This Blog

Add s econ

Python how to search and correct html tags and attributes? -

Comments

Post a Comment

Popular posts from this blog

wpf - Line breaks and indenting for the XAML of a saved FlowDocument? -

session - security issue: php login/logout script + back button -

Eclipse and GWT -