Python how to search and correct html tags and attributes? -
मुझे & lt; img & gt;
टैग के सभी समापन टैग को ठीक करना है नीचे पाठ & lt; img & gt;
को & gt;
के साथ बंद करने के बजाय, यह />
से बंद होना चाहिए।
है इस पाठ में सभी & lt; img & gt;
को खोजने के लिए और & gt;
(अगर यह एक / & gt;
पहले से ही कोई कार्रवाई आवश्यक नहीं है)।
कोई अन्य प्रश्न, अगर सभी छवियों को डाउनलोड करें और चौड़ाई और ऊंचाई के संबंधित विशेषताओं को प्राप्त करें, फिर उन्हें वापस स्ट्रिंग में जोड़ें? सही मुझे आउटपुट में & lt; img & gt; के लिए कोई चौड़ाई या ऊंचाई नहीं है < / कोड> निर्दिष्ट, इस समस्या को हल करने का सबसे अच्छा तरीका क्या है?
& lt; img & gt;
टैग वह एक है जो /> और
के साथ बंद होता है और मान्य चौड़ाई होती है; । ऊंचाई
& lt; a href = "http://www.cultofmac.com/daily-deals749-mac-mini-1199-3-0ghz-imac-new-mac-pros/ 52,674 "& gt; & lt; img align =" बाएं "hspace =" 5 "चौड़ाई =" 150 "src =" http://s3.dlnws.com/images/products/images/749000/749208-large "alt =" "शीर्षक =" "& gt; & lt; / a & gt; एप्पल ने आज कई संस् Ñ तिकियों को मुहैया कराया, जिनमें आईमैक और मैक पेशेवरों को नए प्रोसेसर और बढ़े हुए भंडारण विकल्प के साथ अधिक ओम्फ प्रदान करना शामिल है। हमारे पास आज के सौदे हैं, साथ ही मैक प्रेमी के लिए कई और आइटम भी हैं। iMacs और मैक पेशेवरों की ताजा लाइन के साथ, हम भी सॉफ्टवेयर सौदों की एक संख्या पर गौर करेंगे [...] & lt; p & gt; & lt; "a href = http://feedads.g.doubleclick.net/~ एक / DL_-gOGSR1JMzKDbErt1EG3re3I / 0 / दा "& gt; & lt; img src =" http://feedads.g.doubleclick.net/~a/DL_-gOGSR1JMzKDbErt1EG3re3I/0/di "सीमा =" 0 "ismap & gt; & lt; / a & gt; & lt; br & gt; & Lt; a href = "http://feedads.g.doubleclick.net/~a/DL_-gOGSR1JMzKDbErt1EG3re3I/1/da" & gt; & lt; img src = "http://feedads.g.doubleclick.net/~ एक / DL_-gOGSR1JMzKDbErt1EG3re3I / 1 / di "सीमा =" 0 "ismap & gt; & lt; / a & gt; & lt; / p & gt; & lt; img src =" http://feeds.feedburner.com/~r/cultofmac/bFow/ ~ 4 / Mq5iLOaT50k "ऊंचाई =" 1 "चौड़ाई =" 1 "& gt;
width
और height
की आवश्यकता है, क्योंकि इसे अन्य पार्सर को इनपुट के रूप में उपयोग किया जाएगा और वह पार्सर कहता है कि & lt; img
टैग को /> के साथ बंद करना चाहिए
। मैं वेब पेज पर देखने के लिए आउटपुट का उपयोग नहीं कर रहा हूं। कृपया इसे प्राप्त करने के लिए एक सरल उपाय सुझाएं! सादगी के लिए मैं संभावित रूप से परेशान होकर आउटसोर्स कर सकता हूं।
यहां एक सरल उदाहरण है:
import lxml.html पृष्ठ = "" "& lt; html & gt; .. & lt; / html & gt; "" पृष्ठ = lxml.html.document_fromstring (पृष्ठ) lxml.html.tostring (पृष्ठ)
lxml.html
है दुर्भावनापूर्ण कोड को हटाने के लिए डिज़ाइन किया गया एक वास्तव में आसान मॉड्यूल साफ़ करें
। यह भी सरल है:
से lxml.html .clean आयात clean_html clean_html (पेज)
Comments
Post a Comment