Web scraping with Python
Banea Daiana-Elena
Senior Python & Cloud Engineer @ LSEG
8 Noiembrie 2024
12 lecții, 6 săptămâni
Marți & Joi, 18:30 – 20:00
În 12 lecții vei stăpâni skill-ul de web scraping - de la monitorizarea informațiilor până la căutarea lead-urilor și evitarea blocajelor — și află cum să creezi propriile soluții pentru a extrage informațiile necesare din diverse surse web.
Vei naviga prin structuri complexe ale site-urilor web și vei extrage eficient datele necesare folosind librării precum Requests pentru a implementa concepte specifice protocolului HTTP și Beautiful Soup pentru manipularea datelor HTML și XML La finalul cursului, vei putea să gestionezi mecanismele anti-scraping și să asiguri calitatea datelor.
Vei explora strategii avansate de curățare și prelucrare a datelor obținute prin scraping și vei folosi regular expressions, DOM parsing și XPath pentru a localiza și extrage informațiile relevante de pe site-uri web. Vei învăța să procesezi și să stochezi datele extrase în formate .csv, .json sau în baze de date.
Învață cum să utilizezi Python pentru a optimiza activitatea afacerii și pentru a obține informații de calitate despre clienți și concurenți. Află cum să creezi scripturi de web scraping care îți vor permite să monitorizați informațiile relevante, să cauți lead-uri valoroase și să evitați blocajele impuse de diverse site-uri web.
Vei studia conceptele de bază ale web scraping-ului, aspectele legale, metodele de extragere a datelor de pe paginile web folosind RegEx, selectori CSS și XPath. De asemenea, vei examina tehnici de evitare a protecției site-urilor, inclusiv utilizarea user-agent-ului și a proxy-urilor.
Cu ajutorul principalelor biblioteci și framework-uri Beautiful Soup, Scrapy, Selenium, vei învăța să automatizezi colectarea și procesarea unor volume mari de informații, pentru a avea flexibilitate în alegerea abordării de scraping.
Programul este 70% practic — pentru exersarea lucrului cu diferite blocaje și formate. La finalul cursului vei avea 4 scrapers gata de utilizare pentru fiecare bibliotecă, precum și un proiect de curs pentru portofoliu.
- Ce este Web Scraping?
- Cum utilizăm Web Scraping?
- Librării specifice: Beautiful Soup, Scrapy, Selenium
- Structura unei pagini web: HTML și CSS
- Tipuri și formate de date specifice pentru Web Scraping: parsarea fișierelor în format XML și JSON
- Crearea mediului de dezvoltare Python potrivit pentru un proiect de Web Scraping
- HTTP pentru Web Scraping
- Tipuri de cereri HTTP și procesarea răspunsului
- Implementarea protocolului HTTP prin librăria Requests
Completează formularul de înscriere pentru a primi mai multe
detalii despre curs și taxa de participare.