Semalt: Сулуу шорпонун жардамы менен веб-баракчадан URL'дерди алуу

Beautiful Шорпо - бул XML жана HTML документтерин талдоодо колдонулган жогорку деңгээлдеги Python топтому. Beautiful Soup Python китепканасы гиперТекстти белгилөө тилинен (HTML) пайдалуу маалыматтарды алуу үчүн колдонулган анализ дарагын жаратат. Бул китепкана Python 2 жана Python 3 версиялары үчүн жеткиликтүү.

Көпчүлүк учурларда, максаттуу дайындарыңызга гана жетүүгө жана веб-баракчанын бөлүгү катары колдонууга болот. Мындай учурда, сиз анализ жүргүзө турган форматтарда маалыматтарды чыгара турган веб-кыргыч техникасын колдонушуңуз керек. Бул жерде кооз шорпо китепканасы келет.

талаптар

Beautiful Soup китепканасын колдонуу үчүн сизге туура модулдар керек. Баштоо үчүн, Python 2.7 программалоо тилиңизди компьютериңизге орнотушуңуз керек. Бул билдирүүдө сиз Вебсайтты кырып салууну жана Суранычтарды жана Beautiful Soup 4 колдонуп, бардык URL'дерди чыгарууну үйрөнөсүз. HTML талдоо - бул өзүн-өзү жасоо милдети, айрыкча Beautiful Soup техникалык жардамы менен.

Эмне үчүн кооз шорпону колдонушат?

Beautiful Soup - бул веб-сайттарды кыркуу жана HTML тэглерин талдоо үчүн 2004-жылдан бери колдонулуп келе жаткан Python топтому. Жакында эле Beautiful Soup 4 бул тармакта Beautiful Soup 3-тү алмаштырды. Эскертүү, BS4 эки Python версиясында, ал эми BS3 гана Python 2.7де иштейт. Китепкана төмөнкү курулган функцияларды камтыйт:

  • Кодировкалоо жөндөмү - Керектүү кооз шорпо модулдарын машинаңызга орноткондон кийин, сиз кодировкадан коркпойсуз. Кириштерди Юникодго жана UTF-8 конверттерине которуу үчүн китепкана автоматташтырылган.
  • Чабыттоо жөндөмү - Beautiful Шорпо анализ дарагын издөө, навигация жана өзгөртүү ыкмаларын колдонууну сунуштайт.

Beautiful Шорпо китепканасын кантип колдонсо болот?

Beautiful Шорпону компьютериңизге орноткондон кийин, китепкананы колдоно баштасаңыз болот. Баштоо үчүн, Python кодуңуздун башында bs4 китепканасын импорттоңуз. Шорпо объектисин түзүү үчүн, Мазмунду же URL-ни Сулуу Шорпого өткөрүп бериңиз. Бирок, китепкана максаттуу веб-баракчаны өзүнө алып келбейт. Бул жерде сиз бул тапшырманы кол менен аягына чейин жеткиришиңиз керек. Ошондой эле Python жана Beautiful Шорпонун айкалышын пайдаланып, тандалган веб-баракчаларды оңой эле ала аласыз.

Сурам китепканасынын ролдору

Баракты кырыш үчүн, алгач аны жүктөп алышыңыз керек. Сураныч китепкананы колдонуп веб баракчаларын жүктөп алсаңыз болот. Веб-серверлерге "GET" сурамасын жасап, өз кезегинде, тандалган веб-баракчанын HTML мазмунун жүктөп алуу менен, китепкананын ишин талап кылат.

Веб баракчадан URL'дерди чыгарып алуу

Азыр сизде Beautiful Шорпо китепканасы жөнүндө кеңири маалымат бар. BS4 китепканасы менен Python айкалышы веб баракчасын тез арада ачууга жардам берет. Максаттуу веб-баракчаңыздан бардык URL'дерди алуу үчүн "баарын табуу" ыкмасын колдонуңуз. Бул ыкма теги бар элементтердин жыйындысын берет. Bs4 ичинен, Beautiful Шорпону жана сурамдарды импорттоңуз Кодуңузду иштетип, веб-сайтты же веб-баракчаны киргизип, URL'дерди чыгарып алыңыз.

mass gmail