Outras duas bibliotecas interessantes são a Requests e a BeautfulSoap. A primeira nos permite fazer requisições de páginas web (documentos HTML) diretamente da rede digital mundial, como se fosse um usuário humano comum diante de seu PC. Nesses documentos HTML podemos fazer uma “raspagem” (scraping) e coletar somente dados importantes de tabelas e textos.
E tudo isso não é nada complicado: veja o script na tela abaixo, rodando num outro editor de linguagens: a plataforma Spider. Aqui capturamos a principal manchete do portal G1 da Globo, que era a seguinte no dia e hora que rodamos o script:
Com o método get() da biblioteca requests requisitamos na web a página principal do portal G1. Com o método find() da biblioteca BeautfulSoup encontramos a manchete no documento HTML recebido. De posse dessa informação, podemos criar um outro script-robô para enviar para nosso e-mail a lista de notícias desse portal, digamos, a cada 3 horas.