Titel: Getting Structured Data from the Internet: Running Web Crawlers/Scrapers on a Big Data Production Scale
Verlag: Apress
Erscheinungsjahr: 2020
Sprache: Englisch
ISBN-10: 1484265750
ISBN-13: 9781484265758
Einband: Softcover
Auflage: 1. Auflage
Zustand: New

�ber diesen Titel

Inhaltsangabe

Utilize web scraping at scale to quickly get unlimited amounts of free data available on the web into a structured format. This book teaches you to use Python scripts to crawl through websites at scale and scrape data from HTML and JavaScript-enabled pages and convert it into structured data formats such as CSV, Excel, JSON, or load it into a SQL database of your choice.

This book goes beyond the basics of web scraping and covers advanced topics such as natural language processing (NLP) and text analytics to extract names of people, places, email addresses, contact details, etc., from a page at production scale using distributed big data techniques on an Amazon Web Services (AWS)-based cloud infrastructure. It book covers developing a robust data processing and ingestion pipeline on the Common Crawl corpus, containing petabytes of data publicly available and a web crawl data set available on AWS's registry of open data.

Getting Structured Data from the Internet also includes a step-by-step tutorial on deploying your own crawlers using a production web scraping framework (such as Scrapy) and dealing with real-world issues (such as breaking Captcha, proxy IP rotation, and more). Code used in the book is provided to help you understand the concepts in practice and write your own web crawler to power your business ideas.

What You Will Learn

Understand web scraping, its applications/uses, and how to avoid web scraping by hitting publicly available rest API endpoints to directly get data
Develop a web scraper and crawler from scratch using lxml and BeautifulSoup library, and learn about scraping from JavaScript-enabled pages using Selenium
Use AWS-based cloud computing with EC2, S3, Athena, SQS, and SNS to analyze, extract, and store useful insights from crawled pages
Use SQL language on PostgreSQL running on Amazon Relational Database Service (RDS) and SQLite using SQLalchemy
Review sci-kit learn, Gensim, and spaCy to perform NLP tasks on scraped web pages such as name entity recognition, topic clustering (Kmeans, Agglomerative Clustering), topic modeling (LDA, NMF, LSI), topic classification (naive Bayes, Gradient Boosting Classifier) and text similarity (cosine distance-based nearest neighbors)
Handle web archival file formats and explore Common Crawl open data on AWS
Illustrate practical applications for web crawl data by building a similar website tool and a technology profiler similar to builtwith.com
Write scripts to create a backlinks database on a web scale similar to Ahrefs.com, Moz.com, Majestic.com, etc., for search engine optimization (SEO), competitor research, and determining website domain authority and ranking
Use web crawl data to build a news sentiment analysis system or alternative financial analysis covering stock market trading signals
Write a production-ready crawlerin Python using Scrapy framework and deal with practical workarounds for Captchas, IP rotation, and more

Who This Book Is For

Primary audience: data analysts and scientists with little to no exposure to real-world data processing challenges, secondary: experienced software developers doing web-heavy data processing who need a primer, tertiary: business owners and startup founders who need to know more about implementation to better direct their technical team

�ber die Autorin bzw. den Autor

Jay M. Patel is a software developer with over 10 years of experience in data mining, web crawling/scraping, machine learning, and natural language processing (NLP) projects. He is a co-founder and principal data scientist of Specrom Analytics, providing content, email, social marketing, and social listening products and services using web crawling/scraping and advanced text mining.

Jay worked at the US Environmental Protection Agency (EPA) for five years where he designed workflows to crawl and extract useful insights from hundreds of thousands of documents that were parts of regulatory filings from companies. He also led one of the first research teams within the agency to use Apache Spark-based workflows for chem and bioinformatics applications such as chemical similarities and quantitative structure activity relationships. He developed recurrent neural networks and more advanced LSTM models in Tensorflow for chemical SMILES generation.

Jaygraduated with a bachelor's degree in engineering from the Institute of Chemical Technology, University of Mumbai, India and a master of science degree from the University of Georgia, USA. Jay serves as an editor of a publication titled Web Data Extraction and also blogs about personal projects, open source packages, and experiences as a startup founder on his personal site, jaympatel.com.

��ber diesen Titel� kann sich auf eine andere Ausgabe dieses Titels beziehen.

Anbieterinformationen

Kennys.ie is the largest exporter of books from Ireland currently exporting to approximately 100 countries around the world. Kennys Bookshop houses hundreds of thousands of books and specialises in collection development and library services, supplying booksellers and state and university libraries on a global scale including the U.S.A.,Japan and Europe. Kennys.ie is Ireland's Largest Online Bookshop.

Zur Homepage des Verk�ufers

Unternehmensdaten des Verk�ufers

Kennys Bookshop and Art Galleries Ltd.
Liosban Industrial Estate, Tuam Road, Galway, Ireland

Gesch�ftsbedingungen und Versandinformationen

Verkaufsbedingungen

Terms of Sale - Credit Cards: Visa, Master Card, American Express, Diner.
Payment can also be made by bank draft in Euros, drawn on an Irish Bank.

We regret that PO Boxes are not acceptable to the U.S. as our courier will not deliver to them.

In case of returns or queries please contact us by email books@kennys.ie or by phone +353 91 709350

VAT Registration - IE2238521A

Conor Kenny

Widerrufsrecht

Wenn Sie Verbraucher sind, k�nnen Sie gem�� den folgenden Bestimmungen vom Vertrag zur�cktreten. Verbraucher ist jede nat�rliche Person, die zu Zwecken handelt, die nicht ihrer kaufm�nnischen, gewerblichen, k�nstlerischen oder beruflichen T�tigkeit zugerechnet werden k�nnen.

Informationen zum Widerrufsrecht

Gesetzliches Widerrufsrecht

Sie haben das Recht, den Vertrag innerhalb von 14 Tagen ohne Angabe von Gr�nden zu widerrufen.

Die Widerrufsfrist betr�gt 14 Tage ab dem Tag, an dem Sie oder ein von Ihnen benannter Dritter, der nicht der Transporteur ist, die letzte Ware oder den letzten Posten oder das letzte Exemplar in Besitz genommen hat.

Um das Widerrufsrecht auszu�ben, f�llen Sie auf unserer Website unter „Meine Eink�ufe" in „Mein Nutzerkonto" eine eindeutige Erkl�rung elektronisch aus und senden Sie sie ab. Wir werden Ihnen unverz�glich eine Best�tigung �ber den Eingang eines solchen Widerrufs auf einem dauerhaften Datentr�ger (z. B. per E-Mail) �bermitteln.

Um die Widerrufsfrist einzuhalten, reicht es aus, dass Sie Ihre Mitteilung �ber die Aus�bung des Widerrufsrechts vor Ablauf der Widerrufsfrist absenden.

Auswirkungen des Widerrufs

Wenn Sie diesen Vertrag widerrufen, erstatten wir Ihnen alle Zahlungen, die wir von Ihnen erhalten haben, einschlie�lich der Lieferkosten (mit Ausnahme der zus�tzlichen Kosten, die entstehen, wenn Sie eine andere Art der Lieferung als die von uns angebotene g�nstigste Standardlieferung gew�hlt haben).

Wir k�nnen einen Abzug von der R�ckerstattung f�r den Wertverlust der gelieferten Waren vornehmen, wenn der Verlust auf eine unn�tige Behandlung durch Sie zur�ckzuf�hren ist.

Wir werden die R�ckerstattung unverz�glich und nicht sp�ter als 14 Tage nach dem Tag vornehmen, an dem wir �ber Ihre Entscheidung, diesen Vertrag zu widerrufen, informiert wurden.

F�r die R�ckerstattung verwenden wir dasselbe Zahlungsmittel, das Sie f�r die urspr�ngliche Transaktion verwendet haben, es sei denn, Sie haben ausdr�cklich etwas anderes vereinbart; in keinem Fall werden Ihnen aufgrund einer solchen R�ckerstattung Geb�hren berechnet.

Wir k�nnen die R�ckzahlung verweigern, bis wir die Waren wieder zur�ckerhalten haben oder Sie den Nachweis erbracht haben, dass Sie die Waren zur�ckgesandt haben, je nachdem, was eher eintritt.

Sie m�ssen die Waren unverz�glich und in jedem Fall sp�testens 14 Tage ab dem Tag, an dem Sie uns �ber den Widerruf dieses Vertrags unterrichten, an Kennys Bookshop and Art Galleries Ltd., Galway, GY, Ireland, zur�cksenden oder �bergeben. Die Frist ist eingehalten, wenn Sie die Ware vor Ablauf der Frist von 14 Tagen zur�cksenden. Sie m�ssen die direkten Kosten der R�cksendung der Waren tragen. Sie haften nur f�r einen etwaigen Wertverlust der Waren, der auf eine Behandlung zur�ckzuf�hren ist, die nicht zur Pr�fung der Art, Eigenschaften und Funktionsweise der Waren erforderlich ist.

Ausnahmen vom Widerrufsrecht

Das Widerrufsrecht gilt nicht f�r:

Die Lieferung von Zeitungen, Zeitschriften oder Magazinen mit Ausnahme von Abonnementvertr�gen; und
Die Lieferung digitaler Inhalte, die nicht auf einem physischen Medium (z. B. auf einer CD oder DVD) geliefert werden, wenn Sie bei Ihrer Bestellung akzeptiert haben, dass wir mit der Lieferung beginnen k�nnen und dass Sie nach Beginn der Lieferung den Vertrag nicht mehr widerrufen k�nnen.

Versandbedingungen

Free Shipping

Versandkosten von Irland nach USA

Versandkosten von Irland nach USA
Bestellmenge	12 bis 22�Werktage	10 bis 20�Werktage
Erster Artikel	EUR 10.50	EUR 11.50

Die Versandzeiten werden von den Verk�uferinnen und Verk�ufern festgelegt. Sie variieren je nach Versanddienstleister und Standort. Sendungen, die den Zoll passieren, k�nnen Verz�gerungen unterliegen. Eventuell anfallende Abgaben oder Geb�hren sind von der K�uferin bzw. dem K�ufer zu tragen. Die Verk�uferin bzw. der Verk�ufer kann Sie bez�glich zus�tzlicher Versandkosten kontaktieren, um einen m�glichen Anstieg der Versandkosten f�r Ihre Artikel auszugleichen.