Enkel, kraftfull Web skrapa på 5 minuter (3 / 4 steg)
Steg 3: YQL (YAHOO QUERY LANGUAGE)
Så vi har identifierat var i webbsidan våra
användarnamn är. Nu behöver vi bara få denna information i ett traversable format. Normalt byggs skrapor av bara laddar hela webbsidan i en tät träd-liknande XML-nod format. Detta är en huvudvärk. Laddar en webbsida i JSON är mycket enklare eftersom det tillåter oss att komma åt element direkt med den. operatör. För att få webbsidan i JSON-format, ska vi använda Yahoo Query Language. I princip är YQL ett öppet verktyg inbyggda av Yahoo query webbsidor i Json. Det faktiska språket påminner mycket om MYSQL. Detta är länken till konsolen:
https://Developer.yahoo.com/YQL/console/
Här är hur det ser ut: (bild 1)
så frågan är ganska rakt framåt:
välja * från html där url = "https://www.reddit.com/r/arduino/comments/3rixq5/i_programmed_a_robot_arm_to_feed_me_breakfast/" och xpath = "/ / a [innehåller ()
Välj * betyder bara välja allt från webbsidan där url = våra reddit gänga.
Xpath i princip säger, söka igenom sidan och återgå varje plats där vi har en tagg med en klass av "författare".
Som ni kan se frågan lyckas och returnerar alla användarnamn ville vi:(image 2)
För att få detta resultat i en JSON-format, klicka bara på fliken json: (bild 3)