Webben skrapning med Ruby
En kort Q & A om detta instructable.
F: vad den #$% * är web skrotning och varför gör någon behöver det?
A: det mesta av webbsidor på internet erbjuder inte en web API, och du behöver en. Tanken är att ta data från den webbsida som struktureras på ett sätt som kan användas av din ansökan (ett skript, en körbar fil, en webbsida eller ens en databas).
Fråga: Varför?
Svar: Låt oss se, du söker en lägenhet i staden X, inom ett visst område, och det måste vara över Y kvadratmeter, kan du söka whit verktygen (men ibland dina kriterier kan inte söka-av sidan tools) men resultaten presenteras inte i väg du behöver/vill. Nu tänka på ett manus att blir data för staden X på sätt bäst för din efterbearbetning, du sedan söka automatiskt för vissa området och Visa endast de lägenheter som är över Y antal kvadratmeter som en lista, sorterade med de billigaste första. Allt detta med bara en dubbel klicka och fungerar på Windows, Mac eller Linux.
F: är skrapning juridiska?
A: det är inte ilegal, du får inte data som du inte ska få, du få bara det på ett automatiserat sätt och om du gör det rätt du spam inte servern inte behövs krav.
Fråga: det fungerar alltid, som en web API?
S: Nej, om webbsidan ändras i en form som påverkar dina avläsningar kommer måste du ändra ditt manus till nya datalayout. Inget för stort eller svårt, jag kan göra det på under 1 minut.
F: kan jag få data som inte ska av för att komma åt, som SQL injicera?
Svar: Nej, du kan inte, skrapa är inte hacka, det är bara ett sätt att få bara det du behöver från en eller flera webbplatser.