In dieser Ausgabe dreht sich alles um das Scraping vom Internetseiten.
Damit man Seiten sinnvoll analysieren kann erklären wir die Basics des HTTP Protokolls und zeigen euch Tools und Möglichkeiten nennen, wie man effezient Scrapen kann.
Leider konnten wir aufgrund von technischen Einschränkungen bei der Aufnahme die Livesession nicht wie geplant durchführen, somit werden in der nächsten Show die ganzen Beispiele noch gezeigt und erklärt.
News
In den Exploit News gehen wir dieses mal auf die WordPress 3.3 XSS Attacke ein und warnen vor dem Ramnit Trojaner (Detailierte Beschreibung).
Weitere Nachrichten aus der IT Welt waren die in Schweden annerkannte Filesharing Religion, die 28c3 und die neue Ausgabe der Hakin9.
In unserer OpenData Sektion schlagen wir das Dokument Extracting Structured Information from Wikipedia Articles vor. Zusätzlich zeigen wir die Gemeinde DB des Statistischen Bundesamtes.
Scraping
Für den Einstieg in das Scraping sollte man sich das RFC 1945 und RFC 2616 durchlesen.
Um mit PHP eine DOM aufzubauen empfehlen wir die Klasse DomDocument und den Simple HTML Dom.
Im Offtopic reden wir in der Show über die Sicherheit von der MD5 Verschlüsselung und den Ergebnissen der gestoppten Vorratsdatenspeicherung.
Diese Ausgabe musste leider wegen der technsichen Probleme geschnitten werden, bitte verzeiht die Sprünge in der Sendung.
Die nächste Liveshow finde am 2.2. ab 19 Uhr statt und wird ab 6.2. bei Radio4SEO zu hören sein.
Black Hat Show 002 : Scraping von Internetseiten [ 50:09 ] Jetzt abspielen | Play in Popup | Download











Wie geil diese Show einfach nur ist. Ein bißchen Blackhat gehört zu SEO nun einmal dazu und die restlichen Infos sind auch super
Hör ich mir gerade an. Videos vom 28c3 findet man auch unter ftp://ftp.ccc.de/congress/2011/
Ich denke auch dass ein bißchen Blackhat dazugehört. Hundertprozentige Reinheit gibt es bestimmt nicht sehr oft im Netz.
Diese Datenschutz Idioten…
Hammer Format diese Show, mehr davon bitte!!
Igendwie ist aber das Hauptthema zu kurz gekommen
Ja das Hauptthema mal wieder ….
Der Rechner den ich dabei hatte hatte leider zu wenig Power und die Netzverbindung war zu schlecht. Das Hauptthema wird aber in der nächsten Show nochmal thematisiert
Sehr cooler Podcast, weiter so! Aber macht was an der Audioqualität…
Informative Themen die ihr da ansprecht, deshalb war es sehr interessant sich das anzuhören.
Zur Audioqualität kann ich mich nur meinem Vorposter anschliessen, die war wirklich teilweise schlecht.
Freue mich auf weitere informative Shows.
Leider eine schlechte Meldung, die Black Hat Show im Februar muss leider ausfallen. Dafür gibt es mit der Campixx und der normalen Show im nächsten Monat zwei