robots.txt

Andiministrator · 24. November 2010 18:31

Es gab zur robots.txt bereits einen Thread im alten Forum, die dort zuletzt gepostete Version war mir jedoch etwas zu restriktiv.
Deshalb habe mir einmal unsere generelle robots.txt vorgenommen und für CMS made simple angepasst.
Herausgekommen ist folgendes:

Hier klicken, um den Code zum Kopieren zu markieren

### robots.txt ###

# Alle Robots ansprechen
User-agent: * 

# URL der XML Sitemap mitteilen
Sitemap: http://www.DOMAIN.DE/sitemap.xml

# Nicht indexieren aller Dateien in folgenden Verzeichnissen
Disallow: /admin
Disallow: /cgi-bin
Disallow: /doc
Disallow: /install
Disallow: /lib
Disallow: /modules
Disallow: /plugins
Disallow: /tmp
Allow: /tmp/cache/*

# Zugriff auf spezielle Module verbieten, um Duplicate Content zu vermeiden
Disallow: /*?mact=Printing*$
Disallow: /*?mact=Search*$
Disallow: /*?mact=News*$

# Google Image erlauben alle Bilder zu indexieren
User-agent: Googlebot-Image
Disallow: /
Allow: /php/*
Allow: /images/*
Allow: /uploads/images/*

# Archivierung der Seite für archive.org unterbinden
User-agent: ia_archiver
Disallow: /

# Digg Mirror unterbinden (Duplicate Content)
User-agent: duggmirror
Disallow: /

### Eine kleine Hilfe ###
# Values for "User-agent:"
# Google: Googlebot
# Google Bildersuche: Googlebot-Image
# Yahoo: slurp
# Bing: MSNbot
# Exalead: ExaBot
# Archive.org: ia_archiver
# Digg Mirror: duggmirror
### Ende der Hilfe ###

### EOF ###

Wenn Ihr noch Vorschläge habt, immer her damit wink

nockenfell · 16. Juni 2011 22:09

Meine Fassung des Robots.txt ist folgende

Hier klicken, um den Code zum Kopieren zu markieren

#Alle Robots ansprechen
User-agent: *

# URL der XML Sitemap
Sitemap: http://www.domain.com/sitemap.xml


# Zugriff auf folgende Verzeichnisse / Dateien explizit erlauben
Allow: /*.htm$
Allow: /index.php
Allow: /uploads/


# Nicht indexieren aller Dateien in folgenden Verzeichnissen
Disallow: /cgi-bin/
Disallow: /admin/
Disallow: /doc/
Disallow: /install/
Disallow: /template/
Disallow: /lib/   
Disallow: /modules/
Disallow: /plugins/
Disallow: /tmp/

User-agent: Googlebot
# Unterbinden der Indexierung aller Dateien mit diesen Endungen

Disallow: /*.cgi$
Disallow: /*.css$
Disallow: /*.gif$
Disallow: /*.gz$
Disallow: /*.inc$
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.js$
Disallow: /*.php$
Disallow: /*.php*
Disallow: /*.png$
Disallow: /*.tpl$
Disallow: /*.wmv$
Disallow: /*.xhtml$

# Zugriff auf spezielle Module verbieten, um Duplicate Content zu vermeiden
Disallow: /*?mact=Printing*$
Disallow: /*?mact=Search*$
Disallow: /*?mact=News*$

# Google Image erlauben alle Bilder zu indexieren
User-agent: Googlebot-Image
Disallow: /
Allow: /uploads/images

# Archivierung der Seite unterbinden
User-agent: ia_archiver
Disallow: /

# duggmirror unterbinden
User-agent: duggmirror
Disallow: /

Efferd · 16. Juni 2011 08:43

Wenn man es übertreiben will, kann man noch die Vorschaubilder sperren ;o)

noober · 12. August 2011 11:51

wenn ich Bilder nicht durchsuchbar haben will - schreibe ich dann:

# Google Image erlauben alle Bilder zu indexieren
User-agent: Googlebot-Image
Allow: /php/*
Allow: /images/*
Disallow: /uploads/images/*

mit "*"?

Andiministrator · 12. August 2011 12:05

Die Sterne brauchst Du in dem Fall nicht:

Hier klicken, um den Code zum Kopieren zu markieren

# Google Image erlauben alle Bilder zu indexieren
User-agent: Googlebot-Image
Allow: /php/
Allow: /images/
Disallow: /uploads/images/

noober · 12. August 2011 12:41

Danke für die schnelle Hilfe.

faglork · 20. August 2011 12:13

Andiministrator schrieb:

Es gab zur robots.txt bereits einen Thread im alten Forum, die dort zuletzt gepostete Version war mir jedoch etwas zu restriktiv.
Deshalb habe mir einmal unsere generelle robots.txt vorgenommen und für CMS made simple angepasst.
Herausgekommen ist folgendes:
Hier klicken, um den Code zum Kopieren zu markieren
Allow: /tmp/cache/*

Warum das denn? Klär mich auf ...

Servus,
Alex

Andiministrator · 20. August 2011 13:35

Weil dort die gecachten CSS Dateien liegen.

faglork · 20. August 2011 20:25

Andiministrator schrieb:

Weil dort die gecachten CSS Dateien liegen.

Und warum sollte ein robot die einlesen? Darin befinden sich doch keine Infos für Suchmaschinen.

Servus,
Alex

piratos · 21. August 2011 22:01

http://de.wikipedia.org/wiki/Robots_Exclusion_Standard

NaN · 21. August 2011 22:30

Nett.
Das erklärt die Frage aber nicht.

Andiministrator · 21. August 2011 08:52

Ich lasse die Suchmaschinen auch gern meine CSS-Dateien crawlen, um zu zeigen, dass ich nichts zu verstecken habe. Zudem bin ich mir nicht sicher, ob es nicht noch andere Dateien (z.B. von Modulen) in /tmp/cache gibt, die interessant für Google wären. Vielleicht kann ich die Frage aber einmal umkehren: Was willst Du denn im Cache-Verzeichnis vor Google verstecken?

Um z.B. nur CSS Dateien im Cache Verzeichnis zu erlauben, könntest Du auch folgendes angeben:

Hier klicken, um den Code zum Kopieren zu markieren

Allow: /tmp/cache/*.css

piratos · 21. August 2011 12:32

In der CSS können z.B. Bildinformationen stecken, die man durchaus bei den Suchmaschinen aufnehmen lassen kann.

dylan · 06. September 2011 09:23

nockenfell schrieb:

Meine Fassung des Robots.txt ist folgende

Wikipedia stellt einen Link zu einem Robots.txt syntax checker.
Ich habe meine eigene robots.txt dort gecheckt und bin vor Fehlermeldungen rückwärts vom Stuhl gekippt.

Eine Frage zu zweisprachigen Websites und der sitemap.xml
Wie mache ich's richtig?
- Je Sprache eine sitemap, z.B. sitemap_de.xml, sitemap_en.xml
Nur, wie rufe ich diese dann in der robots.txt auf?

oder
- eine sitemap.xml die die Sites der einzelnen Seiten untereinander listet, z.B.
<url>
<loc>http://domain.de/index.php?mod=home&lng=de</loc>
...
</url>
<url>
<loc>http://domain.de/index.php?mod=home&lng=en</loc>
...
</url>

Andiministrator · 06. September 2011 10:05

Bei zweisprachigen Webseiten kommt es darauf an, wie diese gegliedert sind.
Hast Du beide Sprachen auf einer Domain laufen, gibts Du alle Seiten in einer sitemap.xml an.
Gibt es pro Sprache eine separate Domain, sollte es ja auch pro Domain eine separate robots.txt geben (das ist übrigens noch ein Feature Request im MultiDomain-Modul).

faglork · 12. März 2015 12:43

nockenfell schrieb:

Meine Fassung des Robots.txt ist folgende

Hier klicken, um den Code zum Kopieren zu markieren

----------------snip-------------------


User-agent: Googlebot
# Unterbinden der Indexierung aller Dateien mit diesen Endungen

Disallow: /*.cgi$
Disallow: /*.css$
Disallow: /*.gif$
Disallow: /*.gz$
Disallow: /*.inc$
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.js$
Disallow: /*.php$
Disallow: /*.php*
Disallow: /*.png$
Disallow: /*.tpl$
Disallow: /*.wmv$
Disallow: /*.xhtml$
----------------------------snip--------------------------------

Nur als Hinweis: Das wird Probleme bringen. Google hat die Webmaster-Richtlinien geändert und verlangt jetzt ausdrücklich Zugriff auf CSS und JS.

Wer diese Dateien also durch obigen Eintrag in der robots.txt gesperrt hat, sollte dies schleunigst ändern.

Sieh dazu
https://plus.google.com/+PierreFar/posts/TLeHSDRwjhB
"Let me be super clear about what this means: By blocking crawling of CSS and JS, you're actively harming the indexing of your pages."

Servus,
Alex

nockenfell · 12. März 2015 21:49

faglork schrieb:

Nur als Hinweis: Das wird Probleme bringen. Google hat die Webmaster-Richtlinien geändert und verlangt jetzt ausdrücklich Zugriff auf CSS und JS.
Wer diese Dateien also durch obigen Eintrag in der robots.txt gesperrt hat, sollte dies schleunigst ändern.
Sieh dazu
https://plus.google.com/+PierreFar/posts/TLeHSDRwjhB
"Let me be super clear about what this means: By blocking crawling of CSS and JS, you're actively harming the indexing of your pages."

Korrekt. Danke für die Ergänzung.

Forum für CMS/made simple

#1 24. November 2010 18:31

robots.txt

#2 16. Juni 2011 22:09

Re: robots.txt

#3 16. Juni 2011 08:43

Re: robots.txt

#4 12. August 2011 11:51

Re: robots.txt

#5 12. August 2011 12:05

Re: robots.txt

#6 12. August 2011 12:41

Re: robots.txt

#7 20. August 2011 12:13

Re: robots.txt

#8 20. August 2011 13:35

Re: robots.txt

#9 20. August 2011 20:25

Re: robots.txt

#10 21. August 2011 22:01

Re: robots.txt

#11 21. August 2011 22:30

Re: robots.txt

#12 21. August 2011 08:52

Re: robots.txt

#13 21. August 2011 12:32

Re: robots.txt

#14 06. September 2011 09:23

Re: robots.txt

#15 06. September 2011 10:05

Re: robots.txt

#16 12. März 2015 12:43

Re: robots.txt

#17 12. März 2015 21:49

Re: robots.txt

Fußzeile des Forums