Du bist nicht angemeldet. Der Zugriff auf einige Boards wurde daher deaktiviert.

#1 24. November 2010 18:31

Andiministrator
Kabeljungwerker
Ort: Plauen / Vogtland
Registriert: 09. November 2010
Beiträge: 264
Webseite

robots.txt

Es gab zur robots.txt bereits einen Thread im alten Forum, die dort zuletzt gepostete Version war mir jedoch etwas zu restriktiv.
Deshalb habe mir einmal unsere generelle robots.txt vorgenommen und für CMS made simple angepasst.
Herausgekommen ist folgendes:

### robots.txt ###

# Alle Robots ansprechen
User-agent: * 

# URL der XML Sitemap mitteilen
Sitemap: http://www.DOMAIN.DE/sitemap.xml

# Nicht indexieren aller Dateien in folgenden Verzeichnissen
Disallow: /admin
Disallow: /cgi-bin
Disallow: /doc
Disallow: /install
Disallow: /lib
Disallow: /modules
Disallow: /plugins
Disallow: /tmp
Allow: /tmp/cache/*

# Zugriff auf spezielle Module verbieten, um Duplicate Content zu vermeiden
Disallow: /*?mact=Printing*$
Disallow: /*?mact=Search*$
Disallow: /*?mact=News*$

# Google Image erlauben alle Bilder zu indexieren
User-agent: Googlebot-Image
Disallow: /
Allow: /php/*
Allow: /images/*
Allow: /uploads/images/*

# Archivierung der Seite für archive.org unterbinden
User-agent: ia_archiver
Disallow: /

# Digg Mirror unterbinden (Duplicate Content)
User-agent: duggmirror
Disallow: /

### Eine kleine Hilfe ###
# Values for "User-agent:"
# Google: Googlebot
# Google Bildersuche: Googlebot-Image
# Yahoo: slurp
# Bing: MSNbot
# Exalead: ExaBot
# Archive.org: ia_archiver
# Digg Mirror: duggmirror
### Ende der Hilfe ###

### EOF ###

Wenn Ihr noch Vorschläge habt, immer her damit wink


Arbeitet bei conversearch GmbH: http://conversearch.de (Webseiten-Analyse und -Monitoring)
Bloggt bei Andiministrator.de: http://andiministrator.de

Offline

#2 16. Juni 2011 22:09

nockenfell
Moderator
Ort: Lenzburg, Schweiz
Registriert: 09. November 2010
Beiträge: 2.910
Webseite

Re: robots.txt

Meine Fassung des Robots.txt ist folgende

#Alle Robots ansprechen
User-agent: *

# URL der XML Sitemap
Sitemap: http://www.domain.com/sitemap.xml


# Zugriff auf folgende Verzeichnisse / Dateien explizit erlauben
Allow: /*.htm$
Allow: /index.php
Allow: /uploads/


# Nicht indexieren aller Dateien in folgenden Verzeichnissen
Disallow: /cgi-bin/
Disallow: /admin/
Disallow: /doc/
Disallow: /install/
Disallow: /template/
Disallow: /lib/   
Disallow: /modules/
Disallow: /plugins/
Disallow: /tmp/

User-agent: Googlebot
# Unterbinden der Indexierung aller Dateien mit diesen Endungen

Disallow: /*.cgi$
Disallow: /*.css$
Disallow: /*.gif$
Disallow: /*.gz$
Disallow: /*.inc$
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.js$
Disallow: /*.php$
Disallow: /*.php*
Disallow: /*.png$
Disallow: /*.tpl$
Disallow: /*.wmv$
Disallow: /*.xhtml$

# Zugriff auf spezielle Module verbieten, um Duplicate Content zu vermeiden
Disallow: /*?mact=Printing*$
Disallow: /*?mact=Search*$
Disallow: /*?mact=News*$

# Google Image erlauben alle Bilder zu indexieren
User-agent: Googlebot-Image
Disallow: /
Allow: /uploads/images

# Archivierung der Seite unterbinden
User-agent: ia_archiver
Disallow: /

# duggmirror unterbinden
User-agent: duggmirror
Disallow: /

[dieser Beitrag wurde mit 100% recycled bits geschrieben]
Mein Blog  /   Diverse Links rund um CMS Made Simple
Module: btAdminer, ToolBox

Offline

#3 16. Juni 2011 08:43

Efferd
kennt CMS/ms
Registriert: 20. Dezember 2010
Beiträge: 182

Re: robots.txt

Wenn man es übertreiben will, kann man noch die Vorschaubilder sperren ;o)

Offline

#4 12. August 2011 11:51

noober
kennt CMS/ms
Registriert: 26. April 2011
Beiträge: 151

Re: robots.txt

wenn ich Bilder nicht durchsuchbar haben will - schreibe ich dann:

# Google Image erlauben alle Bilder zu indexieren
User-agent: Googlebot-Image
Allow: /php/*
Allow: /images/*
Disallow: /uploads/images/*

mit "*"?

Offline

#5 12. August 2011 12:05

Andiministrator
Kabeljungwerker
Ort: Plauen / Vogtland
Registriert: 09. November 2010
Beiträge: 264
Webseite

Re: robots.txt

Die Sterne brauchst Du in dem Fall nicht:

# Google Image erlauben alle Bilder zu indexieren
User-agent: Googlebot-Image
Allow: /php/
Allow: /images/
Disallow: /uploads/images/

Arbeitet bei conversearch GmbH: http://conversearch.de (Webseiten-Analyse und -Monitoring)
Bloggt bei Andiministrator.de: http://andiministrator.de

Offline

#6 12. August 2011 12:41

noober
kennt CMS/ms
Registriert: 26. April 2011
Beiträge: 151

Re: robots.txt

Danke für die schnelle Hilfe.

Offline

#7 20. August 2011 12:13

faglork
arbeitet mit CMS/ms
Ort: Fränkische Schweiz
Registriert: 15. Dezember 2010
Beiträge: 1.152
Webseite

Re: robots.txt

Andiministrator schrieb:

Es gab zur robots.txt bereits einen Thread im alten Forum, die dort zuletzt gepostete Version war mir jedoch etwas zu restriktiv.
Deshalb habe mir einmal unsere generelle robots.txt vorgenommen und für CMS made simple angepasst.
Herausgekommen ist folgendes:

Warum das denn? Klär mich auf ...

Servus,
Alex

Offline

#8 20. August 2011 13:35

Andiministrator
Kabeljungwerker
Ort: Plauen / Vogtland
Registriert: 09. November 2010
Beiträge: 264
Webseite

Re: robots.txt

Weil dort die gecachten CSS Dateien liegen.


Arbeitet bei conversearch GmbH: http://conversearch.de (Webseiten-Analyse und -Monitoring)
Bloggt bei Andiministrator.de: http://andiministrator.de

Offline

#9 20. August 2011 20:25

faglork
arbeitet mit CMS/ms
Ort: Fränkische Schweiz
Registriert: 15. Dezember 2010
Beiträge: 1.152
Webseite

Re: robots.txt

Andiministrator schrieb:

Weil dort die gecachten CSS Dateien liegen.

Und warum sollte ein robot die einlesen? Darin befinden sich doch keine Infos für Suchmaschinen.

Servus,
Alex

Offline

#10 21. August 2011 22:01

piratos
arbeitet mit CMS/ms
Registriert: 12. August 2011
Beiträge: 545

Offline

#11 21. August 2011 22:30

NaN
Moderator
Ort: Halle (Saale)
Registriert: 09. November 2010
Beiträge: 4.379

Re: robots.txt

Nett.
Das erklärt die Frage aber nicht.


Module: GBFilePicker, AdvancedContent
Sicherheit: Beispiel .htaccess-Datei
CMSms 1.12.2 unter PHP 7:
cmsms-1.12.2-php7.2-diff.tar.gz (nur die geänderten Dateien)
cmsms-1.12.3.zip (inoffiziell - komplett inkl. Installer)

Offline

#12 21. August 2011 08:52

Andiministrator
Kabeljungwerker
Ort: Plauen / Vogtland
Registriert: 09. November 2010
Beiträge: 264
Webseite

Re: robots.txt

Ich lasse die Suchmaschinen auch gern meine CSS-Dateien crawlen, um zu zeigen, dass ich nichts zu verstecken habe. Zudem bin ich mir nicht sicher, ob es nicht noch andere Dateien (z.B. von Modulen) in /tmp/cache gibt, die interessant für Google wären. Vielleicht kann ich die Frage aber einmal umkehren: Was willst Du denn im Cache-Verzeichnis vor Google verstecken?

Um z.B. nur CSS Dateien im Cache Verzeichnis zu erlauben, könntest Du auch folgendes angeben:


Arbeitet bei conversearch GmbH: http://conversearch.de (Webseiten-Analyse und -Monitoring)
Bloggt bei Andiministrator.de: http://andiministrator.de

Offline

#13 21. August 2011 12:32

piratos
arbeitet mit CMS/ms
Registriert: 12. August 2011
Beiträge: 545

Re: robots.txt

In der CSS können z.B. Bildinformationen stecken, die man durchaus bei den Suchmaschinen aufnehmen lassen kann.

Offline

#14 06. September 2011 09:23

dylan
kennt CMS/ms
Ort: Münsterland
Registriert: 16. Dezember 2010
Beiträge: 303

Re: robots.txt

nockenfell schrieb:

Meine Fassung des Robots.txt ist folgende

Wikipedia stellt einen Link zu einem Robots.txt syntax checker.
Ich habe meine eigene robots.txt dort gecheckt und bin vor Fehlermeldungen rückwärts vom Stuhl gekippt.


Eine Frage zu zweisprachigen Websites und der sitemap.xml
Wie mache ich's richtig?
- Je Sprache eine sitemap, z.B. sitemap_de.xml, sitemap_en.xml
Nur, wie rufe ich diese dann in der robots.txt auf?

oder
- eine sitemap.xml die die Sites der einzelnen Seiten untereinander listet, z.B.
<url>
<loc>http://domain.de/index.php?mod=home&amp;lng=de</loc>
...
</url>
<url>
<loc>http://domain.de/index.php?mod=home&amp;lng=en</loc>
...
</url>

Offline

#15 06. September 2011 10:05

Andiministrator
Kabeljungwerker
Ort: Plauen / Vogtland
Registriert: 09. November 2010
Beiträge: 264
Webseite

Re: robots.txt

Bei zweisprachigen Webseiten kommt es darauf an, wie diese gegliedert sind.
Hast Du beide Sprachen auf einer Domain laufen, gibts Du alle Seiten in einer sitemap.xml an.
Gibt es pro Sprache eine separate Domain, sollte es ja auch pro Domain eine separate robots.txt geben (das ist übrigens noch ein Feature Request im MultiDomain-Modul).


Arbeitet bei conversearch GmbH: http://conversearch.de (Webseiten-Analyse und -Monitoring)
Bloggt bei Andiministrator.de: http://andiministrator.de

Offline

#16 12. März 2015 12:43

faglork
arbeitet mit CMS/ms
Ort: Fränkische Schweiz
Registriert: 15. Dezember 2010
Beiträge: 1.152
Webseite

Re: robots.txt

nockenfell schrieb:

Meine Fassung des Robots.txt ist folgende

----------------snip-------------------


User-agent: Googlebot
# Unterbinden der Indexierung aller Dateien mit diesen Endungen

Disallow: /*.cgi$
Disallow: /*.css$
Disallow: /*.gif$
Disallow: /*.gz$
Disallow: /*.inc$
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.js$
Disallow: /*.php$
Disallow: /*.php*
Disallow: /*.png$
Disallow: /*.tpl$
Disallow: /*.wmv$
Disallow: /*.xhtml$
----------------------------snip--------------------------------

Nur als Hinweis: Das wird Probleme bringen. Google hat die Webmaster-Richtlinien geändert und verlangt jetzt ausdrücklich Zugriff auf CSS und JS.

Wer diese Dateien also durch obigen Eintrag in der robots.txt gesperrt hat, sollte dies schleunigst ändern.

Sieh dazu
https://plus.google.com/+PierreFar/posts/TLeHSDRwjhB
"Let me be super clear about what this means: By blocking crawling of CSS and JS, you're actively harming the indexing of your pages."

Servus,
Alex

Offline

#17 12. März 2015 21:49

nockenfell
Moderator
Ort: Lenzburg, Schweiz
Registriert: 09. November 2010
Beiträge: 2.910
Webseite

Re: robots.txt

faglork schrieb:

Nur als Hinweis: Das wird Probleme bringen. Google hat die Webmaster-Richtlinien geändert und verlangt jetzt ausdrücklich Zugriff auf CSS und JS.

Wer diese Dateien also durch obigen Eintrag in der robots.txt gesperrt hat, sollte dies schleunigst ändern.

Sieh dazu
https://plus.google.com/+PierreFar/posts/TLeHSDRwjhB
"Let me be super clear about what this means: By blocking crawling of CSS and JS, you're actively harming the indexing of your pages."

Korrekt. Danke für die Ergänzung.


[dieser Beitrag wurde mit 100% recycled bits geschrieben]
Mein Blog  /   Diverse Links rund um CMS Made Simple
Module: btAdminer, ToolBox

Offline