robots.txt เป็นไฟล์ที่บอกให้ Search Engine เช่น google ,yahoo มาเก็บข้อมูลในหน้าเว็บของเรา ซึ่งในทางปฏิบัติแล้ว มันจะเก็บทุกส่วนของเว็บไซต์เรา ซึ่งถ้าเราไม่ต้องการให้มันเรียกเก็บข้อมูลในส่วนไหน เราก็สามารถป้องกันได้ ด้วยไฟล์ robots.txt นี้เอง
โรบอต (Robot) เป็นโปรแกรมเก็บข้อมูลในอินเตอร์เน็ต ซึ่งบางครั้ง เรียกว่าสไปเดอร์ (Spider) หรือ ครอว์เลอร์(Crawler) จะทําหน้าที่รวบรวมไฟล์ HTML เพื่อมาเป็นข้อมูล สําหรับสร้างดัชนีค้นหา ให้กับ เสิร์จเอ็นจิน (Search Engine) โดยทั่วไปแล้ว โรบอตจะกลับมาที่เว็บไซต์ที่อ่านไปแล้ว เพื่อตรวจสอบ การเปลี่ยนแปลง ตามระยะเวลาที่กําหนด
ดังนั้นเราต้องสร้างไฟล์ robots.txt ขึ้นมา เพื่อกำหนดว่าจะให้ Robot เข้าไปยังโฟลเดอร์ไหนได้บ้าง
แต่คำถามตอนนี้คือ จะสร้างมันยังไง ?
วิธีการคือให้สร้างไฟล์ที่ชื่อ robots.txt ขึ้นมาจากนั้นนำมาวางไว้ที่ Root Directory (ไดเรกเทอรี่เริ่มต้นของเว็บไซค์) เช่นเว็บของผมนะ http://www.idatabaseblog.com/robots.txt
หลังจากนั้นก็อปปี้ข้อความนี้ลงไปในไฟล์ robotx.txt ครับ
User-Agent: *
Allow: /
Sitemap: http://yourdomain.com/sitemap.xml
ซึ่งข้อความข้างต้นนี้เป็นรูปแบบพื้นฐานในการสร้างไฟล์ robots.txt ที่ถูกต้องครับ
โดย Allow: / หมายควายว่า ให้มันเก็บข้อมูลได้ทั้งหมดเลยครับ ส่วน
Sitemap: http://yourdomain.com/sitemap.xml ให้ใส่ที่อยู่ URL ของ sitemap เราครับ ^^
ที่นี้เราลองมาดูตัวอย่างนี้แล้วกันนะครับ เป็นกรณีที่สร้างไฟล์ robots.txt ให้เก็บข้อมูลในบางส่วนที่เราต้องการเปิดเผย
User-agent: *
Allow: /content
Disallow: /admin
Allow: /pic
Disallow: /xxx
Sitemap: http://yourdomain.com/sitemap.xml
จากตัวอย่างนี้จะเห็นได้ว่า
คำสั่ง Allow ก็คืออนุญาติให้มันเก็บไดเรกทอรี่ที่ระบุไว้ซึ่งในตัวอย่างคือ โพลเดอร์ content และ pic ส่วนคำสั่ง Disallow ก็คือคำสั่งที่ไม่อนุญาติให้มันเก็บไดเรกทอรี่ที่ระบุไว้ซึ่งในตัวอย่างคือ admin และ xxx เห็นไหมครับ การสร้างไฟล์ robots.txt ง่ายจะตาย แถมมีข้อดีหลายอย่างด้วยในการทำ SEO แต่ทั้งนี้ทั้งนั้น ก่อนที่ผมจะเขียนบทความนี้มีหลายคนถามผมมาเยอะเลยเกินว่า จะสร้างไฟล์ robots.txt ยังไงให้เจ๋ง
อันนี้ผมก็ตอบไม่ได้นะครับ ผมก็เลยบอกว่า ถ้าอยากสร้างให้เจ๋งๆ ลองไปแงะประตูบ้าน เว็บดังๆเขาดูสิ ว่าเขาเขียนอะไรบ้าง ^^
http://www.google.com/robots.txt
User-agent: *
Allow: /searchhistory/
Disallow: /news?output=xhtml&
Allow: /news?output=xhtml
Disallow: /search
Disallow: /groups
Disallow: /images
Disallow: /catalogs
Disallow: /catalogues
Disallow: /news
Disallow: /nwshp
Allow: /news?btcid=
Disallow: /news?btcid=*&
Allow: /news?btaid=
Disallow: /news?btaid=*&
Disallow: /setnewsprefs?
Disallow: /index.html?
Disallow: /?
Disallow: /addurl/image?
Disallow: /pagead/
Disallow: /relpage/
Disallow: /relcontent
Disallow: /sorry/
Disallow: /imgres
Disallow: /keyword/
Disallow: /u/
Disallow: /univ/
Disallow: /cobrand
Disallow: /custom
Disallow: /advanced_group_search
Disallow: /googlesite
Disallow: /preferences
Disallow: /setprefs
Disallow: /swr
Disallow: /url
Disallow: /default
Disallow: /m?
Disallow: /m/?
Disallow: /m/lcb
Disallow: /m/news?
Disallow: /m/setnewsprefs?
Disallow: /m/search?
Disallow: /m/trends
Disallow: /wml?
Disallow: /wml/?
Disallow: /wml/search?
Disallow: /xhtml?
Disallow: /xhtml/?
Disallow: /xhtml/search?
Disallow: /xml?
Disallow: /imode?
Disallow: /imode/?
Disallow: /imode/search?
Disallow: /jsky?
Disallow: /jsky/?
Disallow: /jsky/search?
Disallow: /pda?
Disallow: /pda/?
Disallow: /pda/search?
Disallow: /sprint_xhtml
Disallow: /sprint_wml
Disallow: /pqa
Disallow: /palm
Disallow: /gwt/
Disallow: /purchases
Disallow: /hws
Disallow: /bsd?
Disallow: /linux?
Disallow: /mac?
Disallow: /microsoft?
Disallow: /unclesam?
Disallow: /answers/search?q=
Disallow: /local?
Disallow: /local_url
Disallow: /froogle?
Disallow: /products?
Disallow: /froogle_
Disallow: /product_
Disallow: /products_
Disallow: /print
Disallow: /books
Disallow: /patents?
Disallow: /scholar?
Disallow: /complete
Disallow: /sponsoredlinks
Disallow: /videosearch?
Disallow: /videopreview?
Disallow: /videoprograminfo?
Disallow: /maps?
Disallow: /mapstt?
Disallow: /mapslt?
Disallow: /maps/stk/
Disallow: /maps/br?
Disallow: /mapabcpoi?
Disallow: /center
Disallow: /ie?
Disallow: /sms/demo?
Disallow: /katrina?
Disallow: /blogsearch?
Disallow: /blogsearch/
Disallow: /blogsearch_feeds
Disallow: /advanced_blog_search
Disallow: /reader/
Disallow: /uds/
Disallow: /chart?
Disallow: /transit?
Disallow: /mbd?
Disallow: /extern_js/
Disallow: /calendar/feeds/
Disallow: /calendar/ical/
Disallow: /cl2/feeds/
Disallow: /cl2/ical/
Disallow: /coop/directory
Disallow: /coop/manage
Disallow: /trends?
Disallow: /trends/music?
Disallow: /notebook/search?
Disallow: /music
Disallow: /musica
Disallow: /musicad
Disallow: /musicas
Disallow: /musicl
Disallow: /musics
Disallow: /musicsearch
Disallow: /musicsp
Disallow: /musiclp
Disallow: /browsersync
Disallow: /call
Disallow: /archivesearch?
Disallow: /archivesearch/url
Disallow: /archivesearch/advanced_search
Disallow: /base/search?
Disallow: /base/reportbadoffer
Disallow: /base/s2
Disallow: /urchin_test/
Disallow: /movies?
Disallow: /codesearch?
Disallow: /codesearch/feeds/search?
Disallow: /wapsearch?
Disallow: /safebrowsing
Disallow: /reviews/search?
Disallow: /orkut/albums
Disallow: /jsapi
Disallow: /views?
Disallow: /c/
Disallow: /cbk
Disallow: /recharge/dashboard/car
Disallow: /recharge/dashboard/static/
Disallow: /translate_c
Disallow: /translate_suggestion
Disallow: /s2/profiles/me
Allow: /s2/profiles
Disallow: /s2
Disallow: /transconsole/portal/
Disallow: /gcc/
Disallow: /aclk
Disallow: /cse?
Disallow: /tbproxy/
Disallow: /MerchantSearchBeta/
Disallow: /ime/
Disallow: /websites?
Disallow: /shenghuo/search?
Disallow: /support/forum/search?
Disallow: /reviews/polls/
Disallow: /hosted/images/
Disallow: /hosted/life/
Disallow: /newspapers?
Disallow: /search2001/search?