Thủ thuật SEO tối ưu hóa Website với 2 tập tin .htaccess và robot.txt.
Khá quan trọng trong quá trình SEO giúp Webmaster thiết lập htaccess cố định link và khắc phục broken link bằng cách cho redirect tới 1 trang khác tồn tại. Thực hiện SEO điều hướng người dùng vào đúng trọng tâm nội dung trang web cung cấp và nhiều cái nữa đọc đi rùi biết :)
Tối ưu SEO hiệu quả với .htccess:
1. Set Timezone.
Chỉ có lợi không có hại khi webmaster thiết lập đúng time zone cho website mình, giúp các robot tìm kiếm xác định đúng thời khắc nội dung bài viết mới xuất bản và Index.
- SetEnv TZ timezone
VD: SetEnv TZ Asia/Jakarta
2. URLs SEO Friendly 301 Permanent Redirects.
Giúp robot tìm kiếm cập nhật đầy đủ thông tin về website bạn, tình trạng các links broken đã được sửa thành công và đánh giá cao website chuẩn.
Nếu như bạn có nhiều anchor text backlink cũ chất lượng nhưng thực tại không có url đó tồn tại trên web bạn, hãy thực hiện Redirect 301 về trang chủ hay 1 trang nào đó mà bạn muốn với code sau:
Nếu như bạn có nhiều anchor text backlink cũ chất lượng nhưng thực tại không có url đó tồn tại trên web bạn, hãy thực hiện Redirect 301 về trang chủ hay 1 trang nào đó mà bạn muốn với code sau:
- Redirect 301 http://www.seotrafficvn.com/404 http://www.seotrafficvn.com/
# Ngoải ra đây cũng là cách tạo URL seo friendly cho websiteVD : http://seotrafficvn.com/p.php?page=123 <--- URL robot ko hiểu là gì ta nên đổi lại thành
http://seotrafficvn.com/tai-lieu-seo/ hoặchttp://seotrafficvn.com/cach-seo-website-top-google-p1.html
3.Coi file ngay trên web không hiện Download.
Khi Web bạn cung cấp 1 file .zip .doc .pdf và auto download khi mở link, điều này không tốt cho seo! Nên giữ khách lại web lâu hơn bằng các lời mời mọc khác thì nên set htaccess thế này nhé.
- AddType application/octet-stream .pdf
- AddType application/octet-stream .zip
- AddType application/octet-stream .mov
4.Chạy mặc định website không www.
One of the SEO guideline is, make sure there is only one URL pointing to your website. Therefore, you will need this to redirect all www traffic to non-ww, or the other way around.
- RewriteEngine On
- RewriteBase /
- RewriteCond %{HTTP_HOST} ^www.seotrafficvn.com [NC]
- RewriteRule ^(.*)$ http://seotraffic.com/$1 [L,R=301]
5. Tinh chỉnh tối ưu các trang lỗi 401,404,500,...
Hãy thực hiện ngay để Google đánh giá cao website bạn chuẩn men nhé
- ErrorDocument 401 /error/401.php
- ErrorDocument 403 /error/403.php
- ErrorDocument 404 /error/404.php
- ErrorDocument 500 /error/500.php
6. Nén file trên hệ thống tối ưu tốc độ lướt web.
Nếu Website bạn load chậm thì hãy nghĩ đến htaccess nén file hệ thống, nó sẽ cải thiện tốc độ load cho web bạn khá ổn đó
- # thực hiện nén các thể loại file text, html, javascript, css, xml:
- AddOutputFilterByType DEFLATE text/plain
- AddOutputFilterByType DEFLATE text/html
- AddOutputFilterByType DEFLATE text/xml
- AddOutputFilterByType DEFLATE text/css
- AddOutputFilterByType DEFLATE application/xml
- AddOutputFilterByType DEFLATE application/xhtml+xml
- AddOutputFilterByType DEFLATE application/rss+xml
- AddOutputFilterByType DEFLATE application/javascript
- AddOutputFilterByType DEFLATE application/x-javascript
7. Chạy Cache tập tin giúp tối ưu tốc độ.
Google đánh giá cao Website load nhanh vậy sao bạn không cố gắng chiều Google tý nhỉ với thủ thuật Cache thông minh.
Người A vào web, hệ thống sẽ lưu cache lại cho người B vào sau ... Và mình chỉ việc thiết lập thời gian trong bao lâu thì thiết lập cache mới max-age.
Người A vào web, hệ thống sẽ lưu cache lại cho người B vào sau ... Và mình chỉ việc thiết lập thời gian trong bao lâu thì thiết lập cache mới max-age.
- <FilesMatch ".(flv|gif|jpg|jpeg|png|ico|swf|js|css|pdf)$">
- Header set Cache-Control "max-age=2592000"
- </FilesMatch>
8. Hiệu chỉnh không cache với 1 số file nội dung động.
Đôi khi có 1 số cái cần cập nhật ngay thời điểm vd Like , + , Members,... ta nên disable cache đi với file đó.
- # Hiệu chỉnh không cache với các file động, dữ liệu hệ thống
- <FilesMatch ".(pl|php|cgi|spl|scgi|fcgi)$">
- Header unset Cache-Control
- </FilesMatch>
Bảo mật Website với htaccess.
Htaccess còn giúp webmaster nhiều hơn thế, bảo mật website thì thôi rồi, sao không tìm hiểu thử nhỉ?
Vd: Cấm các website khác chôm nội dung website mình về làm của riêng ? Hoặc truy cập lấy thông tin hình ảnh trên website mình tự động và phục vụ cho khách website họ. Ta thì hao tốn băng thông ngồi nhìn sao? Hãy để htaccess giúp bạn!
Vd: Cấm các website khác chôm nội dung website mình về làm của riêng ? Hoặc truy cập lấy thông tin hình ảnh trên website mình tự động và phục vụ cho khách website họ. Ta thì hao tốn băng thông ngồi nhìn sao? Hãy để htaccess giúp bạn!
1. Cấm truy cập Hotlinks .htaccess.
Nếu bạn không muốn người khác lấy url hình ảnh từ website bạn đặt vào web họ và bạn bị hao tốn tài nguyên vô cớ thì thử cách sau:
- RewriteBase /
- RewriteCond %{HTTP_REFERER} !^$
- RewriteCond %{HTTP_REFERER} !^http://(www.)?seotrafficvn.com/.*$ [NC]
- RewriteRule .(gif|jpg|swf|flv|png)$ /feed/ [R=302,L]
2. Chống Hacks - Attacker .
Vâng htaccess mạnh như thế đấy! Bạn có thể config htaccess không cho phép người truy cập hiệu chỉnh url có thể gây lỗi và ảnh hưởng bảo mật hệ thống website bạn. SEO làm gì khi Website không bảo mật?
--> đây cũng là 1 phương pháp chống SQL Injection, Crossing Site, Cookie Steal,... .
--> đây cũng là 1 phương pháp chống SQL Injection, Crossing Site, Cookie Steal,... .
- RewriteEngine On
- # proc/self/environ? không cho chạy!
- RewriteCond %{QUERY_STRING} proc/self/environ [OR]
- # khóa truy cập cố gắng mosConfig thông qua biến URL
- RewriteCond %{QUERY_STRING} mosConfig_[a-zA-Z_]{1,21}(=|\%3D) [OR]
- # Khóa mã hóa link base64_encode URL
- RewriteCond %{QUERY_STRING} base64_encode.*(.*) [OR]
- # Khóa không chạy các URL chứa <script>, khỏi X-Crossing nhé hehe
- RewriteCond %{QUERY_STRING} (<|%3C).*script.*(>|%3E) [NC,OR]
- # Khóa truy cập muốn xem PHP GLOBALS
- RewriteCond %{QUERY_STRING} GLOBALS(=|[|\%[0-9A-Z]{0,2}) [OR]
- # Khóa truy cập hiệu chỉnh tay các biến trong _REQUEST URL
- RewriteCond %{QUERY_STRING} _REQUEST(=|[|\%[0-9A-Z]{0,2})
- # Cuối cùng là cho tất cả trường hợp trên redirect về trang chủ - Hết Phim!
- RewriteRule ^(.*)$ index.php [F,L]
3. Khóa truy cập trực tiếp file .htaccess.
Không cho phép visitor truy cập xem file .htcess và 1 số file khác tùy webmaster
- # secure htaccess file
- <Files .htaccess>
- order allow,deny
- deny from all
- </Files>
- # tùy chỉnh cấm xem file theo ý riêng webmaster
- <Files secretfile.jpg>
- order allow,deny
- deny from all
- </Files>
- # Khóa truy cập nhiều file
- <FilesMatch ".(htaccess|htpasswd|ini|phps|fla|psd|log|sh)$">
- Order Allow,Deny
- Deny from all
- </FilesMatch>
4. Đổi tên file htaccess.
Che dấu config trên file htaccess trước sự dòm ngó của hacker.
- AccessFileName htacc.ess
5. Tắt chế độ xem dạng thư mục:
Avoid the server from displaying directory index, or the opposite.
- # disable directory browsing
- Options All -Indexes
- # enable directory browsing
- Options All +Indexes
6. Thay đổi file index mặc định:
Nếu không thích index.php thì set lại thuthuatseo.html. Nếu muốn set thư mục đó có lợi cho việc seo tối ưu hóa từ "thủ thuật seo". Do đó url seo friendly thuthuatseo.html hơn la index.php.
- DirectoryIndex thuthuatseo.html
7. Khóa truy cập có giới thiệu (referal) từ 1 domain nhất định.
- # Khóa không cho truy cập từ domain google.com
- <IfModule mod_rewrite.c>
- RewriteEngine on
- RewriteCond %{HTTP_REFERER} google.com [NC,OR]
- RewriteCond %{HTTP_REFERER} google.com.vn [NC,OR]
- RewriteRule .* - [F]
- </ifModule>
- # Minh họa Google, nhớ chỉnh lại cho đúng ko là website đi hát dạo với Google luôn đấy!
- Nâng cao cho Webmaster muốn khóa truy cập từ 1 nguồn không rõ nhưng domain có chữ SEX thì config thế này
- SetEnvIfNoCase Referer “.*(cụm từ chứa trong domain).*” ban SetEnvIfNoCase Referer “.*(SEX).*” ban SetEnvIfNoCase Referer “.*(XXX).*” ban <Limit GET POST> order allow,deny deny from env=ban allow from all </Limit>
8. Khóa truy cập có User-Agent Header ảo.
This method could save your bandwidth quota by blocking certain bots or spiders from crawling your website.
- # Khóa truy cập ảo từ mấy cái thằng web tự động craw thông tin về post lên web nó
- <IfModule mod_rewrite.c>
- SetEnvIfNoCase ^User-Agent$ .*(craftbot|download|extract|stripper|sucker|ninja|clshttp|webspider|leacher|collector|grabber|webpictures) HTTP_SAFE_BADBOT
- SetEnvIfNoCase ^User-Agent$ .*(libwww-perl|aesop_com_spiderman) HTTP_SAFE_BADBOT
- Deny from env=HTTP_SAFE_BADBOT
- </ifModule>
9. Bảo vệ website không cho exec các mã web.
- # Đôi khi cũng cẩn lắm, không cho run exec (cmd) hiệu quả cho mấy webmaster chống local trên site.
- AddHandler cgi-script .php .pl .py .jsp .asp .htm .shtml .sh .cgi
- Options -ExecCGI
Webmaster và SEOer sao không linh hoạt sử dụng chúng nhỉ ? Tối ưu hóa website :
- Cấm và tùy chỉnh truy cập bất lợi đến website,...
- Mã bảo mật hệ thống truy cập file, run exec,...
- Cache website giúp tối ưu hóa tốc độ rất tốt cho SEO
Thủ thuật tối ưu robot.txt cho SEO nhé:
Tập tin Robots.txt được lưu ở thư mục gốc của web site. Mặc định là không có Webmaster phải tự tạo.Ví dụ như : http://seotrafficvn.com/robots.txt
User-agent: googlebot
Disallow: /thu-thuat-seo/
Ý nghĩa : User-agent: là đại diện của một SE - Search Engine, như Googlebot search engine của Google. Với thiết lập trên ta cho phép Googlebot index web site nhưng Disallow: là không cho phép index thư mục /thu-thuat-seo.
Nếu webmaster muốn tất cả các search engine có thể index web, nhưng không được index các trang trong thư mục “tối-ưu-hóa-web” thì sử dụng lệnh sau:
User-agent: *
Disallow: /tối-ưu-hóa-web/
Những điều nên tránh:
+ Tuyệt đối không ghi chú thích trong file robot vì sẽ làm các bot tìm kiếm hiểu nhầm! Ví dụ:
“Disallow: SEO # Bot mà ngu lắm”
+ Không được để khoảng trắng (space) ở đầu dòng lệnh:
User-agent: *
Disallow: /SEO-Htaccess-Tips/
+Không thay đổi trật tự của các dòng lệnh. Ví dụ:
Disallow: /SEO-Robot-file
User-agent: *
+ Không sử dụng quá một thư mục trong dòng lệnh Disallow. Ví dụ:
User-agent: *
Disallow: /SEO/Htaccess/Robot.txt/
các search engine không hiểu định dạng trên. Webmaster nên config như sau:
User-agent: *
Disallow: /SEO
Disallow: /Htaccess/
Disallow: /Robot.txt/
+Cẩn trọng với cái in hoa viết thường, Windows hay Linux gì cũng phải viết đúng hết nhé các Webmaster, VD : ThuThuatSEO sẽ khác thuthuatseo.
+ Không nên dùng lệnh Allow trong file robots.txt, bởi vì nó sẽ cho phép robot craw hết toàn bộ dữ liệu web bạn từ a->z . Tốt nhất không biết thì hỏi!
Kết thúc cái bài "Thủ thuật SEO tối ưu hóa Website bằng htacces và robot.txt" cho các webmaster rùi nhé.
Mọi thắc mắc vui lòng comment bên dưới, lưu ý tuyệt đối ko đi backlink dù vô tình hay cố ý nhé.
Cảm ơn