[Học Nghề Online] Trùng Lặp Nội Dung

Học Nghề Online
0

Bài trước Sự điều hướng trong Website

BÀI 6: TRÙNG LẶP NỘI DUNG

    Về mặt nội dung, cả người duyệt web và các SE đều mong muốn nội dung phải mới, duy nhất và có chất lượng. Tuy nhiên, trong quá trình phát triển nội dung website, chúng ta vẫn gặp những trường hợp trùng lặp nội dung một cách vô tình hay cố ý. Việc trùng lặp này gây nhiều tác hại đáng kể trong quá trình tối ưu hóa website cùng với việc các bộ lọc nội dung của SE ngày càng hoàn thiện nên rất ít trường hợp trùng lặp nội dung được bỏ qua.

Trùng lặp nội dung là NHƯ thế nào?

    Trùng lặp nội dung là có nhiều phiên bản nội dung giống nhau hoàn toàn hoặc tương tự (!?) nằm trên nhiều trang của cùng một website hoặc trên nhiều website.

    Rất nhiều webmaster cũng như các chuyên gia SEO/SEM đã tìm hiểu nội dung tương tự thế nào thì sẽ bị đưa vào bộ lọc của các SE, tuy nhiên, các kết quả cho đến thời điểm này chỉ mang tính dự đoán.

    Tuy nhiên, để phát hiện 2 nội dung trùng lặp hoàn toàn thì dễ nhưng để xác định trong trường hợp chúng tương tự nhau, ai là nguyên bản, ai là bản sao thì rất khó và đó là việc trong tương lai.

Các kiểu trùng lặp nội dung

Trong Webmasters/Site Owners Help (http://www.google.com/support/webmasters/bin/answer.py?answer=66359), Google xác định các kiểu sau đây là nội dung trùng lặp không có tác hại:

Các diễn đàn thảo luận hoặc các website lớn thường có 2 phiên bản nội dung. Một cho người duyệt web bằng máy tính & một cho người duyệt web bằng PDA hoặc smartphone.

Mục lưu trữ của các diễn đàn.

Phiên bản dùng để in của các website.

    Bên cạnh đó, Google cũng đã xác định được những yếu tố trùng lặp thông qua thanh điều hướng, tiêu đề chính, các quảng cáo trong nội dung, văn bản ở footer và các liên kết tham khảo trong nội dung. Những trường hợp trùng lặp này sẽ không bị ban nhưng spider sẽ bỏ qua (không index).

    Các trường hợp cố tình nhân bản nội dung trên nhiều tên miền khác nhau để thao túng bảng xếp hạng được coi là cực kỳ độc hại. Cụ thể là tạo ra nhiều landing page khác nhau nhưng cùng nội dung để thu hút người duyệt web, tạo ra nhiều sub domain và ngay cả trên cùng 1 trang với nội dung lặp đi lặp lại.

    Trong nhiều trường hợp, các bạn rất khó có thể bị ban nếu không cố tình nhân bản nội dung. Tuy nhiên, chúng ta cũng phải nắm vững kiến thức này để đảm bảo không sử dụng nội dung trùng lặp độc hại hoặc vô tình kích hoạt bộ lọc nội dung cho website của chúng ta. Ví dụ, nếu trang web của các bạn có 2 phiên bản nội dung: một để hiển thị bình thường và một là phiên bản in thì SE chỉ chọn một trong số chúng.

SE sẽ làm thế nào với những nội dung trùng lặp?

    Hầu hết các webmaster/SEOer đều hiểu rằng các SE không thích trùng lặp nội dung. Vậy các SE sẽ làm thế nào khi có nhiều trang giống nội dung? Các SE sẽ dựa vào những yếu tố như liên quan nhất, duy nhất, nội dung đầu tiên – nguyên thủy, … để trả về trang kết quả cho người dùng, những trang web có qua nhiều yếu tố giống nhau so với các trang trên sẽ được loại bỏ dần tùy theo mức độ giống nhau.

    Nói một cách khác, bộ lọc nội dung trùng lặp là một thuật toán so sánh giữa trang này với trang khác. Nếu bộ lọc xem xét một hoặc 2 trang có quá nhiều yếu tố trùng lặp, nó chỉ giữ một trang trong danh sách chỉ mục chính, các trang còn lại sẽ được di chuyển vào danh sách chỉ mục bổ sung.

    Hình phạt (ban) sẽ phát sinh khi các bạn cố tình sao chép hàng trăm hoặc hàng ngàn nội dung của các trang khác từ những domain khác nhau về website của mình hoặc tạo ra một nội dung giống nhau hoàn toàn từ trang khác.

SE và thẻ Canonical

    Như các bạn đã biết, các SE đã nhận một trách nhiệm khó khăn là loại bỏ các kết quả trùng lặp trong danh sách chỉ mục của họ và tất nhiên các SE không thể nào giải quyết trọn vẹn vấn đề này, vì thế, một xu hướng mới cần đến sự trợ giúp của các webmaster/SEOer của những site đặc biệt là các site thương mại điện tử với danh sách những sản phẩm khổng lồ nhưng lại trùng lặp nhau. Và giải pháp đó là thẻ Canonical.


Nếu các bạn có nhiều URL cùng chỉ đến 1 trang như http://abc.com/index.php?item=1 hoặc http://www.abc.com/index.php?item=1 hoặc http://abc.com/item-name.html, bạn chỉ cần xác định URL “chủ” là có thể giúp các SE giảm bớt khối lượng công việc cũng như loại trừ khả năng chính website của mình bị lỗi trùng lặp nội dung. Đơn giản chỉ cần thêm thẻ Canonical như ví dụ bên dưới trong phần HEAD của trang HTML:

<link rel=”canonical” href=”http://abc.com/item-name.html” />

Làm thế nào tránh trùng lặp nội dung?

    1/ Không đánh cắp thông tin từ các site khác.

    2/ Liên tục kiểm tra xem có trùng lặp nội dung trên chính website của mình hay không?

    3/ Kiểm tra xem có ai lấy cắp nội dung của mình không (dùng Copyscape http://www.copyscape.com/ để kiểm tra).

    4/ Nếu các bạn có nhiều URL trên cùng một domain trỏ đến cùng một nội dung, hãy chọn một URL để được spider đánh chỉ mục, các URL còn lại dùng robots.txt ngăn chặn.

Những điểm cần lưu ý

Tạo ra nội dung duy nhất và nguyên bản thay vì đánh cắp từ các website khác.

Dùng công cụ kiểm tra trùng lặp nội dung để xem có ai lấy cắp nội dung từ website của các bạn.

Loại bỏ các trang trùng lặp nội dung trên website hoặc ít nhất là ngăn chặn chúng được đánh chỉ mục bởi spider.

LAB 06

    Sử dụng CSS cho trang web của các bạn để làm giảm sự gia tăng nội dung trong mã nguồn và bảo trì được thuận tiện hơn.

BÀI 7: SEO & VỊ TRÍ ĐỊA LÝ

    Internet đã mở ra muôn vàn cơ hội trên toàn thế, ngay cả đối với những doanh nghiệp rất nhỏ. Nếu các bạn đang sở hữu một doanh nghiệp hoặc một website chỉ giao dịch tại địa phương hoặc quốc gia của bạn thì kiến thức về tối ưu hóa địa phương sẽ giúp các bạn nhắm đến khách hàng mục tiêu một cách hiệu quả nhất.

    Thật vậy, chúng ta có một lợi thế rất lớn nếu biết khai thác yếu tố địa phương. Các website nhắm mục tiêu toàn cầu ngoài việc cạnh tranh với các đối thủ còn phải cạnh tranh với các website địa phương. Ví dụ như bạn sỡ hữu website .vn bạn sẽ lợi thế hơn rất nhiều với những website .com.

    Dưới đây là một số thủ thuật nhỏ để giúp các bạn yên tâm rằng các SE nhận thức được vị trí địa lý của website:

1. Tên miền quốc gia & hosting của quốc gia

    Các SE chính như Google, Yahoo, Bing kiểm tra Top Level Domain (TLD) để xác định vị trí địa lý của website. Ví dụ website của bạn là ccTLD (Country Code Top Level Domain) như .vn thì hiển nhiên sẽ được ưu tiên trong kết quả tìm kiếm từ Google Việt Nam.

    Phương pháp thứ 2 để xác định vị trí địa lý của website là địa chỉ IP và cũng được ưu tiên trong quốc gia có địa chỉ IP đó cho dù domain là .com .net hoặc .info.

    Dĩ nhiên, các bạn có thể dùng domain ở một quốc gia nào đó nhưng hosting tại quốc gia mong muốn & ngược lại, tuy nhiên, không thể nào tốt hơn domain và hosting có cùng một vị trí địa lý. Để kiểm một IP thuộc địa phương nào, sử dụng công cụ SEOmoz IP2LOChttp://www.seomoz.org/ip2loc.

2. Thông tin liên hệ

    Xác định rõ ràng địa chỉ, vị trí, thông tin liên hệ chi tiết ở footer của trang ngoài việc thông báo với khách hàng bạn ở đâu, các SE còn căn cứ vào thông tin này để xác định vị trí địa lý. Dĩ nhiên, điều này không thể giúp ích cho các bạn trong trường hợp có nhiều văn phòng ở nhiều quốc gia trên thế giới.

 3. Ngôn ngữ sử dụng trên website cũng là một yếu tố xác định vị trí địa lý của website.

4. Liên kết địa phương

    Những liên kết trỏ đến website của bạn từ những domain địa phương sẽ là một ưu điểm cạnh tranh trên bảng xếp hạng địa phương.

Những điểm cần lưu  ý

Phổ biến liên kết địa phương, nghiên cứu từ khóa nhắm vào ngôn ngữ địa phương, kiểm tra chính tả và nội dung có chất lượng là các bước quan trọng trong việc tối ưu hóa địa phương (Local SEO).

LAB 07

    Kiểm tra nội dung trang web của bạn có bị trùng lặp hoặc có ai đã nhân bản nội dung của các bạn không.

Bài tiếp theo Các vấn đề liên quan đến lập chỉ mục 


Tags

Đăng nhận xét

0Nhận xét
Đăng nhận xét (0)
Đọc tiếp: