Bert là một thuật ngữ còn khá mới mẻ tại Việt Nam. BERT bắt đầu xuất hiện trong hệ thống tìm kiếm của Google vào tháng 10 năm 2019, được áp dụng cho các truy vấn sử dụng ngôn ngữ là tiếng Anh, và bao gồm cả các trích dẫn nổi bật (featured snippets). Tuy nhiên vẫn có nhiều người chưa thực sự hiểu rõ "Bert là gì" hay "Bert hoạt động ra sao". Trong bài viết dưới đây, MarketingAI sẽ mang đến cho bạn cái nhìn tổng quan nhất về mô hình học sẵn này để bạn thực sự hiểu Khái niệm Bert và lịch sử ra đời của Bert nhé.
Khái niệm BERT là gì?
BERT được biết tới đầy đủ với tên gọi “Bidirectional Encoder Representations from Transformers” (tạm dịch: Đại diện bộ mã hóa hai chiều từ Transformers). Đây là một thuật toán học liên quan đến xử lý ngôn ngữ tự nhiên. Nó giúp tối ưu hóa hệ thống tìm kiếm, hiểu được gần chính xác sắc thái, ý nghĩa ngữ cảnh trong câu.
Ví dụ: nếu tìm kiếm cụm từ cow fishing, thạt chât đây là tên một loài cá (cá nược). Thế nhưng khi bạn gõ cụm từ về cow fishing, Google sẽ cung cấp kết quả liên quan đến chăn nuôi bò.
Mặc dù bạn đã cố tình sử dụng từ “fishing” để cung cấp ngữ cảnh, Google đã bỏ qua bối cảnh đó và cung cấp kết quả liên quan đến bò. Đó là vào ngày 1 tháng 10 năm 2019. Sau đó, ngày 25 tháng 10 năm 2019, cùng một kết quả truy vấn trong kết quả tìm kiếm có đầy đủ các kết quả liên quan đến cá này và việc câu cá. Thuật toán BERT dường như đã hiểu ngữ cảnh của từ “fishing” là quan trọng và thay đổi kết quả tìm kiếm để tập trung vào các trang web liên quan đến câu cá.
Điều này là do hệ thống máy móc không thể phân biệt chính xác ngữ nghĩa câu giống như con người. BERT ra đời để giải quyết điều này, nó giúp phân biệt những sắc thái nghĩa trừu tượng nhất, đưa ra những kết quả phù hợp và có liên quan nhất.
Lịch sử ra đời và phát triển của thuật toán BERT
Vì sao cần đến BERT?
Rõ ràng, tâm lý con người luôn bị thỏa mãn bởi những điều khiến họ tò mò. Khi bắt gặp những vấn đề khó tìm ra đáp án, ta sẽ sử dụng các công cụ tìm kiếm để có câu trả lời. Bộ máy này vì thế mà nhận được hàng tỉ lượt truy cập, tìm kiếm mỗi ngày từ hàng tỉ người dùng trên toàn cầu. Có hơn 15% những câu hỏi đặt ra là các vấn đề mới, chưa xuất hiện trên hệ thống trước đó. Vậy nên, làm thế nào để giải quyết bài toán tối ưu thuật toán tìm kiếm? BERT ra đời để trả lời cho câu hỏi trên.
Ai là người phát triển BERT?
Jacob Devlin và Ming-Wei Chang đến từ Google đã tạo ra BERT và công bố vào năm 2018. Tuy nhiên, đến tháng 10 năm 2019, Bert mới chính thức xuất hiện trong hệ thống tìm kiếm Google và được áp dụng cho các truy vấn sử dụng ngôn ngữ là tiếng Anh, và bao gồm cả các trích dẫn nổi bật.
Cho đến nay, thuật toán BERT đã mở rộng áp dụng lên đến 70 ngôn ngữ, trong đó có tiếng Việt. Ngoài ra, mô hình BERT cũng được sử dụng để cải thiện chất lượng của các trích dẫn nổi bật phản hồi cho người dùng tại hơn 20 quốc gia.
Cách thức hoạt động của BERT
Hoạt động dựa trên ngữ cảnh từ vựng xung quanh
Cách thức hoạt động của Bert là gì? Mô hình BERT cho phép có nhanh và chính xác câu trả lời nhờ vào thuật toán tối ưu. Nói một cách đơn giản, thay vì chỉ dựa vào từ ngữ đứng trước hoặc ngay sau nó, BERT sẽ tối ưu kết quả tìm kiếm sao cho ra trùng nhất, hoặc gần nhất với điều bạn tìm kiếm. Nếu tìm kiếm bằng tiếng Anh, BERT sẽ cho ra kết quả tốt hơn.
Ví dụ: với cụm từ khóa “Đi du lịch từ Việt Nam đến Mỹ cần visa 2019”. Thuật toán thông thường của Google sẽ trả về kết quả không liên quan như Việt Nam miễn visa cho bao nhiêu quốc gia, cần chuẩn bị gì khi du lịch Mỹ. Trong khi nếu áp dụng BERT, kết quả cho ra nhiều kết quả liên quan hơn. Google hiểu hiểu mối tương quan trong cụm từ "Việt Nam đến Mỹ" với từ nối "đến" và cho ra truy vấn chính xác với câu hỏi.
Một ví dụ khác, với cụm “math practice books for adults” (sách bài tập toán cho người lớn), kết quả tìm kiếm thông thường sẽ chỉ cho ra một quyển sách Toán dành cho lớp 6 đến lớp 8. Trong khi đó, BERT sẽ trả về kết quả là một quyển sách có tựa đề “Math for Grownups” (Toán học cho người lớn), tiệm cận nhất với thông tin bạn mong muốn.
BERT có được áp dụng trong toàn bộ tìm kiếm trên Google?
Chỉ có số ít kết quả tìm kiếm được áp dụng thuật toán BERT. Người đại diện Google cho biết chỉ có 10% kết quả tìm kiếm bằng tiếng Anh thực hiện thuật toán này. Đặc biệt nếu các tìm kiếm dài, có tính hội thoại, kể cả chứa giới từ như "for" và "to" (hai giới từ có nhiều nghĩa nhất trong tiếng Anh), thì BERT vẫn sẽ hiểu được ngữ cảnh của các từ trong truy vấn.
Tuy nhiên, có một số loại truy vấn không cần đến quá trình xử lý ngôn ngữ của BERT, ví dụ tìm kiếm thương hiệu (branded search) và những cụm từ ngắn.
>>> Có thể bạn quan tâm: SEO là gì
Làm sao để tối ưu hóa thuật toán BERT?
Tin buồn cho câu hỏi trên đó là không có gì để tối ưu hóa cho BERT. Danny Sullivan – đồng sáng lập của trang Search Engine Land chia sẻ, thay vì tối ưu hóa, mọi người nên viết những nội dung tìm kiếm rõ ràng, sắp đặt các từ ngữ trong câu giúp bộ máy có thể lọc được các kết quả gần chính xác nhất.
Bert là gì? Google luôn thay đổi thuật toán mỗi ngày. Ngay cả với mô hình BERT, dù áp dụng như cũng không đảm bảo kết quả vừa ý 100%. Do đó, dù bạn tìm kiểm gì, hoặc ngôn ngữ bạn nói ra sao, thì hãy bắt đầu từ việc tìm kiếm dựa trên những kết quả mà bạn suy nghĩ, kết quả nhận được sẽ tự nhiên, chuẩn xác hơn rất nhiều.
Sự khác nhau giữa Bert và RankBrain là gì?
RankBrain là thuật toán mà Google sử dụng để sắp xếp, xử lý, hiểu các truy vấn tìm kiếm. Điểm nổi bật của RankBrain là thuật toán này có thể sắp xếp, điều chỉnh thứ tự tìm kiếm ưu tiên dựa vào truy vấn hiện tại và cả trong quá khứ.
Giống: Cả hai thuật toán này đều được Google áp dụng để xử lý các kết quả tìm kiếm và nội dung trên web page.
Khác: RankBrain nhận được được các kết quả không chứa từ ngữ chính xác. Trong khi BERT tìm kiếm dựa vào nội dung, ngữ cảnh của keyword đứng trước và sau nó.
Ví dụ: với cụm từ “height of the landmark in paris” (chiều cao của công trình tiêu biểu ở Paris), RankBrain có thể xác định người dùng đang tìm kiếm thông tin về Tháp Eiffel dù cho tên của ngọn tháp không xuất hiện trong ô tìm kiếm.
Hải Yến - MarketingAI
Tổng hợp
Bình luận của bạn