Google thay đổi thuật toán tìm kiếm cung cấp khả năng tra cứu chính xác hơn

05 Thg 11

Mục Lục

BERT - Phần mềm sẽ đưa hệ thống tra cứu của Google bước sang một trang mới
- Những thông tin mới nhất về trí tuệ nhân tạo, từ học máy đến thị giác máy tính và hơn thế nữa

Theo một thông báo mới đây của Google thì doanh nghiệp này đang tiến hành triển khai một phần mềm mới cho phép công cụ tìm kiếm đọc hiểu được độ phức tạp của ngôn ngữ cũng như những câu hỏi tra cứu vượt ngoài phạm vi nước Mỹ. Liệu điều này sẽ có tác động gì đến việc tra cứu tìm kiếm trên Google, hãy cùng MarketingAI tìm hiểu cụ thể qua bài viết dưới đây.

BERT - Phần mềm sẽ đưa hệ thống tra cứu của Google bước sang một trang mới

Việc đọc hiểu của Google vừa được nâng lên một tầm cao mới khi mới đây doanh nghiệp này vừa thông báo việc nâng cấp hệ thống xếp hạng tìm kiếm của mình bằng một phần mềm có tên gọi BERT - viết tắt của Bidirectional Encoder Representations from Transformers. Phần mềm này được phát triển tại phòng thí nghiệm trí tuệ nhân tạo của Google và được công bố vào mùa thu năm ngoái, nó đã phá vỡ kỷ lục trong việc giải quyết các câu hỏi đọc hiểu mà các nhà nghiên cứu sử dụng để kiểm tra phần mềm AI.

Ông Pandu Nayak - phó chủ tịch Google về mảng tìm kiếm đã nói trong một buổi họp ngắn hôm thứ 5 rằng phần mềm này đã giúp thuật toán tìm kiếm của Google xử lý được các tra cứu dài cũng như những tra cứu phức tạp về ngôn ngữ tốt hơn. Giờ đây người dùng sẽ không phải nhận lại những kết quả tìm kiếm không chính xác cho những tra cứu phụ thuộc vào các giới từ như “đối với” hay “cho” hoặc những từ phủ định như “không” hoặc “không phải”

Một minh chứng cho việc phần mềm BERT đã hỗ trợ Google trong việc xử lý các tra cứu là với cụm “Đỗ xe trên đồi không có lề đường (Parking on hill with no curb)”. Với phiên bản hiện tại của thuật toán tìm kiếm thì Google sẽ cho ra kết quả là ngọn đồi có lề đường, còn với phiên bản nâng cấp của BERT, nó chỉ ra một trang web khuyến cáo người lái xe hướng bánh xe của họ về phía bên đường. Một ví dụ khác là khi tra cứu cụm “2019 khách du lịch Brazil tới Mỹ cần Visa (2019 brazil traveler to usa need a visa)”. Khi đọc cụm này, chúng ta đều hiểu rằng người tra cứu cần tìm những thông tin về yêu cầu cho người Brazil khi tới Mỹ. Tuy nhiên với phiên bản chưa nâng cấp, Google sẽ hiểu sai từ “tới (to)” và đưa lại kết quả tìm kiếm đầu tiên là về thông tin du khách Mỹ tới Brazil. Với phiên bản BERT, công cụ tìm kiếm giờ đây sẽ trả lại kết quả chính xác là những yêu cầu cho du khách Brazil khi tới Mỹ.

Google cho biết họ nhận được hàng tỷ lượt tra cứu mỗi ngày và việc nâng cấp BERT sẽ ảnh hưởng đến thứ hạng với tỉ lệ 1/10. Tuy nhiên ông Nayak cũng nói rằng đa phần người dùng sẽ không nhận ra sự thay đổi nhưng không đồng nghĩa việc nâng cấp này không quan trọng với người dùng. Bất kỳ ai từng cố chuyển qua sử dụng các công cụ tìm kiếm khác đều biết rằng cách Google xếp hạng kết quả có ảnh hưởng sâu sắc tới kỳ vọng khi tra cứu của người dùng. Những người ở bên ngoài nước Mỹ sử dụng Google sẽ nhận ra một vài thay đổi quan trọng nhất. Ông Nayak cũng tuyên bố rằng với bản nâng cấp của BERT sẽ giúp hệ thống tra cứu xác định tốt hơn phần đoạn trích (Snippet), đặc biệt với các ngôn ngữ không phải tiếng Anh.

Bản nâng cấp này của Google là một ví dụ điển hình cho những tiến bộ đáng kể của phần mềm trong nỗ lực đọc hiểu ngôn ngữ. Nó đã giúp thuật toán Học Máy (Machine Learning) trở nên tốt hơn trong việc giải mã sự tinh tế của ngôn ngữ thông qua việc bổ sung ngữ cảnh xung quanh một từ cụ thể.

Học Máy (Machine Learning) đã chứng tỏ là một cách hữu hiệu trong việc dạy các phần mềm sắp xếp và diễn tả những dữ liệu như hình ảnh hoặc văn bản. Tuy nhiên, mỗi chương trình lại cần phải được “đào tạo” thông qua việc sử dụng dữ liệu minh họa . Điều này sẽ khá khó khăn với các tài liệu văn bản. Các dự án sẽ phụ thuộc vào việc trả tiền cho mọi người để dán nhãn các ví dụ cụ thể, ví dụ như những đánh giá tốt và xấu về nhà hàng.

Những thông tin mới nhất về trí tuệ nhân tạo, từ học máy đến thị giác máy tính và hơn thế nữa

Vào thời điểm mùa xuân và hè 2018, OpenAI và Viện nghiên cứu AI Allen đã cho thấy một phương pháp đơn giản và hiệu quả hơn. Họ đã tạo ra các chương trình học máy về sự khác biệt giữa các từ - kể cả những từ đồng âm như May (Tháng 5 - danh từ), may (có lẽ - trợ động từ) và May (tên riêng) thông qua việc nhìn vào các từ khác nhau tròng một đoạn văn bản, kể cả khi chúng có ở câu khác nhau.

>>> Xem thêm: Trí tuệ nhân tạo AI sẽ thay đổi cục diện của ngành Marketing như thế nào?

Allen AI đã đặt tên cho hệ thống của họ là ELMo - viết tắt của Embeddings from Language Models. Điều này đã khiến các nhà nghiên cứu của Google nghĩ ngay đến chương trình Sesame Street vào hồi tháng 10 2018 khi họ công bố về một phương thức mạnh mẽ của riêng mình về việc cho máy học ngôn ngữ mang tên BERT. Giống như các hệ thống từ OpenAI và Allen AI, phần mềm của Google đã thiết lập những kỷ lục mới cho các bài kiểm tra ngôn ngữ AI, chẳng hạn như trả lời các câu hỏi.

>>> Xem thêm: Microsoft đầu tư 1 tỷ USD vào công ty trí tuệ nhân tạo “OpenAI” của Elon Musk

Ông Jeff Wu - kỹ sư nghiên cứu, người đã làm việc cho dự án ngôn ngữ của OpenAI đã nói rằng: “Mọi người đều rất hào hứng bởi vì quá trình diễn ra quá nhanh”. Tuy vậy, điều này có một tác dụng phụ là giờ đây các nhà nghiên cứu phải phát minh ra những bài kiểm tra mới với độ khó cao hơn để phần mềm có thể “học” như là đọc hiểu cơ bản.

Tạm kết

Với BERT, Google đã có một bước đột phá mới trong việc đọc hiểu ngôn ngữ và điều này sẽ giúp ích trong việc xử lý các tra cứu của người dùng, giúp đưa ra các kết quả chính xác hơn. Tuy nhiên điều này không có nghĩa là BERT đã sẵn sàng để đọc hiểu và đưa ra nhận xét cho luận văn tốt nghiệp của bạn. Ông Nayak cũng từng nói rằng “Ngôn ngữ là sự tinh tế với nhiều sắc thái”. Mỗi khi Google cải thiện được kho ngôn ngữ của mình thì người dùng lại đăng tải những câu hỏi hay tra cứu phức tạp hơn, điều này càng giúp nâng cao giới hạn cho robot đọc của Google.

Tuấn Anh - MarketingAI

Theo Wired

Đánh giá của bạn

TAGS:

Bình luận của bạn

Gửi bình luận

Bạn không thể gửi bình luận liên tục. Xin hãy đợi
60 giây nữa.