How to use google efficiently?

Phan Nhật Minh
(phannhatminh)

Thành viên danh dự
Có lẽ searching với google là một thứ quá quen thuộc đối với tất cả những ai đã từng sử dụng internet. Và cũng nghiều người cho rằng đó là một kỹ năng quá đơn giản với việc làm duy nhất là type keywords and click search! Mặc dầu vậy thực sự nó có đơn giản như vậy không khi mà việc google trả lại bạn với hàng ngàn thậm chí hàng triệu website là chuyện quá bình thường. Trên thực tế việc sử dụng google một cách sáng suốt và chuyên nghiệp sẽ giúp bạn tiết kiệm được rất nhiều thời gian và đem lại cho bạn rất nhiều kiến thức bổ ích. Mình mong muốn qua topic này các bạn có thể trao đổi và chia các "mẹo" và các kỹ năng của các bạn khi các bạn sử dụng google và các search engine khác vào mục đích tìm kiếm thông tin trên internet của các bạn.

Bây giờ mình sẽ chia sẻ kinh nghiệm của bản thân mình trong việc sử dụng google cho các mục đích tìm kiếm khác nhau.

Mình xin được mở đầu bằng một slogan "being as specific as you can". Đây là một triết lý sống còn khi sử dụng các search engine nếu như bạn không muốn spend hàng giờ đồng hồ vào nó với những kết quả nghèo nàn, thậm chí không được gì cả. Để làm được điều này trước tiên bạn phải quan niệm rằng thông tin mà bạn tìm kiếm không chỉ đơn giản là sự kết hợp của các keywords của chủ đề mà bạn muốn tìm.

Trước khi bắt đầu thao tác search, bạn nên xác định rõ những thông tin cơ bản sau:
+ key words của subject
+ Loại thông tin (essay, article, webpage, book, file, database, disscussion thread...etc)
+ Format (text, html, pdf, zip, mp3....etc)
+ Một "distinctive keyword" mà theo bạn chỉ tồn tại trong chủ đề mà bạn quan tâm hoặc những chủ đề liên quan chặt chẽ đến chủ đề đó (ví dụ bạn muốn tìm thông tin về hiệp định Paris giữa VN và Mỹ thì "Le Duc Tho" hoàn toàn có thể là một distinctive keyword).
+ Ngoài ra bạn còn có thể kiểm soát được độ dài và mức độ sâu và thậm chí hướng phân tích của tài liệu mà bạn muốn tìm kiếm bằng việc specify các key terms thích hợp (cái này đòi hỏi bạn phải tư duy một tẹo) (ví dụ như cùng với chủ đề là hiệp định paris, nếu bạn muốn tìm những bài viết đi sâu về personality của ông Le Duc Tho thì bạn có thể add thêm "nobel + refuse....")

Kết hợp các yếu tố trên lại bạn sẽ tạo ra được một good search. Sau đây là một số tips dựa trên my experiences:

+ nếu keywords của bạn có nhiều hơn 3 từ, nên có ít nhất một cùm từ đặt trong double quote "...." để nâng cao tính chính xác.
+ Nếu bạn đang tìm chỗ download cho một file nhạc, file trương trình hoặc một file cụ thể nào đó, cách tốt nhất là bạn hãy đoán tên gọi cụ thể của file đó thay vì type vào cụm từ kiểu như download +tên của bài hát, chương trình. Ví dụ bạn muốn download bài "I need a girl" thì bạn sẽ type "Ineedagirl.mp3" hay I_need_a_girl.mp3 thay vì "I need a girl +mp3 +download" làm như vậy sẽ giúp bạn tiết kiệm thời gian và không bị những website quảng cáo làm lạc hướng đồng thời trong nhiều trường hợp việc type trực tiếp tên file sẽ giúp bạn tìm được những file "độc" mà với cách search thông thường thì không thể nào tìm nổi.
Về cách đoán tên file các bạn có thể dùng phương pháp trial & error dựa trên nguyên tắc sau : Nếu tên gọi của bài hát/movie/chương trình là một cụm từ thì :
+ Thay space bằng "_" +extension.
+ Bỏ dấu space type các từ liền nhau.
+ Lưu ý thay thế các từ viết tắt thông dụng như to -> 2 for ->4
+ Nếu là bài hát thì nên kết hợp cả tên tác giả.
+ Nếu tên quá dài thì cố gắng thử các trương hợp viết tắt khác nhau với sự xen kẽ của "_" và liền nhau.

Tóm lại phương pháp đoán tên file này cơ bản dựa trên thói quen của users(bao gồm cả bạn) trong việc đặt tên các file tuân theo 2 nguyên tắc cơ bản là ngắn và somehow meaningful. Bạn thậm chí có thể viết một program hoặc script đơn giản chỉ để đoán tên file dựa trên các nguyên tắc nêu trên.

+ Khi muốn tìm kiếm một tập hợp các file với chung một chủ đề nào đó thì nên type :' "index of" + tên chủ đề' VD : "love hewitt" +"index of/" hay "love_hewitt" +"index of" hay "lovehewitt" +"index of/" sẽ cho ra các media liên quan đến love hewitt
+ Khi bạn muốn tìm tập hợp các file,chung chủ đề và chung định dạng : "index of" + tên chủ dề +".định dạng" VD: "index of" +flashmx +.pdf sẽ hiện thị các trang web mà bạn có thể download ebook, tutorial về flashmx.
+ Một trick khác mà mình thấy cũng khá thú vị là mỗi khi bạn viết essay, article, hay một paper nào đó bằng cách thứ tiếng khác nhau có những pharse mà bạn không chắc là có chuẩn xác hay không và có thông dụng, dễ hiểu đối với người đọc hay không thì bạn cũng có thể vào google, type pharse của bạn vào và tìm xem có bao nhiêu trang web chứa pharse đó và những trang web đó thuộc dạng ntn. Nếu trong những trang web hiển thị pharse của bạn có cnn.com, msnbc.com hoặc có khoảng vài trăm trang web cũng viết thế giống bạn thì bạn có thể hoàn toàn yên tâm về nó. Còn nếu chỉ có vài chục trang có chứa pharse đó mà trong số đó không có trang nào uy tín cả thì có lẽ bạn nên xem xét lại cách diễn đạt của mình. Mình nghĩ đây cũng là một phương pháp học tiếng khá hiệu quả.
+ Nếu bạn muốn tìm định nghĩa cho một từ chuyên ngành, google đã có sẵn tính năng này, bạn chỉ việc type :"define tên của từ đó". VD: "define marketing".
+ Nếu bạn muốn "điều tra" một người nào đó để biết thêm thông tin về cá nhân cũng như những sở thích, hoạt động của người đó ở trên net, ngoài cách gửi trojan/virus ra thì google cũng có thể là một công cụ hữu dụng hơn trojan hay virus rất nhiều. Với google, thay vì bạn type full name của người đó vào kiểu như "Nguyen Thuy Linh" (google sẽ trả lại bạn vài chục ngàn trang) thì tôi khuyên bạn nên dùng địa chỉ email của người đó hoặc nickname, YIM/MSN/AIM/ICQ screen name của người đó, điều này đảm bảo độ chính xác vì mỗi người chỉ có 1 d/c email cũng như 1 screenname hơn thế khi "hoạt động" ở trên net thì chẳng mấy ai dùng tên thật và dùng email với nickname là chủ yếu. Và đôi khi bạn sẽ làm cho bạn của bạn bất ngờ vì sự am hiểu một cách "kỳ bí" của bạn về người đó. Mình đã có lần dùng cách này để "điều tra" về một người bạn, đến khi nói lại với họ thì họ quá ngạc nhiên và cho rằng mình đã cài trojan vào máy của họ và hoàn toàn không tin là công cụ duy nhất mà mình sử dụng là google :D.

Nói chung còn vô vàn các ứng dụng thú vị khác của google mà mình và các bạn có thể học hỏi, mình mong muốn topic này sẽ là nơi để các bạn có thể chia sẻ các kinh nghiệm của bản thân.
 
Cám ơn anh tác giả nhiều nhé, bài hay lắm ;)
Bổ sung thêm là nếu muốn search trong phạm phi các trang của VN thì bạn có thể vào Google Việt Nam: http://www.google.com.vn
;)
 
Với ai thích tìm hiểu mua hàng trên mạng, froogle.com (phiên bản của google) sẽ hữu ích.

Ngoài ra google có một số tôl khác như google set tool, google answer tool rất useful.

Muốn nâng cao tính findability của trang web các bạn vào đây tham khảo:

www.wordtracker.com
www.overture.com

Muốn tăng cường hơn nữa tính findability thì send me a pm :)
 
Hê hê anh Hùng, chuyên gia google đây rồi :D. Có gì anh làm một bài giảng về ranking algorithm của google xem nào. Em chỉ nghe loáng thoáng thấy là google nó rank dựa trên phương pháp đếm tổng số link đến một website cụ thể chứ không chi tiết là thế nào. Hơn nữa có một điểm hơi lạ là không hiểu google làm cách nào mà có một số website hoàn toàn cô lập, không được bất kỳ website nào link đến thế mà vẫn xuất hiện trong phần kết quả... Ông anh làm một bài giảng cho bon em sáng mắt cái nhá :D.
 
Phan Nhật Minh đã viết:
Hê hê anh Hùng, chuyên gia google đây rồi :D. Có gì anh làm một bài giảng về ranking algorithm của google xem nào. Em chỉ nghe loáng thoáng thấy là google nó rank dựa trên phương pháp đếm tổng số link đến một website cụ thể chứ không chi tiết là thế nào. Hơn nữa có một điểm hơi lạ là không hiểu google làm cách nào mà có một số website hoàn toàn cô lập, không được bất kỳ website nào link đến thế mà vẫn xuất hiện trong phần kết quả... Ông anh làm một bài giảng cho bon em sáng mắt cái nhá :D.

Hi Minh,
Về Google thì anh hình như có lần cũng thảo luận sơ qua ở một cái post nào đó, hình như la hai người bất kỳ sẽ biết nhau qua bao nhiêu người trung gian gì đó ?.
Nếu có kiến thức về Information Retrieval (IR) thì đọc mấy papers ở post đó là hiểu.

Tại sao nhiều islolated pages vẫn được Google để mắt tới, lý do đơn giản là Google stores toàn bộ text (cả anchor text, nghĩa là text trên các links) của WWW trong databases của nó :). Hiện thời, Goolge có 3 trung tâm server ở Mỹ, dùng distributed crawlers để crawl entire WWW với chu kỳ vài ngày một lần (bao nhiêu ngày một lần cho mỗi vùng trên web là bí mật công nghệ riêng của Google company) để index WWW. Sau đó ngoài sử dụng PageRank algorithm để rank các trang, Google vẫn kết hợp với weight W1 của trang web (dùng vector space model, tính weight W1 đơn giản bằng TF/IDF (cái này mọi người đọc text book về IR thì sẽ rõ)) sau đó kết hợp W1 với weight dùng PageRank để có rank cuối cùng của một trang web. Nếu kết hợp không tốt thì kết quả kém. Có một chuyện là hồi Google mới ra, một số người fool PageRank (đồng thời ghét MS) làm cho khi user gõ "go to hell" thì Google nhả ra trang chủ của Microsoft ;).

Về khả năng keyword based search thì so với các Web search engine khác, Goolge hiện nay đã khá tốt. Tuy nhiên cần một thế hệ Search Engine mới đáp ứng hơn nữa đòi hỏi của người dùng.
Lấy ví dụ,

1) năm ngoái có một công ty hình như bán kem đánh răng ở Colorado kiện google vì gõ từ khóa toothpaste company vào mà chẳng thấy website của công ty đấy hiện ra ?.

2) Làm sao để nhiều trang web như nhau (trang này là alma mater của trang kia chẳng hạn) nhưng trang nào nhiều người xem hơn thi rank cao hơn, tức là khi search được xếp trước?. Cái này chỉ có thể làm được bằng cách access traffic info của các trang web. Nhiều công ty như Alexa, cả google mời chào user dùng toolbar của họ (với lý do là để block ads này kia) nhưng thực chất muốn monitor web usage của users, một mục đích là tính traffic các site để marketing hay phục vụ search engine.

Cũng nói thêm là nhiều người cứ dựa vào Alexa (vídụ) để claim traffic trang mình lớn hơn trang khác, nhiều khi cũng không hoàn toàn chính xác vì nếu các users dùng máy mà không cài Alexa hay Google toolbar chẳng hạn thì làm sao thống kê được traffic??

Vẫn còn nhiều interesting issues nữa về search engine technology.
 
:) Đúng là chuyên gia có khác
Nguyen Viet Hung đã viết:
Cũng nói thêm là nhiều người cứ dựa vào Alexa (vídụ) để claim traffic trang mình lớn hơn trang khác, nhiều khi cũng không hoàn toàn chính xác vì nếu các users dùng máy mà không cài Alexa hay Google toolbar chẳng hạn thì làm sao thống kê được traffic??

Ngoài dùng toolbar thì theo ông anh thì liệu những ISP lớn ở Mỹ như AOL, Earthlink, PacBell ... có khai thác những thông tin liên quan đến web traffic của users trong network để cung cấp cho những search engine company như google không? Em nghĩ là như thế có vẻ hợp lý hơn so với dùng toolbar để thu thập user traffic (Vì cách này nếu không cẩn thận thì google có thể bị kiện về vấn đề privacy) và việc những search engine như google thu thập web traffic một cách gián tiếp thông qua các ISP sẽ "ổn" hơn về mặt pháp lý ở điểm là ISP sẽ chỉ cung cấp những thông tin tổng quát về mật độ traffic tới một website chứ không cần tiết lộ identity/IP address của từng user. Hơn thế phương pháp này cho ra thông tin chính xác hơn (do hầu hết các user đều truy cập internet thông qua các ISP) đồng thời xét về mặt kỹ thuật thì việc thống kê, phân tích và tổng hợp các thông tin về traffic thì lại là thế mạnh của các ISP (họ thường xuyên phải làm việc này). Có điều không hiểu là hiện giờ đã có cái commercial database nào thống nhất các dữ liệu thống kê về traffic của nhiều ISP chưa?

Về khả năng keyword based search thì so với các Web search engine khác, Goolge hiện nay đã khá tốt. Tuy nhiên cần một thế hệ Search Engine mới đáp ứng hơn nữa đòi hỏi của người dùng.

Anh Hùng có thể giảng giải thêm cho bọn em một chút về các tính năng của những thế hệ search engine tương lai không? Liệu có thể cải tiến được gì? Có một sự đột phá nào về công nghệ không? Và nó sẽ có khả năng xuất hiện trong bao lâu nữa?
 
Phan Nhật Minh đã viết:
:) Đúng là chuyên gia có khác


Ngoài dùng toolbar thì theo ông anh thì liệu những ISP lớn ở Mỹ như AOL, Earthlink, PacBell ... có khai thác những thông tin liên quan đến web traffic của users trong network để cung cấp cho những search engine company như google không? Em nghĩ là như thế có vẻ hợp lý hơn so với dùng toolbar để thu thập user traffic (Vì cách này nếu không cẩn thận thì google có thể bị kiện về vấn đề privacy) và việc những search engine như google thu thập web traffic một cách gián tiếp thông qua các ISP sẽ "ổn" hơn về mặt pháp lý ở điểm là ISP sẽ chỉ cung cấp những thông tin tổng quát về mật độ traffic tới một website chứ không cần tiết lộ identity/IP address của từng user. Hơn thế phương pháp này cho ra thông tin chính xác hơn (do hầu hết các user đều truy cập internet thông qua các ISP) đồng thời xét về mặt kỹ thuật thì việc thống kê, phân tích và tổng hợp các thông tin về traffic thì lại là thế mạnh của các ISP (họ thường xuyên phải làm việc này). Có điều không hiểu là hiện giờ đã có cái commercial database nào thống nhất các dữ liệu thống kê về traffic của nhiều ISP chưa?



Anh Hùng có thể giảng giải thêm cho bọn em một chút về các tính năng của những thế hệ search engine tương lai không? Liệu có thể cải tiến được gì? Có một sự đột phá nào về công nghệ không? Và nó sẽ có khả năng xuất hiện trong bao lâu nữa?

Vấn đề Minh nói anh nghĩ cũng là một giải pháp (tuy nhiên trước khi user cài toolbar thi công ty đã bắt user nhấn nút agree với những terms and conditions họ đưa ra, trong đó có việc cho phép toolbar gửi thông tin về công ty rồi) tuy nhiên chưa chọn vẹn. Vì nhiêu domain , ví dụ như các trường ĐH, viện nghiên cứu, nhà nước họ chạy đường T1, T3 ra thẳng gateway. Năm ngoái anh có nghĩ đến một phương pháp là có thể mua thông tin của các công ty routing (ví dụ như Akamai tech) thì thông tin đầy đủ hơn.

Anh thấy bây giờ Google có vẻ tăng cường thêm chức năng "hit analysis" rồi. Tức là rank của một page cũng phụ thuộc tương đối vào traffic của trang nữa, make sense, đúng không.

Anh có một vài papers nghiên cứu về search engine technology và boosting findability , khi nào anh sẽ gửi cho Minh đọc tham khảo :)

Tương lai của search engine có lẽ sẽ phải có semantic search capability. MS cũng đang ngắm nghía đến search engine market, vừa rồi ve vãn định mua lại Google, nhưng chắc hội L. Page và S Brin rồi cả board họ không đời nào chịu bán ( hai anh này vẫn đang suspend PhD study để sống chết với Google). Có tin Microsoft cũng đang định xây dựng một thế hệ search engine mới, vừa nhiều đạn, lại đội ngũ nghiên cứu tài năng, đông đảo, để xem MS sẽ giới thiệu cái gì .
 
Em nghĩ có một attribute nữa mà Search Engine có thể sử dụng là xem những links nào trong pool kết quả cho một cụm từ query được người sử dụng click vào vì rõ ràng những link này gây được sự chú ý của người dùng.

Hê hê, em bỏ Data Mining và Machine Learning cũng được 2 năm rồi. Bây giờ tính quay lại trường chắc phải học hỏi anh Hùng nhiều.

Cheer,
ĐTrang
 
Lưu Điền Trang đã viết:
Em nghĩ có một attribute nữa mà Search Engine có thể sử dụng là xem những links nào trong pool kết quả cho một cụm từ query được người sử dụng click vào vì rõ ràng những link này gây được sự chú ý của người dùng.

Hê hê, em bỏ Data Mining và Machine Learning cũng được 2 năm rồi. Bây giờ tính quay lại trường chắc phải học hỏi anh Hùng nhiều.

Cheer,
ĐTrang

:), Trang đang tính quay lại graduate school ah?

Idea Trang đề xuất thực giống Relevance Feedback (RF hay Rochio method), unfortunately không work tốt cho realworld applications, nhưng hay được dùng nhiều để làm testbed.

RF ( không phải là Machine learning techniques) dựa vào feedback của user để modify query nhằm tăng precision. Giả sử Google áp dụng iea này thì cũng rất expensive vì số lượng query vô cùng lớn...

Cheers
 
Back
Bên trên