GOOGLE浏览器CHROME的网页抓取原理
分析浏览器去下载网页的过程[ 本帖最后由 faunus 于 2008-11-19 16:38 编辑 ]
处理网页下载
入口函数NavigateToPendingEntry:#001 void NavigationController::NavigateToPendingEntry(boolreload) {
#002 TabContents* from_contents = active_contents_;
#003
#004 // For session history navigations onlythe pending_entry_index_ is set.
下面从历史里找到入口选项。
#005 if (!pending_entry_) {
#006 DCHECK(pending_entry_index_ != -1);
#007 pending_entry_ = entries_.get();
#008 }
#009
复位当前的SSL状态。
#010 // Reset the security states as any SSLerror may have been resolved since we
#011 // last visited that page.
#012 pending_entry_->ssl() = NavigationEntry::SSLStatus();
#013
设置内容是否可以显示。
#014 if (from_contents && from_contents->type()!= pending_entry_->tab_type())
#015 from_contents->SetActive(false);
#016
获取当前的父窗口的句柄。
#017 HWND parent =
#018 from_contents ? GetParent(from_contents->GetContainerHWND()): 0;
获取当前显示的TAB内容对象。
#019 TabContents* contents =
#020 GetTabContentsCreateIfNecessary(parent,*pending_entry_);
#021
#022 contents->SetActive(true);
#023 active_contents_ = contents;
#024
修改委托对象。
#025 if (from_contents && from_contents!= contents) {
#026 if (from_contents->delegate())
#027 from_contents->delegate()->ReplaceContents(from_contents,contents);
#028 }
#029
现在开始打开入口对象里指定的网站。
#030 if (!contents->Navigate(*pending_entry_,reload))
#031 DiscardPendingEntry();
#032 }
TabContents类主要描述主显示区的内容,在第30行里就调用它的函数Navigate去浏览网页的内容。pending_entry_成员变量是NavigationEntry类的对象,它主要保存所有创建浏览时需要的信息,比如网络连接地址。
当我再跟踪contents->Navigate这行代码时,它不是运行TabContents类的Navigate,这比较奇怪,但回过头来再看一下它的声明如下:
virtual bool Navigate(constNavigationEntry& entry, bool reload);
可见,它前面加了virtual关键字,说明它是虚函数,也就是说设计时,就让它是多态的出现,因此在什么情况下运行什么样的函数内容是不定的,对于这些样的函数,就需要小心一点了,只有实际运行的类才知道它是什么内容。由于我是输入URL关键字,所以它调用的函数是类WebContents里的Navigate函数。下一次再来分析类WebContents里的Navigate函数。
[ 本帖最后由 faunus 于 2008-11-19 16:48 编辑 ] 爪,以后学习下。。
页:
[1]